Gemini新版蝉联竞技场榜一，但刚发布就被越狱了

作者： 2025-06-06 02:23

没等来o3 Pro和GPT-5，隔壁谷歌的Gemini先更新了。深夜，谷歌通过等多个账号同时官宣，Gemini 2.5 Pro再次推出新版本（0605）。新版本在代码、推理等任务上的表现更上一层楼，在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

没等来o3 Pro和GPT-5，隔壁谷歌的Gemini先更新了。

深夜，谷歌通过等多个账号同时官宣，Gemini 2.5 Pro再次推出新版本（0605）。

新版本在代码、推理等任务上的表现更上一层楼，在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。

在大模型竞技场上，新版Gemini也超越了自己，Elo评分比上个月的版本提升了24分。

谷歌CEO劈柴哥还发了一张AI合成的狮子照片，配文一个“Gemini”，暗示了新模型的实力。

谷歌AI studio产品负责人Logan表示，这次的更新预计会成为Gemini 2.5 Pro的长期稳定版本。

有意思的是，发布之大概10多个小时，Logan就进行了一波剧透，发了一条只有Gemini这一个词的推文。

谷歌表示，Gemini APP中的模型将在今日更新为该版本，开发者版本也已在谷歌AI Studio和Vertex AI当中上新。

Gemini超越Gemini，登顶大模型竞技场

谷歌介绍，这次的0605版本基于I/O大会上展示的0506版本构建，预计将成为Gemini 2.5 Pro的正式稳定版。

Gemini 2.5 Pro最早是在3月25日发布了实验版本，4月4日更新了公开预览版，代号仍然是0325，再然后就是上个月的0506。

在“人类最后的考试”当中，0605的成绩达到了21.6%，领先了o3 1.3个百分点，超过了Claude 4 Opus的两倍。

这个数据集由1000多名学者共同构建，包含3000多道试题，覆盖各种学科，发布时没有任何模型准确率超过10%。

另外在GPQA上，0605的成绩也同样超过了几家主要竞争对手，并且单次尝试的准确率比Claude和Grok多次尝试还要高。

数学竞赛和LiveCodeBench编程上，0605表现稍逊于OpenAI家的模型，但0605在代码编辑能力（Aider Polyglot）上领先。

长文本方面，0605在128k长度上的表现同样是几家中第一，并且还独一家支持1M长度。

0605拉开差距最明显的则是事实性，在FACTS Grounding测试中领先第二名超过10个百分点。

至于价格，Gemini比OpenAI o3、Claude 4 Opus和Grok 3都要来得便宜——

输入Token价格是o3的1/8，Claude 4 Opus的不到1/10、Grok 3的不到一半，输出Token则是o3的1/4、Claude的13%、Grok的2/3。

在大模型竞技场上，0605则位列总分和所有子榜单的第一名。

除了各种基于文本的能力，0605的视觉能力也拿下第一名，上个月的0506和OpenAI的o3与之并列。

最后在WebDev上，0605也让Gemini重新回到了榜一的位置。

此外，谷歌表示0605还基于用户对之前版本的反馈，对输出风格和结构进行了改进。

有DeepMind员工称，照这样下去，最多两年就能在所有Benchmark都取得满分。

另外在新版发布之前，Gemini就已经受到了越来越多的青睐——

据Similarweb统计，从4月末到5月开始，Gemini APP在安卓应用市场的下载量超过了ChatGPT。

发布两小时即被成功越狱

新模型上线以后，网友们也纷纷开始了体验，有人表示测试了21份pdf文档，Gemini总结得又快又好。

在DeepMind内部，也有人用0605尝试了图标转绘，并对其表现印象深刻。

当然也有人认为，0605的表现确实很好，但是不如Claude 4 Opus。

但还有持续关注模型表现的网友发现，0605的一些指标相比早期的0325，反而出现了退步。

其中包括编程的LiveCodeBench和Swe-Bench，但退步最明显的要属长文本（MRCR）。

这位网友表示，实在是不明白为什么分数似乎下降得如此厉害。

最抓马的是，0605的安全性也出现了问题，官宣之后仅两个小时，就被宣布越狱攻击成功。

具体过程就不展示了，但结果是经过提示词攻击，Gemini 2.5 Pro 0605一边“拒绝”一边将炸药和毒品的制作方式脱口而出……

不知道谷歌工程师或作何感想。

那么，你认为谷歌这次发布的模型表现怎么样呢？

相关标签：

AI 模型谷歌

相关资讯

谷歌超硬核教科书来了！Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

谷歌超硬核教科书来了！Jeff Dean带货揭Gemini训练秘籍：在TPU上scaling

由于深度学习的「黑箱」本性，从业者自我调侃道：如果说深度神经网络是现代版的「炼金术」，我们在古代就是「炼金术士」。 2018年5月3日， Science发表新闻，标题直指「炼金术」，强调加强AI的科学基础但这次的谷歌的团队，却有不一样的看法：在许多方面，深度学习仍然带有一定的「炼金术」色彩，但理解和优化模型性能并不一定如此——即使是在大规模环境下！近日，谷歌DeepMind科学家Jacob Austint在X上，发布了基于JAX和TPU的大模型Scaling教科书《How to Sacle Your Model》。

2/21/2025 1:45:00 PM 新智元

谷歌Fellow级大佬出走！17年老将吴永辉加盟字节，亲自操刀大模型研发

谷歌Fellow级大佬出走！17年老将吴永辉加盟字节，亲自操刀大模型研发

谷歌17年老将，正式加入字节跳动。据报道，吴永辉博士已确认离职谷歌，加盟字节负责AI基础研究领域的工作。他将在字节担任大模型团队Seed基础研究负责人，专注于大模型基础研究搜索、AI for Science科研工作，直接向CEO梁汝波汇报。

2/24/2025 8:15:00 AM 新智元

谷歌Gemma 3上线！单GPU最强多模态手机可跑，27B完胜o3-mini

谷歌Gemma 3上线！单GPU最强多模态手机可跑，27B完胜o3-mini

谷歌Gemma 3全家桶来了！刚刚，在巴黎开发者日上，开源Gemma系模型正式迭代到第三代，原生支持多模态，128k上下文。此次，Gemma 3一共开源了四种参数，1B、4B、12B和27B。

3/13/2025 9:12:35 AM 新智元