AI在线 AI在线

谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。 性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。

谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。

性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。增强推理模式Deep Think更将“人类终极考试”推至41%,ARC-AGI- 2 得分45.1%,刷新通用智能评测纪录。

模型发布后,OpenAI CEO Sam Altman在X平台发文祝贺“Gemini3 看起来很不错”,谷歌CEO Sundar Pichai以“🙏”回应;Elon Musk亦在LMArena官方账号留言“确实值得祝贺”,并透露Grok 4. 20 将很快发布。

市场层面,Altman在随后流出的内部备忘录中坦言,谷歌的快速进展可能给OpenAI带来“暂时性经济阻力”,并提醒员工未来外界评价将“相当严峻”,显示Gemini3 的强势表现已加剧硅谷AI竞争格局。

相关资讯

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM
AI在线

领先 AI 模型在复杂物理任务中表现不佳,仍需人类助力

近日,由全球超过50位物理学家联合开发的 “CritPt” 基准测试,旨在评估顶尖 AI 模型在处理未公开的复杂物理研究问题时的能力。 测试的目标是模拟早期博士研究生所需的独立研究水平。 尽管目前的 AI 系统如谷歌的 “Gemini3Pro” 和 OpenAI 的 “GPT-5” 被寄予厚望,但结果却令人失望。
11/24/2025 11:06:08 AM
AI在线

谷歌因用户激增收紧 Gemini 3 Pro 免费使用限制,用户体验或将受影响!

近日,谷歌宣布将对其最新推出的 AI 工具 Gemini 3 Pro 及图像生成工具 Nano Banana Pro 的免费用户权限进行进一步的限制。 这一决定是由于用户需求的激增,导致谷歌面临较大的容量压力。 自 Gemini 3 Pro 和 Nano Banana Pro 上线以来,用户们对其功能表现出了极大的兴趣与使用热情。
11/30/2025 2:12:28 PM
AI在线