AI在线 AI在线

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。IT之家注:Aren

谷歌在 I / O 2024 开发者大会上,宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens,那么 Gemini 1.5 Pro 性能究竟有多强悍?

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

根据 LMSYS Org 公布的总排行榜对比,通过 Arena Elo 系统的测量,Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

上述两款模型在中文方面的表现也非常优秀,Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

Arena Elo 基准测试:谷歌 Gemini 1.5 Pro 性能媲美 OpenAI GPT-4o

IT之家注:Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型(LLMs)的技能,并像国际象棋中的 Elo 系统一样更新用户的评分,整体而言更加客观。

相关资讯

手慢无!教你免费用上目前最火最强的 Gemini 3 Pro 全家桶!

自从Gemini 3 跟Nano Banana Pro出来后,免费用的版本已经是非常好用,那如果是付费会员,那不得上天? 更多方法;但大家可能发现了一个问题,就是咱们想给Gemini冲会员比给GPT充钱还麻烦,能不能先让我免费试用一下,体验一下区别,然后再让我看看值不值得花精力去搞充值方法啊? 没想到,今天还在官网上看到了一个免费体验的办法,而且还是能免费体验一个月,可以免费使用 Gemini 3 Pro、Nano Banana Pro、Veo 3、Deep Research谷歌最新AI全家桶!
12/3/2025 8:54:20 AM
彩云Sky

仅仅一天,Gemini就夺回了GPT-4o拿走的头名

太卷了,大模型迭代开始以「周」为单位了吗? 一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜单的头把交椅。 对于苦苦追赶 OpenAI 几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。
11/22/2024 1:15:00 PM
机器之心

想去哪就去哪!我用Nano Banana Pro做了个实时旅行相机

前几天 Nano Banana Pro 发布之后早上看到了 Deepmind 官方的一个用法,就是给到 Nano Banana Pro 经纬度让他直接生成对应地点的照片。 主要基于 Nano Banana Pro 的实时检索能力,他可以通过经纬度知道这个地点的具体位置。 我试了一下果然可以,而且我还给他生成的照片加上了对应的水印,同时让他检索对应位置的当前时间和天气,让生成的照片更加符合现实场景。
12/1/2025 1:58:26 AM
歸藏