LMArena
谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺
谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。 性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。
11/24/2025 9:26:48 AM
AI在线
LMArena最新排名:文心大模型5.0文本能力排名第一
在全球人工智能领域,竞争愈发激烈,最新消息显示,文心全新发布的 ERNIE-5.0-Preview-1022 模型在 LMArena 大模型竞技场的最新排名中脱颖而出,成为国内文本能力的冠军,同时在全球范围内并列第二。 这一成绩的取得,标志着中国在大模型技术上的再一次突破,也让人们对人工智能的未来充满期待。 根据 11 月 8 日发布的排名,ERNIE-5.0-Preview-1022 在创意写作、复杂长问题理解以及指令遵循等多个领域展现出卓越的性能,尤其在处理复杂的语言任务时,表现更是优于多款国际知名模型,包括 gpt-5-high。
11/10/2025 9:51:16 AM
AI在线
谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答
Gemini 3.0传了这么久,终于还是露出「马脚」了。 依然还是LMAreana竞技场,Gemini 3.0的两个「马甲」被扒了出来。 Gemini 3.0 Pro的马甲:lithiumflowGemini 3.0 Flash的马甲:orionmist这已经是「传统艺能」了,每次新模型上线,都要去LMArena上去造势一番。
10/21/2025 1:00:00 AM
新智元
凭什么Nano Banana能霸榜LMArena?
作者 | 朱先忠审校 | 重楼在AI图像生成领域,每隔一段时间就会有一款“现象级”模型横空出世。 2025年8月,谷歌DeepMind推出的Gemini 2.5 Flash Image,凭借“1-2秒出图”、“98.7%角色一致性”等颠覆性表现,被网友亲切称为“Nano Banana(纳米香蕉)”。 这款模型不仅在LMArena图像编辑榜单上以1362分的成绩刷新纪录,还让普通用户能像“指挥Photoshop学徒”一样用自然语言编辑图像。
9/12/2025 7:13:19 AM
朱先忠
免注册免费用!17种AI绘图模型一站式体验平台LMArena
从年初GPT4o的技惊四座,到年中Flux.1 Kontext的大放异彩,前不久Qwen的后来居上,再到前几天Nano-Banana的万众期待……近年来,国内外越来越多的AI绘图模型百花齐放,争奇斗艳。 这些模型各有所长又各有不足,面对复杂的设计需求很难做到一站式解决所有问题。 因此如何选择使用这些模型成了很多设计师朋友纠结和困扰的问题。
8/27/2025 7:15:37 AM
WeirdDesign
AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta
人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。 一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。 然而,LMArena运营团队已公开否认这些指控。
5/2/2025 10:01:05 AM
AI在线
LMArena正式成立公司,致力于提供中立的AI评估平台
近日,备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司,名为 Arena Intelligence Inc.,以便为未来的项目改进提供更强大的资源。 LMArena 的创始团队在博客中表示,新公司的成立将帮助他们在保持中立的同时,增强大型语言模型(LLM)测试平台的功能,致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。 LMArena 于2023年由加州大学伯克利分校的研究人员创建,迅速发展成为业内最受认可的 AI 基准测试平台之一。
4/18/2025 11:01:57 AM
AI在线
Perplexity 竞技场夺冠,Sonar挑战谷歌Gemini的搜索霸主地位
在最新的 LM Arena Search Arena 评估中,Perplexity 公司的 Sonar-Reasoning-Pro-High 模型表现优异,与谷歌的 Gem-2.5-Pro-Grounding 模型并列第一,直接对决的胜率达到53%。 这一消息无疑给搜索引擎领域带来了新的震动,显示了 Perplexity 在 AI 搜索技术上的强大实力。 Sonar 系列模型在此次评估中包揽了前四名,这不仅彰显了其深度搜索能力,也显示了其在严谨引证方面的出色表现。
4/16/2025 4:01:05 PM
AI在线
Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑
近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。 事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。 其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。
4/14/2025 6:01:07 PM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
Copilot
视觉