测试

字节发布 Seed1.5-VL 视觉-语言多模态大模型，20B 参数狂揽 60 项公开评测基准中 38 项 SOTA！

5 月 13 日，火山引擎在上海搞了场 FORCE LINK AI 创新巡展，一股脑发布了 5 款模型和产品，包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型，以及新版豆包・音乐模型。同时，Data Agent 和 Trae 等产品也有了新进展。今天给大家介绍的是Seed 1.5-VL，相比于之前版本，Seed1.5-VL 具备更强的通用多模态理解和推理能力，不仅视觉定位和推理更快更准，还新增了视频理解、多模态智能体能力。

5/19/2025 9:07:00 AM

机器人的「物理图灵测试」，英伟达Jim Fan 17分钟演讲揭秘具身Scaling Law

Jim Fan，英伟达机器人部门主管和杰出科学家、GEAR 实验室联合领导人、OpenAI 的首位实习生，最近在红杉资本主办的 AI Ascent 上做了一场 17 分钟的演讲，介绍了「解决通用机器人问题的第一性原理」，包括训练机器人 AI 的数据策略、Scaling Law 以及基于物理 API 的美好未来。其中尤其提到了「物理图灵测试」，大意是说对于一个真实的物理场景和一个指令，会有人类或机器人根据该指令对这个场景进行相应的处理，然后看其他人能否分辨这个场景是人类处理的还是机器人处理的。很显然，Jim Fan 以及英伟达正在朝着让机器人和 AI 通过这个物理图灵测试而努力。

5/12/2025 9:02:00 AM

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集，让20多个中外主流大模型集体“挂科”：GPT-4o在测试中准确率仅6.2%；多数国产/国际模型准确率跌破10%；即便是目前表现最好的OpenAI DeepResearch，也仅得42.9%。

5/6/2025 3:32:23 PM

64页论文揭示AI模型排行榜黑幕：Llama4发布前私下测试27个版本，只取最佳成绩

近日，一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注，尤其是对大型语言模型（LLM）领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出，排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。论文显示，一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。

5/3/2025 11:00:48 AM

AI在线

程序员挑战极限：在古老的 DOS 系统上成功运行 Llama 2 模型

在科技飞速发展的今天，一位勇敢的程序员选择回归经典，尝试在老旧的 DOS 环境中运行 Meta 公司最新发布的大语言模型 Llama2。 Yeo Kheng Meng，这位因开发 ChatGPT DOS 客户端而声名鹊起的程序员，花费了一个周末的时间，成功地将这个大型语言模型移植到传统计算环境中，展现了无与伦比的技术创造力。项目的起步得益于开源代码的便利。

4/30/2025 9:01:01 AM

AI在线

中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

得分比第二名翻倍，成本却仅为1/20？ o3中杯在超难推理任务ARC-AGI上的新成绩，属实又给众人带来了亿点点震撼。根据ARC Prize官方介绍，本轮测试得出的关键结论如下：o3 (Medium) 在ARC-AGI-1上得分为57%，成本为1.5美元/任务，优于目前所有已知COT推理模型；o4-mini（Medium）在ARC-AGI-1上得分为42%，成本为0.23美元/任务，准确率不足但成本优势明显；在难度升级的ARC-AGI-2上，两种型号模型的准确率均未超过3%。

4/23/2025 11:19:31 AM

量子位

满血o3降智和幻觉倍增的原因可能找到了

OpenAI推出的满血O3“跑分”（Benchmark）貌似又被独立测试揭穿是刷榜了，而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因？你可能要问了，一个数学基准测试，与降智和幻觉有什么关系？事情要从去年12月说起。

4/22/2025 9:18:57 AM

AI寒武纪

o3/o4-mini幻觉暴增2-3倍！OpenAI官方承认暂无法解释原因

OpenAI新模型发布后，大家体感都幻觉更多了。甚至有人测试后发出预警：使用它辅助编程会很危险。图片具体来说，它经常捏造从未运行过的代码返回结果，在被质问时找理由狡辩，甚至还会说是用户的错。

4/21/2025 4:25:58 PM

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

4/8/2025 3:44:00 AM

Llama 4训练作弊爆出惊天丑闻！AI大佬愤而辞职，代码实测崩盘全网炸锅

Meta前脚刚发Llama 4，后脚就有大佬请辞了！一亩三分地的爆料贴称，经过反复训练后，Llama 4未能取得SOTA，甚至与顶尖大模型实力悬殊。为了蒙混过关，高层甚至建议：在后训练阶段中，将多个benchmark测试集混入训练数据。

4/7/2025 1:24:52 PM

新智元

Gemini 2.5疯狂反扑OpenAI，智商130碾压人类！一键3D打印蛋糕、秒解魔方

要说这几天AI圈最火的模型，那肯定非GPT-4o莫属。为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出，奥特曼带队上线了GPT-4o的原生图像生成功能。随之而来的是一股吉卜力风席卷全网，火速出圈儿。

3/31/2025 10:08:00 AM

新智元

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

3/31/2025 9:20:00 AM

新智元

真正的AI智能体时代即将到来，我们发现了几点「苦涩的教训」

最近一段时间，智能体（Agent）再次成为 AI 领域热议的焦点。 2025 年 1 月，OpenAI 发布了名为 DeepResearch 的 o3 模型变种，专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练，DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。

3/17/2025 12:52:00 PM

机器之心

武大等发布大视觉模型最新安全综述：全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知，大型视觉语言模型（LVLMs）正以前所未有的速度重塑AI世界，这些能够理解视觉信息并生成自然语言响应的智能系统，已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。然而，当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容，我们是否该感到担心？近期，武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述，系统性总结了LVLMs在安全性上的挑战，并提出了全面而系统的安全分类框架。

3/11/2025 1:44:24 PM

新智元

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天？？？

3/5/2025 8:40:00 AM

量子位

摆脱编码器依赖！Encoder-free 3D多模态大模型，性能超越13B现有SOTA | 上海AI Lab港中文等团队新作

无编码器多模态大模型被拓展到3D领域——3D编码器的功能被融入LLM本身，无编码器3D LMM适应不同的点云分辨率，摆脱预训练编码器的依赖。来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL，在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身，在指令调优阶段提出了一种层次几何聚合策略，基于PointLLM首次全面研究了无编码器架构在3D多模态大模型中的潜力。在Objaverse基准测试中，ENEL表现突出，性能上超越目前SOTA ShapeLLM-13B。

2/27/2025 1:00:00 PM

量子位

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

今天凌晨2点，OpenAI开源了一个全新评估大模型代码能力的测试基准——SWE-Lancer。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。例如，开发人员需处理全技术栈的工作，要考虑代码库间的复杂交互和权衡。

2/19/2025 9:40:58 AM

AIGC开放社区

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

你以为你在打游戏，其实是在给模型做评测！就在两天前，由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」（AI空间逃脱），提供了一种与AI互动的独特体验。现在，你想要测试不同模型的性能对比，打着游戏就能把活儿给干了。

2/13/2025 10:00:00 AM

新智元

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉