AI在线 AI在线

模型

12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品

12.1万道IMO级难度数学“特训题”,让AI学会像人类一样推导数学证明! “特训”过后,模型定理证明性能大涨,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型。 “特训题”为DeepTheorem,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。
6/6/2025 2:25:04 PM

Gemini新版蝉联竞技场榜一,但刚发布就被越狱了

没等来o3 Pro和GPT-5,隔壁谷歌的Gemini先更新了。 深夜,谷歌通过等多个账号同时官宣,Gemini 2.5 Pro再次推出新版本(0605)。 新版本在代码、推理等任务上的表现更上一层楼,在超难数据集“人类最后的考试”中以21.6%的成绩超过了o3。
6/6/2025 2:23:48 PM

阿里智能体多轮推理超越GPT-4o,开源模型也能做Deep Research

能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。 通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。 WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。
6/6/2025 2:17:11 PM

清华给电子显微镜加上Agent,DeepSeek V3全程调度,数天流程缩短至几分钟

AI Agent又解锁了一个领域! 清华大学牵头,与西北工业大学以及上海AI lab等机构推出了电镜领域的AI agent——AutoMat。 它相当于一位精准的“地图翻译官”,把原子级 STEM 图像自动转成标准 CIF 结构,并一步到位给出形成能等关键物性。
6/6/2025 2:14:09 PM

苹果拆解AI大脑,推理模型全是「装」的?Bengio兄弟合著

AI「思考」只是假象? 刚刚,一项来自苹果的重磅研究揭示了「大推理模型(LRM)」背后的惊人真相——这些看似聪明的模型,在面对稍复杂点的题目时,准确率居然会全面崩溃! 随着问题变难,推理模型初始会延长思考,但随后思考深度反而下降,尽管仍有充足token预算——它们恰在最需要深入思考时选择了放弃!
6/6/2025 2:13:46 PM

危险?OpenAI 模型行为负责人:人类很快会进入「AI意识」,当前最重要是控制人机关系的影响

AI是否真的有意识? ChatGPT最近越来越懂你了? OpenAI模型行为与政策负责人Joanne Jang刚刚写了一篇长文,她并未纠缠于“AI是否真的有意识”这个哲学难题,而是提出了一个更具现实意义和紧迫性的视角:与其争论AI的“本体”,不如关注它对人类“情感福祉”的实际影响。
6/6/2025 9:15:52 AM

精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”

如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。 但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。
6/6/2025 9:15:00 AM

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果:在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME’24上达到63.5分,AIME’25上达到56.7分,这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME’24的分数更是飙升到了68.1分。
6/6/2025 9:13:00 AM

性能大涨!阿里开源新版Qwen3模型,霸榜文本表征

今天凌晨,阿里巴巴开源了两款Qwen3系列新模型,Qwen3-Embedding和Qwen3-Reranker。 这两个模型是专为文本表征、检索与排序任务设计,基于 Qwen3基础模型训练,充分继承了Qwen 3在多语言文本理解方面的优势,支持119种语言。 根据测试数据显示,在多语言文本表征基准测试中,Qwen3 Embedding的性能非常出色。
6/6/2025 9:12:53 AM

让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA

还记得今年初DeepSeek‑R1系列把纯强化学习(RL)训练开源,点燃社区对于RL的热情吗? 不久后,来自清华蚂蚁联合开源项目AReaL(v0.1)也通过在DeepSeek-R1-Distill-Qwen-1.5B上进行RL训练,观察到模型性能的持续提升。 AReaL(v0.1)在40小时内,使用RL训练的一个1.5B参数模型,在数学推理方面就超越了o1-Preview版本。
6/6/2025 9:10:00 AM

真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法

大型语言模型 (LLM) 的发展日新月异,但实时「内化」与时俱进的知识仍然是一项挑战。 如何让模型在面对复杂的知识密集型问题时,能够自主决策获取外部知识的策略? 华为诺亚方舟实验室研究团队提出了 Pangu DeepDiver 模型,通过 Search Intensity Scaling 实现了 LLM 搜索引擎自主交互的全新范式,使得 Pangu 7B 模型在开域信息获取能力上可以接近百倍参数的 DeepSeek-R1,并优于 DeepResearcher、R1-Searcher 等业界同期工作!
6/6/2025 9:07:00 AM

推理时间减少70%!前馈3DGS「压缩神器」来了,浙大Monash联合出品

在增强现实(AR)和虚拟现实(VR)等前沿应用领域,新视角合成(Novel View Synthesis,NVS)正扮演着越来越关键的角色。 3D高斯泼溅(3D Gaussian Splatting,3DGS)凭借其革命性的实时渲染能力和卓越的视觉质量,迅速成为NVS领域备受关注的技术方案。 现有的前馈3D高斯泼溅(Feed-Forward 3D Gaussian Splatting,3DGS)模型,虽然在实时渲染和高效生成3D场景方面取得了显著进展,但仍存在一些关键缺陷。
6/6/2025 9:07:00 AM

DeepMind揭惊人答案:智能体就是世界模型!跟Ilya 2年前预言竟不谋而合

就在刚刚,DeepMind科学家Jon Richens在ICML 2025上发表的论文,一石激起千层浪。 实现人类水平的智能体(即AGI),是否需要世界模型,还是存在无模型的捷径? 他们从第一性原理出发,揭示了一个令人惊讶的答案——智能体就是世界模型!
6/6/2025 9:02:00 AM

大模型结构化推理优势难复制到垂直领域!最新法律AI评估标准来了,抱抱脸评测集趋势第一

大模型推理,无疑是当下最受热议的科技话题之一。 但在数学和物理等STEM之外,当LLM落到更多实际应用领域之中,大模型的推理能力又有多大的潜能和局限? 比如,如何评估大模型的推理能力在法律领域的应用,就在当前备受关注。
6/6/2025 9:00:00 AM

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的OpenAI o1、DeepSeek-R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交互,直接塑造了LLM在复杂任务中的推理效能。
6/6/2025 8:55:00 AM

《圣经》成书时间或被改写!AI竟发现《死海古卷》早于所罗门时代

就在刚刚,科学家用AI重新定义了《死海古卷》历史时间线! 许多卷轴其实比原先认为年代还要早很多,两卷《死海古卷》竟是《但以理书》的最早片段! 研究还显示,《传道书》很可能由无名作者在公元前三世纪完成,而非传统所称的所罗门王!
6/6/2025 1:25:00 AM
新智元

OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算

OpenAI 发论文的频率是越来越低了。 如果你看到了一份来自 OpenAI 的新 PDF 文件,那多半也是新模型的系统卡或相关增补文件或基准测试,很少有新的研究论文。 至于原因嘛,让该公司自家的 ChatGPT 来说吧:「截至目前,OpenAI 在 2025 年在 arXiv 上公开发布的论文数量相对较少,可能反映了其对研究成果公开策略的谨慎态度,可能出于商业保密或安全考虑。
6/5/2025 11:49:59 AM

ACL 2025 | 基于Token预算感知的大模型高效推理技术

本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。 第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。 通讯作者为南京大学房春荣教授。
6/5/2025 11:49:21 AM