AI在线 AI在线

推理

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM

打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力,token使用量还更少了

不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。 来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。 相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。
5/26/2025 8:40:00 AM

AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准MathIF揭示:大模型越擅长复杂推理,越容易忽略用户的指令要求,“聪明”和“听话”之间存在明显的矛盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强化推理训练的大模型,GPT-4o在执行具体指令时反而更加“听话” 。
5/26/2025 8:30:00 AM

首次,AI下棋不再是「黑盒」!

围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。 目前,AI虽然在棋力、效率、通用性等方面均取得显著成绩,但其具体推理过程仍处于「黑盒」之中,更无法用人类语言解释其思考过程和结果。 大模型具备良好的自然语言交互性,如何通过提升大模型的推理能力,实现围棋专业能力突破,是摆在科研人员面前的一道难题。
5/26/2025 8:27:00 AM

英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

你以为,AI推理的速度已经够快了? 不,英伟达还能再次颠覆你的想象——就在刚刚,他们用Blackwell创下了AI推理的新纪录。 仅仅采用单节点(8颗Blackwell GPU)的DGX B200服务器,英伟达就实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩!
5/23/2025 1:50:39 PM

小学数学题,大模型集体不及格!达摩院推出新基准VCBench

大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。 因为大模型可能并不能真正理解基本数学元素和视觉概念。
5/23/2025 8:47:00 AM

华为FlashComm技术助力大模型推理提速80%

在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。 近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。 首先,FlashComm 技术重点优化了 AllReduce 通信操作。
5/22/2025 4:00:55 PM
AI在线

红帽发布全新 AI 推理服务器,推动混合云环境下智能化发展

红帽公司近期正式推出了红帽 AI 推理服务器(Red Hat AI Inference Server),这款服务器旨在为混合云环境提供更加高效和经济的 AI 推理服务。 通过采用先进的 vLLM 技术,并结合 Neural Magic 的创新能力,红帽希望为用户带来更快的响应速度和更优越的性能。 红帽 AI 推理服务器是一款专为高性能设计的开放推理解决方案,配备了一系列先进的模型压缩与优化工具。
5/22/2025 4:00:55 PM
AI在线

多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!

最近,普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情,推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI,它号称能让 AI 拥有“深度思考”的能力,还能在文本、图像、甚至复杂的推理任务之间“七十二变”,表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!你可能觉得,现在的多模态模型已经很厉害了,能看图说话,也能根据文字生成图片。 但 MMaDA 告诉我们:这还远远不够!
5/22/2025 3:00:55 PM
AI在线

英伟达推出新型模型 Cosmos-Reason1 ,让 AI 更好理解物理世界

近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。 随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。
5/21/2025 4:00:55 PM
AI在线

ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手

AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。
5/21/2025 1:57:58 PM

谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决

在2025年5月20日的Google I/O开发者大会上,谷歌DeepMind正式推出了Gemini2.5Pro Deep Think模式,这一实验性增强推理模式为AI处理复杂任务树立了新标杆。 Deep Think模式通过并行推理技术,使Gemini2.5Pro在数学、编码和多模态推理等领域的表现达到行业领先水平。 并行推理技术,显著提升复杂任务表现Deep Think模式采用前沿的并行推理技术,允许模型在生成响应前探索多个假设路径,从而提升答案的准确性和深度。
5/21/2025 10:01:51 AM
AI在线

CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」

DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM

蚂蚁武威:下一代「推理」模型范式大猜想

R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。 一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。 此外,R1 在海外掀桌也给国内人工智能的研究带来一个显著影响,即:越来越多的研究者敢于站在更高视角思考,提出前瞻引领的技术思想。
5/21/2025 12:10:00 AM
陈彩娴

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线

ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题

作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
5/16/2025 8:44:01 AM

​前苹果工程师公司ElastixAI筹集 1600 万美元,专注优化大语言模型的推理技术

最近,在美国西雅图成立了一家新创公司 ElastixAI,该公司由几位资深工程师创立,旨在解决大型语言模型部署过程中的成本和复杂性问题。 ElastixAI 专注于开发一种 AI 推理平台,旨在优化大型语言模型的运行方式。 该公司在刚成立几个月内,成功融资1600万美元,由位于贝尔维尤的风险投资公司 FUSE 领投。
5/15/2025 12:00:54 PM
AI在线