推理
低Token高精度!字节复旦推出自适应推理框架CAR
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM
打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力,token使用量还更少了
不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。 来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。 相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。
5/26/2025 8:40:00 AM
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准MathIF揭示:大模型越擅长复杂推理,越容易忽略用户的指令要求,“聪明”和“听话”之间存在明显的矛盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强化推理训练的大模型,GPT-4o在执行具体指令时反而更加“听话” 。
5/26/2025 8:30:00 AM
首次,AI下棋不再是「黑盒」!
围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。 目前,AI虽然在棋力、效率、通用性等方面均取得显著成绩,但其具体推理过程仍处于「黑盒」之中,更无法用人类语言解释其思考过程和结果。 大模型具备良好的自然语言交互性,如何通过提升大模型的推理能力,实现围棋专业能力突破,是摆在科研人员面前的一道难题。
5/26/2025 8:27:00 AM
英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生
你以为,AI推理的速度已经够快了? 不,英伟达还能再次颠覆你的想象——就在刚刚,他们用Blackwell创下了AI推理的新纪录。 仅仅采用单节点(8颗Blackwell GPU)的DGX B200服务器,英伟达就实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩!
5/23/2025 1:50:39 PM
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。 因为大模型可能并不能真正理解基本数学元素和视觉概念。
5/23/2025 8:47:00 AM
华为FlashComm技术助力大模型推理提速80%
在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。 近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。 首先,FlashComm 技术重点优化了 AllReduce 通信操作。
5/22/2025 4:00:55 PM
AI在线
红帽发布全新 AI 推理服务器,推动混合云环境下智能化发展
红帽公司近期正式推出了红帽 AI 推理服务器(Red Hat AI Inference Server),这款服务器旨在为混合云环境提供更加高效和经济的 AI 推理服务。 通过采用先进的 vLLM 技术,并结合 Neural Magic 的创新能力,红帽希望为用户带来更快的响应速度和更优越的性能。 红帽 AI 推理服务器是一款专为高性能设计的开放推理解决方案,配备了一系列先进的模型压缩与优化工具。
5/22/2025 4:00:55 PM
AI在线
多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!
最近,普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情,推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI,它号称能让 AI 拥有“深度思考”的能力,还能在文本、图像、甚至复杂的推理任务之间“七十二变”,表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!你可能觉得,现在的多模态模型已经很厉害了,能看图说话,也能根据文字生成图片。 但 MMaDA 告诉我们:这还远远不够!
5/22/2025 3:00:55 PM
AI在线
英伟达推出新型模型 Cosmos-Reason1 ,让 AI 更好理解物理世界
近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。 随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。
5/21/2025 4:00:55 PM
AI在线
ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手
AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。
5/21/2025 1:57:58 PM
谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决
在2025年5月20日的Google I/O开发者大会上,谷歌DeepMind正式推出了Gemini2.5Pro Deep Think模式,这一实验性增强推理模式为AI处理复杂任务树立了新标杆。 Deep Think模式通过并行推理技术,使Gemini2.5Pro在数学、编码和多模态推理等领域的表现达到行业领先水平。 并行推理技术,显著提升复杂任务表现Deep Think模式采用前沿的并行推理技术,允许模型在生成响应前探索多个假设路径,从而提升答案的准确性和深度。
5/21/2025 10:01:51 AM
AI在线
CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」
DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM
蚂蚁武威:下一代「推理」模型范式大猜想
R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。 一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。 此外,R1 在海外掀桌也给国内人工智能的研究带来一个显著影响,即:越来越多的研究者敢于站在更高视角思考,提出前瞻引领的技术思想。
5/21/2025 12:10:00 AM
陈彩娴
谷歌 DeepMind 通过强化学习微调提升 AI 决策能力
近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
5/16/2025 8:44:01 AM
前苹果工程师公司ElastixAI筹集 1600 万美元,专注优化大语言模型的推理技术
最近,在美国西雅图成立了一家新创公司 ElastixAI,该公司由几位资深工程师创立,旨在解决大型语言模型部署过程中的成本和复杂性问题。 ElastixAI 专注于开发一种 AI 推理平台,旨在优化大型语言模型的运行方式。 该公司在刚成立几个月内,成功融资1600万美元,由位于贝尔维尤的风险投资公司 FUSE 领投。
5/15/2025 12:00:54 PM
AI在线
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
3分钟生成UI源文件!实测谷歌最新UI设计神器Google Stitch
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
Anthropic拒绝为Windsurf提供Claude Sonnet 4与Opus 4支持,商战大戏开演!
《Nature》研究显示:ChatGPT 可使中小学生学习效果暴涨 86.7%
从设计到开发一步到位!Figma 5大新功能深度解析!
OpenAI Responses API重磅更新,集成MCP、图像生成与代码解释器,AI智能体开发进入新纪元!
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
神经网络
研究
3D
计算
机器学习
Sora
生成
AI设计
AI for Science
苹果
GPU
AI视频
训练
华为
Claude
搜索
场景
百度
人形机器人
预测
伟达
智能体
xAI
深度学习
Transformer
大语言模型
字节跳动
模态
LLaMA
文本
神器推荐
具身智能
Copilot
视觉
驾驶
API
算力
应用
Agent
工具
大型语言模型
安全
干货合集
视频生成