推理
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
大模型做数独,总体正确率只有15%? ? ?
5/29/2025 8:47:00 AM
低Token高精度!字节复旦推出自适应推理框架CAR
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM
与Gemini Diffusion共振!首个扩散式「发散思维链」来了
近年来,思维链在大模型训练和推理中愈发重要。 近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。 该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。
5/27/2025 9:00:00 AM
打破思维链推理瓶颈!“软推理”让大模型学会人类抽象能力,token使用量还更少了
不再像CoT(“思维链”)一样“一个字一个字往外蹦”,加上“软思维”就能让大模型像人类一样进行抽象思考。 来自SimularAI和微软DeepSpeed的研究员联合提出了Soft Thinking,让模型在连续的概念空间中进行 “软推理”,而非局限于离散的语言符号,打破了基于离散token的推理瓶颈。 相比标准CoT,Soft Thinking最高提升Pass@1平均准确率2.48%、减少token使用量22.4%。
5/26/2025 8:40:00 AM
AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%
如果面前有两个AI助手:一个很聪明但经常不守规矩,另一个很听话但不太聪明,你会怎么选? 最近,上海人工智能实验室与香港中文大学的研究团队发布了论文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通过一个全新的评测基准MathIF揭示:大模型越擅长复杂推理,越容易忽略用户的指令要求,“聪明”和“听话”之间存在明显的矛盾。 这项工作的灵感,源自实际使用推理模型(如o3)过程中的一个意外发现:相比许多经过强化推理训练的大模型,GPT-4o在执行具体指令时反而更加“听话” 。
5/26/2025 8:30:00 AM
首次,AI下棋不再是「黑盒」!
围棋因其独特的复杂性和对人类智能的深刻体现,可作为衡量AI专业能力最具代表性的任务之一。 目前,AI虽然在棋力、效率、通用性等方面均取得显著成绩,但其具体推理过程仍处于「黑盒」之中,更无法用人类语言解释其思考过程和结果。 大模型具备良好的自然语言交互性,如何通过提升大模型的推理能力,实现围棋专业能力突破,是摆在科研人员面前的一道难题。
5/26/2025 8:27:00 AM
英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生
你以为,AI推理的速度已经够快了? 不,英伟达还能再次颠覆你的想象——就在刚刚,他们用Blackwell创下了AI推理的新纪录。 仅仅采用单节点(8颗Blackwell GPU)的DGX B200服务器,英伟达就实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩!
5/23/2025 1:50:39 PM
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。 因为大模型可能并不能真正理解基本数学元素和视觉概念。
5/23/2025 8:47:00 AM
华为FlashComm技术助力大模型推理提速80%
在全球人工智能发展的浪潮中,模型推理的速度和效率愈发成为焦点。 近期,华为的数学团队在 DeepSeek 开源周期间推出了名为 FlashComm 的新技术,旨在通过三项创新措施,大幅提升大模型推理的性能,最高可达80% 的速度提升。 首先,FlashComm 技术重点优化了 AllReduce 通信操作。
5/22/2025 4:00:55 PM
AI在线
红帽发布全新 AI 推理服务器,推动混合云环境下智能化发展
红帽公司近期正式推出了红帽 AI 推理服务器(Red Hat AI Inference Server),这款服务器旨在为混合云环境提供更加高效和经济的 AI 推理服务。 通过采用先进的 vLLM 技术,并结合 Neural Magic 的创新能力,红帽希望为用户带来更快的响应速度和更优越的性能。 红帽 AI 推理服务器是一款专为高性能设计的开放推理解决方案,配备了一系列先进的模型压缩与优化工具。
5/22/2025 4:00:55 PM
AI在线
多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!
最近,普林斯顿大学、字节跳动、清华大学和北京大学联手搞了个大事情,推出了一款名为 MMaDA 的多模态大模型! 这可不是普通的 AI,它号称能让 AI 拥有“深度思考”的能力,还能在文本、图像、甚至复杂的推理任务之间“七十二变”,表现力直接超越了你熟悉的 GPT-4、Gemini、甚至 SDXL!你可能觉得,现在的多模态模型已经很厉害了,能看图说话,也能根据文字生成图片。 但 MMaDA 告诉我们:这还远远不够!
5/22/2025 3:00:55 PM
AI在线
英伟达推出新型模型 Cosmos-Reason1 ,让 AI 更好理解物理世界
近日,英伟达发布了其最新的 Cosmos-Reason1系列模型,旨在提升人工智能在物理常识和具身推理方面的能力。 随着人工智能在语言处理、数学及代码生成等领域取得显著进展,如何将这些能力扩展到物理环境中成为了一大挑战。 物理 AI(Physical AI)不同于传统的人工智能,它依赖于视频等感官输入,并结合现实物理法则来生成反应。
5/21/2025 4:00:55 PM
AI在线
ChatGPT转型计划曝光!不再只是回答问题,而是通过穿插使用工具变身行动助手
AI Agent今天是初级工程师,6个月后是高级工程师,一年后是架构师。 这是OpenAI CPO Kevin Weil在接受最新访谈时提出的构想。 他表示,ChatGPT将从回答问题转变为为用户做事。
5/21/2025 1:57:58 PM
谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决
在2025年5月20日的Google I/O开发者大会上,谷歌DeepMind正式推出了Gemini2.5Pro Deep Think模式,这一实验性增强推理模式为AI处理复杂任务树立了新标杆。 Deep Think模式通过并行推理技术,使Gemini2.5Pro在数学、编码和多模态推理等领域的表现达到行业领先水平。 并行推理技术,显著提升复杂任务表现Deep Think模式采用前沿的并行推理技术,允许模型在生成响应前探索多个假设路径,从而提升答案的准确性和深度。
5/21/2025 10:01:51 AM
AI在线
CoT推理大溃败?哈佛华人揭秘:LLM一思考,立刻就「失智」
DeepSeek-R1火了,推理模型火了,思维链(Chain-of-Thought,CoT)火了! 模型很聪明,问题是:它还听你的话吗? 思维链很好,但代价呢?
5/21/2025 9:02:20 AM
蚂蚁武威:下一代「推理」模型范式大猜想
R1 之后,长思维链成为研究下一代基础模型中 “推理”(Reasoning)能力的热门方向。 一方面,R1 证明了大模型深度思考的可行性;与此同时,尽管 R1 展现出了强大的性能,大模型推理的序幕实则才刚刚拉开。 此外,R1 在海外掀桌也给国内人工智能的研究带来一个显著影响,即:越来越多的研究者敢于站在更高视角思考,提出前瞻引领的技术思想。
5/21/2025 12:10:00 AM
陈彩娴
谷歌 DeepMind 通过强化学习微调提升 AI 决策能力
近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。 他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。 这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。
5/20/2025 6:00:45 PM
AI在线
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
5/16/2025 8:44:01 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
代码
LLM
算法
芯片
Stable Diffusion
腾讯
苹果
AI for Science
Claude
Agent
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
RAG
大语言模型
Sora
华为
GPU
计算
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
架构
预测
视觉
DeepMind
伟达
Transformer
编程
AI模型
神器推荐
亚马逊
MCP