AI在线 AI在线

推理

大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”

多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。 线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。 为此,微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft:以高保真图像处理与非线性多智能体推理为两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。
11/4/2025 8:44:00 AM

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
10/28/2025 9:16:38 AM

R-HORIZON:长程推理时代来临,复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

陆毅,复旦大学自然语言处理实验室硕士生,在 ACL、EMNLP、COLM、NeurIPS 等顶会发表论文十余篇,LongCat Team 核心成员,研究方向为大模型的复杂推理和长序列建模,指导老师为桂韬老师。 郭林森,硕士毕业于东南大学,在 NAACL、EMNLP、Recsys 等会议发表论文多篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型评测与数据价值挖掘。 王嘉宁,获得华东师范大学博士学位,曾前往 UCSD 访问学习,在 ACL、EMNLP、AAAI、ICLR 等顶会发表论文数十篇,目前就职于美团,LongCat Team 核心成员,研究方向为大模型训练与复杂推理。
10/23/2025 9:10:39 AM

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。 为此,来自北京大学与华为的研究团队联合提出了LouisKV——一个专为长输入、长输出等各类长序列场景设计的高效KV cache 检索框架。
10/21/2025 12:31:13 PM

IDC 2025 新出炉 Infra 报告力荐:GMI Cloud 领跑 AI 原生云赛道

近日,全球权威市场研究机构 IDC 发布《AI 原生云/新型云厂商重构 Agentic 基础设施》报告,深度剖析生成式 AI(GenAI)爆发背景下,AI 基础设施市场的变革趋势与核心玩家价值。 报告明确指出,“AI 原生云厂商凭借稳定的供应链、显著的价格优势及专业化能力,已在 AI 基础设施市场站稳脚跟”,并将 GMI Cloud 与 CoreWeave 列为新型 AI 原生云厂商中的重点调研推荐对象,从技术实力、生态资源、产品布局及战略视野四大维度,肯定其在推动企业 GenAI 落地中的核心作用。 IDC 洞察 AI 应用市场焦点:AI 原生云成 GenAI 跨越“PoC 到生产”关键,推理与合规需求凸显IDC 在报告中强调,当前亚太地区企业 GenAI 采用率呈爆发式增长——65%的亚太企业将在 2025 年实现超 50 个 GenAI 场景投产,26%的企业甚至计划部署超 100 个场景。
10/20/2025 3:39:14 PM
云昭

教多模态大模型学会“反思”和“复盘”,上交&上海AI Lab重磅发布MM-HELIX&AHPO,破解多模态复杂推理难题

多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。 无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。 它们就像一个从不检查作业的“学霸”,虽然知识渊博,但一旦在复杂的、需要反复试错的问题上走错一步,就很难回头。
10/20/2025 9:02:00 AM

推理提速4倍!莫纳什、浙大提出动态拼接,大小模型智能协作

近两年,思维链(Chain-of-Thought, CoT)推理让大语言模型在复杂推理任务上展现出前所未有的能力——从数学解题到逻辑分析,表现令人惊叹。 然而,这种强大的推理能力也带来了一个长期存在的挑战:推理过程过于缓慢。 每生成一个 token,模型都要完整算一遍前向传播。
10/17/2025 5:50:01 PM

剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了

大模型也有「EMO」时刻。 比如,Gemini在Cursor里调试编译错误后,打开了自责「循环模式」,把「I am a disgrace(我很丢脸)」重复了86次。 尽管大模型在复杂推理能力上已有了巨大进步,但上述现象仍使一部分专家认为:思考模型,只提供了「思考的幻觉」,因为当任务被拉长时它们最终会失败。
10/14/2025 9:04:00 AM

登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini

近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战:分布偏移:多模态输入空间巨大,训练与推理分布往往存在显著差异;数据质量不均:大规模训练集不可避免地包含噪声或低质量样本,降低了有效监督信号。 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。
9/19/2025 2:53:34 PM

反转!LeCun刚转发「全球最快开源推理模型」,ETH苏黎世就直接打假

全球最快开源AI推理模型! 这个标签为K2‑Think带来轰动效果:福布斯、VentureBeat、Wired、CNBC等媒体争先报道,甚至图灵奖得主转发相关推文介绍! 然而,苏黎世联邦理工学院计算机科学系SRI实验室的研究者,却泼了一盆冷水:虽然K2-Think不错,但报告的性能被夸大了。
9/16/2025 9:12:00 AM

循环网络能否提升推理能力?分层推理模型已经问世!

译者 | 晶颜审校 | 重楼通用人工智能(AGI)作为人工智能领域的核心目标,已被学界与产业界广泛探讨多年。 然而,当前主流的大型语言模型(LLMs)即便在性能上表现突出,但在解决复杂推理任务时仍存在显著局限,远未达到AGI所要求的自主推理与问题解决能力。 此类复杂任务往往需要多维度的模式识别、抽象知识生成,以及迭代式的推理能力优化——即便对人类而言,也需投入大量时间与精力方可完成。
9/15/2025 9:43:33 AM
晶颜

AI生成苹果Metal内核,PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中一些工作负载甚至比基准快了数百倍。
9/5/2025 9:00:00 AM

AI署名论文一作,人类只能陪跑!斯坦福华人首创「AI科学家大会」

去年,斯坦福学者James Zou搭建了一个「虚拟实验室」。 五个AI科学家,分工协作,最终提出了纳米抗体方案。 实验验证有效,还登上了《Nature》。
9/1/2025 2:00:00 AM
新智元

推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型

OpenAI在最新的开源模型gpt-oss上采用的MXFP4数据类型,直接让推理成本暴降75%! 更惊人的是,MXFP4在把内存占用降为同规模BF16模型的四分之一的同时,还把生成token的速度提升了整整4倍。 换句话说,这一操作直接把1200亿参数的大模型塞进80GB显存的显卡,哪怕是只有16GB显存的显卡也能跑200亿参数的版本。
8/11/2025 6:00:38 PM

史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了! 上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。 该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。
8/11/2025 8:46:00 AM

监督学习未死,一题训练五小时起飞!华人学者新方法20倍训练效率释放大模型推理能力

大模型推理能力研究中,可验证奖励的强化学习(RL with Verifiable Rewards, 简称 RLVR)技术频频突破,尤其是“一题强化学习”(RL on One Example)在多个任务中表现亮眼,引发了广泛讨论。 但与此同时,一个现实难题也随之而来:哪怕只使用一个样本,RL的训练也往往需要上百小时的A100GPU支撑,资源成本极高;而训练过程的高度不稳定,也给复现和实际部署带来了极大障碍;相比之下,传统的监督式微调(SFT)虽然计算负担小,但在低数据量下极易过拟合,效果难以保证。 有没有一种方法,不依赖复杂的反馈信号,也不需要成千上万的数据样本,就能有效激发LLM中已蕴藏的推理能力?
8/5/2025 9:05:00 AM

WAIC 2025|阶跃发布新一代基模 Step 3:原生多模态,推理效率行业领先

在2025世界人工智能大会(简称“WAIC 2025”)开幕前夕,阶跃星辰今天在上海正式发布了新一代基础大模型——Step 3。 作为阶跃的主力基座模型,Step 3兼顾智能与效率,旨在面向推理时代打造最适合应用的模型。 Step 3将于7月31日面向全球企业和开发者开源,为开源世界贡献最强多模态推理模型。
7/25/2025 9:43:00 PM
陈彩娴

面对无解问题大模型竟会崩溃?港中文&华为联合提出首个大模型推理可靠性评估基准

本文作者是香港中文大学博士三年级薛博阳,导师为黄锦辉教授,目前在伦敦大学学院进行访问交流,他的研究方向包括可信大模型,模型不确定性,对话系统等,在 ACL, EMNLP, TASLP 等会议期刊作为第一作者发表多篇论文,并长期在知乎写作大模型、机器学习等专栏文章,个人主页为:? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。 然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。
7/17/2025 9:21:11 AM