推理

AI进化新里程碑！大模型首次具备人类空间思维能力！

研究人员近日公布了一项惊人的进展:一个新的 AI 大模型成功掌握了人类的空间思考能力。这一突破源于蚂蚁技术研究院自然语言组与中科院自动化所和香港中文大学的合作，推出了名为 ViLaSR-7B 的模型，专注于空间推理任务。这个模型通过一种名为 “边看边画” 的训练方法，能够在理解图像的同时进行空间推理，从而在迷宫导航、静态图像理解和视频分析等多个任务上平均提高了18.4% 的准确率。

6/23/2025 10:00:48 AM

AI在线

蚂蚁开源轻量级MoE推理模型Ring-lite

近日，蚂蚁技术团队宣布正式开源其轻量级推理模型Ring-lite。该模型在多项推理榜单上取得了显著成绩，实现了轻量级推理模型的SOTA效果，再次验证了MoE架构的推理潜力。 Ring-lite以蚂蚁技术此前发布的Ling-lite-1.5为起点，该模型采用MoE架构，总参数为16.8B，但激活参数仅2.75B。

6/21/2025 5:01:05 PM

AI在线

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

大型推理模型（LRMs）在解决复杂任务时展现出的强大能力令人惊叹，但其背后隐藏的安全风险不容忽视。尽管学术界已尝试通过监督微调（SFT）有效地提升模型安全，但下图的测试结果所示，监督微调在面对训练数据领域外的层出不穷的“越狱”攻击时，往往显得捉襟见肘，泛化能力有限。同时，之前的工作没有对大型推理模型的安全思考做深入的分析，以进行针对性的提升。

6/16/2025 8:25:00 AM

双重突破：全球首个零售VLA大模型来了！开源OpenWBT让机器人遥操门槛暴降！

学会“适当暂停与总结”，大模型终于实现无限推理。想象一下，让你一口气不歇地推演一个超复杂数学证明，大脑也会“内存溢出”吧？如今的大模型在长上下文推理中也面临同样的困境，随着推理长度增加而指数级增长的计算成本，以及由于长度受限而被迫中断推理过程。

6/10/2025 9:07:00 AM

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

大模型推理，无疑是当下最受热议的科技话题之一。但在数学和物理等STEM之外，当LLM落到更多实际应用领域之中，大模型的推理能力又有多大的潜能和局限？比如，如何评估大模型的推理能力在法律领域的应用，就在当前备受关注。

6/6/2025 9:00:00 AM

上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

机器人的新大脑框架来了！上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架：Visual Embodied Brain，简称VeBrain。该模型通过同时集成视觉感知、空间推理和机器人控制能力，可实现多模态大模型（MLLM）对物理实体的直接操控，使机器人能像人类一样“看到-思考-行动”。

6/6/2025 8:52:00 AM

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！

6/3/2025 8:49:00 AM

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao，刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。在保持模型性能不变的情况下，将解码速度和吞吐量最高提升2倍，大大优化了模型的长上下文推理能力。这项研究的三位作者均来自普林斯顿大学，论文主要有两大贡献：其一，提出Grouped-Tied Attention（GTA），与已集成到LLaMA 3的注意力机制GQA质量相当，但KV缓存用量减少约50%。

6/3/2025 8:43:00 AM

让AI学着“看菜下碟”！港中大等新框架让推理长度减少90%，准确率反增17%

人类在面对简单提问时常常不假思索直接回答，只有遇到复杂难题才会认真推理。如果AI模型也能像人一样决定“要不要思考”，效率是否会大大提升？近日，香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON（Think Or Not）的新颖选择性推理框架，让视觉语言模型（VLM）可以自主判断是否需要显式推理。

6/3/2025 8:25:00 AM

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

在大语言模型（LLM）领域，推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界，展现了扩散模型在并行生成上的潜力。然而，开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退，实际推理速度长期被自回归模型压制.近日，NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM，以无需训练的即插即用加速方案，实现了推理速度的突破！

5/30/2025 3:52:05 PM

苹果联合推出 AI 交错推理方法，Qwen2.5 模型响应速度快 80%、准确率提高 19.3%

苹果公司携手杜克大学，提出交错推理（Interleaved Reasoning）的全新强化学习（Reinforcement learning，RL）方法，进一步提升大语言模型的推理能力。

5/30/2025 2:45:12 PM

故渊

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

一个新的Benchmark，竟让大模型在复杂视频推理这事儿上统统不及格！这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——如其名，它可以说是视频推理界的“福尔摩斯测试”，通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务，以展现他们复杂视频推理能力的边界。而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点，即视频源和问题都偏简单，没法反映推理模型和非推理模型之间的差距。

5/30/2025 9:17:00 AM

妈妈再也不用担心延迟了！斯坦福手搓Llama超级内核，推理仅需0.00068秒

想象一下：你和AI聊天时，每句话都要等它3秒——血压是不是瞬间飙升？低延迟LLM推理，就是专门针对这个问题的解决办法。博客地址：「整了个大活」：他们手搓了个叫做「Megakernel」超级玩具（推理引擎），把Llama-1B的前向传播整个塞进单个GPU内核！

5/30/2025 9:12:00 AM

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：大模型无需接触真实答案，仅通过优化自己的信心，就能学会复杂推理。具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。

5/30/2025 9:05:00 AM

CVPR 2025 | 字节提出个性化多人图像生成新方法ID-Patch，可生成多人合影、姿势可控

相信扩散模型（DMs）大家一定都不陌生了，目前已经成为文本生成图像的核心方法，凭借强大的图像生成能力，正重塑艺术创作、广告设计、社交媒体内容生产格局。现在，用一段文字生成个性化头像都不算啥新鲜事儿了。不过仍然会有这样一个问题，目前我们看到的基于人物的文生图大多还是生成一个人的，对于多人同时生成的目前还没有很好的样例。

5/29/2025 9:34:14 AM

AIGC Studio