工程

2M大小模型定义表格理解极限，清华大学崔鹏团队开源LimiX-2M

提到 AI 的突破，人们首先想到的往往是大语言模型（LLM）：写代码、生成文本、甚至推理多模态内容，几乎重塑了通用智能的边界。但在一个看似 “简单” 的领域 —— 结构化表格数据上，这些强大的模型却频频失手。电网调度、用户建模、通信日志…… 现实世界中大量关键系统的核心数据都以表格形式存在。

11/13/2025 1:14:00 PM

机器之心

跨层压缩隐藏状态同时加速TTFT和压缩KV cache!

我们都知道 LLM 中存在结构化稀疏性，但其底层机制一直缺乏统一的理论解释。为什么模型越深，稀疏性越明显？为什么会出现所谓的「检索头」和「检索层」？

11/13/2025 1:10:00 PM

机器之心

GRPO训练不再「自嗨」！快手可灵 x 中山大学推出「GRPO卫兵」，显著缓解视觉生成过优化

论文第一作者为王晶，中山大学二年级博士生，研究方向为强化学习与视频生成；通讯作者为中山大学智能工程学院教授梁小丹。目前，GRPO 在图像和视频生成的流模型中取得了显著提升（如 FlowGRPO 和 DanceGRPO），已被证明在后训练阶段能够有效提升视觉生成式流模型的人类偏好对齐、文本渲染与指令遵循能力。在此过程中，重要性比值的 clip 机制被引入，用于约束过于自信的正负样本梯度，避免破坏性的策略更新，从而维持训练的稳定性。

11/13/2025 1:04:00 PM

机器之心

清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你：不用分阶段做强化学习、不搞课程学习、不动态调参，只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA，你信吗？清华团队用两个 1.5B 模型给出了答案：不仅可行，还特别高效。核心发现：单阶段训练固定超参数 = SOTA 性能省一半算力意外之喜：训练曲线平滑得像教科书，4000 步没遇到任何 "典型问题"关键启示：充分 scale 的简单 baseline，可能比我们想象的强大得多技术博客：：：：RL 训练小模型的 "技术军备竞赛"2025 年初，DeepSeek-R1 开源后，如何用 RL 训练 1.5B 级别的推理模型成为了热门研究方向。

11/13/2025 10:44:00 AM

机器之心

NeurIPS 2025 | 中科大、港中深、通义千问联合发布CoRT：仅30个样本教会大模型高效推理，token消耗降低50%

近年来，以 OpenAI-o1、Qwen3、DeepSeek-R1 为代表的大型推理模型（LRMs）在复杂推理任务上取得了惊人进展，它们能够像人类一样进行长链条的思考、反思和探索。然而，这些模型在面对精确的数学计算时，仍然会「心有余而力不足」，常常出现效率低下甚至算错的问题。一个直观的解决方案，是为模型配备代码解释器（Code Interpreter）等计算工具。

11/13/2025 10:16:00 AM

机器之心

全球第二、国内第一！钉钉发布DeepResearch多智能体框架，已在真实企业部署

在数字经济浪潮中，企业对于高效、精准的信息获取与决策支持的需求日益迫切。从前沿科学探索到行业趋势分析，再到企业级决策支持，一个能够从海量异构数据源中提取关键知识、执行多步骤推理并生成结构化或多模态输出的「深度研究系统」正变得不可或缺。然而，现有的研究系统，尽管各自在特定领域有所建树，却普遍面临着难以适应真实世界企业环境的挑战：静态架构与缺乏适应性：多数系统依赖静态提示或固定脚本，缺乏从真实世界反馈中学习和优化的机制，难以适应不断变化的业务需求和数据分布。

11/12/2025 11:35:00 AM

机器之心

打破显存墙：谢赛宁团队提出CLM，单卡RTX 4090「撬动」1亿高斯点

3D Gaussian Splatting (3DGS) 是一种日益流行的新视角合成方法，给定 3D 场景的一组带位姿的图像（即带有位置和方向的图像），3DGS 会迭代训练一个场景表示，该表示由大量各向异性 3D 高斯体组成，用以捕捉场景的外观和几何形状。用户可以使用训练好的场景表示来渲染先前未见过的视角的图像。与其他新视角合成方法相比，3DGS 具有更快的渲染时间，同时能达到相当的图像质量，因此迅速普及开来。

11/11/2025 5:12:00 PM

机器之心

从VLA到RoboOmni，全模态具身新范式让机器人察言观色、听懂话外音

复旦⼤学、上海创智学院与新加坡国立⼤学联合推出全模态端到端操作⼤模型 RoboOmni，统⼀视觉、⽂本、听觉与动作模态，实现动作⽣成与语⾳交互的协同控制。开源 140K 条语⾳ - 视觉 - ⽂字「情境指令」真机操作数据，引领机器⼈从「被动执⾏⼈类指令」迈向「主动提供服务」新时代。在⽇常⽣活中，⼈类很少发出⽣硬的命令式指令⸺「把杯子放到桌上」。

11/11/2025 5:06:00 PM

机器之心

上交×蚂蚁发布 DiagGym：以世界模型驱动交互式医学诊断智能体

临床诊断并非一次性的「快照」，而是一场动态交互、不断「探案」的推理过程。然而，当下的大模型大多基于静态数据训练，难以掌握真实诊疗中充满不确定性的多轮决策轨迹。如何让AI学会「追问」、选择检查，并一步步抽丝剥茧，迈向正确诊断？

11/11/2025 4:58:00 PM

机器之心

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

多模态大模型（MLLMs）虽然在图像理解、视频分析上表现出色，但多停留在整体场景级理解。而场景级理解 ≠ 视觉理解的终点，现实任务（如自动驾驶、机器人、医疗影像、视频分析）需要的是细粒度、对象级（object-level）详细理解。然而，当下的研究工作，如英伟达的Describe Anything Model (DAM)局限于单个物体的描述，难以深入理解多对象属性、交互关系及其时序演变，且牺牲了模型本身的通用理解能力。

11/11/2025 10:23:00 AM

机器之心

与DeepSeek-OCR不谋而合，NeurIPS论文提出让LLM像人一样读长文本

在 NeurIPS 2025 论文中，来自南京理工大学、中南大学、南京林业大学的研究团队提出了一个极具突破性的框架 ——VIST（Vision-centric Token Compression in LLM），为大语言模型的长文本高效推理提供了全新的 “视觉解决方案”。值得注意的是，这一思路与近期引起广泛关注的 DeepSeek-OCR 的核心理念不谋而合。研究背景在处理短文本时，大语言模型（LLM）已经表现出惊人的理解和生成能力。

11/10/2025 1:19:00 PM

机器之心

NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式

在 AI 技术飞速发展的今天，如何高效地将多个专业模型的能力融合到一个通用模型中，是当前大模型应用面临的关键挑战。全量微调领域已经有许多开创性的工作，但是在高效微调领域，尚未有对模型合并范式清晰的指引。因此，中科院、中山大学、北京大学的研究团队针对高效微调模型合并，提出了「方向鲁棒性」的概念，首次揭示了参数高效微调（PEFT）模块合并失败的根本原因是「方向不鲁棒」，而非传统认为的「符号冲突」，并提供了一个简单高效、无需额外成本的解决方案（RobustMerge）。

11/10/2025 1:08:00 PM

机器之心

谢赛宁、李飞飞、LeCun联手提出多模态LLM新范式，「空间超感知」登场

纽约大学助理教授谢赛宁新作又来了，合著者还有李飞飞、Yann LeCun。这次的成果名为「Cambrian-S」，根据谢赛宁的说法，它既是一种观点，也是一个数据集、一个基准或者一个模型，代表其迈出了探索视频空间超感知的第一步。从名称上来看，Cambrian-S 是谢赛宁团队去年研究成果「Cambrian-1」的延续。

11/10/2025 1:00:00 PM

机器之心

MeshCoder：以大语言模型驱动，从点云到可编辑结构化物体代码的革新

生成式 AI 的浪潮赋予了机器无尽的创造力，我们已亲眼见证它在文字与图像世界 “点石成金” 的魔力。然而，当这股浪潮涌向更复杂的三维空间，挑战也随之升级。过去的 3D 生成 AI 如孩童堆积木，成果粗糙模糊；如今，它渴望成长为一名 “数字建筑师”，去建造结构精巧、可被编辑改造的虚拟世界。

11/10/2025 12:01:00 PM

机器之心

大规模高精度量子化学模拟新范式：字节最新成果入选Nature子刊

我们对世界的理解，越来越依赖计算。从药物、蛋白质设计到新材料发现，科学家们希望在计算机里「虚拟实验」出物质的性质。要做到这一点，就必须准确地模拟原子中，核、电子之间的相互作用。

11/9/2025 8:35:00 PM

机器之心

IEEE | LLM Agent的能力边界在哪？首篇「图智能体 (GLA)」综述为复杂系统构建统一蓝图

作者为 Griffith Unversity 的刘奕鑫，李世源，潘世瑞，National University of Singapore 的张桂彬，和 Nanyang Technological University 的王琨。 LLM Agent 正以前所未有的速度发展，从网页浏览、软件开发到具身控制，其强大的自主能力令人瞩目。然而，繁荣的背后也带来了研究的「碎片化」和能力的「天花板」：多数 Agent 在可靠规划、长期记忆、海量工具管理和多智能体协调等方面仍显稚嫩，整个领域仿佛一片广袤却缺乏地图的丛林。

11/9/2025 8:30:00 PM

机器之心

虚数 i ，要被量子力学抛弃了？

如果量子世界根本不需要虚数 i，会怎样？近日，发表于 Quanta Magazine 的一篇报道指出，一些物理学家发现，量子力学或许完全可以用纯实数的方式重写，而不影响任何实验预测。这意味着，那些贯穿近百年的复数结构，也许只是我们对自然的一种数学幻觉。

11/8/2025 4:56:00 PM

机器之心

突破LLM遗忘瓶颈，谷歌「嵌套学习」让AI像人脑一样持续进化

LLM在持续学习方面有了新突破。近日，谷歌推出了一种全新的用于持续学习的机器学习范式 —— 嵌套学习，模型不再采用静态的训练周期，而是以不同的更新速度在嵌套层中进行学习，即将模型视为一系列嵌套问题的堆叠，使其能够不断学习新技能，同时又不会遗忘旧技能。而这或将标志着人工智能朝着「真正像大脑一样进化的方向」迈出了一大步。

11/8/2025 4:52:00 PM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena Sora、可灵、即梦哪家强？AI视频软件深度测评！可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评借助 AgentCore Memory 为智能体应用添加记忆功能深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney AI新词开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent 苹果 Claude 芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 RAG AI视频大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成生成式AI 场景 DeepMind 深度学习特斯拉 AI模型架构 MCP Transformer 亚马逊编程视觉预测