AI在线 AI在线

工程

快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。 然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。 大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入,缺乏真正的交互能力。
9/13/2025 6:17:00 PM
机器之心

腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破

图检索增强生成(GraphRAG)已成为大模型解决复杂领域知识问答的重要解决方案之一。 然而,当前学界和开源界的方案都面临着三大关键痛点:开销巨大:通过 LLM 构建图谱及社区,Token 消耗大,耗时长,经济与时间成本高昂。 效果瓶颈:对复杂问答的解析精度有限,面临显著的效果瓶颈。
9/12/2025 9:21:00 PM
机器之心

全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成

训练、推理性价比创新高。 大语言模型(LLM),正在进入 Next Level。 周五凌晨,阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。
9/12/2025 10:45:00 AM
机器之心

告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

本文第一作者戴语琴,清华大学博士生。 该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。 本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。
9/12/2025 10:34:00 AM
机器之心

攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取

本工作核心作者为汤子瑞(上海交通大学)、牛博宇(上海交通大学)。 合作者为李帛修、周炜、王健楠、李国良、张心怡、吴帆。 通讯作者为上海交通大学计算机学院博士生导师周煊赫。
9/11/2025 3:38:00 PM
机器之心

英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛

AI 开发复杂软件的时代即将到来? 近年来,以 Google 的 AlphaEvolve 为代表的研究已经证明,AI 智能体可以通过迭代来优化算法,甚至在某些小型、独立的编程任务上超越人类。 然而,这些工作大多局限于几百行代码的「算法内核」或单个文件。
9/11/2025 11:48:00 AM
机器之心

大模型智能体不止能写代码,还能被训练成白帽黑客

当人们还在惊叹大模型能写代码、能自动化办公时,它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。 想象一下,如果 AI 不只是写代码的助手,而是能够像「白帽黑客」一样,在不破坏系统的前提下模拟攻击、发现漏洞、提出修复建议,会带来怎样的改变? 这个问题,最近由 Amazon AWS AI 的 Q Developer 团队给出了答案。
9/11/2025 11:42:00 AM
机器之心

CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架

本文的共同第一作者为香港大学 InfoBodied AI 实验室的博士生孙力和吴杰枫,合作者为刘瑞哲,陈枫。 通讯作者为香港大学数据科学研究院及电机电子工程系助理教授杨言超。 InfoBodied AI 实验室近年来在 CVPR,ICML,Neurips,ICLR 等顶会上有多项代表性成果发表,与国内外知名高校,科研机构广泛开展合作。
9/10/2025 8:58:00 PM
机器之心

谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件

大模型在科研领域越来越高效了。 昨天,谷歌发表了一篇重磅文章,提出了一个能够帮助科研人员编写「专家级」科研软件的 AI 系统。 该系统融合了大语言模型和传统树搜索,能够自动编写和优化科研任务中所需的软件程序,能够获取多种渠道的现有知识,整合并且重组这些知识来构建一个新的研究思路。
9/10/2025 5:29:00 PM
机器之心

AI胡说八道这事,终于有人管了?

想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多? 上周末,OpenAI 发的一篇论文引爆了社区。 这篇论文系统性地揭示了幻觉的根源,指出问题出在奖励上 —— 标准的训练和评估程序更倾向于对猜测进行奖励,而不是在模型勇于承认不确定时给予奖励。
9/10/2025 1:27:00 PM
机器之心

人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!

打开手机,让 AI Agent 自动帮你完成订外卖、订酒店、网上购物的琐碎任务,这正成为智能手机交互的新范式。 一个能自主处理大部分日常任务的个人专属智能体,正在从科幻走进现实。 然而,通往 “解放双手” 的最后一公里却并不好走。
9/10/2025 1:22:00 PM
机器之心

SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶,机器人等各种下游应用。 在大模型的实际使用中我们发现,大部分的模型还只是某个细分领域任务的大牛,离我们理想中的 AGI 仍然遥遥无期。 准确的说,这些投入部署的大模型大多是「静态」模型,对于其预训练或微调时优化的系列任务表现良好,但是在动态学习,自我提升这部分能力是缺位的。
9/9/2025 8:20:00 PM
机器之心

从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准

在当前由大语言模型(LLM)驱动的技术范式中,检索增强生成(RAG)已成为提升模型知识能力与缓解「幻觉」的核心技术。 然而,现有 RAG 系统在面对需多步逻辑推理任务时仍存在显著局限,具体挑战如下:表面相关性 (Surface Relevance):基于 TF-IDF/BM25 等传统方法过度依赖词汇重叠度,倾向于召回与查询共享关键词的文档,导致检索结果停留于浅层文本匹配。 深度相关性 (Deep Relevance):真实场景中的复杂查询(如医学诊断推导、数学定理证明)其相关性往往是隐性的,隐藏在概念类比、逻辑推演或因果链条之中,需要模型具备超越字面含义的理解能力。
9/9/2025 8:10:00 PM
机器之心

DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍

论文作者团队:来自杜克大学 CEI Center,由实习生陈欣骅、黄思韬及郭聪博士共同完成,指导教师为李海教授、陈怡然教授。 扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶瓶颈和规划能力缺陷。 但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计算冗余,从而导致现有开源模型的潜力远远未被释放。
9/9/2025 5:06:00 PM
机器之心

扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍

经历了前段时间的鸡飞狗跳,扎克伯格的投资似乎终于初见成效。 近期,Meta Superintelligence Labs 联合提出了一个名为 REFRAG 的高效解码框架,旨在解决 LLM 在处理长上下文输入时面临的效率瓶颈,尤其是在 RAG 等应用场景下。 论文标题:REFRAG:Rethinking RAG based Decoding论文地址:?
9/8/2025 2:45:00 PM
机器之心

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。 然而,现有 VLA 基座模型的能力仍存在很大不足,在进行目标场景应用时需要采集数十乃至数百小时目标本体数据完成后训练(Post-Training),特别是当目标场景本体和预训练本体存在差异时,预训练和后训练阶段的动作分布出现严重失配,从而引发了 VLA 模型跨本体适配(Cross-Embodiment Adaption)挑战。 在后训练阶段通过堆叠目标本体数据对抗这种失配的边际收益迅速递减,也难以有效拟合目标场景动作分布。
9/8/2025 2:35:00 PM
机器之心

空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

香港科技大学谭平教授团队与地平线(Horizon Robotics)团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon,通过锚点图建立构建场景全局隐式表征,突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈,实现万帧级的场景表征抽取与定位重建,将空间智能「3D 表征与建模」前沿推向一个新的高度。 该技术作为 3D 场景表征与重建的一个基础模型,不仅可以用于任意场景中的大规模 3D 重建和空间漫游,也可以为机器人的 3D 空间感知、自主空间定位与导航提供基础技术支撑。 谭平教授目前为香港科技大学电子与计算机工程系正教授,冯诺依曼人工智能研究院副院长,也是「香港科技大学–比亚迪具身智能联合实验室」主任,长期致力于 3D 空间智能与具身智能相关的技术前沿研究。
9/8/2025 10:24:00 AM
机器之心

SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃

开放词汇识别与分类对于全面理解现实世界的 3D 场景至关重要。 目前,所有现有方法在训练或推理过程中都依赖于 2D 或文本模态。 这凸显出缺乏能够单独处理 3D 数据以进行端到端语义学习的模型,以及训练此类模型所需的数据。
9/7/2025 4:40:00 PM
机器之心