AI在线 AI在线

工程

6.4万star的开源智能体框架全面重构!OpenHands重大升级,叫板OpenAI和谷歌

刚刚,OpenHands 开发团队发布了一篇新论文,正式宣布广受欢迎的软件开发智能体框架 OpenHands (GitHub star 已超 6.4 万)中的智能体组件完成了架构重构,即 OpenHands Software Agent SDK。 这一轮重新设计改进巨大,也让 OpenHands 从 V0 进化到了 V1。 包括:灵活性方面,他们设计了一个简洁的接口,在默认情况下仅需几行代码即可实现智能体,但又易于扩展为具有自定义工具、内存管理等功能的、功能齐全的复杂智能体。
11/8/2025 1:57:00 PM
机器之心

SimKO:缓解RLVR训练中的概率过度集中,优化pass@K性能

作者彭若天是西湖大学和浙江大学联培博士生,任毅是不列颠哥伦比亚大学博士,郁昼亮是香港中文大学博士生,刘威杨是香港中文大学计算机系助理教授,温研东是西湖大学人工智能系助理教授随着 Deepseek-R1,Kimi1.5 等模型展示了强化学习在提升大型语言模型复杂推理能力上的巨大潜力,使用可验证强化学习(RLVR)在数学、逻辑与编程等领域进行训练提升模型性能受到了广泛关注。 然而,尽管现有 RLVR 方法在提升模型的 pass@1 性能(单次尝试正确的概率)方面取得了显著成果,但其在 pass@K(K 次尝试中至少一次正确的概率,K1)上的性能相比基础模型却下降了。 这一现象表明,虽然模型在「利用」(Exploitation)单一正确路径的能力有所增强,但牺牲了对多样化正确解的「探索」(Exploration)能力。
11/8/2025 1:54:00 PM
机器之心

强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”

在大语言模型快速发展的今天,“记忆”正成为智能体能否真正具备长期智能的关键。 即使是支持百万级上下文的GPT-4.1,当交互持续增长时,成本和延迟依然会呈指数级上升。 于是,外部记忆系统应运而生——然而,大多数现有方案依赖人工规则与 prompt 指令,模型并不真正“理解”何时该记、记什么、如何更新。
11/7/2025 3:36:00 PM
机器之心

vivo AI Lab提出自我进化的移动GUI智能体,UI-Genie无需人工标注实现性能持续提升

本文来自于香港中文大学 MMLab 和 vivo AI Lab,其中论文第一作者肖涵,主要研究方向为多模态大模型和智能体学习,合作作者王国志,研究方向为多模态大模型和 Agent 强化学习。 项目 leader 任帅,研究方向为多模态大模型、Agent 及具身智能,指导教师是香港中文大学 MMLab 的李鸿升教授。 近年来,多模态大模型(MLLM)在理解和生成任务上取得了巨大突破。
11/7/2025 3:25:00 PM
机器之心

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。 可以说,业界「苦」LLM 效率久矣,为了解决这一瓶颈,研究人员进行了多种尝试。 其实从根本上分析,大型语言模型(LLM)的效率是受限于其逐个词元生成的顺序过程。
11/7/2025 1:12:00 PM
机器之心

在失败中进化?UIUC联合斯坦福、AMD实现智能体「从错误中成长」

人工智能(AI)正经历从「会做」到「做得可靠」的关键转变。 随着大语言模型(LLM)推动的智能体(Agent)广泛应用于自动任务分解、多步推理和复杂环境交互,智能体系统对自我反思与自我修正能力的需求日益突出。 然而,现有智能体一旦出现错误,往往缺乏自我诊断和纠错机制,这不仅影响性能,还对可解释性和安全性构成威胁。
11/7/2025 11:16:00 AM
机器之心

RLinf上新πRL:在线强化学习微调π0和π0.5

近年来,基于流匹配的 VLA 模型,特别是 Physical Intelligence 发布的 π0 和 π0.5,已经成为机器人领域备受关注的前沿技术路线。 流匹配以极简方式建模多峰分布,能够生成高维且平滑的连续动作序列,在应对复杂操控任务时展现出显著优势。 尽管如此,VLA 模型在训练过程中严重依赖于大规模、高质量的人类演示数据,而收集和标注这些数据的成本高昂且周期漫长。
11/6/2025 6:09:00 PM
机器之心

扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

本文由北京中关村学院、哈尔滨工业大学、中科院自动化所等多家单位作者共同完成,第一作者为北京中关村学院与哈尔滨工业大学联培博士生俞斌,指导教师包括:哈尔滨工业大学教授 & 哈工大青岛研究院院长王佰玲,北京中关村学院 & 中关村人工智能研究院具身智能方向负责人陈凯。 研究背景:Test-Time Scaling 的两种范式在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。 严格来说,Test-Time Scaling 分成两类:内部 Test-Time Scaling:以 DeepSeek-R1 为代表的推理型大模型通过拉长思维链来实现内部的测试时扩展。
11/6/2025 2:31:00 PM
机器之心

机械手真正「活」了,银河通用&清华推出DexNDM,用神经动力学重塑灵巧操作

DexNDM 成果第一作者为清华大学交叉信息研究院博士生刘雪怡,通讯作者为清华大学交叉信息研究院助理教授、上海期智研究院 PI 弋力,研发指导团队还包括北京大学助理教授王鹤与北京银河通用有限公司机器人使用灵巧手帮人类在工厂里拧螺丝,在家里切菜做饭的一天何时可以到来? 为了实现这一愿景,旨在解决灵巧操作技能 sim-to-real 难题的 DexNDM 应运而生。 论文标题:DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model论文链接:: 视频: – 高灵巧性复杂工具遥操作实现高灵巧性的复杂工具遥操作,例如控制机械手使用螺丝刀或锤子,是机器人领域一个长期存在的核心挑战。
11/6/2025 11:58:00 AM
机器之心

NeurIPS 2025 Spotlight | 选择性知识蒸馏精准过滤:推测解码加速器AdaSPEC来了

本文共同第一作者为加州大学伯克利分校的博士生胡越舟与清华大学的本科生郭佳鑫,通讯作者为佐治亚理工学院的副教授赵拓。 推测解码(Speculative Decoding, SD)通过使用一个较小的草稿模型(draft model)生成候选预测,再由更大的目标模型(target model)进行验证,从而显著加速大语言模型(LLM)的推理过程。 SD 的加速效果在很大程度上取决于两者之间的对齐程度。
11/6/2025 11:52:00 AM
机器之心

NeurIPS 2025 Spotlight | 你刷到的视频是真的么?用物理规律拆穿Sora谎言

作者张书海是华南理工大学博士四年级学生,主要研究方向为 AI 生成检测、对抗防御、模型加速等,在人工智能国际顶级会议 NeurIPS、ICML、ICLR、CVPR 和 IJCAI、ICCV 以及领域权威期刊 IEEE TIP、TCSVT 和 Neural Networks 发表论文共 15 篇。 随着生成式 AI(如 Sora)的发展,合成视频几乎可以以假乱真,带来了深度伪造与虚假信息传播的风险。 现有检测方法多依赖表层伪影或数据驱动学习,难以在高质量生成视频中保持较好的泛化能力。
11/5/2025 2:51:00 PM
机器之心

清北联合推出Motion Transfer,比肩Gemini Robotics,让机器人直接从人类数据中端到端学习技能

本文的作者来自清华大学、北京大学、武汉大学和上海交通大学,主要作者为清华大学硕士生袁承博、武汉大学本科生周睿和北京大学博士生刘梦真,通讯作者为清华大学交叉信息研究院的高阳助理教授。 近期,Google DeepMind 发布新一代具身大模型 Gemini Robotics 1.5,其核心亮点之一便是被称为 Motion Transfer Mechanism(MT)的端到端动作迁移算法 —— 无需重新训练,即可把不同形态机器人的技能「搬」到自己身上。 不过,官方技术报告对此仅一笔带过,细节成谜。
11/5/2025 12:59:00 PM
机器之心

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

扩散大语言模型得到了突飞猛进的发展,早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散大型语言模型,同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA,5 月份 Gemini Diffusion 也接踵而至。 种种迹象表明,扩散大语言模型很可能是下一代大语言模型基础范式的有力竞争者。 但是针对于扩散大语言模型的解码策略和强化学习算法仍然是欠探索的。
11/5/2025 12:54:00 PM
机器之心

让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成

本工作由南洋理工大学与腾讯 ARC 实验室联合完成。 本文的第一作者为南洋理工大学博士生刘坤昊。 本文的通讯作者为 ARC 资深研究员胡文博和南洋理工大学教授 Shijian Lu。
11/5/2025 10:13:00 AM
机器之心

震荡股市中的AI交易员:DeepSeek从从容容游刃有余? 港大开源一周8k星标走红

2025 年 10 月,美股经历了一轮典型的震荡行情:月初科技股强势反弹,月中通胀数据扰动市场,10 月 10 日前后纳指单日波动超过 3%。 就在这波谲云诡的市场环境中,港大黄超教授团队的开源 AI-Trader 项目正式启动实盘测试。 该项目上线一周时间在 GitHub 上获得了近 8K 星标,展现了社区对 AI 自主交易技术和金融市场分析的能力高度关注。
11/4/2025 5:14:00 PM
机器之心

多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动,很大程度上源于对「工具」的使用、理解与创造能力。 对任何通用型智能体而言,这同样是不可或缺的基本技能,对物理工具的使用会大大影响任务的成功率与效率。 尽管当下的多模态大模型在具身智能的高层任务规划以及低层动作执行方面都展现出很大的潜力,但它们是否真正「懂」物理工具、理解其运作原理,仍缺乏统一的量化评估。
11/4/2025 5:04:00 PM
机器之心

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio署名

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。 这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。 为解决这一问题,字节 Seed 团队联合多家机构推出了 Ouro,一类被称为循环语言模型(Looped Language Models)的新型预训练模型,其名称源于象征循环与自我吞噬的「衔尾蛇」(Ouroboros)。
11/4/2025 12:03:00 PM
机器之心

英伟达帮你省钱,让大模型推理「短而精」,速度快5倍

大模型推理到底要不要「长篇大论」? 过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。 如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。
11/4/2025 11:59:00 AM
机器之心