AI在线 AI在线

practice

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

本文第一作者是张清杰,清华大学博士生,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和蚂蚁集团。 反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。 然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。
7/14/2025 1:19:00 PM
机器之心

ICCV 2025满分论文:一个模型实现空间理解与主动探索大统一

本论文核心团队来自北京通用人工智能研究院机器学习实验室,团队负责人李庆博士长期从事多模态理解、多模态智能体、具身智能等方向,主页:,人工智能正逐步从虚拟的互联网空间(Cyber Space)迈向真实的物理世界(Physical Space)[1]。 这一转变的核心挑战之一,是如何赋予智能体对三维空间的理解能力 [2],实现自然语言与真实物理环境的对齐(grounding)。 尽管已有的 3D 空间理解模型在视觉感知和语言对齐方面取得了显著进展,但它们普遍依赖于静态的世界的观察,缺乏对主动探索行为的建模。
7/14/2025 11:18:00 AM
机器之心

英伟达&MIT等推出Long-RL,长视频训练速度翻倍

请想象……一个 AI—— 它要完整看完一场几十分钟的世界杯决赛,不只是数球门数,更要跨越上百个镜头的线索、情绪、战术细节,甚至要像人一样推断:谁会赢点球大战?       足球比赛预测分析预测《星际争霸 2》这样的即时战略游戏同样需要考虑许多不同的变量,难度也非常巨大。       星际争霸 2 比赛预测分析再换个场景:同样是 AI,在一场紧张的德州扑克超级豪客赛上,面对职业牌手的每一次下注、加注、弃牌,能否像一个顶尖牌手一样,推理出对手藏在手里的那两张底牌?
7/14/2025 11:09:00 AM
机器之心
  • 1