AI在线 AI在线

ACL 2025

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

本文第一作者是张清杰,清华大学博士生,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和蚂蚁集团。 反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。 然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。
7/14/2025 1:19:00 PM
机器之心

7月19日,相聚北京!一起聊聊ACL 2025爆点研究

2025 年,AI 领域依旧是让人兴奋的一年。 在这一年中,各大科技公司、机构发布了数不胜数的研究。 从年初的 DeepSeek,到最近的视频生成模型 Veo 3,我们见证了 AI 一轮又一轮的轰炸,AI 给我们带来了意想不到的惊喜。
7/10/2025 5:11:00 PM
机器之心

给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案

朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算法研究所(Mila)进行学术访问。 他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计在 GitHub 上获得超过 5万 stars。
7/9/2025 12:46:00 PM
机器之心
  • 1