ACL 2025
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
本文第一作者是张清杰,清华大学博士生,研究方向是大语言模型异常行为和可解释性;本文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和蚂蚁集团。 反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。 然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。
7/14/2025 1:19:00 PM
机器之心
7月19日,相聚北京!一起聊聊ACL 2025爆点研究
2025 年,AI 领域依旧是让人兴奋的一年。 在这一年中,各大科技公司、机构发布了数不胜数的研究。 从年初的 DeepSeek,到最近的视频生成模型 Veo 3,我们见证了 AI 一轮又一轮的轰炸,AI 给我们带来了意想不到的惊喜。
7/10/2025 5:11:00 PM
机器之心
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算法研究所(Mila)进行学术访问。 他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计在 GitHub 上获得超过 5万 stars。
7/9/2025 12:46:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
智能体
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
AI新词
神经网络
3D
Claude
研究
LLM
生成
机器学习
计算
Sora
AI for Science
人形机器人
AI视频
AI设计
GPU
xAI
华为
百度
搜索
大语言模型
Agent
场景
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
具身智能
亚马逊
Copilot
模态
AGI
LLaMA
文本
算力
驾驶