CoT
CoT 的边界:模式匹配还是逻辑推理?数据分布如何决定CoT的成败
大家好,我是肆〇柒。 思维链,可能是大家刚接触“本届模型”(transformer 为架构的 LLM),学 prompt 时的一个必修课,大语言模型可以仿照人的链式思考模式来生成推理链,以辅助推理和解决问题。 我看到一个研究论文,它从数据分布视角,深入剖析了大型语言模型(LLM)思维链(CoT)推理的本质,还挺有意思的,对我们理解 CoT 和模型推理边界,具有原理级的认知帮助。
8/13/2025 10:21:50 AM
肆零柒
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
北邮网安团队 投稿. 量子位 | 公众号 QbitAI当推理链从3步延伸到50 步,幻觉率暴增10倍;反思节点也束手无策。 来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:.
7/3/2025 2:35:03 PM
不圆
Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸
图灵奖大牛Bengio新作上线了! 这篇由牛津、谷歌DeepMind、Mila多家机构联手论文指出——思维链并非可解释性。 这一观点彻底打破了许多人的认知:CoT看似一步步给出答案,实则并不一定是其真实的推理过程。
7/3/2025 1:45:00 AM
新智元
多种思维链-CoT
初步知识在本节中,我们提供了标准提示和思维链推理的初步知识。 定义以下符号:问题 Q、提示T 、概率语言模型PLM 和预测A 。 少样本标准提示少样本思维链提示思维链推理的优势作为一种新颖的推理范式,思维链推理具有多种优势:提升推理能力:思维链推理将复杂问题分解为可管理的步骤,并建立这些步骤之间的联系,从而促进推理。
12/18/2024 2:53:28 PM
慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
OpenAI o1彻底带火慢思考和思维链(CoT)方法,但CoT在某些任务上反而会降低模型表现。 比如给生造的词分类任务,GPT-4在zero-shot提示下的准确率高达94%,换成CoT的准确率却断崖式下跌到64.4%。 内置CoT的o1-preview准确率更是只有57.7%。
11/4/2024 2:26:14 PM
还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
10/21/2024 11:11:00 AM
机器之心
o1带火的CoT到底行不行?新论文引发了论战
To CoT or not to CoT?OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链(CoT)的兴趣。一时之间,似乎思维链很快就会成为所有 LLM 的标配,但思维链并非万能,就连 OpenAI 自己也提到 o1 在某些任务上的表现并不比 GPT-4o 强,尤其是以语言为中心的任务。近日,一篇来自德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的论文引发了热议,其模仿莎士比亚《哈姆雷特》的台词提出了一个对 AI 研究者和实践者来说至关重要的问题:To CoT or not to
9/20/2024 1:35:00 PM
机器之心
CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两层MLP还能模拟全世界呢
「这相当于在理论上,两层神经网络在理论上可以拟合任何数据,我们就盲目相信并应用在所有场景中。」大模型新范式 OpenAI o1 一经发布,如何「复刻」出 o1 便成为了 AI 圈最热的话题。由于 OpenAI 对技术细节守口如瓶,想从 AI 那里「套话」,让它复述完整的内部推理过程,多问几句,OpenAI 直接发邮件警告要撤销你的使用资格。想从技术报告中想找出点蛛丝马迹,也同样困难。于是,大家将目光转向了以往类似的研究成果,希望从中找到些线索。比如,Google Brain 推理团队创建者 Denny Zhou 立
9/19/2024 5:51:00 PM
机器之心
GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升
模拟人类推理过程,华为诺亚提出 Progressive-Hint Prompting (PHP) 引导大模型渐近正确答案。
5/14/2023 12:22:00 PM
机器之心
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
生成
人形机器人
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
MCP