CoT

CoT 的边界：模式匹配还是逻辑推理？数据分布如何决定CoT的成败

CoT 的边界：模式匹配还是逻辑推理？数据分布如何决定CoT的成败

大家好，我是肆〇柒。思维链，可能是大家刚接触“本届模型”（transformer 为架构的 LLM），学 prompt 时的一个必修课，大语言模型可以仿照人的链式思考模式来生成推理链，以辅助推理和解决问题。我看到一个研究论文，它从数据分布视角，深入剖析了大型语言模型(LLM)思维链(CoT)推理的本质，还挺有意思的，对我们理解 CoT 和模型推理边界，具有原理级的认知帮助。

8/13/2025 10:21:50 AM 肆零柒

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

北邮网安团队投稿. 量子位 | 公众号 QbitAI当推理链从3步延伸到50 步，幻觉率暴增10倍；反思节点也束手无策。来自北京邮电大学的研究团队通过思维链审计实验，首次定量揭示了这一“越想越错”现象背后的元认知偏差：.

7/3/2025 2:35:03 PM 不圆

Bengio亲手戳穿CoT神话！LLM推理是假象，25％顶会论文遭打脸

Bengio亲手戳穿CoT神话！LLM推理是假象，25％顶会论文遭打脸

图灵奖大牛Bengio新作上线了！这篇由牛津、谷歌DeepMind、Mila多家机构联手论文指出——思维链并非可解释性。这一观点彻底打破了许多人的认知：CoT看似一步步给出答案，实则并不一定是其真实的推理过程。

7/3/2025 1:45:00 AM 新智元

多种思维链-CoT

多种思维链-CoT

初步知识在本节中，我们提供了标准提示和思维链推理的初步知识。定义以下符号：问题 Q、提示T 、概率语言模型PLM 和预测A 。少样本标准提示少样本思维链提示思维链推理的优势作为一种新颖的推理范式，思维链推理具有多种优势：提升推理能力：思维链推理将复杂问题分解为可管理的步骤，并建立这些步骤之间的联系，从而促进推理。

12/18/2024 2:53:28 PM

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

OpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。比如给生造的词分类任务，GPT-4在zero-shot提示下的准确率高达94%，换成CoT的准确率却断崖式下跌到64.4%。内置CoT的o1-preview准确率更是只有57.7%。

11/4/2024 2:26:14 PM

还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

还是原装Transformer好！北大清华团队同时揭示Mamba等推理短板

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

10/21/2024 11:11:00 AM 机器之心

o1带火的CoT到底行不行？新论文引发了论战

o1带火的CoT到底行不行？新论文引发了论战

To CoT or not to CoT？OpenAI ο1 的诞生极大地提升了人们对 LLM 推理能力和思维链（CoT）的兴趣。一时之间，似乎思维链很快就会成为所有 LLM 的标配，但思维链并非万能，就连 OpenAI 自己也‍提到 o1 在某些任务上的表现并不比 GPT-4o 强，尤其是以语言为中心的任务。近日，一篇来自德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的论文引发了热议，其模仿莎士比亚《哈姆雷特》的台词提出了一个对 AI 研究者和实践者来说至关重要的问题：To CoT or not to

9/20/2024 1:35:00 PM 机器之心

CoT能让模型推理能力无上限？田渊栋、LeCun下场反对：两层MLP还能模拟全世界呢

CoT能让模型推理能力无上限？田渊栋、LeCun下场反对：两层MLP还能模拟全世界呢

「这相当于在理论上，两层神经网络在理论上可以拟合任何数据，我们就盲目相信并应用在所有场景中。」大模型新范式 OpenAI o1 一经发布，如何「复刻」出 o1 便成为了 AI 圈最热的话题。由于 OpenAI 对技术细节守口如瓶，想从 AI 那里「套话」，让它复述完整的内部推理过程，多问几句，OpenAI 直接发邮件警告要撤销你的使用资格。想从技术报告中想找出点蛛丝马迹，也同样困难。于是，大家将目光转向了以往类似的研究成果，希望从中找到些线索。比如，Google Brain 推理团队创建者 Denny Zhou 立

9/19/2024 5:51:00 PM 机器之心

GPT-4拿下最难数学推理数据集新SOTA，新型Prompting让大模型推理能力狂升

GPT-4拿下最难数学推理数据集新SOTA，新型Prompting让大模型推理能力狂升

模拟人类推理过程，华为诺亚提出 Progressive-Hint Prompting (PHP) 引导大模型渐近正确答案。

5/14/2023 12:22:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉