AI在线 AI在线

全面超越CoT!Meta田渊栋团队新作:连续思维链

比思维链更厉害的方法是什么? 答:连续思维链。 近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。

比思维链更厉害的方法是什么?

答:连续思维链。

近日,Meta田渊栋团队提出了针对LLM推理任务的新范式:Coconut( Chain of Continuous Thought)。

图片

论文地址:https://arxiv.org/pdf/2412.06769

论文一作是来自UC San Diego的Shibo Hao,对于文章的爆火,田渊栋也发文感谢了「小天才」Tanishq Mathew Abraham的推荐。

图片

注:Tanishq Mathew Abraham,19岁(去年)读完博士,目前是Stability AI的研究总监以及MedARC的创始人。

回到这篇文章,连续思维链是什么?

小编在之前曾介绍过微软发明的「LLM语言」:让AI用模型的中间数据进行交流,不必转换成人类的语言,交互效率直接翻倍。

而在LLM的推理过程中,也是这么个情况。

人类的语言并不适合推理,让AI自己思考就行了,思考过程没必要转换成人类语言。

所以,在形式上,本文的方法就是推理时去掉模型头尾的LLM head和embedding层,使用中间状态进行自回归,只在输出最终答案时才转成人类语言。

图片

当然了,Coconut要搭配相应的训练,才能展现自己的性能:

图片

这效果还是很强的,分数和CoT打平的同时,token数少了好几倍。

——看来抛弃人类的束缚才是真理,感觉这个点还能继续搞下去,

最后的最后就会发展成:AI之间说了什么我们听不懂,AI心里怎么想的我们也不知道。

AI:I'm free。

论文细节

基于语言空间进行推理的LLM,会遇到一个严重的问题:每个特定token所需的推理量差异很大。

推理链中的大多数token都是为了流畅性而生成的,对实际推理过程的贡献很小,但当前的LLM架构分配了几乎相同的计算来预测每个token。

另一方面,神经影像学研究也表明,语言网络(大脑中负责语言理解和产生的区域)在各种推理任务中基本不活跃。

所以,语言空间可能并不是推理的最佳选择,理想的LLM应该自由进行推理,不受任何语言限制。

图片

Coconut不进行隐藏状态和语言之间的映射,这种修改将推理从语言空间内解放出来,并且系统可以通过梯度下降进行端到端优化,因为连续思维是完全可微分的。

为了加强潜在推理的训练,本文采用了多阶段训练策略,有效利用语言推理链来指导训练过程。

另外,与基于语言的推理不同,Coconut中的连续思考可以同时编码多个可能的后续步骤,从而允许类似于广度优先搜索(BFS)的推理过程。

虽然模型可能无法在最初做出正确的决定,但它可以在连续的思考中保持许多可能的选择,并在一些隐含价值函数的指导下,通过推理逐步消除不正确的路径。

训练过程

在训练时,模型接收问题作为输入,并期望通过推理过程生成答案。作者利用语言CoT数据来监督持续思考,实施多阶段训练。

图片

如图2所示,初始阶段,模型在常规CoT实例上进行训练。后续阶段(第k阶段),CoT中的前k个推理步骤被k × c个连续思维所取代,(c为超参数,控制取代单个语言推理步骤的潜在思维的数量)。

作者在训练阶段切换时重置优化器状态,插入<bot>和<eot> token来封装连续的思维。

在训练过程中,作者优化了正常的负对数似然损失,但屏蔽了问题和潜在思维的损失。另一个关键点是,目标函数并不鼓励使用连续的思维来压缩语言思维,而是促进对未来推理的预测。

因此,与人类语言相比,LLM可以从中学习更有效的推理步骤表示。

连续思维是完全可微分的,允许反向传播。不过Coconut的训练效率仍然有待优化:虽然可以通过使用KV cache来避免重复的计算,但多个前向传递的顺序性阻碍了并行训练。

Coconut的推理过程可以看成是在latent和language模式之间切换。

对于思考的终止位置,作者考虑了两种可能的策略:a)在潜在思维上训练二元分类器,使模型能够自主决定何时终止潜在推理;b)始终将潜在思维填充到恒定的长度。

作者发现这两种方法的效果都不错。为了简单起见,以下实验中使用第二个选项。

实验

研究人员通过在三个数据集上的实验,验证了LLM在连续潜在空间中进行推理的可行性。这里将模型生成的答案与真实值进行比较来评估准确性,并且分析每个问题新生成的token数量,作为推理效率的衡量标准。

数学推理使用GSM8k作为数据集,由小学水平的数学问题组成,问题更加多样化,与现实世界的用例非常相似。

逻辑推理涉及使用逻辑规则和已知条件来证明或反驳结论。这要求模型从多个可能的推理路径中进行选择,正确的决策通常依赖于提前探索和规划。

这里使用带有虚构概念名称的5-hop ProntoQA。对于每个问题,都会随机生成一个树形结构的本体,并以自然语言描述为一组已知条件,要求模型根据这些条件判断给定的陈述是否正确。

作者发现ProntoQA的生成过程比较困难,因为本体中分散注意力的分支总是很小,从而减少了对复杂规划的需求。

为了解决这个问题,本文应用了新的数据集构建管道,使用随机生成的DAG来构建已知条件。生成的数据集要求模型对图进行大量规划和搜索,以找到正确的推理链。这个新数据集被称为ProsQA,如下图所示。

图片

实验考虑以下基线:

1)CoT:使用完整的推理链来训练语言模型,并进行监督微调,推理过程中,模型先生成推理过程再输出回答。

2)No-CoT:LLM直接生成答案。

3)iCoT:使用语言推理链进行训练,并将CoT 「内化」。训练过程中,推理链开头的token会逐渐被移除,最后只剩下答案。推理过程中,模型直接预测答案。

4)Pause token:模型仅使用问答进行训练,没有推理链。但在问题和答案之间插入了特殊token,为模型提供了额外的计算能力来得出答案。

实验还评估了本文方法的一些变体:

1)w/o curriculum:直接使用最后阶段的数据,不进行多阶段训练。

2)w/o thought:使用多阶段的训练,逐渐去除语言推理步骤,但不使用任何连续的潜在思维。这在概念上与iCoT相似,但实际的训练过程与Coconut保持一致。

3)Pause as thought:使用特殊的<pause> token来代替连续的思考,并应用与Coconut相同的多阶段训练。

图片

表1显示了所有数据集的总体结果。Coconut的效率很高,并且在ProntoQA和ProsQA上显示出比CoT更好的性能。

图片

上图展示了Coconut将不同痕迹的分布编码到连续的思想中,为规划密集型推理任务启用了更高级的推理模式。

图片

图5显示了ProsQA上不同推理方法的比较分析。随着更多地通过连续思考(增加k)进行推理,最终答案的准确性(左)和正确推理过程的速率(右)都会提高。

此外,「幻觉」和「错误目标」的发生率会降低,这也说明当潜在空间发生更多推理时,规划能力会更好。

图片

图6显示了一个案例研究,其中CoT产生幻觉(一个不存在的边)导致了错误的目标,但Coconut(k=2)成功解决了这个问题。潜在推理可以避免预先做出艰难的选择,模型可以在后续步骤中逐步消除不正确的选项,并在推理结束时获得更高的准确性。

相关资讯

如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

最近的大型语言模型(LLMs)进步已经使我们处于革命性的时代,尤其是 LLMs 驱动的智能 Agents 在广泛任务中展现出了通用性和有效性。这些被称为「AI 科学家」的 Agent 已经开始探寻其在生物学和化学等各种领域内进行自主科学发现的潜力。此类 Agents 已经表现出了选择适合任务的工具,规划环境条件,以及实现实验自动化的能力。因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 A
2/20/2024 11:54:00 AM
ScienceAI

解开化学语言模型中的「黑匣子」,Transformer可快速学习分子的部分结构,但手性学习困难

编辑 | X近年来,自然语言处理(NLP)模型,特别是 Transformer 模型,已应用于像 SMILES 这样的分子结构的文字表示。然而,关于这些模型如何理解化学结构的研究很少。为了解决这个黑匣子,东京大学的研究人员使用代表性的 NLP 模型 Transformer 研究了 SMILES 的学习进度与化学结构之间的关系。研究表明,虽然 Transformer 可以快速学习分子的部分结构,但它需要扩展训练才能理解整体结构。一致的是,从训练开始到结束,使用不同学习步骤的模型生成的描述符进行分子特性预测的准确性是相
2/26/2024 4:42:00 PM
ScienceAI

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

编辑 | KX生成式深度学习正在重塑药物设计。化学语言模型 (CLM) 以分子串的形式生成分子,对这一过程尤为重要。近日,来自荷兰埃因霍芬理工大学(Eindhoven University of Technology)的研究人员将一种最新的深度学习架构(S4)引入到从头药物设计中。结构化状态空间序列(Structured State Space Sequence,S4)模型在学习序列的全局属性方面表现卓越,那么 S4 能否推进从头设计的化学语言建模?为了给出答案,研究人员系统地在一系列药物发现任务上对 S4 与最先
8/2/2024 3:20:00 PM
ScienceAI

成功率提升15%,浙大、碳硅智慧用LLM进行多属性分子优化,登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。 虽然人工智能很适合处理平衡多个(可能相互冲突的)优化目标的任务,但是例如多属性标记训练数据的稀疏性等技术挑战,长期以来阻碍了解决方案的开发。 在最新的研究中,浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。
10/23/2024 2:06:00 PM
ScienceAI

AI搞科研?西湖大学发布「AI科学家」Nova,效果比SOTA竞品提升2.5倍

编辑 | ScienceAI伟大科学家的研究,往往开始于一个小的灵感、小的创意。 长久以来,科学创新与研究能力被视为人类在人工智能时代中坚守的一片独特领地。 然而,一篇来自西湖大学深度学习实验室的论文在科学界掀起了波澜。
10/24/2024 11:55:00 AM
ScienceAI

量化617,462种人类微蛋白必需性,北大LLM蛋白质综合预测与分析,登Nature子刊

编辑 | 萝卜皮人类必需蛋白(HEP)对于个体的生存和发育必不可少。 然而,鉴定 HEP 的实验方法通常成本高昂、耗时费力。 此外,现有的计算方法仅在细胞系水平上预测 HEP,但 HEP 在活体人类、细胞系和动物模型中有所不同。
12/9/2024 11:55:00 AM
ScienceAI

LLM时代,计算蛋白质科学进展如何?香港理工大学等发布系统性综述

编辑丨coisini作为生命的基本构建单元,蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色,例如新陈代谢、信号传导、免疫反应等。 如下图所示,蛋白质遵循序列 - 结构 - 功能范式。 图注:蛋白质遵循序列-结构-功能范式。
2/7/2025 6:25:00 PM
ScienceAI

本地部署 DeepSeek:打造你的专属 AI 推理环境,简单明了适合新手

随着 AI 大模型的爆发,DeepSeek 作为一款备受瞩目的开源大模型,吸引了众多开发者的关注。 如何在本地搭建 DeepSeek 推理环境,以便更高效地进行 AI 研究和应用开发? 本篇文章将为你详细解析本地部署 DeepSeek 的完整流程,让你轻松打造属于自己的 AI 推理环境。
2/12/2025 11:59:15 AM
派大星

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

编辑 | ScienceAI2025 年初,DeepSeek给全球引发了 AI 大模型的新一轮热议。 多家市场咨询公司指出,在 DeepSeek 的影响下,从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。  DeepSeek R1 以其强大的推理能力,为各行各业带来了智能化升级新机遇。
2/21/2025 4:03:00 PM
ScienceAI

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

大语言模型(Large Language Models, LLMs)在面对专业领域知识问题的时候,经常会生成偏离既定事实的回复,或模糊不清的回答,从而带来了潜在应用风险。 检索增强生成(Retrieval-Augmented Generation, RAG)通过构建特定领域知识库,采用基于向量的检索技术来提取与给定查询相关的信息,从而使LLM能够生成更准确、更可靠的内容。 然而,现有的基于图的RAG方法受限于仅能表示实体之间的成对关联,无法表示那些更复杂的多实体间的群组高阶关联,导致数据结构化过程中这些高阶信息的丢失。
4/21/2025 8:45:00 AM
新智元

字体控狂喜!Liblib AI 黑科技 RepText:无需理解文字,AI就能 1:1 复刻多国语言视觉效果

Liblib AI提出了 RepText,可以使预训练的单语文本转图像生成模型能够以用户指定的字体准确渲染,或者更准确地说,复制多语种视觉文本,而无需真正理解这些字体。 这样不管是中文、日文、韩文还是其他语言都可以精准的生成! 从某种意义上说也算是打破了AI图文生成语言的壁垒!
5/9/2025 9:12:00 AM

CVPR 2025 | 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。 为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(Null space of HalluSpace)。 论文地址:::从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。
6/30/2025 8:15:00 AM

视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划

——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

我们终于摆脱 tokenization 了吗? 答案是:可能性无限大。 最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。
7/14/2025 8:50:00 AM

四款扩散大语言模型全部破防?上交&amp;上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。 团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。
8/20/2025 9:13:00 AM

牛津大学警告:越“温暖”的 AI,越爱胡说八道,温柔体贴=更高错误率

牛津大学的一支研究团队发现,越是表现出温暖和同理心的语言模型,越容易出错,甚至更频繁地重复虚假信息和阴谋论。 这次,研究团队测试了五个不同架构和规模的模型,包括Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o。 研究发现,温暖的模型在推广阴谋论、提供不正确的医疗建议和事实信息方面,表现出更高的错误率。
8/25/2025 12:02:00 AM

AI为啥总“一本正经胡说八道”?OpenAI发长篇论文解释了

相信很多同学都遇到过——问大模型一个冷门知识,它会一本正经地给出完全错误的答案。 比如:复制OpenAI(2025a)三次回答分别是 03-07、15-06、01-01,没一次对。 这就是典型的 Hallucination(幻觉)——语言模型生成看起来合理,实则错误离谱。
9/23/2025 9:44:02 AM
架构精进之路
  • 1