AI在线 AI在线

强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?

CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。 这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了! 从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。

CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。

这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了!从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。

具体来讲,CoRT 能让 AI 模型递归地思考它们的响应,生成替代性方案,并从中选择最佳的一个。

这就像赋予了 AI 自我质疑或反驳的能力,并一遍一遍地尝试。

通过将「结构化自我批判」和「递归思考模式」结合起来,提升语言模型的推理能力。

图片编辑助手\SCR-20250512-jzan.jpg

短短两周时间,CoRT 在 GitHub 的星标数已经快突破 2k 了。

image.png

GitHub 地址:https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts

从技术原理来讲,相较于传统的 CoT,CoRT 让语言模型不仅能分步骤思考,还能在思考过程中反复回头检查、修正,形成类似于人类的「反思性思维」或「内省」的推理路径。

然而,很多网友对 CoRT 的出现并没有感到太激动。CoRT 是让 LLM 更努力思考的不错技巧,但称不上什么新颖的 idea。它的工作原理就像一个加入了递归组件的元提示(meta-prompt)。

image.png

image.png

还有网友指出,这种方法在 2023 年的论文中《Improving Factuality and Reasoning in Language Models through Multiagent Debate》就出现了。

image.png

有网友发出疑问:CoRT 不就是现在大多数 LLM 的思考模式吗?

image.png

比如在 Cursor 中配置的 Gemini 2.5 Pro,它的 CoT 就是这样做的。模型会思考一分钟,并反驳自己的答案,直到找到最无力反驳的答案。

image.png

再比如,CoRT 不就是 Qwen 和 R1 中的「but wait」模式吗?模型一直思考,并自我反驳,两者似乎没有什么不同。

image.png

大家觉得,CoRT 是不是「新瓶装旧酒」呢?请在评论区留言。

项目介绍

根据项目介绍,CoRT 的诀窍在于以下四个方面:

  • 自我评估;
  • 有竞争力的替代生成方案;
  • 迭代优化;
  • 动态思维深度。

工作流程包括了以下四个步骤:

首先,AI 生成初始响应。

其次,AI 决定它需要多少轮「思考」。

接着,对于每一轮思考:

  • 生成 3 个替代性响应;
  • 评估所有响应;
  • 选择最佳响应。

最后,最终响应就是这场 AI 大混战的幸存者。

Web 界面使用方式(仍处于早期开发阶段)

一,打开 start_recthink.bat

二,等待一会,让它安装依赖项

三,配置成功

如果你是运行在 linux 系统上,则依如下:

image.png

打开一个新的壳层(shell):

image.png

效果怎么样呢?

作者使用 Mistral 3.1 24B 进行了测试,根据他的说法,CoRT 在编程任务中的表现从「meh」(一般般)升到了「holy crap」(碉堡了)。

我们来看一下示例,下图为 Mistral 3.1 24B+CoRT:

image.png

下图为 Mistral 3.1 24B 无 CoRT:

image.png

从结果来看,使用 CoRT 前后,Tic-tac-toe(井字棋)游戏从基础的 CLI(命令行界面)变成了完全的 OOP(面向对象编程)。

相关资讯

两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽
6/10/2024 5:42:53 PM
浩渺

易用性对齐 vLLM,推理效率提升超200%,这款国产加速框架什么来头?

一、行业背景2022 年 10 月,ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮,全球科技企业纷纷加入大语言模型的军备竞赛,大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型(Large Language Model,简称 LLM 大模型)指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数,训练时需要处理数万亿个 Token,这对显卡等算力提出了极高的要求,也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI
9/18/2024 10:37:00 AM
新闻助手

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/10/2025 1:15:00 PM
机器之心
  • 1