AI在线 AI在线

字节跳动推出 ProtoReasoning 框架:提升大语言模型的逻辑推理能力

近日,字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架,旨在通过逻辑原型来增强大语言模型(LLMs)的推理能力。 该框架利用结构化的原型表示,如 Prolog 和 PDDL,推动了跨领域推理的进展。 近年来,大语言模型在跨领域推理方面取得了显著突破,尤其是在长链推理技术的应用下。

近日,字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架,旨在通过逻辑原型来增强大语言模型(LLMs)的推理能力。该框架利用结构化的原型表示,如 Prolog 和 PDDL,推动了跨领域推理的进展。

image.png

近年来,大语言模型在跨领域推理方面取得了显著突破,尤其是在长链推理技术的应用下。研究发现,这些模型在处理数学、编程等任务时,表现出了在逻辑难题和创意写作等无关领域的优异能力。然而,这种灵活性背后的原因尚未完全明确。一种可能的解释是,这些模型学习到了核心推理模式,即跨领域的抽象推理原型,这些原型能够帮助模型更好地应对不同形式的问题。

ProtoReasoning 框架通过使用结构化的原型表示来提升模型的推理能力,具体包括两个主要模块:原型构建器和验证系统。原型构建器将自然语言问题转换为形式化的表示,而验证系统则负责检查解答的正确性。在 Prolog 的应用中,研究人员设计了一个四步管道,生成多样的逻辑问题,并通过 SWI-Prolog 进行验证。对于规划任务,研究团队使用 PDDL 构建计划生成、完成和重排任务,并通过 VAL 验证器进行正确性检查。

在对 ProtoReasoning 框架的评估中,使用了一个具有1500亿参数的专家模型(其中150亿为活跃参数),并在经过精心挑选的高质量 Prolog 和 PDDL 样本上进行训练。结果显示,在逻辑推理、规划以及多项基准测试中,模型均表现出了显著的提升。特别是与自然语言版本进行的对比实验显示,基于 Prolog 的训练在逻辑推理方面表现接近于自然语言版本,进一步验证了结构化原型训练的有效性。

ProtoReasoning 框架展示了抽象推理原型在促进大语言模型跨领域知识转移中的重要作用。尽管实验结果令人鼓舞,但关于推理原型的具体性质仍需进一步理论探讨。未来的研究将致力于通过数学形式化这些概念,并利用开源模型和数据集进行验证。

论文:https://arxiv.org/abs/2506.15211

划重点:

🌟 ProtoReasoning 框架利用 Prolog 和 PDDL 提升大语言模型的逻辑推理能力。  

🧠 通过结构化原型表示,模型在逻辑推理、规划和一般问题解决任务上显著提升。  

🔍 未来研究将探讨推理原型的理论基础,并验证实验结果的有效性。

相关资讯

对话上交苏剑波教授:直面手语的「方言」多样性与系统「通用性」挑战|GAIR live

作为上海交通大学自动化系的资深教授,苏剑波坚守着一条科研信条:研究工作需源源不断地注入活力。 他曾阐释这一理念:“一个研究者在踏入某一科学领域时,应选取一个能够长期深耕、并随着理论及技术进步而能不断更新研究内容的主题,这才是研究者始终能保持学术活力的根本原因。 ”苏教授的研究领域覆盖了智能机器人理论与技术、多传感器信息与智能融合、机器学习与人机交互等科学研究持续的热点领域。
3/15/2024 5:20:00 PM
吴彤

上海交大今年增加 150 名本科招生名额,扩招 AI、集成电路等学科

据上海交通大学公众号消息,2025年,学校将继续增加150名本科招生名额,重点面向国家急需的前沿技术和新兴业态,扩大人工智能、集成电路、生物医药、医疗健康、新能源等学科领域的招生规模。
3/5/2025 9:17:14 PM
清源

学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石"

【研究颠覆】清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。 研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。 【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval 等测试中单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略【学界争议】研究结果引发学界激烈讨论:支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理【本质思考】研究团队提出关键区分:能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
4/23/2025 2:00:43 PM
AI在线
  • 1