AI在线 AI在线

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。 对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。 数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。

2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。

数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。同一时间,OpenAI 还发布了一个强化微调研究项目,鼓励学者专家们上传自己领域的独特数据,测试他们的强化微调能力。

1

这个结果很漂亮,用的技术正是已经广泛应用于 alignment, math, coding 领域的方法,其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用来对齐大模型与人类偏好性数据,训练数据的形式为(问题,回答 1,回答 2,偏好),让用户选择更喜欢的回答,学习人类的偏好,训练奖励模型(reward model)。给定 reward model 之后,用强化学习算法 (PPO, DPO)来微调模型参数,微调后的模型更容易生成用户喜欢的内容。

当求解 math 和 coding 问题时,每个问题都有正确答案。这时可以用 MCTS 等 RL 方法,生成大量的不同的求解轨迹,有的正确有的错误,用回答正确的轨迹做 SFT,或者用(正确解法,错误解法)的组合来做 RLHF。更进一步,可以把轨迹生成和 RLHF 微调这两步迭代起来,不断调整 reference policy,迭代不断提高正确率,如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少数据,就能再一些专家场景中,学会医疗诊断和科学决策,这个方法本质上还是 CoT+RL,其中 CoT 这步可以 brainstorm 增强生成多样的不同推理路径,然后根据答对没有来进行打分,再继续做 RL 微调并且迭代。CoT 可以是把一系列的科学 / 医疗常识串联起来。这些常识来自预训练。

难点在于如何定义什么是 RL 里的 state-transition, 也即一步的思维推理。每一步 state transition 是大模型已经学到的科学常识,再用 RL 找到通向高分的完整链路。关键问题是如何做到 token-level 和 full-response level RL 直接找到平衡点,也即如何描述”state”。token-level 的微调效率太低、不容易泛化;full-response level 又会迷糊了推理的过程。

更 fundamental 的问题是:何找到思维链里面的 “state” 呢,思维的 state representation 是不是已经在预训练里涌现出来了?有了合适的 state representation,RFT 就可以 easy, stable and robust。

3

Demo 里也能看出这个技术现阶段的局限性。罕见病排查,从医学角度重要,但是确实已知的科学,而且是已知科学问题中最简单的一类。罕见病的诊断往往有清晰的基因指标,和相对流程化的判别路径。之所以能用很少的数据就学会这个诊断过程,是因为很多人类专家任务的 know-how 其实是简单的决策树,几十个案例就足以囊括底层逻辑。

这类问题本质是多项选择题,只要选择有限,不同选项之间区分度大就很容易掌握。

这个 demo 还规避了 RLHF 里最难搞的 reward modeling 步骤,随便设定一个打分函数就能用,比如正确答案给 1 分,错误答案 0 分。

然而真正的科学问题,往往不是有固定选项的选择题,没有标准答案,如何定义 action,如何定义问题该怎么问,如何给新的科学概念一个定义一个名字,这才是最高级也最有挑战的科学难题。科学的数据也往往是 noisy 的,不是简单的多选题,没有清晰的决策树。

4

讲完了技术的潜力,我们来讨论风险。今天 OpenAI 发布 RFT 的同一时间,推出了强化微调研究项目。这个项目邀请全世界的科研人员提供他们领域的决策数据集,让 OpenAI 来测试其 RFT 推理决策能力,不断进化。

然而,看到这个项目的时候,让人冷汗不已。

今年夏天,我参加美国科学院召开的 AI for science 安全讨论会,包括诺奖获得者 David Baker 在内的很多研究者也在场。讨论会上,每个人都要回答为什么自己正在开发的 AI for science 技术是安全的,是可控的、可追踪的。

如果科学这颗宝石,如果都集中在了同一个非开源公司手里,那么我们造出的是新神,还是带上了无限手套的灭霸?

作者介绍

王梦迪现任普林斯顿大学电子与计算机工程系终身教授,并创立并担任普林斯顿大学 “AI for Accelerated Invention” 中心的首任主任。她的研究领域涵盖强化学习、可控大模型、优化学习理论以及 AI for Science 等多个方向。王梦迪曾先后在 Google DeepMind、高等研究院与 Simons 研究院担任访问学者,并荣获 MIT TR35、美国国家科学基金会(NSF)事业奖、Google 学者奖等多项荣誉。2024 年 7 月,她获颁 AACC Donald Eckman 奖,以表彰其在控制与动态系统、机器学习及信息论交叉领域所作出的杰出贡献。

原文链接:

https://zhuanlan.zhihu.com/p/11273216258?utm_medium=social&utm_psn=1848703455629303809&utm_source=wechat_timeline&utm_id=0

相关资讯

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/7/2024 4:56:00 PM
机器之心

自动学会工具解题,RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中,工具使用一直是克服语言模型计算局限性的关键路径。 不过,当今的大模型在使用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。 为了解决这些难题,来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL(Tool-Integrated Reinforcement Learning),该方法允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,而非受限于预定义的工具使用模式。
4/1/2025 6:48:00 PM
机器之心

New GoT-R1 Multimodal Model Released: Making AI Drawing Smarter, the New Era of Image Generation!

Recently, a research team from the University of Hong Kong, The Chinese University of Hong Kong, and SenseTime has released a remarkable new framework - GoT-R1. This innovative multimodal large model significantly enhances AI's semantic and spatial reasoning capabilities in visual generation tasks by introducing reinforcement learning (RL), successfully generating high-fidelity and semantically consistent images from complex text prompts. This advancement marks another leap forward in image generation technology.Currently, although existing multimodal large models have made significant progress in generating images based on text prompts, they still face many challenges when handling instructions involving precise spatial relationships and complex combinations.
6/26/2025 5:01:43 PM
AI在线
  • 1