AI在线 AI在线

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

AK再次看衰RL本身,当然指的是长期来看刚刚Prime Intellect公司开源了一个叫Environments Hub的平台,简单来说Environments Hub是一个开源的的强化学习环境(RL environments)平台,强化学习环境被认为是下一波人工智能进步的关键瓶颈,但大型实验室正在将其锁定环境是Agent学习的地方,它们定义了世界、规则以及状态 → 动作 → 奖励的反馈循环。 从编程/数学任务到游戏和多轮对话评估,一切都可以被视为环境。 没有它们,强化学习就只是数学,没有任何交互可言详细内容看这里:,以下是AK的观点:在预训练(pretraining)时代,最重要的是互联网文本。

AK再次看衰RL本身,当然指的是长期来看

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

刚刚Prime Intellect公司开源了一个叫Environments Hub的平台,简单来说Environments Hub是一个开源的的强化学习环境(RL environments)平台,强化学习环境被认为是下一波人工智能进步的关键瓶颈,但大型实验室正在将其锁定

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

环境是Agent学习的地方,它们定义了世界、规则以及状态 → 动作 → 奖励的反馈循环。从编程/数学任务到游戏和多轮对话评估,一切都可以被视为环境。没有它们,强化学习就只是数学,没有任何交互可言

详细内容看这里:

https://www.primeintellect.ai/blog/environments

AK非常看好这个项目,以下是AK的观点:

在预训练(pretraining)时代,最重要的是互联网文本。你主要需要一个大规模、多样化、高质量的互联网文档集合来供模型学习

在监督微调(supervised finetuning)时代,关键则变成了对话。人们会雇佣合同工来为问题创建答案,有点像你在 Stack Overflow / Quora 等网站上看到的那样,但更专注于大型语言模型(LLM)的应用场景

以上两者都不会消失(在AK看来),但在当下的强化学习时代,核心要素变成了环境。与前两者不同,环境给了大型语言模型一个真正进行交互的机会——采取行动、观察结果等等。这意味着你有望做到比统计性的专家模仿好得多。并且,环境既可以用于模型训练,也可以用于评估。但和以前一样,现在的核心问题是需要一个大规模、多样化、高质量的环境集合,作为供大型语言模型练习的习题

在某些方面,这让AK想起了 OpenAI 的第一个项目(Gym),它正是一个希望在相同框架下构建大量环境集合的框架,但这远在大型语言模型出现之前。所以当时的环境都是一些简单的学术控制任务,比如车杆平衡、ATARI 游戏等

环境具有这样的特性:一旦框架的骨架搭建完成,原则上社区和行业就可以在许多不同领域并行推进,这非常令人兴奋

最后的想法——就个人和长期来看,AK十分看好环境和智能体交互(agentic interactions),但特别不看好强化学习本身。奖励函数非常可疑,而且AK认为人类学习时并不使用强化学习(也许在某些运动任务上会用,但在解决智力问题时不会)。人类使用的是不同学习范式,这些范式在能力和样本效率上要强大得多,但它们尚未被(在AI领域)真正地发明出来并规模化。尽管已经存在一些早期的草图和想法

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

Andrej Karpathy再次看衰强化学习:奖励函数非常可疑,RL环境才是最重要的

举一个例子,系统提示词学习(system prompt learning)这个概念,它将更新从权重转移到词元/上下文(tokens/contexts),然后可以选择性地通过一个独立的、有点像睡眠的过程,将学习成果蒸馏到权重中

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。
1/20/2025 10:36:00 AM
AIGC Studio

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。
1/20/2025 11:00:00 AM
AIGC Studio

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?
1/20/2025 1:08:25 PM
量子位
  • 1