AI在线 AI在线

开源Llama版o1来了,3B小模型反超80B,逆向工程复现OpenAI新Scaling Law

o1完整版公开仅10天,Scaling Law新范式就被逆向工程复现了! Hugging Face官方发文,开源了扩展测试时计算的方法。 用在小小小模型Llama 1B上,数学分数直接超过8倍大的模型,也超过了计算机科学博士生的平均分数(40%)。

o1完整版公开仅10天,Scaling Law新范式就被逆向工程复现了!

Hugging Face官方发文,开源了扩展测试时计算的方法。

用在小小小模型Llama 1B上,数学分数直接超过8倍大的模型也超过了计算机科学博士生的平均分数(40%)。

图片

那么用在Llama 3B上呢?进步幅度更大,甚至能和20几倍大的70B模型媲美。

图片

虽然OpenAI o1的配方完全保密,没有发布实现细节或代码,但团队基于DeepMind公布的研究结果,完成了自己的实验。

图片

在DeepMind研究的基础上,Hugging Face团队做出如下改进:

  • 多样化验证器树搜索(Diverse Verifier Tree Search),一种简单而有效的方法,可以提高多样性和更高性能,特别是在算力预算充足的情况下。
  • 开源轻量级工具包Search and Learn,与推理框架vLLM配合,快速构建搜索策略

测试时计算扩展策略

目前扩展测试时计算主要有两种策略:自我优化和搜索。

自我优化中,模型识别和纠正后续迭代中的错误来迭代优化自己的输出或“想法”。

团队认为虽然此策略对某些任务有效,但通常要求模型具有内置的自我优化机制,这可能会限制其适用性。

搜索方法侧重于生成多个候选答案并使用验证器选择最佳答案。

搜索策略更灵活,可以适应问题的难度。Hugging Face的研究主要聚焦于搜索方法,因为实用且可扩展。

其中验证器可以是任何东西,从硬编码到可学习的奖励模型,这里将重点介绍可学习的验证器。

具体来说,研究涉及三种搜索策略:

图片

  • Best-of-N

为每个问题生成多个响应,并使用奖励模型为每个候选答案分配分数。选择分数最高的答案(或加权变体),这种方法强调答案质量而不是频率。

  • Beam search

一种探索解决方案空间的系统搜索方法,通常与过程奖励模型 (PRM) 相结合,以优化解决问题中中间步骤的采样和评估。与在最终答案上产生单个分数的传统奖励模型不同,PRM提供一系列分数,推理过程的每个步骤分配一个分数。这种提供精细反馈的能力使PRM非常适合大模型。

  • 多样化的验证器树搜索 (DVTS)

新开发的Beam search变体,它将初始Beam拆分为独立的子树,然后使用PRM做贪婪扩展。这种方法可以提高解决方案的多样性和整体性能,尤其是在测试时算力预算较大的情况下。

实验设置:3种搜索策略PK

图片

  • 首先将数学问题提供给大模型,生成N个中间步骤。
  • 每个步骤都由PRM评分,估计每个步骤最终能得出正确答案的概率。
  • 给定的搜索策略使用这些步骤和PRM分数,来选择应该进一步探索哪些方向,生成下一轮中间步骤。
  • 搜索策略终止后,PRM将对最终候选解决方案进行排名,以生成最终答案。

为了比较各种搜索策略,研究中使用了以下开放模型和数据集:

语言模型,Llama-3.2-1B-Instruct作为主要实验对象,因为轻量级模型可以快速迭代,并且在数学基准测试中性能不饱和

流程奖励模型,使用了Llama3.1-8B-PRM-Deepseek-Data,与语言模型同属一个系列,且在测试中给出了更好的结果。

数据集,使用MATH基准测试的子集MATH-500,该子集由OpenAI发布,数学问题横跨7个科目,对人类和大多数模型来说都有挑战性。

实验结果:动态分配策略达到最优

首先,多数投票策略比贪婪解码基线有显著改进,收益在大约N=64后趋于稳定。

团队认为,之所以出现这种限制,是因为多数投票难以解决需要细致入微推理的问题,或者解决几个答案错到一块去的任务。

图片

奖励模型加入后的策略,表现均有提高。

Best-of-N策略分为两种变体,原版(Vanilla)不考虑答案之间的一致性,加权版(Weighted)汇总所有结果相同的答案,并选择总分数最高的。

结果发现加权版始终优于原版,特别是在算力预算大的时候更明显,因为确保了频率较低但质量较高的答案也能获选。

图片

Beam Search策略终于让1B模型表现开始高于8B。

但Beam Search并不是万金油方法,在简单的问题上表现反而不如Best-of-N。

团队通过查看结果树,发现如果一个中间步骤获得了高分,那么整个树就会坍塌到这一步,影响了后续答案的多样性。

图片

最终,DVTS方法改进了答案的多样性,该方法与Beam Search相比有以下不同之处:

  • 对于给定的Beam宽度(M)和生成数量N,初始Beam集设定为N/M个独立子树
  • 对于每个子树,选择PRM分数最高的步骤
  • 生成M个新的下一步,继续选择分数最高的
  • 重复这个过程,直到生成EOS token后终止,或达到最大深度

图片

在对问题难度细分后,发现DVTS方法在N比较大时增强了对简单/中等难度问题的性能。

而Beam Search在N比较小时仍然表现最好。

图片

最终基于问题难度动态分配策略的方法可以取得最佳成绩。

图片

最后团队提出,未来这项技术还有更多值得探索的地方:

  • 更强大的验证器,提高其稳健性和泛化能力至关重要。
  • 最终目标是实现自我验证,目前在实践中仍然难以实现,需要更细致的策略。
  • 在生成过程中加入明确的中间步骤或 “想法” ,通过将结构化推理整合到搜索过程中,可以在复杂任务中获得更好的性能。
  • 搜索方法可以用于合成数据,创建高质量的训练数据集
  • 开放的流程奖励模型目前数量较少,是开源社区可以做出重大贡献的领域
  • 目前的方法在数学和代码等领域表现出色,这些问题本质上是可验证的,如何将这些技术扩展到结构性较差或评判标准主观的任务,仍是一个重大挑战。

评论区有网友表示,这种方法更适合本地部署,而不是API调用,因为调用256次3B模型和过程奖励模型,通常会比调用一次70B模型更贵。

图片

也有人建议在Qwen系列模型上尝试,以及指路天工Skywork发布了两个基于Qwen的PRM模型

图片

开源代码:https://github.com/huggingface/search-and-learn

相关资讯

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

Stable Diffusion 3 开源倒计时,2B 单机可跑碾压闭源 Midjourney

【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离 2 月 SD3 的横空出世,已经过去了 4 个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的 MMDiT 全新架构,将彻底改变 AI 生图的格局。现在,全体 AI 社区都在翘首以盼。万众瞩目的 Stable Diffusion 3,终于要正式开源了!几天前,在 Computex 2024 大会上,Stability AI 联合首席执行官 Christian Laforte 正式官宣:SD 3 Medium 将在
6/12/2024 3:50:42 PM
清源

WOT大会日程上线:我们找来数十位大模型实践企业现身说法

这两天的技术圈里,估计大家都在摩拳擦掌等待体验OpenAI的GPT-4o(o为Omni缩写,意为“全能”)有多“全能”吧。我们无意给市场泼冷水,只是要提醒大家,想要让大模型真正落地,市场的热,并不意味着应用实践的成熟。尤其在企业级场景中,为什么大模型落地理想很丰满现实很骨感?为什么很少有企业能把大模型用在核心业务中?是不想用、还是用不好?在即将于6月21-22日在北京召开的WOT全球技术创新大会上,经过持续数月的发掘、走访、调研,我们找来了数十位已经在大模型应用上起跑并领先半个身位的实践企业,力求给你启发和答案。倾
5/20/2024 5:30:00 PM
新闻助手

2024 世界人工智能大会线下参观人数创历史新高,预计总投资额超 400 亿元

2024 世界人工智能大会(WAIC 2024)暨人工智能全球治理高级别会议闭幕式于今日下午举行。截至今日 14 时,大会线下参观人数突破 30 万人次,全网流量突破 10 亿,比上届增长了 90%,均创下历史新高。据悉,本次大会对接 132 个采购团组,形成了 126 个项目采购需求,预计意向采购金额达 150 亿元,推动 24 个重大产业项目的签约,预计总投资额超过 400 亿元。本次大会的展览面积超过 5.2 万平方米,500 余家知名企业、超过 1500 项展品参展,50 余款新品首发首秀,均创历史新高。A
7/6/2024 5:38:56 PM
清源

“最强开源 AI 模型”,4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布

感谢科技媒体 The Information 本周五发布博文,援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B,在现有 80 亿和 700 亿参数两个版本之外,推出 4050 亿参数版本,号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多的信息。AI在线注:上图为机翻字幕,存在错误报道称 Llama 3-405B 是一个多模态 AI 开源模型,
7/13/2024 8:09:19 AM
故渊

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布 :前三名文科过一本,理科过二本

感谢上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”测试结果显示,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲;前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。从
7/18/2024 2:56:18 PM
清源

开源是未来 AI 之路,扎克伯格:Meta 要将 Llama 打造成为“AI 界的 Linux”

Meta 创始人兼首席执行官马克・扎克伯格(Mark Zuckerberg)昨日(7 月 23 日)发布博文,表达了他对开源 AI 生态系统的愿景,认为 Llama 有潜力成为“AI 界的 Linux”。扎克伯格表示 Linux 凭借着开源特性,近乎成为通过其开源特性已成为云计算和移动操作系统的行业标准,而 Meta 公司希望将 Llama 打造成 AI 领域的 Linux。扎克伯格阐述了开源人工智能为何有利于开发者和行业的理由,AI在线简要梳理如下:训练、微调和蒸馏自己的 AI 模型每个组织都有不同的需求,而满足
7/24/2024 1:51:07 PM
故渊

腾讯版Sora发布即开源!130亿参数,模型权重、推理代码全开放

130亿参数,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法等全部上传GitHub与Hugging Face,一点没藏着。 实际效果如何呢?
12/3/2024 3:51:45 PM
量子位

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型! 新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。 (老规矩,GitHub、抱抱脸、魔搭直通车可见文末)在两款大模型的研发过程中,双方在算力算法、场景训练等领域优势互补,“显著增强了多模态大模型的性能表现”。
2/18/2025 1:30:00 PM
量子位

智谱华章完成超10亿元融资 计划开源新一代大模型

近日,北京智谱华章科技有限公司宣布其最新一轮战略融资金额超过10亿元人民币。 这轮融资的参与方包括杭州城投产业基金和上城资本等,显示了市场对智谱的强大信心与支持。 作为国内最早开源大模型的 AI 公司之一,智谱的目标是在2025年成为其开源发展的关键年份。
3/3/2025 10:04:00 AM
AI在线

阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑

凌晨,阿里重磅开源全球最顶尖AI模型——通义千问QwQ-32B推理模型。 它仅用320亿参数,便与目前公认的开源最强6710亿参数的满血版DeepSeek-R1(370亿被激活)相媲美。 甚至,QwQ-32B在多项基准测试中全面超越o1-mini。
3/7/2025 8:30:00 AM
新智元

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。 这次彻底把推理模型训练显存打下来了! 这次把GRPO训练推理模型的上下文变长10倍,同时需要的显存少了90%。
3/10/2025 1:11:26 PM
新智元

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了

最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心

Manus带火的MCP,让Claude一句话自动化3D建模,网友:真·AI+应用

一句话提示,Claude自动化打开Blender将2D图片转为3D建模。 整个过程行云流水。 而且还能只用一次提示词,再基于这个场景搭建可以互动的网页。
3/17/2025 8:55:00 AM
量子位

全球首个工业界多模态推理模型开源!38B硬刚DeepSeek-R1,训练秘籍全公开

刚刚,昆仑万维正式开源了全球首个工业界多模态推理模型Skywork R1V(以下简称「R1V」)! R1V高效地将DeepSeek-R1这种强大的文本推理能力无缝scaling到了视觉模态,实现了多模态领域的领先表现,并以开源方式推动了技术进步。 由此,多模态推理的新时代即将开启。
3/19/2025 9:20:00 AM
新智元
  • 1