AI在线 AI在线

73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

只进行过「预训练」的模型是没办法直接使用的,存在输出有毒、危险信息的风险,也无法有效遵循人类指令,所以通常还需要进行后训练(post-train),如「指令微调」和「从人类反馈中学习」,以使模型为各种下游用例做好准备。 早期的后训练工作主要遵循InstructGPT等模型的标准方案,如指令调整(instruction tuning)和偏好微调(preference finetuning),不过后训练仍然充满玄学,比如在提升模型编码能力的同时,可能还会削弱模型写诗或遵循指令的能力,如何获得正确的「数据组合」和「超参数」,使模型在获得新知识的同时,而不失去其通用能力,仍然很棘手。 为了解决后训练难题,各大公司都提升了后训练方法的复杂性,包括多轮训练、人工数据加合成数据、多训练算法和目标等,以同时实现专业知识和通用功能,但这类方法大多闭源,而开源模型的性能又无法满足需求,在LMSYS的ChatBotArena上,前50名模型都没有发布其训练后数据。

只进行过「预训练」的模型是没办法直接使用的,存在输出有毒、危险信息的风险,也无法有效遵循人类指令,所以通常还需要进行后训练(post-train),如「指令微调」和「从人类反馈中学习」,以使模型为各种下游用例做好准备。

图片

早期的后训练工作主要遵循InstructGPT等模型的标准方案,如指令调整(instruction tuning)和偏好微调(preference finetuning),不过后训练仍然充满玄学,比如在提升模型编码能力的同时,可能还会削弱模型写诗或遵循指令的能力,如何获得正确的「数据组合」和「超参数」,使模型在获得新知识的同时,而不失去其通用能力,仍然很棘手。

为了解决后训练难题,各大公司都提升了后训练方法的复杂性,包括多轮训练、人工数据加合成数据、多训练算法和目标等,以同时实现专业知识和通用功能,但这类方法大多闭源,而开源模型的性能又无法满足需求,在LMSYS的ChatBotArena上,前50名模型都没有发布其训练后数据。

最近,Allen Institute for AI(AI2)发布了一系列完全开放、最先进的训练后模型Tülu 3,以及所有数据、数据混合、配方、代码、基础设施和评估框架,其突破了训练后研究的界限,缩小了开源模型和闭源模型微调配方之间的性能差距。

图片

论文链接:https://allenai.org/papers/tulu-3-report.pdf

TÜLU 3-70B:https://hf.co/allenai/Llama-3.1-Tulu-3-70B

TÜLU 3-8B:https://hf.co/allenai/Llama-3.1-Tulu-3-8B

TÜLU 3 数据:https://hf.co/collections/allenai/tulu-3-datasets673b8df14442393f7213f372

TÜLU 3 代码:https://github.com/allenai/open-instruct

TÜLU 3 评估:https://github.com/allenai/olmes

Demo:https://playground.allenai.org/

模型训练算法包括有监督式微调(SFT)、直接偏好优化(DPO)以及可验证奖励强化学习(RLVR)

TÜLU 3基于Llama 3.1的基础模型构建,其性能超越了Llama 3.1-instruct、Qwen 2.5、Mistral,甚至超越了如GPT-4o-mini和Claude 3.5-Haiku等模型。

TÜLU 3的训练过程结合了强化学习的新算法、前沿的基础设施和严格的实验,构造数据,优化不同训练阶段的数据混合、方法和参数,主要包括四个阶段。

第一阶段:数据构造

研究人员主要关注模型在知识召回(knowledge recall)、推理、数学、编程、指令遵循、普通聊天和安全性等核心通用技能,然后根据目标需求来收集人工数据和合成数据。

图片

第二阶段:监督微调(SFT)

研究人员在精心选择的提示和完成内容上执行监督式微调(SFT),首先确定了在使用Llama 3.1模型训练在TÜLU 2数据集上作为基准时,哪些技能落后于最先进的模型,然后有针对性地收集高质量的公开数据集和合成数据集。

图片

图片

通过一个完善的实验,确定了最终SFT数据和训练超参数,以增强目标核心技能,同时不会显著影响其他技能的性能。

关键的数据实验包括:

1. 多样化的聊天数据:主要来自WildChat,如果移除该数据集,可以看到大多数技能都有小幅但明显的下降,尤其是在Alpaca Eval上,凸显了「多样化真实世界数据」的重要性。

图片

2. 安全性是独立的:移除特定安全数据集后,可以看到大多数技能的结果大致保持不变;添加对比提示,如CoCoNot,有助于防止模型过度拒绝安全提示。

3. 新的Persona Data,主要针对数学、编程和指令遵循进行构建,移除后,HumanEval(+)、GSM8K、MATH和IFEval的性能都会显著下降。

4. 针对特定技能(Targeting Specific Skills),移除所有数学相关数据后,GSM8K和MATH都有显著下降。

5. 智能体训练数据的数量,可以发现,在不断增加数据集规模时,模型平均性能持续提高,增加到完整混合数据集后,GSM8K等指标上的性能大幅提升,但TruthfulQA的性能下降了。

图片

第三阶段:偏好调整

研究人员主要使用直接偏好优化(DPO),针对新构造的、基于策略的合成偏好数据,以及从选定提示中获得的离策略数据。与SFT阶段一样,我们通过彻底的实验确定了最佳的偏好数据混合,揭示了哪些数据格式、方法或超参数能带来改进。

在TÜLU 3项目中,研究人员探索了多种偏好微调方法,目标是提升整个评估套件的性能;并研究了多种训练算法,从直接偏好优化(DPO)及其衍生算法到强化学习算法,比如近端策略优化(PPO)。

图片

研究人员通过改进和扩展UltraFeedback流程,从提示中创建了策略内偏好数据(包括输入、两个输出选项和标签),使用大型语言模型(LLM)作为裁判,构造「偏好的、被拒绝的」数据对,主要包括三个阶段:

1. 提示选择

除了数据构造阶段的提示外,还包括了其他来源的提示,比如没有TruthfulQA实例的Ultrafeedback版本,或者通过在提示中添加新的IF约束。

图片

2. 生成回复

对于给定的提示,从模型池中随机抽取四个模型来生成回复,再通过从TÜLU SFT模型中抽样完成情况来包括策略内数据。其中一个回应是由策略内模型生成的,另一个回应是由策略外模型生成的。

3. 偏好标注

在为每个提示生成四个回复后,使用一个大型语言模型(LLM)作为裁判(GPT-4o-2024-0806),然后根据四个不同的方面(有帮助性、遵循指令、诚实性和真实性)对每个回复从1到5进行评分。

图片

第四阶段:可验证奖励的强化学习

研究人员引入了一种名为可验证奖励强化学习(RLVR)的新型方法,用于训练语言模型完成具有可验证结果的任务,比如数学问题解决和指令遵循。

RLVR基于现有的强化学习人类反馈(RLHF)目标,但将奖励模型替换为验证函数,当应用于具有可验证答案的领域,其在GSM8K等基准测试上显示出针对性的改进,同时还能保持其他任务的性能。

图片

RLVR可以看作是现有引导语言模型推理的方法的简化形式,或者是一种更简单的强化学习形式,其中使用答案匹配或约束验证作为二元信号来训练模型。

图片

图片

RLVR数据主要包括两个领域(数学、精确指令遵循),评估数据集为GSM8k, MATH和IFEval

图片

为了提升效率,RLVR的实现细节主要包括:

1. 用通用奖励模型来初始化价值模型;

2. 禁用dropout,在奖励模型和强化学习训练期间,将dropout概率设置为0,确保在策略模型和参考模型的前向传递过程中,token的对数概率可以确定性地计算,从而更准确地估计KL惩罚。此外,PPO在滚动阶段和学习阶段计算token的对数概率,重要的是要确保这两个阶段的token对数概率相匹配,如果使用dropout,对数概率差异会很大,导致裁剪后梯度为零。

3. 使用智能体训练数据集并在周期之间随机,PPO可以训练的周期数超过可用提示的总数,有效地进行多个周期的训练。在我们的RLVR消融实验中,我们大约训练了13个周期。我们在周期之间对提示进行洗牌。对于我们的最终运行,我们每40-100步检查一次模型检查点,并选择在我们开发评估集上表现最佳的检查点。

4. 非序列结束(EOS)惩罚:在训练期间,PPO通常采样固定数量的最大token。如果采样的回复没有以EOS token结束,给予-10的惩罚。

5. 优势归一化:过减去均值然后除以其标准差来归一化优势(advantages)。

研究人员首先将一个直接偏好优化(DPO)模型作为初始模型,然后进行了一系列消融实验:

1. 单独任务。分别在GSM8K、MATH和IFEval任务上应用了RLVR方法,并遍历了一系列beta值。在评估时,关注可验证的奖励、KL散度和回应长度。

2. 价值模型初始化消融实验。尝试从一个通用奖励模型和锚定的DPO模型初始化PPO的价值模型,并在GSM8K任务上遍历一系列beta值。通用奖励模型是使用UltraFeedback数据集训练的。在评估时,检查GSM8K测试评估得分和所有评估的平均得分。

3. 从奖励模型得分的消融实验。在奖励模型的得分基础上增加可验证的奖励,并在GSM8K任务上使用了一系列beta值进行实验。

4. 从性能较弱的模型开始。模型的基础能力也是一个干扰因素,使用平均得分较低的SFT模型进行另一组实验。

TÜLU 3评估

在后续训练方法中,建立清晰的性能目标和评估工具非常关键。

研究人员发布了一个统一的标准化评估套件和一个工具包,以指导开发和评估最终模型,并对训练数据进行净化,以符合评估基准,主要目标包括:

1. 评估过程应该是可复现的;

2. 应该评估模型对未见任务的泛化能力,而不仅仅是我们用于开发的特定基准测试。

3. 评估设置(例如,提示的模板和策略)对各种模型公平。

开放语言模型评估系统(OLMES)

为了使评估更加标准化和可复现,研究人员开源了Open Language Model Evaluation System,其支持更广泛的模型集合和任务、可以对每个任务进行灵活配置、直接访问任务描述、分析模型预测、置信度等的详细实例级的数据。

比如说,要复现Llama-3.1-8B-Instruct在MMLU-Pro上的结果,只需简单运行类似「olmes –task mmlu_pro::tulu3 –model llama3.1-8b-instruct」的命令。

相关资讯

两个用于科研的开源 AI Agent,改变知识研究的方式

想象一下,如果可以让爱因斯坦、埃隆·马斯克、费曼、史蒂夫·乔布斯、简·古道尔和尤瓦尔·诺亚·赫拉利和你一起合作共同研究并编写研究报告,这是一种什么感受? 我们每天产生的信息比过去一年产生的信息还要多,假如研究人员想在一个小时内访问一万个网站、研究分析数据、并编写报告,这实际上是不可能的。 如今,随着AI 大模型技术的发展,使用AI Agent却可以轻松地做到这一点。
12/16/2024 6:04:11 PM
zone7

反手就是开源!英伟达豪掷7亿美元收购专攻GPU初创Run:ai

就在刚刚,英伟达正式完成了对以色列AI初创Run:ai的收购。 对于AI基础设施来说,Run:ai的软件至关重要——通过动态调度、GPU池化、GPU分片等功能,硬件资源的使用效率可以得到大幅提升,甚至可以实现10倍的工作负载。 图片不仅如此,随后Run:ai还计划将他们的软件开源。
12/31/2024 12:42:17 PM
新智元

[研究问卷] AI数据获取与开放的现状调查

你是AI从业者或学习者吗?缺少数据做 AI 训练或测试?中国情境和语言的数据太少?那就来参与调研,一同改变现状吧!关于问卷我们是《AI 数据开放的现状与标杆案例报告》研究团队,由上海白玉兰开源开放研究院与开放数据中国联合组成。我们的成果预期于 2022 年世界人工智能大会期间,由木兰开源社区和白玉兰开源联名发布。你或许记得我们在 2021 年为了规范和促进 AI 数据开放所发布的「木兰-白玉兰开放数据协议」,而我们当前的研究工作则旨在排摸当前供 AI 训练、测试所使用的的AI 数据的获取与开放情况,从而进一步推出「
4/14/2022 11:17:00 AM
新闻助手

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

世界最大开源 AI 社区 Hugging Face 涉足开源机器人领域,前特斯拉科学家领衔

据外媒 VentureBeat 报道,AI 创企 Hugging Face 设立开源机器人项目,前特斯拉科学家 Remi Cadene 领衔。Remi Cadene 的 X 平台动态显示,这位前特斯拉人形机器人 Optimus 团队成员加入 Hugging Face 并启动了一个开源机器人项目,招募愿在巴黎建造“真正的机器人”的工程师。参考IT之家以往报道,Hugging Face 目前主营业务均为软件形态,包括开源 AI 模型库和 AI 助手 Hugging Chat Assistants。此次组建开源机器人团队
3/11/2024 2:04:00 PM
溯波(实习)

10 秒总结 YouTube 视频,原阿里首席 AI 科学家贾扬清打造浏览器插件 Elmo

原阿里首席 AI 科学家贾扬清在 X(推特)上分享了插件 Elmo,该插件能在 10 秒内总结 Google Next 主题演讲,生成一句话概括、摘要、主要观点。该插件由贾扬清去年创办的 AI 公司 Lepton AI 打造。贾扬清表示,Elmo 采用了数据公司 Databricks 推出的开源大模型 DBRX。据悉,DBRX 具有 1320 亿个参数,采用 MoE 架构,在性能上超过了 GPT-3.5 和其他一些开源模型。经过IT之家的测试,时长达 1 小时 22 分的苹果 2023 秋季发布会,Elmo 仅用时
4/10/2024 1:49:30 PM
沛霖(实习)

Stable Diffusion 3 开源倒计时,2B 单机可跑碾压闭源 Midjourney

【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离 2 月 SD3 的横空出世,已经过去了 4 个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的 MMDiT 全新架构,将彻底改变 AI 生图的格局。现在,全体 AI 社区都在翘首以盼。万众瞩目的 Stable Diffusion 3,终于要正式开源了!几天前,在 Computex 2024 大会上,Stability AI 联合首席执行官 Christian Laforte 正式官宣:SD 3 Medium 将在
6/12/2024 3:50:42 PM
清源

阿里云首创PilotScope新技术,为AI4DB应用提速

12月20日,数据库国际顶会VLDB2024公布新一批论文,阿里云新技术PilotScope成功入围,该平台技术可实现AI算法在数据库的“一键部署”,极大降低数据库中AI算法的应用门槛,为数据库智能化开辟了全新空间。同日阿里云宣布将PilotScope全部技术免费开源。图说:数据库顶会VLDB2024数据库是事关国计民生的基础软件技术,数据库技术的更新影响着数字时代的千行百业,其中一个前沿领域即是数据库智能化(AI4DB,AI for Database)。现在的数据库系统非常复杂,对稳定性要求极高,即便将单一AI算
12/21/2023 11:45:00 AM
新闻助手

WOT大会日程上线:我们找来数十位大模型实践企业现身说法

这两天的技术圈里,估计大家都在摩拳擦掌等待体验OpenAI的GPT-4o(o为Omni缩写,意为“全能”)有多“全能”吧。我们无意给市场泼冷水,只是要提醒大家,想要让大模型真正落地,市场的热,并不意味着应用实践的成熟。尤其在企业级场景中,为什么大模型落地理想很丰满现实很骨感?为什么很少有企业能把大模型用在核心业务中?是不想用、还是用不好?在即将于6月21-22日在北京召开的WOT全球技术创新大会上,经过持续数月的发掘、走访、调研,我们找来了数十位已经在大模型应用上起跑并领先半个身位的实践企业,力求给你启发和答案。倾
5/20/2024 5:30:00 PM
新闻助手

2024 世界人工智能大会线下参观人数创历史新高,预计总投资额超 400 亿元

2024 世界人工智能大会(WAIC 2024)暨人工智能全球治理高级别会议闭幕式于今日下午举行。截至今日 14 时,大会线下参观人数突破 30 万人次,全网流量突破 10 亿,比上届增长了 90%,均创下历史新高。据悉,本次大会对接 132 个采购团组,形成了 126 个项目采购需求,预计意向采购金额达 150 亿元,推动 24 个重大产业项目的签约,预计总投资额超过 400 亿元。本次大会的展览面积超过 5.2 万平方米,500 余家知名企业、超过 1500 项展品参展,50 余款新品首发首秀,均创历史新高。A
7/6/2024 5:38:56 PM
清源

“最强开源 AI 模型”,4050 亿参数版 Meta Llama 3 被曝 7 月 23 日发布

感谢科技媒体 The Information 本周五发布博文,援引内部员工曝料称 Meta 公司计划 7 月 23 日发布开源 AI 模型 Llama 3-405B,在现有 80 亿和 700 亿参数两个版本之外,推出 4050 亿参数版本,号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI 模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多的信息。AI在线注:上图为机翻字幕,存在错误报道称 Llama 3-405B 是一个多模态 AI 开源模型,
7/13/2024 8:09:19 AM
故渊

通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布 :前三名文科过一本,理科过二本

感谢上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果,据大模型开源开放评测体系“司南”相关负责人介绍,“当前大模型仍存在很大的局限性。组织 AI 大模型‘参加高考’,目的是评测当前大模型的真实水平,找准问题,持续推进技术进步。”测试结果显示,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 以及 GPT-4o 再次包揽文、理科前三甲;前三名 AI“考生”的文、理科成绩分别超过了“一本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。从
7/18/2024 2:56:18 PM
清源

构筑 AI 安全防线,谷歌、微软、英伟达等 14 家公司组建安全 AI 联盟

感谢昨日举办的阿斯彭安全论坛(Aspen Security Forum)会议中,谷歌、微软、OpenAI、亚马逊、英伟达、英特尔等 14 家 AI 领域的大公司宣布联合组建安全人工智能联盟(Coalition for Secure AI,CoSAI)。CoSAI 由 OASIS 全球标准机构主办,是一项开源计划,旨在为所有 AI 从业人员和开发人员提供创建设计安全人工智能系统所需的指导和工具。CoSAI 将建立一个合作生态系统,共享开源方法、标准化框架和工具等等。CoSAI 的创始赞助商包括谷歌、IBM、英特尔、微
7/19/2024 7:17:22 AM
故渊

英特尔发布 AI Playground 开源软件:支持在锐炫 Arc 显卡本地运行 AI 图像生成与聊天机器人

在 6 月预告之后,英特尔今天正式推出 AI Playground 开源软件的 Beta 测试版。AI Playground 目前支持在配备 8GB 或更多显存的锐炫 Arc 显卡的 Windows 电脑上运行,未来还将支持英特尔酷睿 Ultra-H 处理器。据介绍,AI Playground 是一款免费开源的 AI PC 入门应用程序,支持在本地运行 AI 图像生成与增强、AI 聊天机器人功能。▲ AI 图像生成与增强▲ AI 聊天机器人AI在线注意到,这款软件的设计注重易用性,但同时也支持高级用户安装自己喜欢的
7/23/2024 7:31:59 PM
泓澄(实习)

开源是未来 AI 之路,扎克伯格:Meta 要将 Llama 打造成为“AI 界的 Linux”

Meta 创始人兼首席执行官马克・扎克伯格(Mark Zuckerberg)昨日(7 月 23 日)发布博文,表达了他对开源 AI 生态系统的愿景,认为 Llama 有潜力成为“AI 界的 Linux”。扎克伯格表示 Linux 凭借着开源特性,近乎成为通过其开源特性已成为云计算和移动操作系统的行业标准,而 Meta 公司希望将 Llama 打造成 AI 领域的 Linux。扎克伯格阐述了开源人工智能为何有利于开发者和行业的理由,AI在线简要梳理如下:训练、微调和蒸馏自己的 AI 模型每个组织都有不同的需求,而满足
7/24/2024 1:51:07 PM
故渊

马斯克与扎克伯格终于对上眼了:AI 大模型 Llama 3.1 开源值得赞扬

周二,Meta 发布了最新的 AI 模型 Llama 3.1。Meta 声称,该模型优于 OpenAI 的 GPT-4o,并且是开源的,已向公众免费提供。随后,马斯克罕见地向扎克伯格致敬。马斯克在回应特斯拉前 AI 总监 Andrej Karpathy 关于该模型的帖子时表示:“这令人印象深刻,扎克(伯格)的开源决定确实值得赞扬。”对此,Meta 代表尚未发表评论。对于主导 AI 的野心,扎克伯格和马斯克一直都直言不讳。早在一月份,扎克伯格在接受媒体采访时曾表示,Meta 一直在从英伟达储备 AI 芯片。扎克伯格说
7/24/2024 6:37:55 PM
刘明亮

陈睿:B站已上线自研大模型 index 并应用于 AI 字幕,具备近 10 种语言实时翻译能力

感谢据澎湃新闻报道,在今天的 2024 年中国国际智能传播论坛上,哔哩哔哩董事长兼 CEO 陈睿表示,B站上线了自研大语言模型 index,并将其应用于 AI 字幕。目前,B站具备中、英、韩、日、泰语等近 10 种语言的实时翻译能力,准确度接近 90%。陈睿表示,B站更看重拥抱开源的生态,自研大模型就是建立在开源的基础上,相信开源将会成为 AI 中的主流。同时,AI 是年轻人在B站上最关注的内容,也是增长最快的科技内容。作为一种普惠技术,AI 最终会让所有人都从中受益。B站第二季度的日均活跃用户(日活用户)达 1.
9/26/2024 9:59:45 PM
清源

首个开源 AI 候选版定义稿发布:四大要求,训练数据上有妥协

如何定义开源人工智能(AI)?开源倡议组织(OSI)经过 2 年的努力,于昨日(10 月 9 日)发布了首个开源 AI 定义候选版本。首个候选版本主要澄清开源 AI 领域的各种争议,规定一个 AI 系统 / 模型需要具备以下 4 种基础自由要求,才能视为开源,AI在线附上相关要求如下:在未获许可的情况下,他人可出于任何目的使用该系统。可以深入研究系统的运行原理出于任何目的修改系统。与他人共享,无论是否修改。OSI 在训练数据方面选择妥协,要求提供“关于用于训练系统的数据的足够详细信息”,而非完整数据集。此举旨在平衡
10/10/2024 10:07:46 AM
故渊
  • 1