蚂蚁技术研究院
200美金,人人可手搓QwQ,清华、蚂蚁开源极速RL框架AReaL-boba
由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)带来了新的 post-training scaling law,强化学习(RL,Reinforcement Learning)成为了大语言模型能力提升的新引擎。 然而,针对大语言模型的大规模强化学习训练门槛一直很高:流程复杂、涉及模块多(生成、训练、奖励判定等),为实现高效稳定的分布式训练带来很多挑战;R1/o1 类推理模型的输出长度很长(超过 10K),并且随着训练持续变化,很容易造成显存和效率瓶颈;开源社区缺乏高质量强化学习训练数据,以及完整可复现的训练流程。 本周,蚂蚁技术研究院和清华大学交叉信息院吴翼团队,联合发布了训练速度最快最稳定的开源强化学习训练框架 AReaL(Ant Reasoning RL),并公开全部数据和完成可复现的训练脚本。
3/31/2025 10:52:00 AM
机器之心
- 1
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
国内首个,MiniMax 大模型通过人机辩论图灵测试
逆天!旧Mac上能run千亿参数SOTA!效果惊人:一次生成游戏,0修改!本地大模型拐点来了!网友:别被大模型叙事带偏了(附指南)
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
Kimi K2 高速版kimi-k2-turbo-preview发布 输出每秒 40 Tokens
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用