数学预训练语料库
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。 然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。 这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。
7/3/2025 12:00:57 PM
AI在线
- 1
资讯热榜
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布
Chai Discovery发布Chai- 2 模型:零样本抗体设计突破16-20%命中率
不再单一依赖英伟达,消息称 OpenAI 首次采用谷歌 AI 芯片训练 ChatGPT
Gemini2.5Pro API 免费回归,开发者社区热烈响应
阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者
OpenAI 高管回应 Meta 挖角潮:正积极留人,将“重新调整”薪酬
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
神经网络
3D
研究
生成
AI新词
Claude
机器学习
计算
LLM
Sora
AI设计
AI for Science
AI视频
GPU
人形机器人
xAI
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API