监督微调(SFT)
新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮
在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。 近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。 这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。
4/21/2025 12:01:09 PM
AI在线
- 1
资讯热榜
OpenAI 开源模型被 Meta 研究员“逆改”!只动0.3%参数,gpt-oss-20B 解锁无约束基座
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
让AI创作不千篇一律,提示词随机插词汇就行
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
蚂蚁AI健康管家AQ上线四大打假功能 向假医疗广告宣战
阿里千问踢馆子了!Qwen3新作秒杀ChatGPT,侧脸杀切换第一人称视角,表情包绝绝子,小编:再也不用美图秀秀去水印了
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍,DeepSeek R1最特立独行
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
Anthropic
英伟达
代码
训练
算法
Stable Diffusion
芯片
LLM
AI新词
蛋白质
开发者
腾讯
生成式
Claude
苹果
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
人形机器人
xAI
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
场景
大型语言模型
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
特斯拉
应用