aha moment
机器学习|从0开发大模型之复现DeepSeek的aha moment
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到,模型让作者「见证了强化学习的力量和美感」,在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据 由于显卡只有48G,可以用基座模型Qwen2.5,模型大小:0.5B,1.5B,3B训练数据有很多:(可以直接在huggingface上找到) a.AI-MO/NuminaMath-TIR:包括72K行的数学问题,解决方案和答案,是从 NuminaMath-CoT 数据集提炼出来的 b.
4/3/2025 3:46:53 PM
周末程序猿
- 1
资讯热榜
3分钟生成UI源文件!实测谷歌最新UI设计神器Google Stitch
Anthropic拒绝为Windsurf提供Claude Sonnet 4与Opus 4支持,商战大戏开演!
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
从设计到开发一步到位!Figma 5大新功能深度解析!
《Nature》研究显示:ChatGPT 可使中小学生学习效果暴涨 86.7%
早报速读!2025年5月最新AI视频产品评测&优秀案例
被困在 4GB 内存里的 Llama 3.2:AI 在树莓派中上演“死亡循环”
多模态大模型MMaDA:让AI学会「跨次元思考」,文本图像通吃的全能型选手来了!
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
研究
神经网络
3D
计算
Sora
机器学习
生成
AI设计
AI for Science
苹果
GPU
AI视频
训练
华为
搜索
Claude
场景
百度
人形机器人
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
神器推荐
具身智能
Copilot
视觉
驾驶
API
Agent
算力
应用
工具
大型语言模型
安全
干货合集
视频生成