DeepSeek
机器学习|从0开发大模型之复现DeepSeek的aha moment
前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》,并且实现了一个简单版本的 GRPO 代码,不过从工程领域来看,并没有复现DeepSeek-R1,于是最近申请了48G的显存,结合一些开源的方案复现aha monent,并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到,模型让作者「见证了强化学习的力量和美感」,在DeepSeek-R1-Zero的中间版本,「顿悟时刻」来了:模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据 由于显卡只有48G,可以用基座模型Qwen2.5,模型大小:0.5B,1.5B,3B训练数据有很多:(可以直接在huggingface上找到) a.AI-MO/NuminaMath-TIR:包括72K行的数学问题,解决方案和答案,是从 NuminaMath-CoT 数据集提炼出来的 b.
4/3/2025 3:46:53 PM
周末程序猿
机器学习|从0开发大模型之DeepSeek的GRPO
DeepSeek-R1的发布为国产大模型争光了(太强了),不过 GRPO 算法源自 DeepSeekMath 7B 模型,该模型在 MATH 基准测试中取得了优异成绩,论文发表于2024年2月份:,以下是该论文的摘要原文:复制翻译如下:复制对比数据1、什么是GRPOGRPO 是一种在线学习算法,核心思想是通过组内相对奖励来估计基线,从而避免使用额外的价值函数模型。 通过在训练期间使用受训模型自身生成的数据来迭代改进,GRPO 旨在最大化生成补全的优势,同时确保模型保持接近参考策略,下图是论文中的算法流程图:GRPOGRPO 是 PPO (Proximal Policy Optimization,近端策略优化,是一种强化学习算法,由OpenAI于2017年提出,旨在解决策略梯度方法中的训练不稳定问题) 的变体,主要区别是:GRPO 省略 value function modelGRPO 奖励计算,改成了一个 q 生成多个 r,然后 reward 打分GRPO算法流程:采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练,逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练,参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。
4/3/2025 3:40:41 PM
周末程序猿
深度解析:通过 AIBrix 多节点部署 DeepSeek-R1 671B 模型
原文链接: AIBrix 分布式推理平台实现 DeepSeek-R1 671B 的多节点部署。 DeepSeek-R1 通过渐进式训练框架展现出优秀的逻辑推理能力 —— 在 6710 亿总参数量中,其动态激活的 370 亿参数与 128k 上下文窗口,使其在复杂任务处理中表现卓越。 然而,如此庞大的模型规模对部署环境提出了严苛挑战,尤其是分布式推理的资源调度与性能优化。
4/3/2025 6:30:00 AM
字节跳动开源
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭
3月26号,ETH等团队的一项研究一经发布,就引起了圈内热议。 这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话! 论文地址:,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——所有大模型的得分,都低于5%!
4/3/2025 2:25:00 AM
新智元
DeepSeek再度升级,厉害了!
当代的程序员,避免不了各种AI工具打交道,可以说,这些AI工具早已成为我们生活和工作的一部分。 从之前的ChatGpt,到今年年初开源的DeepSeek爆火,国产新锐 DeepSeek 犹如一匹黑马,将中国的 AI 技术从“追赶者”转变为“引领者”。 现在各个大厂也都纷纷部署了DeepSeek,我也把重心从国外的产品转向了国内 AI。
4/3/2025 1:25:00 AM
刘欣
基于DeepSeek + VSCode 实现AI辅助编程
随着人工智能技术的飞速发展,AI 辅助编程逐渐成为提升开发效率、优化代码质量的重要工具。 本文通过结合 DeepSeek 的强大语言模型和 VSCode 的高效开发环境,展示了如何利用 AI 辅助编程完成一个经典的 MapReduce 词频统计任务。 这一实践不仅展示了 AI 在编程中的应用潜力,还为开发者提供了一个高效、便捷的开发流程示例,帮助读者快速上手 AI 辅助编程,并探索其在实际项目中的应用价值。
4/3/2025 12:00:01 AM
2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%
当 AI 翻开奥数题,CPU 也烧了! 还记得那些被奥数题折磨得彻夜难眠的日子吗? 当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!
4/2/2025 6:15:00 PM
机器之心
7小时开发完成!北京语言大学团队好样的!国产大模型DeepSeek首次用于地震国际救援!
出品 | 51CTO技术栈(微信号:blog51cto)中国科技再立大功! 4月初,缅甸发生中部7.9级地震后,中国驻缅甸使馆称,前方在使用基于DeepSeek紧急开发的中缅英互译系统,据了解,该系统是国家应急语言服务团秘书处和北京语言大学迅速组建的语言服务支持团队开发出来的。 开发过程团队接到任务后争分夺秒,利用国产大模型DeepSeek仅仅七小时内就开发出中缅英三语实时互译系统,并紧急部署到救援人员的手机和终端设备上。
4/2/2025 4:07:07 PM
DeepSeek 首次用于地震国际救援,7 小时攻克缅甸救灾语言关
近日缅甸发生7.9级地震,中国团队用DeepSeek 7小时开发中缅英互译系统,助力救援。至今700余人使用该平台,这是中国大模型首用于地震国际救援。#DeepSeek #地震国际救援 #中缅英互译系统
4/2/2025 11:33:04 AM
远洋
DeepSeek 新专利公布:减少数据采集时网络资源消耗
可对未下载的链接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗。
4/2/2025 10:23:29 AM
清源
DeepSeek-V3击败R1开源登顶!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话
DeepSeek依然很能打,春节余波还在扩散! 据AI产品分析平台aitools.xyz统计,DeepSeek每月新增网站访问量超过了ChatGPT。 作为异军突起的现象级产品,DeepSeek的增长速度除了创造AI产品的增长奇迹,更是重新定义了全球的AI竞赛格局。
4/2/2025 9:21:00 AM
新智元
DeepSeek R1本地训练全流程实操指南,手把手教你打通其“任督二脉”
作者 | asher许多关于 DeepSeek R1 的复现文章,主要聚焦在“rewards的设计、训练指标的变化、benchmark测评”这些内容,但是对于“本地训练”这个开启深度探索的关键前置步骤,却很少有人深挖。 可能有人觉得,照着readme操作就能轻松训练了吧? 太天真啦!
4/2/2025 9:00:00 AM
腾讯技术工程
「DeepSeek-V3 技术解析」:无辅助损失函数的负载均衡
在混合专家模型(MoE)的实践中,负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。 传统的均衡策略往往需要引入复杂的辅助损失函数,不仅增加了训练的复杂度,还可能干扰模型的核心学习目标。 工程师们在提升模型效率的道路上,一直苦苦追寻着一个优雅而高效的平衡解决方案。
4/2/2025 2:17:00 AM
追求卓越的
DeepSeek-R1之后推理模型发展如何?Raschka长文梳理后R1时代14篇重要论文
近日,Deepseek R1 等一系列推理大语言模型已成为 2025 年最热门的话题之一。 在过去的几周里,研究人员推出了许多改进推理的新策略,包括扩展简单测试 - 时间规模化(S1)、关联思维链(Chain of Associated thoughts)、Inner Transformer 等方法。 不仅如此,还有来自腾讯实验室的研究人员探索了 Thoughts Are All Over the Place,通过衡量不正确答案中的 token 效率来鼓励模型对每条推理路径进行更深入的探索;来自美国马里兰大学和橡树岭国家实验室等机构联合提出了 Recurrent Block,通过重复调用同一个循环体的方式,在推理阶段可以迭代任意多次;以及来自美国 Zoom 视频通讯公司的研究团队提出了 Chain of Draft(CoD),基于更接近人类推理的提示策略提出了草稿图,这是一种优先考虑效率和推理的提示词策略。
4/1/2025 4:14:00 PM
机器之心
打工人自救指南:Manus+DeepSeek+Coze破局AI淘汰
前言2025年的中国AI竞技场中,三股技术浪潮正深度重构普通人的生存法则——DeepSeek让普通人年也能享受硅谷级智囊服务;Manus让小微企业人力成本直降70%(简历筛选、财务核算等);Coze的智能体孵化出了新兴职业(智能体架构师、智能体调教师等)。 当人们还在争论AI是否替代人类时,这三个现象级工具已悄然定义了智能技术的三种进化路径:认知突破、执行闭环与生态革命。 这场技术革命的核心分野,在于三者对人类能力的增强坐标差异:• DeepSeek强化认知维度:用强化学习与模型蒸馏技术,将专业决策的颗粒度细化至人类难以企及的层级(如投资策略模拟准确率达97.3%);• Manus重构执行范式:通过规划-执行-验证(PEV)架构,替代HR筛选、财务核算等流程性工作,实现企业人力成本大幅度降低;• Coze激活创新生态:其插件市场增长率达200%,催生“智能体调教师”“智能体架构师”等新职业,让技术民主化从口号变为现实。
4/1/2025 9:49:06 AM
后端小肥肠
DeepSeek能否超越ChatGPT?营销人员应该关注什么
在关于创业的商业课程中,初创企业进入市场时面临一个战略决策,即要与竞争对手保持同步。 对于一项新产品,你必须快速推向市场,或者为市场带来与众不同的东西。 如今,AI初创企业面临着比大多数初创企业更短的跑道来做出这一选择,因为当前领导者之间的竞争依然激烈——包括Perplexity、Claude、谷歌的Gemini和OpenAI的ChatGPT。
4/1/2025 7:00:00 AM
Pierre DeBois
一站式解决Deepseek微调三大痛点:数据集、GPU资源、微调手册与源码
1.Deepseek微调痛点Deepseek模型微调是提升在行业领域表现的关键,但你是否被这些问题卡住? 数据集:不知道如何准备,担心数据泄露? GPU算力:算力不足,Deepseek不同模型尺寸对应的GPU配置选择一头雾水?
3/31/2025 5:10:00 PM
九章云极DataCanvas
万字长文总结:DeepSeek 引发的 AI Infra 变革正在「加速」丨GAIR Live
作者丨朱可轩编辑丨陈彩娴DeepSeek 在进一步点燃 AI Infra 可能性的同时,也带来了新的竞争格局,在 DeepSeek 的范式上,其他厂商能否追赶甚至实现超越尤为关键,这决定了他们能否继续留在牌桌上,当前,AI Infra 已然进入新的洗牌期。 圆桌主持人为 3C AGI Partners 创始人兼 CEO 王康曼,她一直专注于投资 AI Infra 赛道,其创立基金成立后仅一年多就已经成为英伟达全球 VC 联盟成员,也投资了海外发展势头最猛的两家 AI 芯片创业公司 Cerebras Systems 和 Groq。 同时,圆桌还邀请了魔形智能创始人CEO徐凌杰、探微芯联 CEO 刘学和清程极智联合创始人师天麾共同开启了一场深度对话。
3/31/2025 3:50:00 PM
朱可轩
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
Anthropic
英伟达
论文
AI新词
代码
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
腾讯
开发者
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
华为
AI设计
工具
RAG
大语言模型
搜索
字节跳动
具身智能
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
特斯拉
应用
DeepMind