DeepSeek
榨干每一分算力:Distillation Scaling Laws带你走进高效模型新时代
初次阅读这篇文章,感到非常震撼。 在DeepSeek将知识蒸馏方法带入大众视野后,Apple与牛津大学的研究人员迅速提出了蒸馏缩放定律,并已于2月28日完成了所有实验及一篇长达67页的论文上传至arXiv。 这种效率和深度,无疑展示了大公司的研究实力。
2/27/2025 12:42:54 PM
Gloadma
外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名
出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
2/27/2025 12:31:40 PM
DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升
开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元
DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价
实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。
2/27/2025 11:45:00 AM
机器之心
DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命
今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。
2/27/2025 10:45:00 AM
AI在线
被DeepSeek带火的知识蒸馏详解!
今天来详细了解DeepSeek中提到的知识蒸馏技术,主要内容来自三巨头之一Geoffrey Hinton的一篇经典工作:。 主要从背景、定义、原理、代码复现等几个方面来介绍:1、背景介绍训练与部署的不一致性在机器学习和深度学习领域,训练模型和部署模型通常存在显著差异。 训练阶段,为了追求最佳性能,我们通常会使用复杂的模型架构和大量的计算资源,从海量且高度冗余的数据集中提取有用信息。
2/27/2025 10:41:53 AM
Glodma
字节跳动悟空浏览器接入DeepSeek R1模型,或为抖音接入铺路
字节跳动旗下悟空浏览器近日正式接入DeepSeek R1模型,这一举措引发业界广泛关注。 与此前飞书、火山引擎接入DeepSeek不同,悟空浏览器作为面向C端用户的产品,融合了抖音与番茄小说等内容,其接入被认为可能为抖音未来接入DeepSeek铺路。 目前,悟空浏览器同时搭载豆包与DeepSeek两大模型,DeepSeek R1主要负责智能对话与文本生成,而豆包则提供AI快捷功能,应用场景更为广泛。
2/27/2025 10:06:00 AM
AI在线
英伟达CEO黄仁勋: DeepSeek不会对公司销售造成影响,销量持续攀升
在近日的财报电话会议上,英伟达 CEO 黄仁勋对公司的未来展望依旧充满信心,尽管上个月因中国的 DeepSeek 技术引发了一场市场恐慌。 他表示,DeepSeek 的推出不会对公司的销售造成影响。 市场对 DeepSeek R1模型所需的芯片数量大幅减少的猜测,曾导致英伟达的股价出现了创纪录的下跌。
2/27/2025 9:53:00 AM
AI在线
DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)
deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑
DeepSeek引爆,英伟达特供版H20需求激增!特朗普「急」了?
DeepSeek的横空出世会让英伟达「失宠」? DeepSeek爆火之时,英伟达的H20芯片在中国市场也随之走俏,订单量暴增。 路透社消息,六位知情人士表示,由于DeepSeek模型需求的激增,中国企业正在大幅增加对英伟达H20 GPU的订单量。
2/27/2025 9:34:32 AM
新智元
DeepSeek 总崩溃?如何快速使用满血版DeepSeek!!
DeepSeek 太火了,我们在使用的过程中,是不是经常遇到服务器繁忙的情况。 后台很多同学都在询问有没有快速、免费使用满血版 DeepSeek 的平台。 今天就给大家推荐一款免费使用满血版 DeepSeek-R1 671B 的平台,彻底解决服务器卡顿的情况,主打一个快、稳定,而且免费它支持多端使用,包括 iOS/安卓/PC/web废话不多说,让我们直接上手,看看如何使用这里以web为例进行演示,网址为 ,点击左侧的满血版 DeepSeek,默认开启深度思考和联网搜索。
2/27/2025 9:17:41 AM
程序员小寒
分析一下EP并行和DeepSeek开源的DeepEP代码
被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.
2/27/2025 9:06:34 AM
渣B
当DeepSeek遇见RFID,如何重塑零售业的未来
作者 | 涂承烨审校 | 重楼随着科技的不断进步,射频识别技术(RFID)已成为现代零售业不可或缺的一部分。 RFID通过无线信号传输数据,实现对物品的追踪和管理。 尽管传统的RFID系统已经在一定程度上提高了零售业的运营效率,但仍存在一些局限性。
2/27/2025 8:41:08 AM
涂承烨
字节旗下又一应用“悟空浏览器”接入 DeepSeek,下一步或是抖音
尽管此前,字节跳动旗下飞书和火山引擎相继宣布接入 DeepSeek,但与这些产品有所不同,悟空浏览器更偏向 C 端用户,并且是融合了抖音 + 番茄小说的内容端 App。
2/27/2025 8:11:48 AM
罗宁
探索基于Qwen2.5实现DeepSeek推理的奇妙之旅
作为一名互联网技术爱好者,我一直对大型语言模型和高效推理技术充满热情。 本文基于基于Qwen2.5实现DeepSeek推理功能。 本文使用unsloth框架,这个轻量高效、易于上手的工具,加上SFT中文数据集的加持,测试了在医疗领域的推理应用。
2/27/2025 8:00:00 AM
趋势抢先知!2025年2月值得关注的7条AI资讯
2025年2月份的AI重大资讯,看这篇就够了! 一、OpenAI 首个智能体 Operator 大测评. 近期发布的 Operator 无疑是 AI 圈最大的亮点,这款 AI 智能体能够自动处理一系列任务,像是演唱会购票、家政服务预订、AI 新闻查找等。
2/27/2025 12:47:27 AM
百度MEUX 团队
DeepSeek开放平台推出错峰优惠活动 API调用价格降幅最高达75%
今日,DeepSeek正式对外宣布,为了优化用户体验并提升服务效率,即日起将在北京时间每日00:30至08:30的夜间空闲时段推出错峰优惠活动。 据DeepSeek介绍,在活动期间,API调用价格将进行大幅度调整。 具体来说,DeepSeek-V3的价格将下调至原价的50%,而DeepSeek-R1的价格更是低至原价的25%。
2/26/2025 5:35:00 PM
AI在线
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉