开源

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

在 DeepSeek 开源周第四日，摩尔线程宣布已成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe，并发布相关开源代码仓库：MT-DeepEP 和 MT-DualPipe。

2/27/2025 11:39:00 PM 归泷（实习）

百度文心4.5或将在3月中旬发布提升推理及多模态能力

路透社消息，百度公司正紧锣密鼓筹备其下一代人工智能模型的发布，预计将于3月中旬正式推出文心4.5版本。据内部知情人士透露，新版本将在推理等多个核心领域实现显著能力提升，标志着百度在AI技术上的又一重要突破。文心4.5的一大亮点在于其增强的多模态能力，该系统能够高效处理和融合来自文本、视频、图像及音频等不同类型的数据资源，实现跨格式的无缝转换，为用户提供更加丰富和多元的智能体验。

2/27/2025 3:56:00 PM AI在线

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

按时整活！ DeepSeek开源周第四天，直接痛快「1日3连发」，且全都围绕一个主题：优化并行策略。 DualPipe：一种创新的双向流水线并行算法，能够完全重叠前向和后向计算-通信阶段，并减少“流水线气泡”。

2/27/2025 1:10:00 PM 量子位

超越Sora！阿里正式完全开源最新、最强大的视频生成模型 Wan2.1

2/27/2025 12:44:41 PM AI寒武纪

外网夸爆DeepSeek开源周！今天一口气开源3个重磅！压轴戏期待拉满，R2、V4、被提名

出品 | 51CTO技术栈（微信号：blog51cto）好家伙！ DeepSeek是真的OpenAI啊！在第四天的开源日中，竟然一口气放出三个重磅的优化并行策略代码库，而且又是V3/R1模型中的干货：DualPipe：一种优化的双向流水线并行算法，旨在优化V3/R1模型训练中的计算和通信重叠。

2/27/2025 12:31:40 PM

DeepSeek开源三箭齐发，梁文峰亲自上阵！双向并行LLM训练飙升

开源周第4天，DeepSeek放出的是——优化并行策略，一共三个项目。 DualPipe：一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB：一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是，DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。有网友对此表示，这是一个颠覆性的突破。

2/27/2025 12:06:45 PM 新智元

DeepSeek 开源第二弹 DeepEP，但它究竟是个啥？（终于懂了...）

deepseek开源周，继Flash-MLA之后，开源了第二弹DeepEP。画外音：上一顿还没消化完，新的大餐又来了。今天简单聊聊：吃瓜：DeepEP是干嘛的？

2/27/2025 9:40:00 AM 58沈剑

分析一下EP并行和DeepSeek开源的DeepEP代码

被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.

2/27/2025 9:06:34 AM 渣B

手把手演示 IDEA 如何接入 DeepSeek，你学会了吗？

本文介绍如何在 IntelliJ IDEA 中集成 DeepSeek , 并展示如何利用它来提升开发效率。 1.安装 CodeGPT 插件图片在插件市场里，搜索 CodeGPT ，安装即可。假如网络安装慢，可以从插件下载地址，直接下载。

2/26/2025 10:31:35 AM 勇哥

开源的风吹到视频生成：阿里开源登顶VBench的万相大模型，一手实测来了！

当很多 AI 公司还就是否该走开源路线而感到左右为难时，阿里的技术团队又开源了一个新的模型 —— 万相（Wan）视频生成大模型（包括全部推理代码和权重，最宽松的开源协议）。经常玩视频生成模型的同学应该知道，当前的很多模型仍然面临多方面挑战，比如难以还原复杂的人物动作，处理不好物体交互时的物理变化，遇到长文本指令就「选择性遵循」等。如果三个方面都做得比较好，那模型厂商多半是不舍得开源的。

2/26/2025 9:44:14 AM 机器之心

DeepSeek开源周第3天：发布DeepGEMM，FP8 GEMM库助力AI训练与推理

中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法（GEMM）的开源库。这一工具专为密集型和混合专家(MoE)矩阵运算设计，为DeepSeek V3和R1模型的训练与推理提供强大支持。官方消息通过X平台发布，迅速引发技术社区的热烈反响。

2/26/2025 9:33:00 AM AI在线

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验

2月25日，阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview，并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。此次发布的QwQ-Max-Preview是一个预览版本，阿里巴巴表示，正式版本将很快推出，并基于Apache2.0许可证全面开源。与以往不同的是，此次开源不仅包括模型本身，还涵盖了更小的版本，如QwQ-32B，这些版本可以部署在本地设备上，进一步推动AI技术的普及和应用。

2/25/2025 8:35:00 AM AI在线

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

2/24/2025 11:32:57 AM dream

国外权威认证！DeepSeek超150万模型，成最受欢迎开源大模型

今天凌晨3点，全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue发布了最新数据：中国开源大模型DeepSeek-R1在150万模型中，成为该平台最受欢迎的开源大模型，点赞超过1万。前不久，Clement还特意发文恭喜DeepSeek-R1的下载量超过1000万次，同样创造了huggingface平台有史以来最受欢迎的模型。看来，Clement也吃到DeepSeek的红利了，对它是真爱啊连续表扬。

2/24/2025 10:01:23 AM AIGC开放社区

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

算力需求比AdamW直降48%，OpenAI技术人员提出的训练优化算法Muon，被月之暗面团队又推进了一步！团队发现了Muon方法的Scaling Law，做出改进并证明了Muon对更大的模型同样适用。在参数量最高1.5B的不同Llama架构模型上，改进后的Muon算力需求仅为AdamW的52%。

2/24/2025 9:15:00 AM 量子位

不到1美元，打造全球第3超强AI助手！港大3人开源最强Deep Research

OpenAI的Deep Research一经发布便引发了全网的热议。作为新一代通用AI助手，它具备自主搜索和分析互联网海量信息的能力，并能通过编程手段对复杂数据进行深度分析，迅速在全球范围内获得了极大反响。在即将到来的AGI时代，各行各业都需要这样的智能助手来提升工作效率。

2/24/2025 8:47:00 AM 新智元

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了，就是没有开源训练代码和数据。现在，开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero（ORZ），由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。

2/24/2025 8:40:00 AM 量子位

国产 AI 大模型加速迭代，厂商迈向开源、集聚化

据央视新闻报道，在上海举行的 2025 全球开发者先锋大会上，多家厂商展示了自家在 AI 大模型方面的落地应用，涉及“可跟随使用者的抚摸和语言随机互动的AI仿生宠物”、“城市节水AI智能系统”等。

2/23/2025 9:19:42 PM 归泷（实习）

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型 AI新词机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 苹果算法腾讯 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D RAG 大语言模型字节跳动 Sora 百度研究 GPU 生成工具华为 AGI 计算大型语言模型 AI设计生成式AI 搜索视频生成亚马逊 AI模型 DeepMind 特斯拉场景深度学习 Transformer 架构 Copilot MCP 编程视觉

开源

摩尔线程成功支持 DeepSeek 开源通信库 DeepEP 和并行算法 DualPipe

百度文心4.5或将在3月中旬发布 提升推理及多模态能力

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

超越Sora！阿里正式完全开源最新、最强大的视频生成模型 Wan2.1

外网夸爆DeepSeek开源周！今天一口气开源3个重磅！压轴戏期待拉满，R2、V4、被提名

DeepSeek开源三箭齐发，梁文峰亲自上阵！双向并行LLM训练飙升

DeepSeek 开源第二弹 DeepEP，但它究竟是个啥？（终于懂了...）

分析一下EP并行和DeepSeek开源的DeepEP代码

手把手演示 IDEA 如何接入 DeepSeek，你学会了吗？

开源的风吹到视频生成：阿里开源登顶VBench的万相大模型，一手实测来了！

DeepSeek开源周第3天：发布DeepGEMM，FP8 GEMM库助力AI训练与推理

阿里通义千问推出推理模型QwQ-Max预览版 可在qwen.ai域名体验

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

国外权威认证！DeepSeek超150万模型，成最受欢迎开源大模型

月之暗面开源改进版Muon优化器，算力需求比AdamW锐减48%，DeepSeek也适用

不到1美元，打造全球第3超强AI助手！港大3人开源最强Deep Research

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

国产 AI 大模型加速迭代，厂商迈向开源、集聚化

百度文心4.5或将在3月中旬发布提升推理及多模态能力

阿里通义千问推出推理模型QwQ-Max预览版可在qwen.ai域名体验