AI在线 AI在线

开源

DeepSeek今日连开3源!针对优化的并行策略,梁文锋本人参与开发

按时整活! DeepSeek开源周第四天,直接痛快「1日3连发」,且全都围绕一个主题:优化并行策略。 DualPipe:一种创新的双向流水线并行算法,能够完全重叠前向和后向计算-通信阶段,并减少“流水线气泡”。
2/27/2025 1:10:00 PM
量子位

超越Sora!阿里正式完全开源最新、最强大的视频生成模型 Wan2.1

阿里巴巴通义实验室正式开源了他们最新、最强大的视频生成模型 Wan2.1 系列! Wan2.1 亮点速览✨ 复杂运动: 视频动作更流畅自然,复杂场景也能轻松驾驭🧲 物理模拟: 物体交互更真实,视频更具沉浸感🎬 电影质感: 视觉效果更上一层楼,细节更丰富,更具艺术性✏️ 可控编辑: 编辑能力更强大,创作空间更广阔✍️ 视觉文字: 中英文动态文字生成,应用场景更丰富🎶 音效音乐: 视听体验一体化,视频极具感染力Wan2.1 系列模型家族,为不同需求的用户提供了多样化的选择:Wan2.1-I2V-14B: 图像到视频 (I2V) 领域的天花板! 140亿参数,720P高清画质,I2V 性能 SOTA!
2/27/2025 12:44:41 PM
AI寒武纪

外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名

出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。
2/27/2025 12:31:40 PM

DeepSeek开源三箭齐发,梁文峰亲自上阵!双向并行LLM训练飙升

开源周第4天,DeepSeek放出的是——优化并行策略,一共三个项目。 DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB:一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是,DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。 有网友对此表示,这是一个颠覆性的突破。
2/27/2025 12:06:45 PM
新智元

DeepSeek 开源第二弹 DeepEP,但它究竟是个啥?(终于懂了...)

deepseek开源周,继Flash-MLA之后,开源了第二弹DeepEP。 画外音:上一顿还没消化完,新的大餐又来了。 今天简单聊聊:吃瓜:DeepEP是干嘛的?
2/27/2025 9:40:00 AM
58沈剑

分析一下EP并行和DeepSeek开源的DeepEP代码

被好几个团队的人追着要渣B来分析一下DeepEP的工作, 公司内外的团队都有...简单的一句话说, 非常棒的工作,很多细节都值得学习. 但是还有一些硬件上的缺陷, 在DeepSeek-V3的论文中提出的建议要结合在一起看就会更清楚了. 我们还是由浅入深来谈谈EP并行, 并进一步分析一下这份出色的工作.
2/27/2025 9:06:34 AM
渣B

手把手演示 IDEA 如何接入 DeepSeek,你学会了吗?

本文介绍如何在 IntelliJ IDEA 中集成 DeepSeek , 并展示如何利用它来提升开发效率 。 1.安装 CodeGPT 插件图片在插件市场里,搜索 CodeGPT ,安装即可。 假如网络安装慢,可以从插件下载地址,直接下载。
2/26/2025 10:31:35 AM
勇哥

开源的风吹到视频生成:阿里开源登顶VBench的万相大模型,一手实测来了!

当很多 AI 公司还就是否该走开源路线而感到左右为难时,阿里的技术团队又开源了一个新的模型 —— 万相(Wan)视频生成大模型(包括全部推理代码和权重,最宽松的开源协议)。 经常玩视频生成模型的同学应该知道,当前的很多模型仍然面临多方面挑战,比如难以还原复杂的人物动作,处理不好物体交互时的物理变化,遇到长文本指令就「选择性遵循」等。 如果三个方面都做得比较好,那模型厂商多半是不舍得开源的。
2/26/2025 9:44:14 AM
机器之心

DeepSeek开源周第3天:发布DeepGEMM,FP8 GEMM库助力AI训练与推理

中国人工智能公司DeepSeek在其“开源周”第3天宣布推出DeepGEMM——一款支持FP8通用矩阵乘法(GEMM)的开源库。 这一工具专为密集型和混合专家(MoE)矩阵运算设计,为DeepSeek V3和R1模型的训练与推理提供强大支持。 官方消息通过X平台发布,迅速引发技术社区的热烈反响。
2/26/2025 9:33:00 AM
AI在线

阿里通义千问推出推理模型QwQ-Max预览版 可在qwen.ai域名体验

2月25日,阿里巴巴宣布推出基于Qwen2.5-Max的推理模型QwQ-Max-Preview,并计划全面开源其最新推理模型QwQ-Max和Qwen2.5-Max。 此次发布的QwQ-Max-Preview是一个预览版本,阿里巴巴表示,正式版本将很快推出,并基于Apache2.0许可证全面开源。 与以往不同的是,此次开源不仅包括模型本身,还涵盖了更小的版本,如QwQ-32B,这些版本可以部署在本地设备上,进一步推动AI技术的普及和应用。
2/25/2025 8:35:00 AM
AI在线

DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈

就在刚刚,DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。 这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。 经实测,FlashMLA在H800 SXM5平台上(CUDA 12.6),在内存受限配置下可达最高3000GB/s,在计算受限配置下可达峰值580 TFLOPS。
2/24/2025 11:32:57 AM
dream

国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型

今天凌晨3点,全球最大开源平台之一huggingface联合创始人兼首席执行官Clement Delangue发布了最新数据:中国开源大模型DeepSeek-R1在150万模型中,成为该平台最受欢迎的开源大模型,点赞超过1万。 前不久,Clement还特意发文恭喜DeepSeek-R1的下载量超过1000万次,同样创造了huggingface平台有史以来最受欢迎的模型。 看来,Clement也吃到DeepSeek的红利了,对它是真爱啊连续表扬。
2/24/2025 10:01:23 AM
AIGC开放社区

月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

算力需求比AdamW直降48%,OpenAI技术人员提出的训练优化算法Muon,被月之暗面团队又推进了一步! 团队发现了Muon方法的Scaling Law,做出改进并证明了Muon对更大的模型同样适用。 在参数量最高1.5B的不同Llama架构模型上,改进后的Muon算力需求仅为AdamW的52%。
2/24/2025 9:15:00 AM
量子位

不到1美元,打造全球第3超强AI助手!港大3人开源最强Deep Research

OpenAI的Deep Research一经发布便引发了全网的热议。 作为新一代通用AI助手,它具备自主搜索和分析互联网海量信息的能力,并能通过编程手段对复杂数据进行深度分析,迅速在全球范围内获得了极大反响。 在即将到来的AGI时代,各行各业都需要这样的智能助手来提升工作效率。
2/24/2025 8:47:00 AM
新智元

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了,就是没有开源训练代码和数据。 现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。 国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。
2/24/2025 8:40:00 AM
量子位

国产 AI 大模型加速迭代,厂商迈向开源、集聚化

据央视新闻报道,在上海举行的 2025 全球开发者先锋大会上,多家厂商展示了自家在 AI 大模型方面的落地应用,涉及“可跟随使用者的抚摸和语言随机互动的AI仿生宠物”、“城市节水AI智能系统”等。
2/23/2025 9:19:42 PM
归泷(实习)

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

2025 年 2 月 21 日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。 Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。 与前序1.
2/21/2025 5:23:00 PM
AI在线

刚刚,DeepSeek官宣:下周将是重磅开源周!网友:真正的OpenAI来了!

DeepSeek在X上发布推文,为即将到来的开源周预热。 下周起,DeepSeek将连续开源5个代码库! DeepSeek的通知翻译如下:我们是一个小团队@deepseek_ai ,正在探索 AGI。
2/21/2025 3:18:20 PM