MoE
为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本
                        本文第一作者刘子铭为新加坡国立大学三年级博士生,本科毕业于北京大学,研究方向为机器学习系统中的并行推理与训练效率优化。 通信作者为上海创智学院冯思远老师和新加坡国立大学尤洋老师。 共同作者来自于上海奇绩智峰智能科技有限公司,北京基流科技有限公司等。
                    
                    10/13/2025 1:03:00 PM
                        机器之心
                    小巧却强大的推理引擎!Ring-mini-2.0 震撼发布,性能超越10B模型
                        今天,我们正式推出了 Ring-mini-2.0,这是一款基于 Ling-mini-2.0架构深度优化的高性能推理型 MoE 模型。 Ring-mini-2.0的总参数量达到16B,但在实际运行中仅需激活1.4B 参数,便能实现相当于10B 级别以下的密集模型的推理能力。 这款模型在逻辑推理、编程和数学任务中表现尤为出色,支持128K 的长上下文,使得其在各种应用场景中都能展现出强大的能力。
                    
                    9/18/2025 5:11:15 PM
                        AI在线
                    MoE那么大,几段代码就能稳稳推理 | 开源
                        混合专家网络模型架构(MoE)已经成为当前大模型的一个主流架构选择,以最近开源的盘古Pro MoE为例,其基于MoGE架构构建的混合专家架构,总参数量达720亿,激活参数量为160亿,专门针对昇腾硬件优化,在性能与效率上表现突出。 盘古还实现了在推理时做到又快又稳。 在技术特性上,盘古模型引入 “快思考” 和 “慢思考” 双系统,可根据问题复杂度自动切换响应模式,并在推理性能上实现突破——在昇腾800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同等规模稠密模型。
                    
                    7/2/2025 5:56:09 PM
                        十三
                    腾讯开源 Hunyuan-A13B:小尺寸,大智慧的 AI 模型
                        Hunyuan-A13B 是一个由腾讯最新开源的大语言模型,它以创新的设计理念,在相对较小的活跃参数规模下,实现了强大的性能表现,特别适用于资源受限的环境。 这款模型采用了细粒度 MoE(Mixture-of-Experts)架构,拥有130亿活跃参数,但总参数量高达800亿。 这种设计让它在保持高效和可扩展性的同时,能够提供前沿的推理能力和通用应用支持。
                    
                    6/30/2025 10:00:59 AM
                        AI在线
                    小红书发布首个开源大模型dots.llm1:11.2 万亿非合成数据助力中文性能提升
                        小红书近日宣布开源其首个大规模模型 ——dots.llm1,该模型具有1420亿个参数,是一种专家混合模型(MoE)。 其设计的一个显著特点是,在推理过程中仅激活140亿参数,这种结构不仅保持了高性能,还大幅降低了训练和推理的成本。 dots.llm1使用了11.2万亿个非合成的高质量训练数据,这在当前开源大模型中显得非常罕见,表明小红书在语言处理方面的强大资源。
                    
                    6/9/2025 10:00:56 AM
                        AI在线
                    Qwen3正式发布,优化编码与代理能力,强化MCP支持引领AI新潮流
                        阿里云Qwen团队宣布Qwen3系列模型正式发布,以卓越的编码能力、增强的代理功能和对Model Context Protocol(MCP)的深度支持,掀起AI社区热潮。 据AIbase了解,Qwen3涵盖从0.6B到235B-A22B的多种模型规模,优化了数学推理、代码生成和多模态任务,性能直追GPT-4o与Gemini-2.5-Pro。 社交平台上的讨论显示,Qwen3的MCP集成与开源策略备受期待,相关细节已通过Hugging Face与Qwen官网公开。
                    
                    4/29/2025 9:00:40 AM
                        AI在线
                    Qwen3正式确认本周发布,阿里云AI新篇章即将开启
                        阿里云Qwen团队通过社交平台正式确认,Qwen3系列模型将于本周内发布,标志着其旗舰大语言模型(LLM)与多模态能力的又一次重大升级。 据AIbase了解,Qwen3将推出包括0.6B、4B、8B、30B-A3B在内的多种模型规模,支持高达256K的上下文长度,涵盖推理与非推理任务。 社交平台上的热烈讨论凸显了其全球影响力,相关细节已通过Hugging Face与Qwen官网逐步公开。
                    
                    4/28/2025 6:00:40 PM
                        AI在线
                    Moonshot AI开源轻量级MoE多模态模型Kimi-VL,2.8B参数媲美SOTA模型!
                        最近有点忙,没来得及更新,但一直保持着对前沿技术的紧密关注,不得不感叹当今技术日新月异。 多模态推理模型进展,现有的开源大型视觉语言模型在可扩展性、计算效率和高级推理能力方面显著落后于纯文本语言模型。 OpenAI的GPT-4o和Google的Gemini等模型能够无缝感知和解释视觉输入,但不开源,DeepSeek-R1等模型虽然采用了MoE架构,但在长上下文推理和多模态任务上仍有不足。
                    
                    4/14/2025 12:30:00 AM
                        Goldma
                    DeepSeek-R2曝5月前上线!第三弹DeepGEMM 300行代码暴击专家优化内核
                        第三天,DeepSeek发布了DeepGEMM。 这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。 仅用300行代码,DeepGEMM开源库就能超越专家精心调优的矩阵计算内核,为AI训练和推理带来史诗级的性能提升!
                    
                    2/26/2025 10:24:51 AM
                        
                    DeepSeek开源周第二日:首个面向MoE模型的开源EP通信库
                        Deepseek 公布了开源周第二天的产品,首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。 DeepEP 是一个专为混合专家(MoE)和专家并行(EP)设计的高效通信库。 它致力于提供高吞吐量和低延迟的多对多 GPU 内核,通常被称为 MoE 调度和组合。
                    
                    2/25/2025 11:02:00 AM
                        AI在线
                    DeepSeek671B提到的MOE是什么?图解MOE(混合专家模型)
                        本文仅做记录,图挺形象的。 原文:,你可能会在标题中看到“MoE”这个词。 那么,这个“MoE”到底代表什么?
                    
                    2/17/2025 3:00:00 AM
                        Grootendorst
                    超详细,DeepSeep 接入PyCharm实现AI编程!(支持本地部署DeepSeek及官方DeepSeek接入),建议收藏!
                        在当今数字化时代,AI编程助手已成为提升开发效率的利器。 DeepSeek作为一款强大的AI模型,凭借其出色的性能和开源免费的优势,成为许多开发者的首选。 今天,就让我们一起探索如何将DeepSeek接入PyCharm,实现高效、智能的AI编程。
                    
                    2/14/2025 9:10:47 AM
                        狂师
                    字节跳动豆包UltraMem架构将大模型推理成本降低83%
                        字节跳动豆包大模型团队今日宣布,成功研发出全新稀疏模型架构UltraMem,该架构有效解决了MoE(混合专家)模型推理时的高额访存问题,推理速度较MoE提升2-6倍,推理成本最高可降低83%。 这一突破性进展为大模型的高效推理开辟了新路径。 UltraMem架构在保证模型效果的前提下,成功解决了MoE架构推理时的访存瓶颈。
                    
                    2/12/2025 2:04:00 PM
                        AI在线
                    豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
                        实验结果表明,训练规模达 2000 万 value 的 UltraMem 模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模 value 或 expert 开辟了新路径。
                    
                    2/12/2025 12:58:01 PM
                        清源
                    别TM浪费算力了,这样才能最大限度发挥deepseek的潜能 - MOE
                        最近几周自学deepseek原理 应用 实践,一些成果,和大家分享:小众关心的,deepseek核心技术原理;大众关心的,提示词要怎么写;今天和大家聊聊,deepseek的核心机制之一的混合专家MOE。 什么是混合专家MOE? 混合专家,Miture of Experts,该模型思路不再追求大而全,转而追求多而专精。
                    
                    2/10/2025 9:00:00 AM
                        58沈剑
                    全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
                        Time-MoE 采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。 研发团队还发布了 Time-300B 数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。 在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。
                    
                    10/23/2024 10:51:58 PM
                        问舟
                    元象发布中国最大 MoE 开源大模型:总参数 255B,激活参数 36B
                        元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。该模型总参数 255B,激活参数 36B,官方号称效果能“大致达到”超过 100B 大模型的“跨级”性能跃升,同时训练时间减少 30%,推理性能提升 100%,使每 token 成本大幅下降。MoE(Mixture of Experts)混合专家模型架构,将多个细分领域的专家模型组合成一个超级模型,在扩大模型规模的同时,保持模型性能最大化,甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、
                    
                    9/13/2024 8:49:18 PM
                        沛霖(实习)
                    微软发布 Phi-3.5 系列 AI 模型:上下文窗口 128K,首次引入混合专家模型
                        微软公司今天发布了 Phi-3.5 系列 AI 模型,其中最值得关注的是推出了该系列首个混合专家模型(MoE)版本 Phi-3.5-MoE。本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型,基于合成数据和经过过滤的公开网站构建,上下文窗口为 128K,所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。AI在线附上相关介绍如下:Phi-3.5-MoE:首个混合专家模型Phi-3.5-MoE 是 
                    
                    8/21/2024 3:23:25 PM
                        故渊
                    
        资讯热榜
    
    
                LangChain V1.0 深度解析:手把手带你跑通全新智能体架构
        全网刷屏的「电影感」三宫格图片,教你用AI快速生成!
        消息称软银批准对 OpenAI 追加 225 亿美元投资,助力未来上市
        OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务
        软银豪掷225亿美元加码OpenAI,AI音乐与超级融资计划全面提速
        OpenAI进军音乐创作领域,携手茱莉亚学院学生打造全新AI音乐模型
        Transformer 之父“叛逃”:我已经受够了 Transformer!警告:AI研究变得越来越窄,我们需要找到新的架构
        LLM 应用评估综合指南(多轮对话系统、RAG、AI Agent)
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    机器人
                    
                    
                    大模型
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    用户
                    
                    
                    AI新词
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Stable Diffusion
                    
                    
                    Claude
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    生成
                    
                    
                    大语言模型
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    DeepMind
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    亚马逊
                    
                    
                    MCP
                    
        
     
                     
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                 
                