AI在线 AI在线

混合专家

OpenAI凌晨甩出GPT-5.2:一份PPT三分钟写完,打工人每周直接多出 10 小时“摸鱼额度”

凌晨两点,OpenAI把最新模型GPT-5.2推上生产环境。 没有炫目的发布会,只有一段12分钟的实测视频:一份50页季度汇报,从空白模板到配图、数据、演讲者备注,全程由AI在180秒内自动生成,错误率为零。 首席执行官山姆·阿尔特曼在随后的电话简报里给出量化承诺——“使用GPT-5.2的职场人,每周至少拿回10小时。
12/12/2025 9:21:23 AM
AI在线

DeepSeek-Math-V2 正式发布:开源模型首次以金牌成绩征服国际数学奥林匹克

DeepSeek今日正式发布 DeepSeek-Math-V2,这款6850亿参数的混合专家(MoE)模型成为全球首个以开源形式达到国际数学奥林匹克(IMO)金牌水平的数学推理大模型。 该模型基于 DeepSeek-V3.2实验版基础架构开发,以 Apache2.0开源协议完整放出权重,在数学推理能力上实现了质的飞跃。 最引人注目的突破在于其开创性的“生成-验证”双模型闭环机制。
11/30/2025 2:13:48 PM
AI在线

别TM浪费算力了,这样才能最大限度发挥deepseek的潜能 - MOE

最近几周自学deepseek原理 应用 实践,一些成果,和大家分享:小众关心的,deepseek核心技术原理;大众关心的,提示词要怎么写;今天和大家聊聊,deepseek的核心机制之一的混合专家MOE。 什么是混合专家MOE? 混合专家,Miture of Experts,该模型思路不再追求大而全,转而追求多而专精。
2/10/2025 9:00:00 AM
58沈剑

混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合

混合专家,也得术业有专攻。对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多种模态的内容。为了克服这一局限,Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构,它可以根据下一个 token 的预测目标,对由离散图像和文本 token 组成的混合模态序列进行建模,从而
8/11/2024 10:55:00 AM
机器之心