混合专家
OpenAI凌晨甩出GPT-5.2:一份PPT三分钟写完,打工人每周直接多出 10 小时“摸鱼额度”
凌晨两点,OpenAI把最新模型GPT-5.2推上生产环境。 没有炫目的发布会,只有一段12分钟的实测视频:一份50页季度汇报,从空白模板到配图、数据、演讲者备注,全程由AI在180秒内自动生成,错误率为零。 首席执行官山姆·阿尔特曼在随后的电话简报里给出量化承诺——“使用GPT-5.2的职场人,每周至少拿回10小时。
12/12/2025 9:21:23 AM
AI在线
DeepSeek-Math-V2 正式发布:开源模型首次以金牌成绩征服国际数学奥林匹克
DeepSeek今日正式发布 DeepSeek-Math-V2,这款6850亿参数的混合专家(MoE)模型成为全球首个以开源形式达到国际数学奥林匹克(IMO)金牌水平的数学推理大模型。 该模型基于 DeepSeek-V3.2实验版基础架构开发,以 Apache2.0开源协议完整放出权重,在数学推理能力上实现了质的飞跃。 最引人注目的突破在于其开创性的“生成-验证”双模型闭环机制。
11/30/2025 2:13:48 PM
AI在线
别TM浪费算力了,这样才能最大限度发挥deepseek的潜能 - MOE
最近几周自学deepseek原理 应用 实践,一些成果,和大家分享:小众关心的,deepseek核心技术原理;大众关心的,提示词要怎么写;今天和大家聊聊,deepseek的核心机制之一的混合专家MOE。 什么是混合专家MOE? 混合专家,Miture of Experts,该模型思路不再追求大而全,转而追求多而专精。
2/10/2025 9:00:00 AM
58沈剑
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
混合专家,也得术业有专攻。对于目前的混合模态基础模型,常用的架构设计是融合特定模态的编码器或解码器,但这种方法存在局限:无法整合不同模态的信息,也难以输出包含多种模态的内容。为了克服这一局限,Meta FAIR 的 Chameleon 团队在近期的论文《Chameleon: Mixed-modal early-fusion foundation models》中提出了一种新的单一 Transformer 架构,它可以根据下一个 token 的预测目标,对由离散图像和文本 token 组成的混合模态序列进行建模,从而
8/11/2024 10:55:00 AM
机器之心
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
AI模型
特斯拉
场景
深度学习
亚马逊
架构
Transformer
MCP
Copilot
编程
视觉