盘古-Σ

打破MoE训练效率与性能瓶颈，华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月，首个开源 MoE 大模型 Mixtral 8×7B 发布，在多种基准测试中，其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B，而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能，稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用，使得在计算成本相对不变的条件下，模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷，是使模型的学习更加 “术业有专攻”，其有效性已得到业界肯定。然而现有 MoE

2/4/2024 3:49:00 PM

机器之心

资讯热榜

量大管饱！我整理了10个好用到爆的即梦4.0进阶玩法 AI 数据版权新纪元：Real Simple Licensing 协议引发行业关注姚顺雨离职OpenAI，「亿元入职腾讯」传闻引爆AI圈，鹅厂辟谣了 4大模式+3大场景！写给B端设计师的AI上手指南加州州议会通过AI伴侣聊天机器人监管法案，旨在保护未成年人狠人研究公开！ChatGPT底层记忆系统终于被逆向了！没有RAG！用户设备信息、使用习惯统统存下来，用户知识记忆是新的研究热点！迎战软件3.0时代：新范式、新挑战、新工程 OpenAI与微软达成非约束性协议：允许将营利部门转型公益股份公司

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术图像 AI新词智能体 Gemini 马斯克 AI创作 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯苹果蛋白质 Claude 开发者 AI for Science Agent 生成式神经网络机器学习 3D xAI 研究人形机器人生成 AI视频百度工具计算 Sora GPU 华为大语言模型 RAG AI设计字节跳动具身智能搜索大型语言模型场景 AGI 深度学习视频生成预测视觉伟达架构 Transformer 编程神器推荐 DeepMind 亚马逊特斯拉 AI模型