美团首个开源大模型正式发布！LongCat-Flash-Chat能否撼动AI格局？

美团正式发布并开源了自己的首个大语言模型——LongCat-Flash-Chat。说实话，这个消息让我挺意外的。美团，这个我们天天用来点外卖、叫车的平台，突然宣布要在AI大模型领域正面挑战OpenAI、Anthropic这些巨头。

美团正式发布并开源了自己的首个大语言模型——LongCat-Flash-Chat。

说实话，这个消息让我挺意外的。美团，这个我们天天用来点外卖、叫车的平台，突然宣布要在AI大模型领域正面挑战OpenAI、Anthropic这些巨头。更让人意外的是，他们不仅发布了，还直接开源了。

9月1日，美团技术团队正式发布并开源了LongCat-Flash-Chat模型，这标志着美团从AI应用场景的使用者，正式转身成为AI基础技术的贡献者。

图片

技术亮点

LongCat-Flash-Chat最大的技术亮点在于在架构层面引入 “零计算专家（Zero-Computation Experts）” 机制，总参数量 560 B，每个 token 依据上下文需求仅激活 18.6B~31.3 B 参数，实现算力按需分配和高效利用。

为控制总算力消耗，训练过程采用 PID 控制器实时微调专家偏置，将单 token 平均激活量稳定在约 27 B。

此外，LongCat-Flash 在层间铺设跨层通道，使 MoE 的通信和计算能很大程度上并行，极大提高了训练和推理效率。

配合定制化的底层优化，LongCat-Flash 在 30 天内完成高效训练，并在 H800 上实现单用户 100+ tokens/s 的推理速度。LongCat-Flash 还对常用大模型组件和训练方式进行了改进，使用了超参迁移和模型层叠加的方式进行训练，并结合了多项策略保证训练稳定性，使得训练全程高效且顺利。

美团的AI野心：从外卖到通用智能

其实，美团涉足AI大模型并不突然。早在几年前，美团就在内部大量应用AI技术来优化配送路径、提升搜索推荐效果、智能客服等业务场景。

我翻了翻美团技术团队的历年论文，发现他们在机器学习、深度学习领域已经积累了不少技术成果。从搜索推荐算法到配送系统的运筹优化，从计算机视觉到自然语言处理，美团技术团队的研究覆盖面相当广泛。

特别值得注意的是，美团在2022年就开始探索粗排优化的深度学习方法，通过知识蒸馏和对比学习来联动精排与粗排，这些技术积累为今天的大模型研发打下了坚实基础。

不过，从垂直领域的AI应用跨越到通用大语言模型，这中间的技术鸿沟还是很大的。美团选择在这个时点发力，我觉得有几个原因：

• 业务需求驱动 - 美团需要更智能的对话系统来处理复杂的用户咨询

• 技术积累到位 - 多年的AI应用经验让团队具备了做大模型的能力

• 开源生态布局 - 通过开源获得更大的技术影响力和开发者社区

开源策略的深层考量

美团选择开源这个模型，我觉得背后的考量挺有意思的。

首先，开源能够快速建立技术影响力。在AI大模型这个赛道，技术实力的展示比什么宣传都有效。通过开源，美团能够让更多开发者接触和使用他们的技术，形成技术品牌效应。

其次，开源有助于技术迭代。大模型的训练和优化需要海量的反馈数据，开源社区能够提供这样的数据来源。这对美团来说，是一个低成本获得大规模测试的好方法。

最后，也是最现实的一点，美团可能认为在大模型的商业化路径上，API服务比模型本身更有价值。开源模型能够吸引更多开发者，进而为美团的AI基础设施服务导流。

总的来说，美团这次发布LongCat-Flash-Chat，展现了一种务实的技术路线。他们没有盲目追求参数规模或者性能跑分，而是专注于解决实际应用中的效率问题。这种思路在当前的AI发展阶段，可能比追求极致性能更有实用价值。

至于这个模型能否在激烈的竞争中站稳脚跟，我觉得关键还是看后续的迭代速度和生态建设。毕竟在AI这个赛道，技术领先只是第一步，能不能形成可持续的竞争优势，还需要更多时间来验证。

美团首个开源大模型正式发布！LongCat-Flash-Chat能否撼动AI格局？

技术亮点

开源策略的深层考量

相关资讯

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

OpenAI重磅发布gpt-oss系列开源大模型：媲美 GPT-4o

美团首个开源大模型正式发布！LongCat-Flash-Chat能否撼动AI格局？

技术亮点

开源策略的深层考量

相关资讯

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

百元级硬件流畅运行百亿参数大模型！上交&amp;本智激活开源端侧原生大模型

OpenAI重磅发布gpt-oss系列开源大模型：媲美 GPT-4o

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型