AI在线 AI在线

MiniMax 发布 M1 大模型,百万Token上下文+MoE架构,只花了 GPT-4 的零头!

近日,国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。 有两个方面最引人注目:1.高达100万Token的上下文处理能力。 2.极具竞争力的训练成本效益。

近日,国内 AI 初创公司 MiniMax 发布了一款全新的语言大模型 MiniMax-M1。

有两个方面最引人注目:

1.高达100万Token的上下文处理能力。

2.极具竞争力的训练成本效益。

M1 那个“1,000,000 token 上下文窗口”的数字,它几乎是 GPT-4o 的 8 倍,是大多数企业内用 LLM 一次上下文能处理信息量的极限突破。

大上下文也很烧钱,处理这么长的输入输出意味着更大的内存占用和更高的计算量。而 MiniMax-M1 把这件事“做得便宜”。据官方披露,M1 的训练总成本仅为 53.47 万美元,约为 DeepSeek R1 的十分之一,而之前的GPT-4 更是要上亿美金起步。

据说,这要归功于两个设计巧思:其一是 CISPO,这种自研的强化学习算法用更聪明的采样方式节省了大量重复训练成本;其二是混合专家架构(MoE)+ 快速注意力机制,它只激活最需要的那部分参数。

高性能,也可以很便宜

低成本并没有牺牲性能。在多个重要基准测试中,MiniMax-M1 的表现比 DeepSeek-R1 和 Qwen3 等知名开源模型更为突出。

图片图片

在数学推理难题 AIME 2024 中,它的准确率达到 86.0%。在代码生成任务 SWE-bench Verified 中取得 56.0%,在函数调用测试 TAU-bench 中得分 62.8%。这些数据意味着它不仅“看得懂”长文本,还能“用得上”。

尽管与 GPT-4o、Gemini Pro 2.5 等封闭式顶级模型相比,它仍存在通用理解能力上的差距,特别是在高维复杂指令、语言微妙语境等任务中,但在开源模型阵营中,它已进入第一梯队。

图片图片

其次,MiniMax-M1 保持了完整开放:Apache-2.0 协议,支持商用、修改、永久免费使用。这让它在技术价值之外,也具备战略价值——它是任何一家企业都可以“据为己有”的大模型。

据说,M1是全球首个开源大规模混合架构的推理模型。

而在产品策略上,MiniMax 并没有追求全面均衡,而是选择了“关键能力超配”的方向:超长上下文、极低计算成本、易部署的架构和极宽松的许可。

它有两个版本:40k 和 80k tokens 输出上限,分别对应不同推理预算。这种设置非常工程化——越多预算带来更完整的推理,但也更慢更贵。MiniMax 把决策权交还给开发者和企业用户,让他们自己调节“速度-成本-性能”三者之间的平衡。

它还原生支持 structured function calling,适配 vLLM 和 Transformers 等主流框架,可快速集成进已有基础设施,构建具备“智能体”能力的产品。它甚至预装了搜索、视频生成、语音合成等多模态能力插件,为应用构建节省了大量研发资源。

这并不是“另一个大模型”,而是一个面向未来任务形态的基础设施尝试。

相关资讯

本命周!MiniMax M1有多猛?网友:仅用40k思考预算就干翻Gemini,实测:真·超DS!生产环境下更划算!但还不够美观

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)大模型的内卷远远没有结束了。 今天凌晨,MiniMax 扔出了一记重磅炸弹——MiniMax-M1。 先来看看,M1 有多猛?
6/17/2025 2:49:18 PM
云昭

M1芯片搞数据科学好使吗?5种基准测试给你答案

最近 M1 芯片爆火,它是否适用于数据科学?在常用基准上测试一下就知道了。
2/10/2021 2:51:00 PM
机器之心

单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键

当单芯片处理器已达到极限,苹果和英伟达相继发布的芯片证明多芯片封装或许才是未来发展方向,但互连技术仍是一大难题和巨头角逐的主战场。
4/10/2022 12:40:00 PM
机器之心
  • 1