AI在线 AI在线

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

2025 年,我们可能会看到第一批 AI Agent 加入劳动力大军,并对公司的生产力产生实质性的影响。 ——OpenAI CEO Sam Altman2025 年,每个公司都将拥有 AI 软件工程师 Agent,它们会编写大量代码。 ——Meta CEO Mark Zuckerberg未来,每家公司的 IT 部门都将成为 AI Agent 的 HR 部门。

2025 年,我们可能会看到第一批 AI Agent 加入劳动力大军,并对公司的生产力产生实质性的影响。

——OpenAI CEO Sam Altman

2025 年,每个公司都将拥有 AI 软件工程师 Agent,它们会编写大量代码。

——Meta CEO Mark Zuckerberg

未来,每家公司的 IT 部门都将成为 AI Agent 的 HR 部门。

—— 英伟达 CEO 黄仁勋

2025 新年伊始,在很多趋势都还不明朗的情况下,几位 AI 业界的重要人物几乎在同一时间做出了类似的判断 ——2025 年将是 AI Agent 之年。

没想到,MiniMax 很快就有了动作:开源了最新的基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

新模型的最大亮点是,在业内首次大规模实现了新的线性注意力机制,这使得输入的上下文窗口大大变长:一次可处理 400 万 token,是其他模型的 20-32 倍。

他们相信,这些模型能够给接下来一年潜在 Agent 相关应用的爆发做出贡献。

为什么这项工作对于 Agent 如此重要?

随着 Agent 进入应用场景,无论是单个 Agent 工作时产生的记忆,还是多个 Agent 协作所产生的 context,都会对模型的长上下文窗口提出更多需求。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

  • 开源地址:https://github.com/MiniMax-AI
  • Hugging Face:https://huggingface.co/MiniMaxAI
  • 技术报告:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
  • 网页端:https://www.hailuo.ai
  • API:https://www.minimaxi.com/platform

一系列创新造就比肩顶尖模型的开源模型

MiniMax-Text-01 究竟是如何炼成的?事实上,他们为此进行了一系列创新。从新型线性注意力到改进版混合专家架构,再到并行策略和通信技术的优化,MiniMax 解决了大模型在面对超长上下文时的多项效果与效率痛点。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

MiniMax-Text-01 的架构

1. Lightning Attention

目前领先的 LLM 大都基于 Transformer,而 Transformer 核心的自注意力机制是其计算成本的重要来源。为了优化,研究社区可以说是绞尽脑汁,提出了稀疏注意力、低秩分解和线性注意力等许多技术。MiniMax 的 Lightning Attention 便是一种线性注意力。

通过使用线性注意力,原生 Transformer 的计算复杂度可从二次复杂度大幅下降到线性复杂度,如下图所示。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

MiniMax 的相关技术报告中写道,这主要是得益于一种右边积核技巧(right product kernel trick)。以 2022 年论文《The Devil in Linear Transformer》中的 TransNormer 为例,下图左侧的 NormAttention 机制可转换成使用「右侧矩阵乘法」的线性变体。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

而 Lightning Attention 便是基于 TransNormer 实现的一个 I/O 感知型优化版本。

以下是 Lightning Attention 前向通过的算法描述。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

基于 Lightning Attention,MiniMax 还提出了一种 Hybrid-lightning,即每隔 8 层将 Lightning Attention 替换成 softmax 注意力,从而既解决了 softmax 注意力的效率问题,也提升了 Lightning Attention 的 scaling 能力。

效果如何?下表给出了根据层数  l、模型维度  d、批量大小 b 和序列长度 n 计算注意力架构参数量与 FLOPs 的公式。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

可以明显看出,模型规模越大,Lightning Attention 与 Hybrid-lightning 相对于 softmax 注意力的优势就越明显。

2. 混合专家(MoE) 

MoE 相对于密集模型的效率优势已经得到了大量研究证明。MiniMax 团队同样也进行了一番比较实验。他们比较了一个 7B 参数的密集模型以及 2B 激活参数和 20B 总参数的 MoE 模型。结果如下图所示。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

可以看到,在多种基准上,当计算负载一样时,MoE 模型的表现要大幅优于密集模型。

MiniMax 还引入了一个新的 allgather 通信步骤,可解决扩大 MoE 模型的规模时可能会遇到路由崩溃(routing collapse)问题。

3. 计算优化

与许多大模型训练项目一样,MiniMax 先通过小规模实验上述技术改进的有效性以及 Scaling Law,然后再开始着手大规模训练。MiniMax 为此采用了 1500 到 2500 台 H800 GPU—— 并且在训练过程中,具体使用 GPU 数量会动态变化。而大规模训练都有自己的特有挑战,MiniMax 开发了一系列针对性的优化技术。

首先,对于 MoE 架构,最主要的优化目标是降低其通信负载。尤其是对于采用 all-to-all(a2a)通信的 MoE 模型。MiniMax 的解决方案是一种基于 token 分组的重叠方案。

其次,对于长上下文训练,一大主要挑战是难以将真实的训练样本标准化到统一长度。传统的方式是进行填充,但这种方法非常浪费计算。MiniMax 的解决思路是进行数据格式化,其中不同样本会沿序列的维度首尾相连。他们将这种技术命名为 data-packing。这种格式可尽可能地降低计算过程中的计算浪费。

最后,为了将 Lightning Attention 投入实践,MiniMax 采用了四项优化策略:分批核融合、分离式的预填充与解码执行、多级填充、跨步分批矩阵乘法扩展。

MiniMax-Text-01上下文巨长,能力也够强

基于以上一系列创新,MiniMax 最终得到了一个拥有 32 个专家共 4560 亿参数的 LLM,每个 token 都会激活其中 459 亿个参数。MiniMax 将其命名为 MiniMax-Text-01。在执行推理时,它的上下文长度最高可达 400 万 token,并且其表现出了非常卓越的长上下文能力。

1. MiniMax-Text-01 基准成绩优秀

在常见的学术测试集上,MiniMax-Text-01 基本上能媲美甚至超越 GPT-4o、Claude 3.5 Sonnet 等闭源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 开源模型。下面直接上成绩。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

可以看到,在 HumanEval 上,MiniMax-Text-01 与 Instruct Qwen2.5-72B 相比表现出色。此外,MiniMax-Text-01 在 GPQA Diamond 这样具有挑战性问答的数据集上取得了 54.4 的成绩,超过了大多数开源指令微调的 LLM 以及最新版本的 GPT-4o。

MiniMax-Text-01 在 MMLU、IFEval 和 Arena-Hard 等测试中也取得了前三名的成绩,展示了其在给定限制条件下,应用全面知识来充分满足用户查询、与人类偏好保持一致的卓越能力。可以想象,基于最新的模型能力,也给开发者开发 Agent 应用提供了更好的基础。

2. 领先的上下文能力

那 MiniMax-Text-01 引以为傲的长上下文能力呢?其优势就更为明显了。

在长上下文理解任务上,MiniMax 测试了 Ruler 和 LongBench v2 这两个常见基准。首先在 Ruler 上,可以看到,当上下文长度在 64k 或更短时,MiniMax-Text-01 与其它 SOTA 模型不相上下,而当上下文长度超过 128k 时,MiniMax-Text-01 的优势就明显显现出来了。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

在 Ruler 上,MiniMax-Text-01 与其它模型的性能比较

同样,MiniMax-Text-01 在 LongBench v2 的长上下文推理任务上的表现也非常突出。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

在  LongBench v2 上,MiniMax-Text-01 与其它模型的性能比较

另外,MiniMax-Text-01 的长上下文学习能力(终身学习的一个核心研究领域)也是 SOTA 水平。MiniMax 在 MTOB 基准上验证了这一点。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

在 MTOB 上,MiniMax-Text-01 与其它模型的性能比较

3. 长文本能力Showcase

MiniMax-Text-01 得到了很不错的基准分数,但实际表现如何呢?下面展示了一些示例。

首先,来写首歌吧!

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

人类评估者也给出了非常正面的评价:诗意的语言和演绎空间为歌曲增添了层层的趣味和情感共鸣,使歌曲既引人入胜又发人深省。

下面重点来看看 MiniMax-Text-01 的长上下文能力。对于新几内亚的一门小众语言 Kalamang,先将指令、语法书、单词表、与英语的对照例句放入 MiniMax-Text-01 的上下文,然后让其执行翻译。可以看到,MiniMax-Text-01 给出的答案基本与标准答案一致。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

至于长对话记忆任务,MiniMax-Text-01 可说是表现完美。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

4. 视觉-语言模型

基于 MiniMax-Text-01,MiniMax 还开发了一个多模态版本:MiniMax-VL-01。思路很简单,就是在文本模型的基础上整合一个图像编码器和一个图像适配器。简而言之,就是要将图像变成 LLM 能够理解的 token 形式。

因此,其整体架构符合比较常见的 ViT-MLP-LLM 范式:MiniMax-VL-01 作为基础模型,再使用一个 303M 参数的 ViT 作为视觉编码器,并使用了一个随机初始化的两层式 MLP projector 来执行图像适应。

当然,为了确保 MiniMax-VL-01 的视觉理解能力足够好,还需要在文本模型的基础上使用图像-语言数据进行持续训练。为此,MiniMax 设计了一个专有数据集,并实现了一个多阶段训练策略。

最终,得到的 MiniMax-VL-01 模型在各个基准上取得了如下表现。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

可以看到,MiniMax-VL-01 整体表现强劲,整体能与其它 SOTA 模型媲美,并可在某些指标上达到最佳。

下面展示了一个分析导航地图的示例,MiniMax-VL-01 的表现可得一个赞。

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

探索无限的上下文窗口让 Agent 走进物理世界

有人认为 [1],context 会是贯穿 AI 产品发展的一条暗线,context 是否充分同步会直接影响智能应用的用户体验,这包括用户的个性化信息、环境变化信息等各种背景上下文信息。

而为了保证 context 充分同步,足够大的上下文窗口就成了大模型必须克服的技术难题。目前,MiniMax 已经在这条路上迈出了重要的一步。

不过,400 万 token 的上下文窗口明显不是终点。他们在技术报告中写道:「我们正在研究更高效的架构,以完全消除 softmax 注意力,这可能使模型能够支持无限的上下文窗口,而不会带来计算开销。」

除此之外,MiniMax 还在 LLM 的基础上训练的视觉语言模型,同样拥有超长的上下文窗口,这也是由 Agent 所面临的任务所决定的。毕竟,在现实生活中,多模态任务远比纯文本任务更常见。

「我们认为下一代人工智能是无限接近通过图灵测试的智能体,交互自然,触手可及,无处不在。」MiniMax 创始人在去年的一次活动中提到。

或许,「无处不在」也意味着,随着多模态 token 的加入,Agent 也将逐步进入物理世界。为此,AI 社区需要更多的技术储备。

相关资讯

阿里国际Marco获SAIL奖!日调用量破10亿次,翻译准确率领跑行业

在近日公布的2025世界人工智能大会卓越人工智能引领者SAIL奖评选中,阿里国际跨境电商AI解决方案Marco成功斩获SAIL之星奖项。 据阿里国际透露,公司AI服务调用量持续攀升,平均日调用量已突破10亿次。 生态开放成效显著通过技术共享策略,阿里国际已向集团外生态伙伴开放AI服务能力。
7/28/2025 4:52:11 PM
AI在线

Gartner:超 40% 的 AI Agent 智能体项目活不过两年

Gartner最新报告显示,超过40%的AI Agent项目因商业利益不佳或误用炒作,预计将在2027年底前消失。调查发现,仅19%的企业对AI智能体进行了大量投资,而42%持保守态度。#AI技术##商业投资#
6/29/2025 11:36:29 AM
漾仔

全网爆火的Manus到底能做什么?超多演示案例来了!

关注科技 AI 圈的同学,在 3 月 6 号这天都被 Manus 刷屏了,那么他是个啥呢? 和 DeepSeek 和 Open AI 有什么区别呢? Manus 官网上是这样说的“Manus 是一个通用的人工智能代理,它连接思想和行动:它不仅会思考,还会提供结果。
3/11/2025 12:54:46 AM
益达

速通BOSS需求!零基础AI Agent高效工作流设计指南

此次会连载一套 AI-Agent 构建的系列,主要分为三部分,首先是速通 AI-Agent 构建的工作流基础,然后是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,最后则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试思考为自己的工作搭建一些可用的 AI 助手,或是提供构建的方法指引。 无论你是产品经理还是设计师,你会发现商业场景的 AIGC,几乎都没有办法通过一段需求描述或是简单的 Agent 对话就搞定的,你需要更专业更复杂的 AIGC 过程,那么如何理解复杂? 实现专业?
3/18/2025 8:22:14 AM
泡泡bing

唯有惊叹!一手体验首款通用Agent产品Manus

一个新团队突然发了一个首款通用型的项目:Manus。 演示在此,我人直接看麻了。 看完我的第一感觉,人类又要一败涂地了。
3/7/2025 7:43:25 AM
数字生命卡兹克

速通BOSS需求!零基础AI Agent高效工作流设计指南(二)

前言. 此次会连载一套 AI Agent 构建的系列,主要分为三部分,上篇是速通 AI Agent 构建的工作流基础,本篇则是通过 ComfyUI 作为案例来复盘如何快速上手工作流平台,给大家提供一些思路与窍门,下篇则是借助 Agent 平台构建一个 AI Agent 案例,本系列意图主要是帮助大家贯通工作流的搭建形式,并尝试为自己搭建一些可用的 AI 助手,或是提供构建的方法指引。 上期回顾:.
5/13/2025 2:16:53 AM
泡泡bing

这篇 AI Agent 漫游指南,带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型,正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热,强化学习驱动的端到端Agent模型训练已呼啸而来。 未来趋势已指明:模型即产品,工程化Agent的命运将如何?
5/27/2025 10:05:00 AM
腾讯技术工程

模型吞噬代码,Agent重构世界:当AI Agent与模型协同进化

大家好,我是肆〇柒。 AI 圈的进化速度之快,已是不争的事实。 去年,MCP(模型上下文协议)发布,随后 AI Coding 赛道愈发热闹,Cursor、Cline、Devin、MGX 等产品层出不穷。
5/29/2025 9:57:38 AM
肆零柒

AI Agent!一个万亿市场正在觉醒

"你能帮我订个周末的餐厅吗? " 这句话,你可能每周都要说一遍。 打开手机,搜索餐厅,对比评分,查看菜单,打电话预订...整个流程下来,至少要花15分钟。
6/11/2025 3:00:00 AM
大数据AI智能圈

Lovart国产版超全测评!10分钟做了我一周的工作量!

嗨大家好! 今天是星流 AI 操作员阿真! 之前我有分享过 Lovart 也就是第一个设计 Agent,整合多种 AI 模型来一站式完成概念到成品的创意过程。
7/7/2025 12:30:19 AM
阿真Irene

不用写产品文案了!手把手教你用Coze搭建设计AI助手​

文案是产品与用户沟通的最直接的桥梁,也是影响用户理解和行为决策的关键。 此前,各业务都陆续建立了自己的语义规范。 怎样让静态的语义文档,变成日常工作中随手能用的一个工具,是推进规范应用的重要环节。
7/18/2025 2:14:11 AM
58UXD 团队

碾压ChatGPT Agent:深度测评国产AI智能体神器MiniMax Agent

上周五,ChatGPT Agent mode 上线了。 之前一直有点偷懒,也嫌贵,嫌麻烦,没咋做 Agent 的对比,这次真的想好好评测一下,让我自己有一个认知,于是花了一天的时间,构建了一些我自己的任务。 拿去测一下各家通用 Agent 的情况。
7/24/2025 12:16:19 AM
数字生命卡兹克

Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66

近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。 这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。 Agent KB 通过层级化的经验检索,让智能体能够从其他任务的成功经验中学习,显著提升了复杂推理和问题解决能力。
7/25/2025 3:57:00 PM
机器之心

解构GoldMine OS:AI Agent如何破解RWA“不可能三角”

大家好,我是肆〇柒,随着《香港稳定币法案》从提出到8月1日即将生效,合规稳定币的发行与交易框架首次在香港获得法律背书,这不仅为传统资产上链提供了清晰的监管路径,也让“链上数字货币的规模化合规交易”从概念走向现实。 在这一里程碑事件的背后,市场目光重新聚焦于RWA(Real-World Asset)代币化——如何让黄金、债券、房产等传统资产在区块链世界中焕发新生? GoldMine OS给出了一个惊艳答案。
8/1/2025 1:00:00 AM
肆零柒

AI Agent哪个更好用?12个角度全方位深度分析Dify、N8n、Coze三大工具

在数字化转型的浪潮中,AI Agent 工具正成为企业提升效率、优化流程的关键利器。 然而,面对众多选择,如何挑选最适合的工具成为了一个难题。 本文将深入剖析 Dify、N8n 和 Coze 这三款热门 AI Agent 工具,从功能、价格、学习成本、技术架构到实际应用场景,全方位对比它们的优劣,帮助你在选型时避坑,找到最适合自己的工具。
8/8/2025 7:29:52 AM
A ad钙

第一波!2025年8月精选实用设计干货合集

大家好,这是 2025 年 8 月第一波干货合集! 这期干货合集几乎全都是 AI 工具,有基于 AI 的着陆页生成工具,有给 Blender 做的 AI 助手,有免费生成粉色壁纸的 AI 网站,有免费且具备 AI 功能的在线设计平台,有基于 AI 的 Github Readme 文档生成工具,还有一键生成可交互页面的 AI 平台。 当然,在继续阅读下去之前,记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:.
8/11/2025 7:35:54 AM
陈子木

AI Agent哪个更好用?12个角度深度对比测评三大知名工具

在数字化转型的浪潮中,AI Agent 工具正成为企业提升效率、优化流程的关键利器。 然而,面对众多选择,如何挑选最适合的工具成为了一个难题。 本文将深入剖析 Dify、N8n 和 Coze 这三款热门 AI Agent 工具,从功能、价格、学习成本、技术架构到实际应用场景,全方位对比它们的优劣,帮助你在选型时避坑,找到最适合自己的工具。
8/8/2025 7:29:52 AM
A ad钙

如果有一个能替你操作手机的Agent,你会用它做什么?

往期作者干货:如果你有一个能替你操作手机的 Agent,你会用它来做什么? 替自己回复微信消息? 下单中午想吃的外卖?
8/23/2025 12:28:55 AM
一泽Eze
  • 1