AI在线 AI在线

2025年,Mamba“联姻”Transformer,打造史上最强视觉骨干网络!

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。 核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。 如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。

1. 一眼概览

MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。

2. 核心问题

虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。

3. 技术亮点

  • 视觉友好的 Mamba 重设计:引入对称非 SSM 分支,替换因果卷积,有效增强对空间信息的建模能力;
  • Mamba + Transformer 的混合架构:在模型末端引入多层自注意力块,显著提升对长程依赖的捕捉能力;
  • SOTA 性能-效率平衡:在 ImageNet-1K 上实现新的准确率-吞吐率最优曲线,并在下游任务上超越主流主干模型。

4. 方法框架

图片图片

MambaVision 使用四阶段层次化架构:

• Stage 1–2:采用 CNN 残差块快速提取高分辨率特征;

• Stage 3–4:前半使用 MambaVision Mixer,后半加入 Transformer 自注意力模块,结合局部与全局建模能力;

• Mixer 模块:SSM 分支建模序列依赖,新增对称卷积分支增强空间特征,最终拼接融合;

• 下采样线性投影贯穿各阶段,形成统一的视觉表示。

5. 实验结果速览

📌 图像分类(ImageNet-1K):

• MambaVision-B 实现 84.2% Top-1 准确率,超过 ConvNeXt-B(83.8%)和 Swin-B(83.5%);

• 同时吞吐率远高于 VMamba 和 Swin 系列;

• GFLOPs 显著减少(如比 MaxViT-B 少 56%)。

📌 目标检测与实例分割(MS COCO):

• MambaVision-T/S/B 在 Mask-RCNN 和 Cascade-RCNN 中整体超过 Swin 和 ConvNeXt 同级模型;

• 如 MambaVision-B 达到 52.8 box AP / 45.7 mask AP

📌 语义分割(ADE20K):

• MambaVision-B 实现 49.1% mIoU,优于 Swin-B(48.1%)和 Focal-B(49.0%)等。

6. 实用价值与应用

MambaVision 为部署在算力受限设备上的高性能视觉任务提供新方案,尤其适用于:

• 实时图像分类与检测;

• 高分辨率语义分割(如城市交通感知);

• 视觉感知系统中的轻量级嵌入式应用。

其优异的性能-效率权衡使其成为 Transformer 替代方案的新候选。

7. 开放问题

• 如果在更复杂的跨尺度视觉任务(如多模态融合)中,MambaVision 的表现是否仍具优势?

• 是否能将 MambaVision 的混合模式推广至视频理解或时序图像分析中?

• MambaVision 能否进一步压缩为移动端模型以适应边缘计算?

相关资讯

在12个视频理解任务中,Mamba先打败了Transformer

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京
4/30/2024 3:21:00 PM
机器之心

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天,阿布扎比技术创新研究所(TII)发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B。先来总结一波 Falcon Mamba 7B 的亮点
8/13/2024 2:51:00 PM
机器之心

长视频理解新突破!Mamba混合架构让显存消耗腰斩,处理10万视频token不费力

Mamba混合架构视频模型来了,不再对视频token进行压缩——而是通过改进模型架构设计的方式提升模型在训练及推理预填充阶段处理视频token的效率。 图片滑铁卢大学陈文虎团队与多伦多大学、零一万物、向量学院以及M-A-P的研究人员提出了一种新的Mamba-Transformer混合模型Vamba。 图片通过大量实验验证,研究团队发现Vamba在同等硬件条件下可处理的视频帧数较传统Transformer架构提升4倍,训练内存消耗降低50%以上,并且可实现单步训练速度的翻倍。
3/27/2025 12:20:25 PM
  • 1