AI在线 AI在线

SparseMM

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。 本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。 多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。
7/14/2025 8:19:00 PM
机器之心
  • 1