AI在线 AI在线

港中文MMlab

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

在大模型迈向通用视觉智能的浪潮中,单一任务或单一模态的方法正面临瓶颈。 现实世界的视觉理解系统不仅要回答问题,还要理解动态视频、定位事件、跟踪目标、生成描述乃至进行复杂的逻辑推理,这要求模型具备综合的跨任务和跨模态能力。 然而,现有方法多数依赖任务专化模型,难以实现不同视觉任务间的协同与知识共享,这不仅导致系统复杂度高,也限制了模型在综合推理场景中的表现。
12/17/2025 11:09:00 AM
郑佳美