MLLM

多模态大模型学会反思和复盘，上交&上海AI Lab破解多模态复杂推理

MM-HELIX团队投稿. 量子位 | 公众号 QbitAI多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。无论是生成代码、分析图表还是回答问题，诸多多模态大模型（MLLM）都倾向于给出一个“一步到位”的答案。

10/19/2025 3:08:43 PM

鹭羽

充分激发模态协作，MokA量身打造MLLM微调新范式

本文第一作者卫雅珂为中国人民大学四年级博士生，主要研究方向为多模态学习机制、多模态大模型等，师从胡迪副教授。作者来自于中国人民大学和上海人工智能实验室。近年来，多模态大模型（MLLMs）已经在视觉语言、音频语言等任务上取得了巨大进展。

6/30/2025 8:44:00 AM

多模态LLM+RAG：突破生成瓶颈的下一代AI架构革命

译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据，多模态大型语言模型（MLLM）开始突破传统RAG的文本局限，赋予AI感知能力。其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一，通过投影层对齐多模态信息。不过，多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。

6/9/2025 8:42:23 AM

朱先忠

AI为何读不懂钟表？模拟时钟暴露的认知短板与AI进化隐忧

译者 | 朱先忠审校 | 重楼中国和西班牙研究人员发表的一篇新论文发现，即使是像GPT-4.1这样的先进多模态人工智能模型，也难以从模拟时钟图像中识别时间。时钟中细微的视觉变化都可能导致严重的解读错误，而微调也只对熟悉的示例有效。这一结果引发了人们对这些模型在现实世界任务中处理不熟悉图像时的可靠性的担忧。

5/28/2025 10:31:13 AM

朱先忠

4月11日，OpenGVLab开源发布了InternVL3系列模型，这标志着多模态大型语言模型（MLLM）领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型，能够同时处理文字、图片、视频等多种信息，展现出卓越的整体性能。与前代产品InternVL2.5相比，InternVL3在多模态感知和推理能力上有了显著提升，其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。

4/14/2025 9:01:07 AM

AI在线

科学家构建多模态LLM框架，进行3D脑CT放射学报告生成

编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局，其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。虽然基于 2D MLLM 的 RRG 已经得到充分认可，但其在 3D 医学图像中的实用性仍未得到充分开发。在这方面，台北荣民总医院（Taipei Veterans General Hospital）、台湾阳明交通大学（National Yang Ming Chiao Tung University）以及美国加州大学的研究人员整理了 3D-BrainCT 数据集（18,885 个文本扫描对）并开发了 BrainGPT，这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。

3/13/2025 2:23:00 PM

ScienceAI

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型，就看到这个工作，本文一起看看，供参考。先提出问题，仅靠 RL 是否足以激励 MLLM 的推理能力？结论：不能，因为如果 RL 能有效激励推理能力，Vision-R1-Zero 应该表现出生成复杂 CoT 的能力，并在基准测试中提升准确率。

3/13/2025 8:13:47 AM

余俊晖

登Nature，超越GPT-4V，MIT、哈佛开发人类病理学多模态AI「副驾驶」

编辑 | KX多年来，计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而，尽管生成式人工智能 (AI) 呈爆炸式增长，但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」（Copilot）方面的研究却有限。近日，哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手：PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择

6/20/2024 3:56:00 PM

ScienceAI

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil

2/4/2024 3:25:00 PM

机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science 腾讯 Agent Claude 芯片 Stable Diffusion 具身智能蛋白质 xAI 开发者生成式人形机器人神经网络机器学习 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 字节跳动工具华为 AGI 计算大型语言模型 AI设计搜索生成式AI 视频生成亚马逊 DeepMind AI模型特斯拉场景深度学习 Transformer 架构 MCP Copilot 编程视觉

MLLM

多模态大模型学会反思和复盘，上交&amp;上海AI Lab破解多模态复杂推理