MLLM
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
MM-HELIX团队 投稿. 量子位 | 公众号 QbitAI多模态大模型表现越来越惊艳,但人们也时常困于它的“耿直”。 无论是生成代码、分析图表还是回答问题,诸多多模态大模型(MLLM)都倾向于给出一个“一步到位”的答案。
10/19/2025 3:08:43 PM
鹭羽
充分激发模态协作,MokA量身打造MLLM微调新范式
本文第一作者卫雅珂为中国人民大学四年级博士生,主要研究方向为多模态学习机制、多模态大模型等,师从胡迪副教授。 作者来自于中国人民大学和上海人工智能实验室。 近年来,多模态大模型(MLLMs)已经在视觉语言、音频语言等任务上取得了巨大进展。
6/30/2025 8:44:00 AM
多模态LLM+RAG:突破生成瓶颈的下一代AI架构革命
译者 | 朱先忠审校 | 重楼通过整合文本、图像、音频等数据,多模态大型语言模型(MLLM)开始突破传统RAG的文本局限,赋予AI感知能力。 其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一,通过投影层对齐多模态信息。 不过,多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。
6/9/2025 8:42:23 AM
朱先忠
AI为何读不懂钟表?模拟时钟暴露的认知短板与AI进化隐忧
译者 | 朱先忠审校 | 重楼中国和西班牙研究人员发表的一篇新论文发现,即使是像GPT-4.1这样的先进多模态人工智能模型,也难以从模拟时钟图像中识别时间。 时钟中细微的视觉变化都可能导致严重的解读错误,而微调也只对熟悉的示例有效。 这一结果引发了人们对这些模型在现实世界任务中处理不熟悉图像时的可靠性的担忧。
5/28/2025 10:31:13 AM
朱先忠
上海AI实验室开源InternVL3系列多模态大型语言模型
4月11日,OpenGVLab开源发布了InternVL3系列模型,这标志着多模态大型语言模型(MLLM)领域迎来了新的里程碑。 InternVL3系列包含从1B到78B共7个尺寸的模型,能够同时处理文字、图片、视频等多种信息,展现出卓越的整体性能。 与前代产品InternVL2.5相比,InternVL3在多模态感知和推理能力上有了显著提升,其多模态能力进一步扩展至工具使用、GUI代理、工业图像分析、3D视觉感知等多个领域。
4/14/2025 9:01:07 AM
AI在线
科学家构建多模态LLM框架,进行3D脑CT放射学报告生成
编辑 | 烂菜叶多模态大型语言模型 (MLLM) 已经改变了现代医疗保健的格局,其中自动放射学报告生成 (RRG) 正在成为一种尖端应用。 虽然基于 2D MLLM 的 RRG 已经得到充分认可,但其在 3D 医学图像中的实用性仍未得到充分开发。 在这方面,台北荣民总医院(Taipei Veterans General Hospital)、台湾阳明交通大学(National Yang Ming Chiao Tung University)以及美国加州大学的研究人员整理了 3D-BrainCT 数据集(18,885 个文本扫描对)并开发了 BrainGPT,这是一种专为 3D CT RRG 设计的临床视觉指令调整 (CVIT) 模型。
3/13/2025 2:23:00 PM
ScienceAI
DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖
登Nature,超越GPT-4V,MIT、哈佛开发人类病理学多模态AI「副驾驶」
编辑 | KX多年来,计算病理学领域在基于图像、基因组学数据开发越来越准确、针对特定任务的预测模型方面取得了显著进步。然而,尽管生成式人工智能 (AI) 呈爆炸式增长,但在构建针对病理学的通用、多模态 AI 助手和「副驾驶」(Copilot)方面的研究却有限。近日,哈佛大学和 MIT 的研究团队提出了一种用于人类病理学的视觉语言通才 AI 助手:PathChat。研究人员将 PathChat 与几种多模态视觉语言 AI 助手和 GPT-4V 进行了比较。PathChat 在来自不同组织来源和疾病模型的病例的多项选择
6/20/2024 3:56:00 PM
ScienceAI
一句指令自动玩手机,网上冲浪神器Mobile-Agent来了
一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil
2/4/2024 3:25:00 PM
机器之心
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Stable Diffusion
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
生成
大语言模型
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
亚马逊
MCP