微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

差不多已经掌握语言威力的大模型正在进军视觉领域，但具有里程碑意义的 GPT-4V 也仍有诸多不足之处，参阅《试过 GPT-4V 后，微软写了个 166 页的测评报告，业内人士：高级用户必读》。近日，微软 Azure AI 将 GPT-4V 与一些专用工具集成到一起，打造出了更强大的 MM-Vid，其不仅具备其它 LMM 的基本威力，还能分析长达一小时的长视频以及解说视频给视障人士听。世界各地的人们每天都会创造大量视频，包括用户直播的实质、短视频、电影、体育比赛、广告等等。视频是一种多功能媒介，可以通过文本、视觉和音

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题世界各地的人们每天都会创造大量视频，包括用户直播的实质、短视频、电影、体育比赛、广告等等。

视频是一种多功能媒介，可以通过文本、视觉和音频等多种模态传递信息和实质。如果可以开发出能学习多模态数据的格式，就能帮助人们设计出具备强大威力的认知机器 —— 它不会受限于经过人工调整的数据集，而是可以分析原生态的真实世界视频。但是，在研究视频了解时，多模态这种丰富的表征会带来诸多挑战，尤其是当视频较长时。

了解长视频是很复杂的任务，需要能分析多个片断的图像和音频序列的先进格式。不仅如此，另一大挑战是提取不同来源的信息，比如分辨不同的说话人、辨认人物以及保持叙述连贯性。此外，基于视频中的证据回答问题也需要深入了解视频的实质、语境和字幕。当分析的是直播或游玩视频时，还存在实时处理动态环境的难题，这需要语义了解和长期策略规划威力。

近段时间，大型预训练视频模型和视频 – 语言模型带来了巨大进步，它们在视频实质上的推理威力已经显现。但是，这些模型通常是用短视频片断训练的（比如 Kinetics 和 VATEX 中的 10 秒视频）或预定义了作为类别（Something-Something v1 有 174 类）。由此造成的后果是，这些模型可能难以详细了解真实世界视频的复杂微妙。

为了让模型能更全面地了解我们日常生活中遇到的视频，我们需要能解决这些复杂挑战的格式。

近日，微软 Azure AI 为这些问题给出了自己的解答：MM-Vid。该团队表示这种技术可以直接用于了解真实世界视频。简单来说，他们的格式涉及将长视频分解成连贯叙述，然后再利用这些生成的故事来分析视频。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

论文地址：https://arxiv.org/pdf/2310.19773.pdf

项目地址：https://multimodal-vid.github.io/

MM-Vid 是近来处于 AI 社区关注中心的大型多模态模型（LMM）的新成员；而 LMM 中最具代表性的 GPT-4V 已经展现出了突破性的威力 —— 可以同时处理输出的图像和文本，执行多模态了解。为了实现视频了解，MM-Vid 将 GPT-4V 与一些专用工具集成到了一起，实行结果也证明了这种格式的有效性。图 1 展现了 MM-Vid 能够实现的多种威力。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题 MM-Vid 格式介绍

图 2 展现了 MM-Vid 系统的工作流程。MM-Vid 以视频文件为输出，输出一个描绘该视频实质的剧本。这种生成的剧本让 LLM 可以实现多种视频了解威力。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

MM-Vid 包含四个模块：多模态预处理、外部知识收集、视频片断层面的视频描绘生成、剧本生成。

多模态预处理。对于输出的视频文件，预处理模块首先应用已有的 ASR 工具从视频中提取出转录文本。之后，将视频切分成多个短视频片断。此过程需要对视频帧进行均匀采样，使得每个片断由 10 帧组成。为了提升帧采样的整体质量，研究者应用了 PySceneDetect 等成熟的场景检测工具来帮助辨认关键的场景边界。

外部知识收集。在 GPT-4V 的输出 prompt 中，研究者采用了集成外部知识的格式。该格式涉及收集可用的信息，比如视频的元数据、标题、摘要和人物面部照片。在实行中，研究者收集的元数据、标题和摘要来自 YouTube。

片断层面的视频描绘生成。在多模态预处理阶段，输出视频会被切分为多个视频片断。每个片断通常包含 10 帧，研究者的做法是应用 GPT-4V 来为每个片断生成视频描绘。通过将视频帧与相关的文本 prompt 一起输出到 GPT-4V 模型，便能得到捕获了这些帧中描绘的视觉元素、作为和事件的详细描绘。

此外，研究者还探索了视觉 prompt 设计，即在 GPT-4V 的输出中不仅提供人物的名字，还提供人物的面部照片。实行结果表明这种视觉 prompt 设计有助于提升视频描绘的质量，尤其有助于更准确地辨认人物。

应用 LLM 生成剧本。在为每个视频片断生成描绘之后，再应用 GPT-4 将这些片断层面的描绘整合成一个连贯的剧本。该剧本是对整个视频的全面描绘，可被 GPT-4 用于解决各种视频了解任务。

用于流输出的 MM-Vid

图 3 展现了用于流输出的 MM-Vid。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

在这种情况下，MM-Vid 的运作模式是作为动态环境中的一个智能体（agent），其主要输出为流视频帧。该智能体会将持续输出的流视频帧视为状态，其代表了在该环境中不断揭示的持续性视觉信息。然后再由 GPT-4V 处理这些状态，从而得到有信息依据的决策并生成响应。

通过持续分析流视频帧，MM-Vid 可将原始视觉数据转换成有意义的见解，进而为视频游玩、具身智能体和 GUI 引导等应用提供有价值的帮助。

实行

实行设置

该团队实现的 MM-Vid 基于 MM-React 代码库。他们应用的自动语音辨认（ASR）工具是通过 Azure Cognitive Services API 应用的公开可用工具，场景检测则是应用了 PySceneDetect。

MM-Vid 的功能

研究者在论文中展现了多个 MM-Vid 完整执行流程的示例。

下面是一个 MM-Vid 执行流程示例。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

经过这些流程后，MM-Vid 生成的剧本总结了对视频实质的了解。从而让后续 LLM 可以基于此处理具体的任务。研究者讨论过的具体任务包括：有根据的问答、多模态推理、了解长达一小时的视频、多视频情景分析、人物辨认、说话人辨认、音频描绘生成、自我调优、快速变化的短视频。具体详情请参阅原论文，但总体而言，MM-Vid 都展现出了很不错的效果。

下面是一个说话人辨认的示例微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

应用于交互式环境

研究者也评估了 MM-Vid 应用于流输出时的情况。MM-Vid 可作为交互式环境中的智能体，持续接收流视频帧输出。

具身智能体。下图展现了将 MM-Vid 应用于一段头戴式相机拍摄的第一人称视频的情况。这段视频来自 Ego4D 数据集，简单展现了拍摄者在家居环境中的日常生活。值得注意的是，MM-Vid 了解这种视频实质的威力得到了体现，并且还能辅助用户完成一些实际任务。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

玩视频游玩。下面的视频示例是将 MM-Vid 用于视频游玩《超级玛丽》。实行中，智能体会持续地以三帧视频作为输出的状态，然后计算下一个可能的控制作为。结果表明，这个智能体能够了解这种特定的视频游玩动态，并能生成可以有效玩游玩的合理作为控制。微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

GUI 导引。下图给出了一个示例。这里，智能体持续接收的输出是 iPhone 屏幕截图和之前的用户作为。结果发现，该智能体可以有效预测用户应用手机时的下一步可能作为，比如点击正确的购物应用，然后搜索感兴趣的商品，最后下单购买。这些结果表明 MM-Vid 能与图形用户界面进行有效的交互，能通过数字接口实现无缝且智能化的用户导引。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

用户研究

研究者探索 MM-Vid 帮助盲人或弱视者的潜力。音频描绘（AD）能在视频的音轨中增加音频叙述，这能提供主视频音轨中没有提供的重要视觉详情。这样的描绘能为视觉障碍人士传达关键的视觉实质。

为了评估 MM-Vid 在生成音频描绘方面的有效性，研究者进行了一场用户研究。他们邀请了 9 位参与者参与评估。其中 4 位参与者失明或视力低下，其余 5 名视力正常。所有参与者听力都正常。

下面的视频是 MM-Vid 的音频描绘应用示例：微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

结果如图 5 所示，对于以李克特量表计量的参与者总体满意度（0 = 不满意到 10 = 非常满意），MM-Vid 生成的音频描绘平均比人工给出的音频描绘低 2 分。

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

在听 MM-Vid 生成的音频描绘时，参与者提出的困难包括：1）音频描绘与原始视频中的对话偶尔重叠，2）由于 GPT-4V 的幻觉问题而出现错误描绘。尽管总体满意度有差异，但所有参与者都认同这一点：MM-Vid 生成的音频描绘是一种成本高效且可扩展的解决方案。因此，对于无法被专业人士描绘成音频的大量视频来说，就可以应用 MM-Vid 这样的工具来处理它们，从而造福视觉障碍社区。

{{userData.name}}已认证

微软用GPT-4V解读视频，看懂电影还能讲给盲人听，1小时不是问题

Agent4Rec来了！大模型智能体构成引荐零碎摹拟器，摹拟实在用户交互举动

及时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万、下载超20万

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能