AI在线 AI在线

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

一个新的Benchmark,竟让大模型在复杂视频推理这事儿上统统不及格! 这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——如其名,它可以说是视频推理界的“福尔摩斯测试”,通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务,以展现他们复杂视频推理能力的边界。 而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差距。

一个新的Benchmark,竟让大模型在复杂视频推理这事儿上统统不及格!

这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——

如其名,它可以说是视频推理界的“福尔摩斯测试”,通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务,以展现他们复杂视频推理能力的边界。

图片

而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差距。

举个例子🌰

在这个例子中,为了寻找男人真正的死因,模型需要主动思考需要关注的视觉信息,并通过逻辑关联分散在不同视频片段中的多个相关线索进行推理,最后发现男人的死因居然是:“过度使用超能力”?!

图片

结果啊,测试的成绩可谓是大跌眼镜。

所有大模型,在各项测试中全部不及格

(SR代表社会推理;IMC意指意图与动机链;TCI表示时间因果推理;TA时间线分析;MHR即多模态提示推理;PAR为物理异常推理;CTI代表核心主题推理。)

图片

值得一提的是,这个Benchmark的“一键测评懒人包”,目前已经上线到了GitHub和HuggingFace,有做视频推理相关的小伙伴,可以去挑战一下了(地址见文末)。

让大模型全军覆没的新Benchmark

正如刚才提到的,现有视频推理基准(如 VCR-Bench、MVBench 等)主要评估模型的视觉感知和接地能力。

大多数问题也是基于显式提示或孤立视觉线索(如 “女人穿了什么”),无法模拟人类在现实中主动搜索、整合、分析多线索的复杂推理过程。

即使是较为前沿的模型,在这些基准上的提升也非常有限(如从 68.3% 到 69.4%),难以验证模型的真实推理能力。

因此,团队收集并人工标注了270部1-5分钟的“推理短电影”,并设计了7种高推理要求的单选题,强迫模型提取,串联多个散布在电影中的关键信息来推导出最终的真相。

值得注意的是,设计的问题是由DeepSeek来生成,并且也是由DeepSeek来评估的响应。

图片

至于问题的类型(上文我们提及的几大类型),具体的“打开方式”如下:

图片

再深入到具体问题的回答,各个大模型回答结果如下(以SR和IMC为例):

图片图片

测试结果显示,即使强大入Gemini-2.5-Pro的闭源模型,也仅达到了45%的准确率。

并且Video-Holmes能够反应推理模型和对应非推理版本之间的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5个点,而Gemini-2.0-Thinking比Gemini-2.0提升了整整12个点!

除此之外,团队进一步还分析了模型的推理过程,结果显示,现有模型整体上能够正确感知视觉信息,但它们普遍在线索串联信息(推理能力)上欠缺,以及容易遗漏关键的视觉信息。

注:Video-Holmes的标注、构建、测试、推理过程分析的资料和代码,以及论文全部都开源啦(见文末)~

如何“食用”?

大家若是想下载Video-Holmes,可以运行如下代码:

复制
git clone 
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/

团队还为基线模型提供了一体化的评估代码:

复制
python evaluate.py —model_name YOUR_MODEL_NAME —model_path YOUR_MODEL_PATH (optional)

以及可支持的大模型名单如下:

图片

还可以通过指定——model_path参数或实现以下函数来定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。

推理过程分析

首先需要应用DeepSeek API密钥,然后可以运行以下命令来分析模型的推理过程:

复制
python evaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福尔摩斯测试”

要为带有注释的视频生成问题,你可以运行以下命令:

复制
cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY

那么你觉得这个新Benchmark如何?感兴趣的话就快去试试吧👇🏻~

 HF Daily Paper:https://huggingface.co/papers/2505.21374

 Homepage:https://video-holmes.github.io/Page.github.io/

 Code:https://github.com/TencentARC/Video-Holmes

相关资讯

通义万相开源视频生成模型Wan2.1:8.2G显存即可生成480P视频

近日,通义宣布开源其最新的通义万相大模型 Wan2.1。 Wan2.1是一款专注于高质量视频生成的 AI 模型,凭借其在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面的卓越表现,成为了创作者、开发者和企业用户拥抱 AI 时代的首选工具。 在权威评测集 Vbench 中,通义万相 Wan2.1以总分86.22% 的成绩登顶榜首,大幅领先国内外其他知名视频生成模型,如 Sora、Minimax、Luma、Gen3和 Pika 等。
2/26/2025 7:58:00 AM
AI在线

Search版o1:推理过程会主动查资料,整体性能优于人类专家,清华人大出品

一个新框架,让Qwen版o1成绩暴涨:在博士级别的科学问答、数学、代码能力的11项评测中,能力显著提升,拿下10个第一! 这就是人大、清华联手推出的最新「Agentic搜索增强推理模型框架」Search-o1的特别之处。 项目团队成员发现,o1和o1类模型在推理过程中表现突出,但却存在“知识不足”的明显缺陷——推理步骤太长/模型知识不足时,推理过程就很容易卡壳,导致推理链中的错误传递。
1/20/2025 9:05:00 AM
量子位

推理模型规划任务成功率从5%到95%,DeepMind遗传算法新研究火了

瞄准推理时扩展(Inference-time scaling),DeepMind新的进化搜索策略火了! 所提出的“Mind Evolution”(思维进化),能够优化大语言模型(LLMs)在规划和推理中的响应。 由于提升显著,Reddit/𝕏一时间出现了大量讨论:由于结合了遗传算法,使用Mind Evolution能让Gemini 1.5 Flash任务成功率从原本的5%左右,一下提升90个百分点。
1/23/2025 4:25:23 PM
量子位
  • 1