GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

庞大多模态模型会做数学题吗？在微软最新发布的 MathVista 基准上，即使是当前最强的 GPT-4V 也会有「挫败感」。微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集，同时提供了一份涵盖 112 页的详细评测报告，专注于庞大多模态模型的数学推理浮现。这一基准测试对于目前最先进的模型，如 GPT-4V，来说也是一项挑战，显示了这些模型在多模态数学成绩解决方面的局限性。报告还深入分析了 GPT-4V 在自我考证、自洽性和多轮对话才智的研究潜力。论文地址：：数据集：：：。除了传统的纯文字

庞大多模态模型会做数学题吗？在微软最新发布的 MathVista 基准上，即使是当前最强的 GPT-4V 也会有「挫败感」。

微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集，同时提供了一份涵盖 112 页的详细评测报告，专注于庞大多模态模型的数学推理浮现。这一基准测试对于目前最先进的模型，如 GPT-4V，来说也是一项挑战，显示了这些模型在多模态数学成绩解决方面的局限性。报告还深入分析了 GPT-4V 在自我考证、自洽性和多轮对话才智的研究潜力。

论文地址：https://arxiv.org/abs/2310.02255

项目地址：https://mathvista.github.io/

HF 数据集：https://huggingface.co/datasets/AI4Math/MathVista

数据可视化：https://mathvista.github.io/#visualization

Leaderboard：https://mathvista.github.io/#leaderboard

数学推理才智被视为实现通用人工智能的关键一步。除了传统的纯文字场景，许多数学研究和应用还涉及到丰富的图形内容，这为模型的多模态处理才智提出了更高的要求。

数学成绩历史悠久，可以追溯到公元前 2000 年的美索不达米亚。那时的人们就已经使用泥板来记录包含梯形和三角形的数学成绩。研究显示，早在希腊哲学家毕达哥拉斯生活之前，他们就掌握了毕达哥拉斯定理 —— 也就是著名的勾股定理。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

中国古代数学的杰作《周髀算经》中不仅包含了勾股定理的优雅证明，也展示了我们祖先在数学范围的深厚造诣。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

从小接受的数学教育中，我们经常看到各种生动有趣的图形，这些都强调了视觉元素在数学懂得中的重要性。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

在现代科学研究中，对大量图象数据进行数学分析成为了一个不可或缺的环节。尤其是随着庞大说话模型（LLMs）和庞大多模态模型（LMMs）的发展，这些模型在多种任务和范围中展现出令人印象深刻的成绩解决才智。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

然而，这些模型在视觉场景下的数学推理才智尚未被系统地研究。为了探索这一范围，微软联合加州大学洛杉矶分校（UCLA）和华盛顿大学（UW）共同开发了全新的 MathVista 基准数据集。这个数据集结合了多种数学和视觉任务的挑战，包含 6141 个成绩，来源于 28 个现有的多模态数据集和 3 个新标注的数据集，包括 IQTest、FunctionQA 和 PaperQA。MathVista 中丰富的任务典型、推理方式和图象典型对现有的庞大模型构成了巨大挑战。

微软的研究报告对 12 个最新的庞大模型进行了全面评价。实行结果显示，目前性能最强的 GPT-4V 在 MathVista 上达到了 49.9% 的准确率，明显优于排名第二的 Bard 模型，领先了 15.1%。然而，与人类浮现相比，GPT-4V 仍有 10.4% 的差距。这种差异主要是由于它在懂得复杂图形和进行严密推理方面的不足。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

微软的报告还进一步探讨了 GPT-4V 的自我考证才智、自洽性，以及其处理多轮对话的潜力。这些分析强调了未来研究的多个方向，尤其是在提高模型在复杂情境下的懂得和推理才智方面。

MathVista 基准数据集

尽管目前已有多个文本为主的数学推理数据集和多模态问答数据集，但在全面评价庞大模型在数学推理范围的才智方面，特别是在多模态数据集方面，仍存在明显的空白。

为此，微软提出了 MathVista 数据集，聚焦于视觉场景下的数学问答任务。MathVista 包含 6141 个数学成绩，来自于 28 个现有数据集和 3 个新标注数据集 ——IQTest、FunctionQA 和 PaperQA。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

这三个新标注的数据集各有特色：IQTest 侧重于智力测试题，FunctionQA 专注于函数图形的推理，而 PaperQA 则关注于对文献中的图表进行深入懂得，有效地弥补了现有数据集的不足。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

MathVista 覆盖了两种主要的任务典型：多选题（占比 55.2%）和数值型开放题（占比 44.8%）。它还包括五大任务类别：图形问答（FQA）、几何解题（GPS）、数学应用题（MWP）、教材问答（TQA）和视觉问答（VQA），这些任务类别代表了当前数学推理范围的前沿挑战。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

MathVista 中的数学推理才智与图象多样性

MathVista 细分并定义了数学推理的七大才智范围，包括：算术、统计、代数、几何、数值常识、科学和逻辑。这些范围涵盖了数学推理的核心要素，体现了 MathVista 在数学认知范围的全面覆盖。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

在图象典型的多样性方面，MathVista 也展现了其独特的广度和深度。该数据集包含了十余种不同的图象典型，从自然图象到几何图表，从抽象场景到合成场景，以及各种图形、图表和绘图。这种丰富的图象典型不仅增加了数据集的复杂性，也为庞大多模态模型在处理不同典型的视觉信息时提供了全面的挑战。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

全面的量化评价

微软的研究报告首次对当前大模型在视觉场景下的数学推理才智进行了全面的量化评价。报告中使用的 MathVista 数据集分为两个子集：minitest 和 test。minitest 子集含有 1000 个成绩，主要用于快速评价模型性能。而 test 子集则包含剩余的 5141 个成绩，旨在进行模型的标准化评价，因此为了避免测试数据污染，该子集的谜底标签数据不对外公开。

模型评价过程分为三个关键阶段：生成回答、抽取谜底和计算分数。在生成回答阶段，根据测试成绩的典型，研究团队使用了特定的模板来引导模型输出谜底。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

考虑到当前庞大模型通常以对话形式输出长文本回答，报告中的实行设计了一个基于 GPT-4 的谜底抽取器。这个抽取器通过几个实例提示 GPT-4，从模型的长文本回答中抽取出符合题目典型的短谜底。这种方法有效地克服了传统人工评价的高成本成绩和基于规则的谜底抽取可能导致的不准确性。随后，这些抽取出来的短文本谜底被用于计算模型的总体准确率以及在不同子分类别下的准确率。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

MathVista 上的庞大模型评价实行

实行在 testmini 子集上评价了 12 种大模型：包括 ChatGPT、GPT-4 和 Claude-2 等三个庞大说话模型，以及 LLaVA、LLaMA-Adapter、miniGPT-4、Bard 和 GPT-4V 等 9 种庞大多模态模型。对于庞大说话模型，实行设计了两种形式，第一种只利用成绩的文字信息，第二种是使用图片的 Captioning 描述和 OCR 文本作为外部增强信息。此外，实行还完成了两种随机基准和人类浮现基准。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

实行结果显示，当前的大模型在 MathVista 上的整体浮现仍有待提升。浮现最佳的 GPT-4V 模型达到了 49.9% 的准确率，但这与人类的 60.3% 浮现相比还有明显差距。其次是 Bard 模型，准确率为 34.8%，而目前最好的开源模型 LLaVA 的准确率则为 26.1%。这些数据表明，庞大模型在视觉背景下的数学推理才智还有很大的提升空间。

有趣的是，当结合图象 OCR 和 Captioning 信息时，庞大说话模型 GPT-4 的浮现（33.9%）接近于多模态模型 Bard（34.8%）。这一发现显示，通过适当的工具增强，庞大说话模型在多模态范围具有巨大的潜力。

实行还对主要模型在不同数学推理才智和图象典型子类上的浮现进行了量化评价。结果显示，GPT-4V 在诸如代数、几何和科学范围的推理才智上，以及在处理表格、函数图、几何图象、散点图和科学图形等图象典型时，其浮现接近甚至超过了人类。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

在 test 子集的评价中，实行比较了最佳的两个庞大说话模型（CoT/PoT GPT-4）和最好的开源庞大多模态模型（LLaVA），提供了一个全面的模型性能概览。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

Bard 在 MathVista 中的浮现

在 MathVista 上的评价显示，Bard 模型的总体浮现紧随 GPT-4 之后。通过具体案例分析，报告发现 Bard 模型经常产生所谓的 “幻觉现象”，即在生成的谜底中引入了成绩文本和图片中不存在的信息。此外，Bard 在进行数学运算时也容易出现错误。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

例如，在下面的例子中，Bard 在简化分式 8/10 的过程中犯了计算错误。这种成绩突显了模型在处理数学成绩时的局限性。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

GPT-4 在 MathVista 上的浮现

虽然 GPT-4 本质上是一种说话模型，但通过工具增强（例如 OCR 文字和 captioning 描述的结合），它在 MathVista 上的性能可以达到与多模态模型 Bard 相当的水平。具体来说，当引入这些图片的 OCR 文字和 Captioning 描述作为辅助输入信息时，GPT-4 能够成功解决许多多模态数学成绩。这一发现显示了 GPT-4 在多模态成绩处理方面的潜力。

然而，GPT-4 对这些增强信息的准确性有着极高的依赖性。如果这些 OCR 文字或 Captioning 描述存在错误或不准确性，GPT-4 在推理过程中就很容易走向错误的方向，从而导致不正确的结果。这一点凸显了在使用工具增强庞大说话模型时，输入信息质量的重要性。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

GPT-4V 在 MathVista 上的全方位分析

GPT-4V 作为目前最先进的庞大多模态模型，对其才智的深入分析对未来的研究具有重要意义。报告通过大量实例详尽分析了 GPT-4V 在不同维度的才智，特别是在自我考证、自洽性和多轮对话方面的巨大潜力。

代数推理才智：在 MathVista 的代数成绩中，GPT-4V 展现了懂得图象中函数并推断其性质的出色才智，甚至超过了其他庞大模型和人类。但在处理低分辨率图象和多函数图象时，GPT-4V 仍面临挑战。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

数值计算才智：MathVista 中的算术成绩不仅需要准确的基础运算，还需懂得多样化视觉场景。如下图所示，GPT-4V 在此方面相比现有模型浮现出明显的提升。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

几何推理才智：在几何推理方面，GPT-4V 在 MathVista 上的浮现与人类相当。在以下两个例子中，无论是小学难度还是高年级难度的成绩，GPT-4V 均能给出正确谜底，并附有详细解释。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

逻辑推理才智：在 MathVista 的逻辑推理成绩中，模型需从抽象图形中推导出数字或形状的隐含规律。GPT-4V 在这方面遇到了挑战，其准确率仅为 21.6%，仅略高于随机猜测的 8.1%。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

数值常识推理才智：MathVista 中的数值常识推理涉及日常物品和名人知识。这类成绩对庞大模型是一大挑战。例如，下图所示的成绩中，只有 GPT-4V 能正确懂得图象中的光学错觉现象。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

然而，某些情况下，例如识别烧杯的最大容量，GPT-4V 与 Bard 模型均浮现不佳。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

科学推理才智：在 MathVista 的科学推理成绩上，GPT-4V 明显优于其他庞大模型。它经常能准确解析涉及特定科学范围的图中信息，并进行后续推理。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

然而，某些基本概念的应用，如相对运动，仍是 GPT-4V 的弱点。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

统计推理才智：GPT-4V 在懂得 MathVista 中的各种图表、绘图和图形方面展现出强大的统计推理才智。它能准确解答涉及图表分析的数学成绩，超过了其他庞大模型。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

GPT-4V 的自我考证才智探究

自我考证（self-verification）是一种社会心理学概念，其核心观点是个体希望他人按照他们自我感知的方式来懂得他们。这导致个体主动采取行动，确保他人能看到他们的稳定状态（Talaifar & Swann, 2020）。

在微软的实行中，GPT-4V 显示出了一种类似的自我考证才智。这种才智体现在 GPT-4V 能够在推理过程中自主检查自身的行为，并主动纠正可能的错误。值得注意的是，这种自我考证才智不同于仅依赖外部反馈或多轮对话来改进模型输出。例如，在某些情况下，GPT-4V 能够在单次输出中自行审核一组候选谜底，从而识别出符合所有给定条件的有效谜底。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

在以下多步推理成绩中，GPT-4V 显示出了明显的才智。它不仅能够进行连贯的推理，还能考证关键步骤的有效性。特别是在遇到无效的中间结果时，如发现得出的长度为负数，GPT-4V 能够主动检测并识别这些错误。这种才智使得 GPT-4V 在识别成绩后，能够尝试采用不同的方法来解决成绩，从而优化其推理过程。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

GPT-4V 的自洽性应用及其局限性

自洽性（self-consistency）是在庞大说话模型中广泛使用的一种技术，目的是提升模型在处理复杂推理任务时的准确性。这种方法通常包括采样多种推理路径，并选择出现频次最高的谜底作为最终解。

微软的实行考证了自洽性技术在提高 GPT-4V 在 MathVista 上的性能方面的有效性。实行表明，自洽性对于纠正 GPT-4V 在视觉感知和计算中的错误，以及减少幻觉现象方面起到了明显作用。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

然而，实行也揭示了自洽性的局限性。特别是在 GPT-4V 难以正确懂得复杂的视觉场景的情况下，自洽性的改善效果并不明显。这表明，尽管自洽性是一种有效的提升方法，但它的成功在很大程度上还是依赖于模型对视觉信息的基本懂得才智。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页

GPT-4V 在 MathVista 上的多轮对话才智

微软的报告最后探讨了 GPT-4V 在 MathVista 上进行多轮人机互动对话的才智。实行结果表明，GPT-4V 擅长在多轮对话中有效地利用用户提供的提示来优化其推理过程。这包括根据用户的引导来纠正视觉感知上的误解，修正推理逻辑中的不一致，更正相关范围的知识，甚至在人类的协助下懂得和处理极其复杂的图表成绩。

GPT-4V数学推理如何？微软发布MathVista基准，评测报告长达112页