大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。为此，微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft：以高保真图像处理与非线性多智能体推理为两大支柱，系统性提升结构化图像理解的准确性、鲁棒性与可解释性，在多个图表与几何基准上给出一致的性能增益。

多模态大模型（MLLM）在自然图像上已取得显著进展，但当问题落在图表、几何草图、科研绘图等结构化图像上时，细小的感知误差会迅速放大为推理偏差。

线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。

为此，微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft：以高保真图像处理与非线性多智能体推理为两大支柱，系统性提升结构化图像理解的准确性、鲁棒性与可解释性，在多个图表与几何基准上给出一致的性能增益。

结构化图像的痛点与PixelCraft的切入

自然图像通常凭借纹理、局部模式等特征即可完成理解；而结构化图像把信息编码进坐标、数据点、连线与数值标注，要求模型在像素级细节上建立可验证的“符号化抽象”。

在这样的场景中，传统只依赖文字CoT的方式往往牺牲了空间与结构细节。

“视觉CoT”虽然尝试插入中间图像线索，但受制于低保真的图像处理和简单的线性处理链条，这类方法在应对复杂真实问题时效果有限，这一局限性也在CharXiv、ChartQAPro等更贴近真实场景的基准上得到体现。

PixelCraft将这一问题拆成两端：先把“看准”做扎实，再让“思考”更灵活。

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”

从“聪明的眼睛”到“稳健的双手”，再到“讨论式思考”

系统组成：PixelCraft的系统由调度器（dispatcher）、规划器（planner）、推理器（reasoner）、视觉评审与规划评审（critics）以及一组视觉工具代理（toolagents）构成。调度器负责工具和角色的选择与编排；规划器维护图像记忆（imagememory）并管理讨论流程；推理器承担多模态推理；视觉与规划评审分别负责在环质量控制与事后复盘；视觉工具代理执行具体图像操作
高保真图像处理：微调后的grounding模型将目标区域的文本指代精准映射到像素级坐标区域，并以此为基础设计了一套半自动生成工具代码的流程。通过得到的视觉工具库将后续推理建立在可验证的中间证据之上。
三阶段工作流：围绕“工具选择→协作讨论与回溯→自我审查与再规划”展开。与将所有中间图一次性并入上下文不同，规划器利用图像记忆进行选择性回看与复用，以支持分支探索与回溯，并降低长上下文负担。

大模型如何准确读懂图表？微软亚研院教它“看、动手、推理”