AI在线 AI在线

Geo-Image-Textualization

给几何图片写标题就能让AI更聪明,UIUC发布高质量可泛化几何数据集

随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。 然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视觉与文本信息之间存在严重不对齐问题,制约了模型在复杂几何推理任务上的表现。 来自 UIUC 的作者团队的研究提出了一种基于强化学习与可验证奖励 RLVR 数据生成与优化框架 ——Geo-Image-Textualization,并发布了首个完全对齐的高质量几何图像 - 文本数据集 GeoReasoning-10K,包含 1 万对精心构建的图像与描述。
9/25/2025 11:35:00 PM
机器之心
  • 1