AI在线 AI在线

文化遗产领域多模态研究

VaseVQA:古希腊陶器多模态智能体与基准测试平台

我们构建了VaseVQA,一个专注于古希腊陶器的大规模视觉问答数据集。 在该数据集上对多模态大语言模型(MLLMs)进行fine-tuning,我们采用SFT-then-RL的训练范式,并提出“诊断式”奖励机制,将SFT评估结果转为监督信号,以弥补MLLMs在薄弱任务类型上的推理能力缺陷。 ,文化遗产领域仍然缺乏专门的数据集。
10/9/2025 2:51:00 PM
新闻资讯
  • 1