AI在线 AI在线

ICCV2025

ICCV2025 | One image is all you need,多模态指令数据合成,你只管给图,剩下的交给Oasis

近年来,多模态指令数据合成方法多依赖人工设计复杂的合成提示词(prompt),耗费大量人力与时间成本。 在文本数据合成领域,MAGPIE [1] 是一个非常成功的合成方法,该方法无需用户提供任何 prompt,仅以 |im_start| 这类特殊 token 作为模型输入,即可完成数据合成。 受启发于 MAGPIE,本文中来自同济大学、字节跳动和爱丁堡大学的研究者提出了一种新型多模态指令数据合成方法,只需用户提供图片(即,VLM 中常用的特殊 token image),Oasis 会自动完成指令合成、质量控制和回复生成,产出高质量的数据。
7/18/2025 11:32:00 AM
机器之心
  • 1