AI在线 AI在线

中国人民大学

重新定义跨模态生成的流匹配范式,VAFlow让视频「自己发声」

本文第一作者是中国人民大学高瓴人工智能学院 2021 级博士生王希华(导师宋睿华),他的主要研究兴趣方向是多模态生成。 本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。 背景:从「噪声到声音」到「视频到声音」在多模态生成领域,由视频生成音频(Video-to-Audio,V2A)的任务要求模型理解视频语义,还要在时间维度上精准对齐声音与动态。
10/31/2025 11:14:00 AM
机器之心
  • 1