AI在线 AI在线

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。 这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。 近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。

image.png

近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对这一难题,OmniFlow 通过灵活结合针对不同数据格式的生成 AI(如文本与音频、文本与图像),即使在小样本情况下,也能学习到高精度的 “任意对任意” 模型,从而显著降低了数据采集的成本。

image.png

OmniFlow 的技术创新已获得国际认可,并将在2025年计算机视觉与模式识别会议(CVPR)上进行展示。该技术的核心在于,它能够通过连接和处理三种不同数据特征,学习更为复杂的数据关系,而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点,也提升了表达能力。

image.png

在评估实验中,OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中,表现优于其他传统方法,展现出最佳的性能。实验结果显示,与其他 “任意对任意” 生成方法相比,OmniFlow 所需的训练数据量可减少至1/60,这一显著的优势让其在多模态 AI 领域脱颖而出。

展望未来,OmniFlow 有望在工厂、生活方式等多个领域进行应用,能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用,致力于开发能为客户生活与工作带来便利的 AI 技术。

相关资讯

​慕尼黑初创公司 Spaitial:用生成 AI 重塑 3D 空间的未来

慕尼黑的初创公司 Spaitial 正在开发一种全新的生成 AI 技术,旨在创建和理解三维环境。 这种技术被称为空间基础模型(SFM),它能够从文本或图像中生成真实和想象的3D 场景。 Spaitial 的目标是让 AI 具备对空间的物理理解,这一能力在现有的 AI 模型中存在显著不足。
5/29/2025 10:01:21 AM
AI在线

加速发展:Gartner 预测生成 AI 应用将实现50% 的交付时间缩减

根据 Gartner 的最新预测,到2028年,80% 的生成 AI 商业应用将会在现有的数据管理平台上开发。 这一转变有望降低开发复杂性,并将交付时间缩短50%。 目前,生成 AI 商业应用的开发主要依赖于将大型语言模型(LLMs)与企业内部数据相结合,以及不断发展的技术,如向量搜索、元数据管理、提示设计和嵌入技术。
6/16/2025 10:09:52 AM
AI在线

​顶尖 AI 研究者创办 Periodic Labs,成功融资 3 亿美元引发风险投资热潮

Periodic Labs 是一家由前 OpenAI 研究员 Liam Fedus 和前 Google Brain 同事 Ekin Dogus Cubuk 联合创办的初创公司。 该公司在上个月成功融资3亿美元,融资轮次由 Felicis 领投,众多顶级天使投资人和风险投资公司参与其中。 图源备注:图片由AI生成,图片授权服务商MidjourneyPeriodic Labs 的创立源于 Fedus 与 Cubuk 之间的一次讨论,约七个月前,两人意识到时机已经成熟,决定将生成 AI 技术应用于科学发现,推动实验科学与机器学习的结合。
10/21/2025 10:27:11 AM
AI在线
  • 1