AI在线 AI在线

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。 这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。 近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。

image.png

近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对这一难题,OmniFlow 通过灵活结合针对不同数据格式的生成 AI(如文本与音频、文本与图像),即使在小样本情况下,也能学习到高精度的 “任意对任意” 模型,从而显著降低了数据采集的成本。

image.png

OmniFlow 的技术创新已获得国际认可,并将在2025年计算机视觉与模式识别会议(CVPR)上进行展示。该技术的核心在于,它能够通过连接和处理三种不同数据特征,学习更为复杂的数据关系,而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点,也提升了表达能力。

image.png

在评估实验中,OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中,表现优于其他传统方法,展现出最佳的性能。实验结果显示,与其他 “任意对任意” 生成方法相比,OmniFlow 所需的训练数据量可减少至1/60,这一显著的优势让其在多模态 AI 领域脱颖而出。

展望未来,OmniFlow 有望在工厂、生活方式等多个领域进行应用,能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用,致力于开发能为客户生活与工作带来便利的 AI 技术。

相关资讯

​慕尼黑初创公司 Spaitial:用生成 AI 重塑 3D 空间的未来

慕尼黑的初创公司 Spaitial 正在开发一种全新的生成 AI 技术,旨在创建和理解三维环境。 这种技术被称为空间基础模型(SFM),它能够从文本或图像中生成真实和想象的3D 场景。 Spaitial 的目标是让 AI 具备对空间的物理理解,这一能力在现有的 AI 模型中存在显著不足。
5/29/2025 10:01:21 AM
AI在线

加速发展:Gartner 预测生成 AI 应用将实现50% 的交付时间缩减

根据 Gartner 的最新预测,到2028年,80% 的生成 AI 商业应用将会在现有的数据管理平台上开发。 这一转变有望降低开发复杂性,并将交付时间缩短50%。 目前,生成 AI 商业应用的开发主要依赖于将大型语言模型(LLMs)与企业内部数据相结合,以及不断发展的技术,如向量搜索、元数据管理、提示设计和嵌入技术。
6/16/2025 10:09:52 AM
AI在线

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线
  • 1