AI在线 AI在线

通义大模型发布OmniAudio 可从 360° 视频生成空间音频

近日,通义实验室语音团队在空间音频生成领域取得里程碑式成果,推出OmniAudio技术,该技术可直接从360°视频生成FOA(First-order Ambisonics)音频,为虚拟现实和沉浸式娱乐带来全新可能。 空间音频作为一种模拟真实听觉环境的技术,能提升沉浸式体验,但现有技术大多基于固定视角视频,对360°全景视频空间信息利用不足。 传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求,且多基于有限视角视频,错过全景视频丰富视觉上下文。

近日,通义实验室语音团队在空间音频生成领域取得里程碑式成果,推出OmniAudio技术,该技术可直接从360°视频生成FOA(First-order Ambisonics)音频,为虚拟现实和沉浸式娱乐带来全新可能。

空间音频作为一种模拟真实听觉环境的技术,能提升沉浸式体验,但现有技术大多基于固定视角视频,对360°全景视频空间信息利用不足。传统视频到音频生成技术主要生成非空间音频,无法满足沉浸式体验对3D声音定位需求,且多基于有限视角视频,错过全景视频丰富视觉上下文。随着360°摄像头普及和虚拟现实技术发展,利用全景视频生成匹配空间音频成为亟待解决的问题。

为应对挑战,通义实验室提出360V2SA(360-degree Video to Spatial Audio)任务。FOA是一种标准3D空间音频格式,用四个通道(W、X、Y、Z)表示声音,能捕捉声音方向性,实现真实3D音频再现,且在头部旋转时能保持声音定位准确性。

微信截图_20250529174346.png

数据是机器学习模型基石,但现有配对360°视频和空间音频数据稀缺。为此,研究团队精心构建Sphere360数据集,包含超过103,000个真实世界视频片段,涵盖288种音频事件,总时长288小时,既包含360°视觉内容,又支持FOA音频。在构建过程中,团队采用严格筛选和清洗标准,利用多种算法确保高质量对齐。

OmniAudio训练方法分两阶段。第一阶段为自监督的coarse-to-fine流匹配预训练,团队充分利用大规模非空间音频资源,将立体声转换为“伪FOA”格式后送入四通道VAE编码器获得潜在表示,再以一定概率进行随机时间窗掩码,将掩码后潜在序列与完整序列一同作为条件输入至流匹配模型,实现对音频时序和结构的自监督学习,使模型掌握通用音频特征和宏观时域规律。第二阶段为基于双分支视频表示的有监督微调,团队仅使用真实FOA音频数据,继续沿用掩码流匹配训练框架,强化模型对声源方向表征能力,提升对高保真空间音频细节重建效果。完成自监督预训练后,团队将模型与双分支视频编码器结合进行有监督微调,从噪声中有针对性地“雕刻”出符合视觉指示的FOA潜在轨迹,输出与360°视频高度对齐、具备精确方向感的四通道空间音频。

在实验设置中,研究团队在Sphere360-Bench和YT360-Test测试集上进行有监督微调与评估,采用客观和主观指标衡量生成音频质量。结果显示,OmniAudio在两套测试集上均显著优于所有基线。在YT360-Test上,OmniAudio在FD、KL和ΔAngular等指标上大幅降低;在Sphere360-Bench上同样取得优异成绩。在人机主观评估中,OmniAudio在空间音频质量和视音对齐两项上得分也远高于最优基线,体现出其合成结果在清晰度、空间感及与画面同步性方面均更佳。此外,消融实验验证了预训练策略、双分支设计和模型规模对性能提升的贡献。

项目主页

https://omniaudio-360v2sa.github.io/

代码和数据开源仓库

https://github.com/liuhuadai/OmniAudio

论文地址

https://arxiv.org/abs/2504.14906

相关资讯

Anthropic在移动端推Claude对话语音模式,可搜索Google 文档、日历等

位于旧金山的人工智能初创公司Anthropic宣布推出 Claude 人工智能聊天机器人新的重大更新:全新的语音对话模式。 该功能已在苹果 App Store(iOS 设备)和谷歌 Play Store(Android 设备)的移动应用中上线。 除了语音模式的推出,Anthropic还为所有免费用户扩展了网络搜索功能。
5/28/2025 10:01:00 AM
AI在线

Salesforce 斥资80亿美元收购 Informatica 押注Agent

Salesforce 周二宣布,将以约80亿美元现金收购云数据管理公司 Informatica,旨在进一步强化其 AI 战略核心 Agentforce 平台的能力。 根据协议,Informatica A 类和 B-1类普通股股东将获得每股25美元的现金回报。 交易将通过 Salesforce 的现金储备与新增债务的方式融资。
5/28/2025 10:01:01 AM
AI在线

​梦工厂创始人卡岑伯格牵头 1500 万美元融资,推出 AI 视频广告平台 Creatify

梦工厂的联合创始人杰弗里・卡岑伯格(Jeffrey Katzenberg)通过他的风险投资基金 WndrCo,联合领导了一轮1500万美元的 A 轮融资,投资于 AI 视频广告平台 Creatify。 Creatify 的 AdMax 平台利用人工智能快速生成多种视频广告,特别针对社交媒体营销。 该平台能够分析 TikTok 和 Instagram 等应用上表现优异的视频广告活动,从而优化其输出内容。
6/3/2025 10:01:04 AM
AI在线
  • 1