AI在线 AI在线

PlayDiffusion发布:开源扩散模型实现语音“局部修改”不留痕

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。 不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。 这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。

Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。

用户只需提供目标文本(例如将音频中的“Neo”改为“Morpheus”),模型便可精准识别需替换位置,并智能调整节奏、语调以及说话人的音色,实现几乎无痕的自然融合。PlayDiffusion 能够有效避免人工修改后的割裂感,听感上几乎无法察觉任何拼接痕迹。

得益于扩散模型架构带来的整体优化能力,在语音片段被大范围 mask(遮盖)的极端场景中,它也可作为一款非自回归的高性能 TTS(文本转语音)模型使用。相较传统 TTS 系统,PlayDiffusion 的推理速度提升可达50倍,并具备更强的全局一致性,适合需要高效率、高质量语音合成的应用场景。

这项技术的推出对于播客制作、AI 配音、内容纠错、剧本对话二次加工等场景意义重大。PlayDiffusion 不只是一个音频编辑工具,更是语音生成领域向“精确、灵活、自然”转型的重要信号。在语音AI日益普及的当下,它或将成为下一个播客、视频内容创作的必备利器。

相关资讯

扩散模型也能推理时Scaling,谢赛宁团队重磅研究可能带来文生图新范式

对于 LLM,推理时 scaling 是有效的! 这一点已经被近期的许多推理大模型证明:o1、o3、DeepSeek R1、QwQ、Step Reasoner mini…… 但这个说法也适用于扩散模型吗? 近日,纽约大学谢赛宁领导的一个团队对这一方向进行了探索。
1/18/2025 6:47:00 PM
机器之心

线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
1/31/2025 10:30:00 PM
机器之心

Light-A-Video :无需训练实现视频重新打光

近年来,图像重光照技术的进步得益于大规模数据集和预训练的扩散模型,使得一致性光照的应用变得更加普遍。 然而,在视频重光照领域,由于训练成本高昂以及缺乏多样化和高质量的视频重光照数据集,进展相对缓慢。 仅仅将图像重光照模型逐帧应用于视频,会导致多种问题,如光源不一致和重光照外观不一致,最终导致生成的视频出现闪烁现象。
2/17/2025 11:00:58 AM
AI在线
  • 1