Bridge-TTS
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
12/25/2023 11:54:00 AM
机器之心
- 1
资讯热榜
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布
Chai Discovery发布Chai- 2 模型:零样本抗体设计突破16-20%命中率
不再单一依赖英伟达,消息称 OpenAI 首次采用谷歌 AI 芯片训练 ChatGPT
Gemini2.5Pro API 免费回归,开发者社区热烈响应
阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者
OpenAI 高管回应 Meta 挖角潮:正积极留人,将“重新调整”薪酬
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
神经网络
3D
研究
生成
AI新词
Claude
机器学习
计算
LLM
Sora
AI设计
AI for Science
AI视频
GPU
人形机器人
xAI
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API