声音模型
阿里通义 Qwen3-TTS 家族上新两款 AI 模型:声音不仅能复制,还可以定制
AI在线 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。 AI在线附模型主要特点如下:音色创造:Qwen3-TTS-VD-Flash 支持复杂自然语言指令输入,实现对音色、韵律、情感、人设等的精细化调控,实现从“说什么”到“如何说”的全面掌控,可以让用户自由地定义想要的音色,彻底摆脱只能进行根据已有的音色进行克隆或者只能选择固定的一部分预设音色。 在 InstructTTS-Eval 中综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越 Gemini-2.5-pro-preview-tts。
12/24/2025 6:15:28 PM
汪淼
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
苹果
AI for Science
算法
Agent
腾讯
Claude
芯片
Stable Diffusion
具身智能
蛋白质
xAI
开发者
人形机器人
生成式
神经网络
机器学习
3D
AI视频
RAG
大语言模型
Sora
百度
研究
字节跳动
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉