tts

机器人会说话了!智元联合 MiniMax，定制“千人千面”专属人设

机器人会说话了!智元联合 MiniMax，定制“千人千面”专属人设

全球领先的通用人工智能公司 MiniMax（上海稀宇科技）今日正式宣布与智元机器人(Agibot)达成深度战略合作。 MiniMax 将为智元机器人提供从文本到语音(TTS)的全流程 AI 技术支持，标志着具身智能从“硬核运动”向“情感交互”迈出了关键一步。此次合作的核心在于为智元机器人打造一套深度定制的交互体系。

1/5/2026 3:07:02 PM AI在线

微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

微软推出 VibeVoice-Realtime：实时文本转语音新模型，助力互动式应用

微软最近发布了 VibeVoice-Realtime-0.5B，这是一款针对实时文本转语音（TTS）的轻量级模型。该模型支持流式文本输入和长篇语音输出，特别适合用于代理式应用和实时数据讲述。 VibeVoice-Realtime 可以在约300毫秒内开始输出可听语音，这在语言模型还在生成回答时尤为重要。

12/8/2025 10:57:16 AM AI在线

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升

大语言模型通过 CoT 已具备强大的数学推理能力，而 Beam Search、DVTS 等测试时扩展（Test-Time Scaling, TTS）方法可通过分配额外计算资源进一步提升准确性。然而，现有方法存在两大关键缺陷：路径同质化（推理路径趋同）和中间结果利用不足（大量高质量推理分支被丢弃）。为解决这些问题，华为诺亚方舟实验室联合香港中文大学等机构的研究人员提出逐步推理检查点分析（SRCA）框架 —— 在推理步骤间引入 “检查点”，并集成两大核心策略：（1）答案聚类搜索（Answer-Clustered Search）：根据中间检查点答案对推理路径进行分组，在保证质量的同时维持路径多样性；（2）检查点候选增强（Checkpoint Candidate Augmentation）：利用所有中间答案辅助最终决策。

9/2/2025 3:09:00 PM 机器之心

老北京、上海话、四川腔全都会！通义千问 TTS 重大升级：300万小时训练，支持七种中英双语音色

老北京、上海话、四川腔全都会！通义千问 TTS 重大升级：300万小时训练，支持七种中英双语音色

近日，Qwen 团队对旗下语音合成模型 Qwen-TTS 进行了重大升级。此次更新的版本为“qwen-tts-latest”或“qwen-tts-2025-05-22”，通过 Qwen API 即可访问和使用。最引人注目的改动，是Qwen-TTS首次支持生成三种中文方言：北京话、上海话以及四川话。

7/2/2025 12:00:01 AM

Fish Audio发布OpenAudio S1：媲美专业配音演员的AI语音新标杆

Fish Audio发布OpenAudio S1：媲美专业配音演员的AI语音新标杆

Fish Audio正式推出其最新一代语音生成模型——OpenAudio S1，以其高度自然的声音、丰富的语气控制和强大的指令跟随能力，号称达到专业配音演员的表现力和自然度。这一模型在TTS-Arena排行榜中荣登第一，成为文本转语音（TTS）领域的新标杆。 AIbase为您深入解析OpenAudio S1的突破性功能及其潜在影响。

6/4/2025 10:01:25 AM AI在线

Dia-1.6B TTS：优秀的文本到对话生成模型

Dia-1.6B TTS：优秀的文本到对话生成模型

译者 | 李睿审校 | 重楼Dia-1.6B TTS是由Nari Labs开发的一款拥有16亿个参数的文本转语音模型（TTS）。本文将详细介绍该模型，以及其访问途径、使用方法，并展示实际应用结果以真正了解该模型的功能。你是否正在寻求一种合适的文本转语音模型？

5/22/2025 8:05:00 AM 李睿

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。

5/13/2025 9:00:52 AM AI在线

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。

3/6/2025 11:29:00 AM AI在线

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式发布。该系统在处理中文文本时，具备独特的拼音纠正汉字发音能力，并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅，受到了广泛关注。

2/27/2025 2:21:00 PM AI在线

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

机器之能报道编辑：杨文这款新AI语音模型Fish Speech，模仿音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自然真实的语音」。这几天，这一赛道又闯进新玩家 ——Fish Speech。据悉，该模型经过 15 万小时的数据训练，已熟

7/4/2024 3:40:00 PM 机器之能

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉