语音

DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器

在数字化时代，语音合成技术（TTS）发展迅速，应用广泛。但方言和小语种在 TTS 领域面临数据稀缺、正字法不一致、音系变化复杂等挑战。为此，清华大学与巨人网络联合推出开源的多方言语音合成框架 DiaMoE-TTS，以创新技术支持方言保护和语言多样性。

10/29/2025 1:11:00 AM

AIG小兵

李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩

这一天，辣个男人终于回想起……他的小破站账号！（活久见）李沐老师终于带着他的手搓语音大模型教程回归了….本期视频不讲论文，李沐老师来手把手教大家怎样玩转他们团队最新研发的Higgs Audio V2模型，不仅能处理文本，还能同时理解并生成语音。除了一些常规语音任务外，这个模型还具备一些较为罕见的能力，比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用克隆声音进行旋律哼唱以及同时生成语音和背景音乐。

7/24/2025 8:55:00 AM

MiniMax推出Voice Design音色设计功能，任意组合语言、口音、音色

MiniMax 最近推出了一项创新功能 ——Voice Design 音色设计，这标志着语音合成技术的一次重大突破。自5月发布以来，MiniMax Speech-02模型在 Artificial Analysis 榜单上稳居全球第一，并赢得了用户的广泛认可。迄今为止，Speech-01和 Speech-02两代模型已经帮助客户生成了超过1.5亿小时的语音，与全球30多个国家的用户建立了合作。

6/23/2025 12:00:38 PM

AI在线

MiniMax发布Voice Design音色设计功能可自定义无限组合

稀宇科技（MiniMax）宣布其Speech-02语音模型在Artificial Analysis榜单中持续保持全球领先地位，并正式推出Voice Design音色设计功能。该功能允许用户通过自然语言描述生成个性化音色，实现“任意语言 × 任意口音 × 任意音色”的全自定义组合，进一步降低语音合成领域的技术门槛。据稀宇科技介绍，Voice Design功能可精准控制音色的多个维度，包括音频质量、发声方式、情感基调及人物画像。

6/23/2025 10:00:48 AM

AI在线

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

本文第一作者：崔文谦，香港中文大学博士生，致力于语音大模型，多模态大模型，AI音乐生成等方向的研究。由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收！这是该领域首个全面系统的综述，为语音 AI 的未来发展指明了方向。

6/18/2025 8:53:00 AM

ChatGPT 高级语音模式惊现 “广告插播”！用户质疑服务质量

最近，一名 ChatGPT 的付费用户在使用其高级语音模式时，遇到了让人惊讶的情况。他原本在与 ChatGPT 讨论寿司的话题，却突然被转入了一段广告宣传，令他目瞪口呆。根据用户的描述，ChatGPT 在谈话中毫无预兆地开始介绍一种名为 Prolon 的营养计划，并且详细拼读了网址，似乎这段广告是完全不受控制地被植入的。

6/3/2025 9:01:04 AM

AI在线

豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线

火山引擎正式推出豆包·语音播客模型，豆包·语音播客模型基于流式模型构建，能够实现从文本创作到双人对话式播客的秒级转化，为用户带来“低成本、高时效、强互动”的全新创作体验。这一模型的推出，不仅解决了传统AI播客创作中的诸多痛点，还极大地简化了播客制作流程，让热点内容能够瞬间转化为生动的播客。在当今信息爆炸的时代，播客作为一种受欢迎的内容传播形式，正吸引着越来越多的用户。

5/21/2025 11:01:05 AM

AI在线

MiniMax Speech-02碾压OpenAI与ElevenLabs，登顶全球TTS榜首

MiniMax Audio推出的Speech-02系列语音模型席卷全球，强势登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大权威榜单，力压ElevenLabs、OpenAI等国际顶尖竞争对手。这款模型以超高语音逼真度和多语言支持惊艳业界，成为AI语音技术的全新标杆。 AIbase综合最新动态，深入解析Speech-02的技术亮点及其对行业的深远影响。

5/16/2025 3:00:55 PM

AI在线

国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

在人工智能领域的快速发展中，国产大模型的进步速度让人惊叹。早在今年初，DeepSeek-R1以超低成本获得了超越 OpenAI 的表现，令人重新审视国外大模型的垄断地位。如今，MiniMax 再次带来了重磅消息:其全新一代文本转语音（TTS）模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶，击败了 OpenAI 和 ElevenLabs 等行业巨头。

5/16/2025 10:01:05 AM

AI在线

超越OpenAI、ElevenLabs，MiniMax新一代语音模型屠榜！人格化语音时代来了

国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火，以超低的成本实现了部分超越 OpenAI o1 的表现，一定程度上让人不再过度「迷信」国外大模型。如今，在语音 AI 领域，国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。

5/16/2025 9:12:00 AM

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计，具备零样本语音合成、极速生成与高连贯性朗读能力，是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练，仅需 0.33秒即可生成1秒高质量音频，支持无需打断地朗读数分钟文本，语音自然流畅。更支持说话人定制，任意声音克隆，一键生成具有个性化语气与节奏的语音内容。

5/13/2025 9:00:52 AM

AI在线

ChatGPT Android应用新增语音模式字幕功能，提升交互体验

ChatGPT Android应用迎来重要更新，新增语音模式字幕功能。用户现可通过点击界面上的“三点”菜单并选择“显示字幕”选项，在语音交互时实时查看对话的文本转录。这一功能显著提升了语音模式的易用性和可访问性，尤其适合嘈杂环境或听力受限用户。

5/8/2025 5:00:56 PM

AI在线

实时口语聊天大模型 LLaMA-Omni 2 来了，能让你的 AI 聊天体验起飞！

最近 AI 圈可是热闹非凡，今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。这是一系列超厉害的语音语言模型（SpeechLMs），参数规模从0.5B 到14B 不等，专门为实现高质量实时语音交互而生，在 Hugging Face 上一经发布，就引起了广泛关注。语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要，它就像是为我们打开了一扇便捷的大门，极大地提升了交互效率和用户体验。

5/6/2025 6:00:52 PM

AI在线

Claude 移动应用即将推出语音模式，支持多种声音选项

Anthropic 的 Claude 移动应用即将迎来一次重要升级，新增的语音模式功能备受期待。据 TestingCatalog 周日的报道，Claude 的语音模式将采用推按式对话方式，并且支持多种声音选项。在语音模式下，Claude 不仅可以进行语音对话，还具备了网页搜索的能力。

5/6/2025 12:00:51 PM

AI在线

Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧

Meta已更新其针对雷朋Meta智能眼镜的美国隐私政策，关键变化是默认启用自动语音录制功能。用户语音录音现在将被用于训练Meta AI和其他Meta产品。此次更新取消了用户完全禁用语音录制的选项，用户仅能通过配套应用手动删除单个互动录音，或完全关闭语音控制功能。

5/2/2025 10:01:05 AM

AI在线

Anthropic Claude应用更新引入“Glassy”语音，语音模式开发持续推进

Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项，进一步推动其语音模式（Voice Mode）的开发进程。据AIbase了解，“Glassy”作为Claude语音模式的新增声音，以其独特音色引发社交平台热议，被认为是迄今最具吸引力的语音选项之一。相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。

4/30/2025 3:00:51 PM

AI在线

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio，支持语音识别、音频理解、音频转文本、语音对话等多种任务，在十多个音频基准测试中实现了最先进的 (SOTA) 性能。结果显示，Kimi-Audio 总体性能排名第一，几乎没有明显短板。例如在 LibriSpeech ASR 测试上，Kimi-Audio 的 WER 仅 1.28%，显著优于其他模型。

4/27/2025 8:50:00 AM

机器之心

一天拿下3.4k star，这个1.6B开源模型火了，合成对话超逼真

如果不提前告诉你，你可能很难相信这段视频里的语音全部是 AI 生成的：这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。它不仅能生成说话的声音、对话，同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。由于效果过于逼真，它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star，现在的 star 数更是已经达到了 5.4k。

4/24/2025 9:21:00 AM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质开发者具身智能 xAI 生成式神经网络机器学习 3D 人形机器人 AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

语音

DiaMoE-TTS：清华 &amp; 巨人网络开源的多方言语音合成利器

李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩

​MiniMax推出Voice Design音色设计功能，任意组合语言 、口音、音色

MiniMax发布Voice Design音色设计功能 可自定义无限组合

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

ChatGPT 高级语音模式惊现 “广告插播”！用户质疑服务质量

豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线

MiniMax Speech-02碾压OpenAI与ElevenLabs，登顶全球TTS榜首

国产MiniMax语音模型横扫国际舞台，迈入个性化语音新时代

超越OpenAI、ElevenLabs，MiniMax新一代语音模型屠榜！人格化语音时代来了

0.33秒生成1秒音频!Muyan-TTS 开源上线，播客、有声书场景完美适配

ChatGPT Android应用新增语音模式字幕功能，提升交互体验

实时口语聊天大模型 LLaMA-Omni 2 来了，能让你的 AI 聊天体验起飞！

Claude 移动应用即将推出语音模式，支持多种声音选项

Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧

Anthropic Claude应用更新引入“Glassy”语音，语音模式开发持续推进

秒杀同行！Kimi开源全新音频基础模型，横扫十多项基准测试，总体性能第一

一天拿下3.4k star，这个1.6B开源模型火了，合成对话超逼真

DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器

MiniMax推出Voice Design音色设计功能，任意组合语言、口音、音色

MiniMax发布Voice Design音色设计功能可自定义无限组合

豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线