AI在线 AI在线

语音

ChatGPT 高级语音模式惊现 “广告插播”!用户质疑服务质量

最近,一名 ChatGPT 的付费用户在使用其高级语音模式时,遇到了让人惊讶的情况。 他原本在与 ChatGPT 讨论寿司的话题,却突然被转入了一段广告宣传,令他目瞪口呆。 根据用户的描述,ChatGPT 在谈话中毫无预兆地开始介绍一种名为 Prolon 的营养计划,并且详细拼读了网址,似乎这段广告是完全不受控制地被植入的。
6/3/2025 9:01:04 AM
AI在线

豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线

火山引擎正式推出豆包·语音播客模型,豆包·语音播客模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。 这一模型的推出,不仅解决了传统AI播客创作中的诸多痛点,还极大地简化了播客制作流程,让热点内容能够瞬间转化为生动的播客。 在当今信息爆炸的时代,播客作为一种受欢迎的内容传播形式,正吸引着越来越多的用户。
5/21/2025 11:01:05 AM
AI在线

MiniMax Speech-02碾压OpenAI与ElevenLabs,登顶全球TTS榜首

MiniMax Audio推出的Speech-02系列语音模型席卷全球,强势登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大权威榜单,力压ElevenLabs、OpenAI等国际顶尖竞争对手。 这款模型以超高语音逼真度和多语言支持惊艳业界,成为AI语音技术的全新标杆。 AIbase综合最新动态,深入解析Speech-02的技术亮点及其对行业的深远影响。
5/16/2025 3:00:55 PM
AI在线

国产MiniMax语音模型横扫国际舞台,迈入个性化语音新时代

在人工智能领域的快速发展中,国产大模型的进步速度让人惊叹。 早在今年初,DeepSeek-R1以超低成本获得了超越 OpenAI 的表现,令人重新审视国外大模型的垄断地位。 如今,MiniMax 再次带来了重磅消息:其全新一代文本转语音(TTS)模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶,击败了 OpenAI 和 ElevenLabs 等行业巨头。
5/16/2025 10:01:05 AM
AI在线

超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了

国产大模型进步的速度早已大大超出了人们的预期。 年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。 如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。
5/16/2025 9:12:00 AM

0.33秒生成1秒音频!Muyan-TTS 开源上线,播客、有声书场景完美适配

开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练,仅需 0.33秒即可生成1秒高质量音频,支持无需打断地朗读数分钟文本,语音自然流畅。 更支持说话人定制,任意声音克隆,一键生成具有个性化语气与节奏的语音内容。
5/13/2025 9:00:52 AM
AI在线

ChatGPT Android应用新增语音模式字幕功能,提升交互体验

ChatGPT Android应用迎来重要更新,新增语音模式字幕功能。 用户现可通过点击界面上的“三点”菜单并选择“显示字幕”选项,在语音交互时实时查看对话的文本转录。 这一功能显著提升了语音模式的易用性和可访问性,尤其适合嘈杂环境或听力受限用户。
5/8/2025 5:00:56 PM
AI在线

实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!

最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线

Claude 移动应用即将推出语音模式,支持多种声音选项

Anthropic 的 Claude 移动应用即将迎来一次重要升级,新增的语音模式功能备受期待。 据 TestingCatalog 周日的报道,Claude 的语音模式将采用推按式对话方式,并且支持多种声音选项。 在语音模式下,Claude 不仅可以进行语音对话,还具备了网页搜索的能力。
5/6/2025 12:00:51 PM
AI在线

Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧

Meta已更新其针对雷朋Meta智能眼镜的美国隐私政策,关键变化是默认启用自动语音录制功能。 用户语音录音现在将被用于训练Meta AI和其他Meta产品。 此次更新取消了用户完全禁用语音录制的选项,用户仅能通过配套应用手动删除单个互动录音,或完全关闭语音控制功能。
5/2/2025 10:01:05 AM
AI在线

Anthropic Claude应用更新引入“Glassy”语音,语音模式开发持续推进

Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项,进一步推动其语音模式(Voice Mode)的开发进程。 据AIbase了解,“Glassy”作为Claude语音模式的新增声音,以其独特音色引发社交平台热议,被认为是迄今最具吸引力的语音选项之一。 相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
4/30/2025 3:00:51 PM
AI在线

秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心

一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

3月6日,出门问问(Mobvoi)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并重磅推出其商业化高品质TTS引擎——TicVoice7.0。 作为出门问问第七代TTS引擎,TicVoice7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。
3/7/2025 8:50:00 AM
AI在线

文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制

日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。 根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。 这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。
3/6/2025 11:29:00 AM
AI在线

Grok 语音模式全面开放:11 种模式上线,自带字幕成英语学习利器

xAI 公司开发的 AI 助手 Grok 今日宣布,其备受期待的语音模式已正式向所有用户开放。 这一更新不仅带来了11种独特的语音交互模式(包括2种18 限制模式),还新增了语音字幕功能,被用户称为“学习英语的好工具”。 消息在 X 平台上迅速传播,引发了广泛的兴奋与讨论。
3/5/2025 11:00:00 AM
AI在线