语音
ChatGPT 高级语音模式惊现 “广告插播”!用户质疑服务质量
最近,一名 ChatGPT 的付费用户在使用其高级语音模式时,遇到了让人惊讶的情况。 他原本在与 ChatGPT 讨论寿司的话题,却突然被转入了一段广告宣传,令他目瞪口呆。 根据用户的描述,ChatGPT 在谈话中毫无预兆地开始介绍一种名为 Prolon 的营养计划,并且详细拼读了网址,似乎这段广告是完全不受控制地被植入的。
6/3/2025 9:01:04 AM
AI在线
豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线
火山引擎正式推出豆包·语音播客模型,豆包·语音播客模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。 这一模型的推出,不仅解决了传统AI播客创作中的诸多痛点,还极大地简化了播客制作流程,让热点内容能够瞬间转化为生动的播客。 在当今信息爆炸的时代,播客作为一种受欢迎的内容传播形式,正吸引着越来越多的用户。
5/21/2025 11:01:05 AM
AI在线
MiniMax Speech-02碾压OpenAI与ElevenLabs,登顶全球TTS榜首
MiniMax Audio推出的Speech-02系列语音模型席卷全球,强势登顶Artificial Analysis Speech Arena和Hugging Face TTS Arena两大权威榜单,力压ElevenLabs、OpenAI等国际顶尖竞争对手。 这款模型以超高语音逼真度和多语言支持惊艳业界,成为AI语音技术的全新标杆。 AIbase综合最新动态,深入解析Speech-02的技术亮点及其对行业的深远影响。
5/16/2025 3:00:55 PM
AI在线
国产MiniMax语音模型横扫国际舞台,迈入个性化语音新时代
在人工智能领域的快速发展中,国产大模型的进步速度让人惊叹。 早在今年初,DeepSeek-R1以超低成本获得了超越 OpenAI 的表现,令人重新审视国外大模型的垄断地位。 如今,MiniMax 再次带来了重磅消息:其全新一代文本转语音(TTS)模型 “Speech-02” 在国际权威的语音评测榜单 Artificial Analysis 上强势登顶,击败了 OpenAI 和 ElevenLabs 等行业巨头。
5/16/2025 10:01:05 AM
AI在线
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。 年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。 如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。
5/16/2025 9:12:00 AM
0.33秒生成1秒音频!Muyan-TTS 开源上线,播客、有声书场景完美适配
开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练,仅需 0.33秒即可生成1秒高质量音频,支持无需打断地朗读数分钟文本,语音自然流畅。 更支持说话人定制,任意声音克隆,一键生成具有个性化语气与节奏的语音内容。
5/13/2025 9:00:52 AM
AI在线
ChatGPT Android应用新增语音模式字幕功能,提升交互体验
ChatGPT Android应用迎来重要更新,新增语音模式字幕功能。 用户现可通过点击界面上的“三点”菜单并选择“显示字幕”选项,在语音交互时实时查看对话的文本转录。 这一功能显著提升了语音模式的易用性和可访问性,尤其适合嘈杂环境或听力受限用户。
5/8/2025 5:00:56 PM
AI在线
实时口语聊天大模型 LLaMA-Omni 2 来了,能让你的 AI 聊天体验起飞!
最近 AI 圈可是热闹非凡,今天咱们就来聊聊其中的 “狠角色”——LLaMA-Omni2。 这是一系列超厉害的语音语言模型(SpeechLMs),参数规模从0.5B 到14B 不等,专门为实现高质量实时语音交互而生,在 Hugging Face 上一经发布,就引起了广泛关注。 语音交互发展历程回顾:从 “卡顿” 到 “丝滑”语音交互在人机交互领域的地位愈发重要,它就像是为我们打开了一扇便捷的大门,极大地提升了交互效率和用户体验。
5/6/2025 6:00:52 PM
AI在线
Claude 移动应用即将推出语音模式,支持多种声音选项
Anthropic 的 Claude 移动应用即将迎来一次重要升级,新增的语音模式功能备受期待。 据 TestingCatalog 周日的报道,Claude 的语音模式将采用推按式对话方式,并且支持多种声音选项。 在语音模式下,Claude 不仅可以进行语音对话,还具备了网页搜索的能力。
5/6/2025 12:00:51 PM
AI在线
Meta智能眼镜隐私政策更新:默认启用语音录制引隐私担忧
Meta已更新其针对雷朋Meta智能眼镜的美国隐私政策,关键变化是默认启用自动语音录制功能。 用户语音录音现在将被用于训练Meta AI和其他Meta产品。 此次更新取消了用户完全禁用语音录制的选项,用户仅能通过配套应用手动删除单个互动录音,或完全关闭语音控制功能。
5/2/2025 10:01:05 AM
AI在线
Anthropic Claude应用更新引入“Glassy”语音,语音模式开发持续推进
Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项,进一步推动其语音模式(Voice Mode)的开发进程。 据AIbase了解,“Glassy”作为Claude语音模式的新增声音,以其独特音色引发社交平台热议,被认为是迄今最具吸引力的语音选项之一。 相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
4/30/2025 3:00:51 PM
AI在线
秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心
一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真
如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理
大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位
出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力
3月6日,出门问问(Mobvoi)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并重磅推出其商业化高品质TTS引擎——TicVoice7.0。 作为出门问问第七代TTS引擎,TicVoice7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。
3/7/2025 8:50:00 AM
AI在线
文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制
日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。 根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。 这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。
3/6/2025 11:29:00 AM
AI在线
Grok 语音模式全面开放:11 种模式上线,自带字幕成英语学习利器
xAI 公司开发的 AI 助手 Grok 今日宣布,其备受期待的语音模式已正式向所有用户开放。 这一更新不仅带来了11种独特的语音交互模式(包括2种18 限制模式),还新增了语音字幕功能,被用户称为“学习英语的好工具”。 消息在 X 平台上迅速传播,引发了广泛的兴奋与讨论。
3/5/2025 11:00:00 AM
AI在线
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊