AI在线 AI在线

语音

Anthropic Claude应用更新引入“Glassy”语音,语音模式开发持续推进

Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项,进一步推动其语音模式(Voice Mode)的开发进程。 据AIbase了解,“Glassy”作为Claude语音模式的新增声音,以其独特音色引发社交平台热议,被认为是迄今最具吸引力的语音选项之一。 相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
4/30/2025 3:00:51 PM
AI在线

秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一

kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心

一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真

如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

3月6日,出门问问(Mobvoi)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并重磅推出其商业化高品质TTS引擎——TicVoice7.0。 作为出门问问第七代TTS引擎,TicVoice7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。
3/7/2025 8:50:00 AM
AI在线

文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制

日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。 根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。 这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。
3/6/2025 11:29:00 AM
AI在线

Grok 语音模式全面开放:11 种模式上线,自带字幕成英语学习利器

xAI 公司开发的 AI 助手 Grok 今日宣布,其备受期待的语音模式已正式向所有用户开放。 这一更新不仅带来了11种独特的语音交互模式(包括2种18 限制模式),还新增了语音字幕功能,被用户称为“学习英语的好工具”。 消息在 X 平台上迅速传播,引发了广泛的兴奋与讨论。
3/5/2025 11:00:00 AM
AI在线

播客平台 Podcastle 推出AI文本转语音模型:提供 450 种语音

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。 这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。
3/4/2025 11:19:00 AM
AI在线

Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。
3/3/2025 11:37:00 AM
AI在线

Sesame发布超真实的AI语音产品:几乎没有AI味

语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。
3/3/2025 9:37:00 AM
AI在线

马斯克宣布新版 Grok 应用上线:语音模式体验大幅提升

埃隆·马斯克今日在社交平台 X 上发文,宣布其人工智能公司 xAI 的新版本 Grok 应用正式上线。 这一消息迅速引发科技爱好者和 X 用户的广泛关注。 马斯克特别推荐用户体验全新升级的 Grok 语音模式,称其交互能力显著提升,为用户带来更自然、更智能的对话体验。
2/28/2025 4:24:00 PM
AI在线

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源

活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。
2/28/2025 9:30:00 AM
量子位

Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举

AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton,FastRTC 的创建者之一表示:“在 Python 中,构建实时 WebRTC 和 Websocket 应用非常困难,直到现在才有所改变。
2/27/2025 10:41:00 AM
AI在线

Hume推出革命性文本转语音系统Octave:能理解情感与上下文

在人工智能领域,Hume AI公司最近宣布推出其全新产品Octave,这一系统被称为首个由大型语言模型(LLM)驱动的文本转语音系统。 Octave的创新之处在于其不仅能够生成自然的语音,还能理解上下文中的情感、语调、节奏和韵律,从而为用户提供更为生动和人性化的语音输出。 Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示,Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。
2/27/2025 9:27:00 AM
AI在线

OpenAI向免费用户推出基于GPT-4o mini的高级语音模式

OpenAI官方宣布,向免费用户推出GPT4o mini驱动的高级语音模式,免费用户也可以每天使用ChatGPT高级语音模式。 据了解免费用户使用 ChatGPT 高级语音模式会有每日使用限制,用户在剩余3分钟使用时间时会收到警告,达到限额后对话将自动结束。 尽管如此,观察表示,ChatGPT Plus 用户可以使用基于 GPT-4o 的完整版高级语音模式,每日限额是免费版的5倍,可以继续在高级语音中使用视频和屏幕共享功能,另外ChatGPT Pro 用户不设每日限额,可享更高的视频和屏幕共享限制。
2/26/2025 2:47:00 PM
AI在线

OpenAI免费开放ChatGPT高级语音聊天模式 基于GPT-4o mini

2月26日,OpenAI公司在X平台发布推文,正式向广大用户宣布,即日起将免费开放ChatGPT的高级语音模式(Advanced Voice Mode)。 据悉,ChatGPT的高级语音模式基于GPT-4o mini模型,通过优化计算效率,在性能方面已经能够媲美完整版的GPT-4o模型。 目前,macOS以及Windows10、Windows11系统的ChatGPT桌面应用程序均已支持高级语音模式,提供了5种语音选择,并支持自定义提示和对话内容回顾功能。
2/26/2025 10:56:00 AM
AI在线

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?
2/7/2025 3:10:00 PM
量子位