语音
Anthropic Claude应用更新引入“Glassy”语音,语音模式开发持续推进
Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项,进一步推动其语音模式(Voice Mode)的开发进程。 据AIbase了解,“Glassy”作为Claude语音模式的新增声音,以其独特音色引发社交平台热议,被认为是迄今最具吸引力的语音选项之一。 相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
4/30/2025 3:00:51 PM
AI在线
秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心
一天拿下3.4k star,这个1.6B开源模型火了,合成对话超逼真
如果不提前告诉你,你可能很难相信这段视频里的语音全部是 AI 生成的:这些声音来自 Dia-1.6B——一个刚刚在 𝕏、GitHub 等平台上走红的开源语音模型。 它不仅能生成说话的声音、对话,同时也能合成真实感非常强的笑声、喷嚏声和吸鼻子声等表达情绪的声音。 由于效果过于逼真,它在 GitHub 上线后不到 24 小时就收获了超过 3.4k star,现在的 star 数更是已经达到了 5.4k。
4/24/2025 9:21:00 AM
机器之心
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理
大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位
出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力
3月6日,出门问问(Mobvoi)联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型Spark-TTS,并重磅推出其商业化高品质TTS引擎——TicVoice7.0。 作为出门问问第七代TTS引擎,TicVoice7.0在语音生成领域实现了重大突破,开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。
3/7/2025 8:50:00 AM
AI在线
文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制
日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。 根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。 这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。
3/6/2025 11:29:00 AM
AI在线
Grok 语音模式全面开放:11 种模式上线,自带字幕成英语学习利器
xAI 公司开发的 AI 助手 Grok 今日宣布,其备受期待的语音模式已正式向所有用户开放。 这一更新不仅带来了11种独特的语音交互模式(包括2种18 限制模式),还新增了语音字幕功能,被用户称为“学习英语的好工具”。 消息在 X 平台上迅速传播,引发了广泛的兴奋与讨论。
3/5/2025 11:00:00 AM
AI在线
播客平台 Podcastle 推出AI文本转语音模型:提供 450 种语音
在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。 这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。
3/4/2025 11:19:00 AM
AI在线
Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球
Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。
3/3/2025 11:37:00 AM
AI在线
Sesame发布超真实的AI语音产品:几乎没有AI味
语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。
3/3/2025 9:37:00 AM
AI在线
马斯克宣布新版 Grok 应用上线:语音模式体验大幅提升
埃隆·马斯克今日在社交平台 X 上发文,宣布其人工智能公司 xAI 的新版本 Grok 应用正式上线。 这一消息迅速引发科技爱好者和 X 用户的广泛关注。 马斯克特别推荐用户体验全新升级的 Grok 语音模式,称其交互能力显著提升,为用户带来更自然、更智能的对话体验。
2/28/2025 4:24:00 PM
AI在线
语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源
活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。
2/28/2025 9:30:00 AM
量子位
Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举
AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton,FastRTC 的创建者之一表示:“在 Python 中,构建实时 WebRTC 和 Websocket 应用非常困难,直到现在才有所改变。
2/27/2025 10:41:00 AM
AI在线
Hume推出革命性文本转语音系统Octave:能理解情感与上下文
在人工智能领域,Hume AI公司最近宣布推出其全新产品Octave,这一系统被称为首个由大型语言模型(LLM)驱动的文本转语音系统。 Octave的创新之处在于其不仅能够生成自然的语音,还能理解上下文中的情感、语调、节奏和韵律,从而为用户提供更为生动和人性化的语音输出。 Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示,Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。
2/27/2025 9:27:00 AM
AI在线
OpenAI向免费用户推出基于GPT-4o mini的高级语音模式
OpenAI官方宣布,向免费用户推出GPT4o mini驱动的高级语音模式,免费用户也可以每天使用ChatGPT高级语音模式。 据了解免费用户使用 ChatGPT 高级语音模式会有每日使用限制,用户在剩余3分钟使用时间时会收到警告,达到限额后对话将自动结束。 尽管如此,观察表示,ChatGPT Plus 用户可以使用基于 GPT-4o 的完整版高级语音模式,每日限额是免费版的5倍,可以继续在高级语音中使用视频和屏幕共享功能,另外ChatGPT Pro 用户不设每日限额,可享更高的视频和屏幕共享限制。
2/26/2025 2:47:00 PM
AI在线
OpenAI免费开放ChatGPT高级语音聊天模式 基于GPT-4o mini
2月26日,OpenAI公司在X平台发布推文,正式向广大用户宣布,即日起将免费开放ChatGPT的高级语音模式(Advanced Voice Mode)。 据悉,ChatGPT的高级语音模式基于GPT-4o mini模型,通过优化计算效率,在性能方面已经能够媲美完整版的GPT-4o模型。 目前,macOS以及Windows10、Windows11系统的ChatGPT桌面应用程序均已支持高级语音模式,提供了5种语音选择,并支持自定义提示和对话内容回顾功能。
2/26/2025 10:56:00 AM
AI在线
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用
DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?
2/7/2025 3:10:00 PM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind