语音
播客平台 Podcastle 推出AI文本转语音模型:提供 450 种语音
在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。 这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。
3/4/2025 11:19:00 AM
AI在线
Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球
Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。
3/3/2025 11:37:00 AM
AI在线
Sesame发布超真实的AI语音产品:几乎没有AI味
语音助手逐渐成为我们生活中不可或缺的一部分,而现有的数字语音助手在与用户互动时,往往显得平淡无奇,缺乏情感和人性化的元素。 对此,Sesame 团队正在努力解决这一问题,致力于实现一种全新的 “语音存在” 概念,使得数字助手能够在交流中更真实、被理解和重视。 Sesame 的核心目标是创造一种数字伴侣,不仅仅是处理请求的工具,而是能够进行真实对话的伙伴。
3/3/2025 9:37:00 AM
AI在线
马斯克宣布新版 Grok 应用上线:语音模式体验大幅提升
埃隆·马斯克今日在社交平台 X 上发文,宣布其人工智能公司 xAI 的新版本 Grok 应用正式上线。 这一消息迅速引发科技爱好者和 X 用户的广泛关注。 马斯克特别推荐用户体验全新升级的 Grok 语音模式,称其交互能力显著提升,为用户带来更自然、更智能的对话体验。
2/28/2025 4:24:00 PM
AI在线
语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 | 港科大等开源
活久见,太乙真人给讲论文了噻! 咳咳,诸位道友且听我一番唠叨。 老道我闭关数日,所得一篇妙诀,便是此Llasa之法。
2/28/2025 9:30:00 AM
量子位
Hugging Face 推出 FastRTC:实时语音视频应用开发变得轻而易举
AI 初创公司 Hugging Face 宣布推出 FastRTC,这是一个开源的 Python 库,旨在消除开发人员在构建实时音频和视频 AI 应用时面临的重大障碍。 Hugging Face 的 FastRTC 旨在简化 WebRTC 和 Websocket 应用的构建过程。 Freddy Boulton,FastRTC 的创建者之一表示:“在 Python 中,构建实时 WebRTC 和 Websocket 应用非常困难,直到现在才有所改变。
2/27/2025 10:41:00 AM
AI在线
Hume推出革命性文本转语音系统Octave:能理解情感与上下文
在人工智能领域,Hume AI公司最近宣布推出其全新产品Octave,这一系统被称为首个由大型语言模型(LLM)驱动的文本转语音系统。 Octave的创新之处在于其不仅能够生成自然的语音,还能理解上下文中的情感、语调、节奏和韵律,从而为用户提供更为生动和人性化的语音输出。 Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示,Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。
2/27/2025 9:27:00 AM
AI在线
OpenAI向免费用户推出基于GPT-4o mini的高级语音模式
OpenAI官方宣布,向免费用户推出GPT4o mini驱动的高级语音模式,免费用户也可以每天使用ChatGPT高级语音模式。 据了解免费用户使用 ChatGPT 高级语音模式会有每日使用限制,用户在剩余3分钟使用时间时会收到警告,达到限额后对话将自动结束。 尽管如此,观察表示,ChatGPT Plus 用户可以使用基于 GPT-4o 的完整版高级语音模式,每日限额是免费版的5倍,可以继续在高级语音中使用视频和屏幕共享功能,另外ChatGPT Pro 用户不设每日限额,可享更高的视频和屏幕共享限制。
2/26/2025 2:47:00 PM
AI在线
OpenAI免费开放ChatGPT高级语音聊天模式 基于GPT-4o mini
2月26日,OpenAI公司在X平台发布推文,正式向广大用户宣布,即日起将免费开放ChatGPT的高级语音模式(Advanced Voice Mode)。 据悉,ChatGPT的高级语音模式基于GPT-4o mini模型,通过优化计算效率,在性能方面已经能够媲美完整版的GPT-4o模型。 目前,macOS以及Windows10、Windows11系统的ChatGPT桌面应用程序均已支持高级语音模式,提供了5种语音选择,并支持自定义提示和对话内容回顾功能。
2/26/2025 10:56:00 AM
AI在线
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用
DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。 称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。 如何评价这篇论文的含金量?
2/7/2025 3:10:00 PM
量子位
豆包App更新实时语音通话功能,中文对话断崖式领先,人机难辨!
1月20日,豆包APP更新实时语音通话功能,面向所有用户开放。 该功能基于最新豆包实时语音大模型(Doubao Realtime Voice Model)。 更新后,豆包中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的AI交互效果,可以模仿不同声线,并且在“逻辑思考”和“情绪感知”上有明显提升。
1/21/2025 9:16:00 AM
新闻助手
推动多语言语音科技迈向新高度:INTERSPEECH 2025 ML-SUPERB 2.0 挑战赛
随着语音技术在各领域应用的迅速扩展,全球语言与口音的多样性成为技术进一步突破的重大挑战。 为了应对这一难题,来自卡内基梅隆大学(CMU)、斯坦福大学(Stanford University)、乔治梅森大学(George Mason University)、台湾大学与芝加哥丰田技术学院(TTIC)的研究团队连手,在即将举行的 INTERSPEECH 2025 国际会议上推出了 ML-SUPERB 2.0 挑战赛(Multilingual SUPERB 2.0 Challenge)。 该挑战旨在推动多语言语音技术迈向新高度,为语音科技的全球化应用奠定坚实基础。
1/7/2025 2:49:00 PM
新闻助手
国产AI之光!TeleAI星辰大模型入选央企十大国之重器评选
近日,国务院国资委新闻中心发起“十大国之重器”年度盘点,从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器,诚邀广大网友评选“年度十大国之重器”。 由中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)打造的“全国产化万亿参数星辰大模型发布”光荣入选,成为国产AI的佼佼者,展现了中国电信在人工智能领域的领先地位。 星辰大模型,开启国产AI新时代星辰大模型,是由中国电信自主研发打造的全国产化万亿参数大模型,是国内AI技术的重大突破。
12/25/2024 2:50:00 PM
新闻助手
ChatGPT 高级语音模式主创“自立门户”:新公司估值达 2 亿美元,打造有情感的 AI 语音交互
前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI,目前已获 a16z 4000 万美元种子轮融资,剑指音频 AI 交互领域。
12/10/2024 2:29:43 PM
故渊
支持中英双语及 40 种方言任意混说,中国电信 TeleAI 星辰语音大模型升级
中国电信人工智能研究院(TeleAI)在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。 与传统的有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进行预训练,再通过少量有标注数据进行微调。
11/3/2024 9:37:53 AM
沛霖(实习)
智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣
智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。 官方表示,其能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断,用户即日起可在“智谱清言”App 上体验。 据介绍,GLM-4-Voice 具备如下特点:情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。
10/25/2024 4:06:56 PM
清源
消息称微软亚洲研究院前首席研究经理谭旭加入月之暗面,研发类 GPT-4o 端到端语音模型
感谢据“晚点 Auto”昨晚报道,微软亚洲研究院前首席研究经理谭旭于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。报道称,月之暗面的整个多模态研究早在去年 10 月就已开始。接近该公司人士称,目前正有 10 人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。
10/23/2024 8:07:30 AM
清源
新代码暗示 OpenAI 本月 24 日推出 ChatGPT AI 高级语音模式
科技媒体 testingcatalog 昨日(9 月 18 日)发布博文,报道称 OpenAI 公司可能会在 9 月 24 日进一步推广 ChatGPT 的高级语音模式,甚至可能是直接正式发布。OpenAI 于今年 7 月宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。AI在线援引该媒体报道,OpenAI 公司已更新高级语音模式 FAQ 页面,在代码中被发现“hasSeenAdvancedVoice/2024-09-24”的字符串,
9/19/2024 9:08:32 AM
故渊
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构