语音

开启无缝 AI 语音聊天，OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式
感谢OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）今天回复网友提问，表示将于下周面向 ChatGPT Plus 用户，开放 Alpha 版本 GPT-4o 的语音模式（Voice Mode），实现无缝聊天。AI在线今年 5 月报道，OpenAI 首席技术官穆里・穆拉蒂（Muri Murati）在演讲中表示：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意…
应用
- 4
- 0
故渊22小时前
语音克隆达到人类水平，微软全新 VALL-E 2 模型让 DeepFake 堪比配音员
继去年初的第一代 VALL-E 模型之后，微软最近又上新了 VALL-E 2 模型，标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。最近，微软发布了零样本的文本到语音（TTS）模型 VALLE-2，首次实现了与人类同等的水平，可以说是 TTS 领域里程碑式的进展。论文地址：，用录音室环境下的干净单人语音训练模型，已经可以达到人类同等水平的质量，但零样本 TTS 依…
应用
- 5
- 0
清源7月24日
普通话响应速度提升 3 倍，ElevenLabs 发布文本转语音 Turbo 2.5 AI 模型
ElevenLabs 昨日（7 月 19 日）发布博文，介绍推出了全新的 Turbo v2.5 文本到语音 AI 模型，支持普通话等 32 种语言，为全球近 80% 的地区提供高质量、低延迟的 AI 对话。Turbo v2.5 模型首次支持越南语、匈牙利语和挪威语，这些语言的使用人数分别为 8500 万、1300 万和 530 万。本次更新还重点提高了印地语、法语、西班牙语、普通话和其他 27 种…
应用
- 4
- 0
故渊7月20日
阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper
阿里云通义千问开源了两款语音基座模型 SenseVoice（用于语音识别）和 CosyVoice（用于语音生成）。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测，有以下特点：多语言识别：采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果；支持声音事…
应用
- 9
- 0
沛霖（实习）7月9日
实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎
呆板之能报道编辑：杨文这款新AI语音模型Fish Speech，模拟音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自…
应用
- 2
- 0
机器之能7月4日
OpenAI 推迟宣布 ChatGPT 语音帮忙功效，检测及拒绝部分内容的能力仍待加强
感谢北京工夫今天清晨，OpenAI 在 X（推特）上发文宣布，备受期待的 ChatGPT 语音帮忙功效将被推迟宣布，因为公司需要确保它不妨“安全有效地”处理来自数百万用户的请求。IT之家附通告大意如下：我们想分享春季更新中示范过的先进语音形式的最新进展，对此我们仍然非常兴奋：我们原决策在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版，但还需要一个月的工夫才能抵达启动尺度。例如…
AI
- 0
- 0
清源6月26日
科大讯飞：星火 V4.0 大模型“对标 GPT-4 Turbo”，6 月 27 日公布多款产品
科大讯飞今日公布公告，公司将于 2024 年 6 月 27 日在北京国家会议中心如期公布讯飞星火大模型的最新进展。本次公布会以“懂你的 AI 帮忙”为主题，公布讯飞星火大模型 V4.0 及相关落地运用。官方披露公布会内容：全面提升大模型底座七大核心能力，对标 GPT-4 Turbo；崭新晋级讯飞星火 App / Desk，公布“个人空间”，打造更懂你的 AI 帮忙；崭新公布星火智能批阅机，助力教师…
AI
- 4
- 0
浩渺6月24日
生成式 AI“上车”，大众高尔夫、途观、帕萨特等海外版车型现已支持 ChatGPT
当地时间 21 日，大众汽车宣布配备新一代信息娱乐体系的车型现已加入对 ChatGPT 的支持。在欧洲地区，引入 ChatGPT 的车型包括纯电动 ID.系列、新款高尔夫、新款途观、新款帕萨特，用户可通过车辆内置 IDA 语音帮忙造访 ChatGPT。据介绍，AI“上车”之后带来的感受远远超出以往，用户可以要求汽车直接读出搜索结果，或运用自然语言与汽车进行交互。例如，接入 ChatGPT 的车机可…
AI
- 5
- 0
清源6月22日
语音克隆技巧引发耽忧，OpenAI 再次解释其文本转语音对象
OpenAI 在几个月内第二次就其文本转语音对象从事解释，并再次强调该对象目前并未大范围开放，且未来也可能不会。图源 Pexels“无论我们最终是否会大规模部署这项技巧，让世界各地的人们理解这项技巧的发展方向都非常重要，”OpenAI 公司周五在其网站上发布的一份申明中表现，“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教导，以及我们如何围绕该技巧实施安全措施的原因。”据IT之家…
AI
- 1
- 0
远洋6月10日
准确率可达 70%，科学家利用 AI 解读狗的啼声
钻研职员正在测试利用 AI 来解读狗的啼声是在玩耍还是在生气。与此同时，钻研职员还测试利用 AI 识别狗的春秋、性别和品种。密歇根大学的钻研职员与位于普埃布拉的墨西哥国家天体物理、光学和电子钻研所（INAOE）合作开展了这一钻研，发现最初用于训练人类语音的 AI 模型可以作为训练植物交换模型的起点。图源 Pixabay密歇根大学人工智能实验室负责人 Rada Mihalcea 表示，人工智能在了解…
AI
- 0
- 0
满河（实习）6月7日
反对 30 种方言混说，中国电信 AI 研究院发布“星斗”超多方言语音辨认大模型
中国电信人工智能研究院（TeleAI）日前宣布发布业内首个反对 30 种方言自由混说的语音辨认大模型 —— 星斗超多方言语音辨认大模型。据介绍，该模型可打破简单模型只能辨认特定简单方言的困境，反对同时辨认理解粤语、上海话、四川话、温州话等 30 多种方言，是国内反对最多方言的语音辨认大模型。应用场景方面，该模型有望极大解决老年人、老少边穷地区用户信息服务无法触达的问题。该大模型研发团队首创“蒸馏 …
AI
- 4
- 0
清源5月25日
声响太像斯嘉丽・约翰逊，OpenAI 停用 ChatGPT 语音选项“Sky”
感激OpenAI 宣布将停息供谈天机器人 ChatGPT 语音功能使用的“Sky” 语音，因由是用户指出该声响与演员斯嘉丽・约翰逊 (Scarlett Johansson) 的声响十分相似。IT之家注意到，OpenAI 在一篇博客文章中表示，“Sky”只是五个可用语音之一，其来源为某位女演员，但并非刻意模仿斯嘉丽・约翰逊。斯嘉丽・约翰逊曾出演电影《Her》，片中扮演让男主角陷入爱河的虚构帮忙系统。…
AI
- 3
- 0
远洋5月20日
行业首发多模态大模型辅助视障人士，vivo 瞥见 App 接入蓝心大模型
感谢vivo 今日宣布，vivo 瞥见 App 全新升级，接入蓝心大模型，成为行业首款多模态大模型视觉辅助产品。在 vivo 应用商店搜索“vivo 瞥见”便可下载（IT之家备注：目前仅支撑 vivo / iQOO 手机）。vivo 瞥见支撑实时语音播报，镜头对准周围环境和东西即自动播报画面内容及笔墨信息，还可切换到笔墨、卡证、条码等多种辨认模式。定格画面后点击“对话”，便可与 vivo 瞥见进行…
AI
- 2
- 0
沛霖（实习）5月16日
OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o：语音对话更流畅，收费供给
感谢OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o，该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。最让人惊喜的是，GPT-4o 将收费供给给所有用户使用。综合 TechCrunch 等外媒报道，OpenAI 首席技巧官穆里・穆拉蒂 (Muri Murati) 表示，GPT-4o 将供给与 GPT-4 同等水平的智能，但在文本、图象以及语音解决方面均取得了进一步提…
AI
- 0
- 0
远洋5月14日
OpenAI GPT 搜寻引擎原型曝光：新模型 GPT4-Lite 驱动，虽然鸽了发布会但代码已上传
OpenAI 发布会前一天，员工集体发疯中…… 上演大型套娃行为艺术。A：我为 B 的愉快感到愉快；B：我为 C 的愉快感到愉快……Z：我为这些升级感到愉快与此同时还有小动作不断，比如现在 GPT-4 的文字描述已不再是“最先进的模型”，而仅仅是“先进的”。以及被鸽掉的 GPT 搜寻引擎，原型代码上传到 ChatGPT 了。黑客“秃顶哥”Tibor Blaho，从更新的前端代码中扒出 Search…
AI
- 2
- 0
汪淼5月13日
搭载星火 AI 大模型，科大讯飞下月将推出语音台历产品
感谢科大讯飞周六在互动平台透露，公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历，具备更广泛的学问覆盖、更强的理解能力及更自然的人机交互。这款语音台历产品的更多配置、规格信息，目前官方没有过多透露。4 月 26 日，科大讯飞宣布讯飞星火大模型 V3.5 春季上新，带来新增功能大致如下：支持长文本、长图文、长语音的大模型上新，首发星火图文辨别大模型，快速辨别和学习多类型海量学问，行…
AI
- 4
- 0
清源4月28日
AI助力脑机接口钻研，纽约大学突破性神经语音解码技术，登Nature子刊
作者 | 陈旭鹏编辑 | ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍，它可能会限制人们的职业和社交生活。近年来，深度学习和脑机接口（BCI）技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而，神经旌旗灯号的语音解码面临挑战。近日，纽约大学 VideoLab 和 Flinker Lab 的钻研者开发了一个新型的可微分语音合成器，可以利用一个轻型的卷积神经…
理论
- 2
- 0
ScienceAI4月16日
baidu文心一言上线新性能，可快速定制自己的 AI 声响
感激近日baidu文心一言上线了新性能，仅需几秒钟即可定制自己的声响。据IT之家了解，想要体会这一性能，只需打开文心一言 App，点击下方“ ”，然后选择建立智能体。在声响选项里，会发现一个名为“建立我的声响”的性能。根据零碎提示读出一段话，只需两秒左右的时间，零碎便能捕捉到你的声响特点，为你生成一个独特的“语音帮忙”。在确认声响质量后，你的专属“语音库”就在刹时建立完成。今后，在与智能体的每一次…
AI
- 4
- 0
远洋4月7日
微软 Azure 新增 9 款真切 AI 语音，包括美式英语、中文等
2023 年 9 月，微软 Azure 团队宣布推出实用于商业客户的一系列真切 AI 语音。本周微软表示，9 种更真实的人工智能声响现在普遍可供这些用户使用。根据微软博客文章，这些新语音可用于各种工作和任务，例如商务聊天机器人、语音助手、电子学习以及娱乐和游戏领域。微软表示：“这一扩展扩大了我们在 91 种语言及其变体中表达内容的能力。这一进展凸显了我们对克服语言障碍和促进更具包容性和可访问性的全…
AI
- 3
- 0
远洋3月31日
Meta用《圣经》训练超多谈话模型：辨别1107种、辨认4017种谈话
在《圣经》中有一个巴别塔的故事，说是人类联合起来计划兴建一座高塔，希望能通往天堂，但神扰乱了人类的谈话，计划也就因此失败。到了今天，AI 技术有望拆除人类谈话之间的藩篱，帮助人类造出文明的巴别塔。
AI
- 2
- 0
机器之心23年5月23日
微软NaturalSpeech 2来了，基于聚集模型的语音分解
文本到语音分解（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。多年来，微软亚洲钻研院机器学习组和微软 Azure 语音团队持续关注语音分解领域的钻研与相关产品的研发。为了分解既自然又高质量的人类语音，NaturalSpeech 钻研项目（）应运而生。NaturalSpeech 的钻研分为以下几个阶段：1）第一…
AI
- 4
- 0
机器之心23年5月12日
运用魔搭开发自己的语音AI：从入门到精通
语音AI是最早从实验室走向利用的AI技术，其发展史就是不断创新、解锁利用的历史，从1995年 Dragon Dictate的桌面孤立词语音辨别，到2011年苹果的手机语音助手SIRI，再到当下百花齐放的各种智能语音利用。由于技术的快速进步，以及各大云计算厂商以API形式提供的语音AI能力，目前开发者已能便捷运用语音AI去搭建利用。但API也存在局限性，不少开发者希望获得更多、更底层的把控力，希望对…
AI
- 4
- 0
机器之心22年12月1日
产业实践推动科技创新，京东科技集团3篇论文当选ICASSP 2021
ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕，凭借在语音技术领域的扎实积累和前沿创新，京东科技集团的3篇论文已经被 ICASSP 2021接收。
AI
- 3
- 0
京东科技开发者21年8月25日
网易云信神经网络音频降噪算法：提升瞬态噪声抑制成效，适合移动端设备
机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法（网易云信 AI 音频降噪），对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量，并且控制了语音旌旗灯号的损伤程度，保证了语音的质量和理解度。鉴于旌旗灯号处理的传统音频降噪算法对于 Stationary Noise（平稳噪声）有比较好的降噪成效。但是对…
AI
- 1
- 0
机器之心21年8月19日