语音

普通话响应速度提升 3 倍，ElevenLabs 发布文本转语音 Turbo 2.5 AI 模型

ElevenLabs 昨日（7 月 19 日）发布博文，介绍推出了全新的 Turbo v2.5 文本到语音 AI 模型，支持普通话等 32 种语言，为全球近 80% 的地区提供高质量、低延迟的 AI 对话。Turbo v2.5 模型首次支持越南语、匈牙利语和挪威语，这些语言的使用人数分别为 8500 万、1300 万和 530 万。本次更新还重点提高了印地语、法语、西班牙语、普通话和其他 27 种语言的响应速度，最高提升了 3 倍；英语的速度提高了 25%。AI在线附上宣传视频如下： Turbo v2.5 模型结合

7/20/2024 10:32:53 AM

故渊

阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper

阿里云通义千问开源了两款语音基座模型 SenseVoice（用于语音识别）和 CosyVoice（用于语音生成）。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测，有以下特点：多语言识别：采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果；支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测高效推理： SenseVoice-Sma

7/9/2024 10:17:59 AM

沛霖（实习）

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

机器之能报道编辑：杨文这款新AI语音模型Fish Speech，模仿音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自然真实的语音」。这几天，这一赛道又闯进新玩家 ——Fish Speech。据悉，该模型经过 15 万小时的数据训练，已熟

7/4/2024 3:40:00 PM

机器之能

OpenAI 推迟发布 ChatGPT 语音助手功能，检测及拒绝部分内容的能力仍待加强

感谢北京时间今天清晨，OpenAI 在 X（推特）上发文宣布，备受期待的 ChatGPT 语音助手功能将被推迟发布，因为公司需要确保它能够“安全有效地”处理来自数百万用户的请求。IT之家附通知大意如下：我们想分享春季更新中演示过的先进语音模式的最新进展，对此我们仍然非常兴奋：我们原计划在 6 月下旬开始向一小部分 ChatGPT Plus 用户推出测试版，但还需要一个月的时间才能达到启动标准。例如，我们正在提高该模型检测和拒绝某些内容的能力。我们还在努力改善用户体验，并准备基础设施，以便在保持实时响应的同时扩展到数

6/26/2024 7:50:37 AM

清源

科大讯飞：星火 V4.0 大模型“对标 GPT-4 Turbo”，6 月 27 日发布多款产品

科大讯飞今日发布公告，公司将于 2024 年 6 月 27 日在北京国家会议中心如期发布讯飞星火大模型的最新进展。本次发布会以“懂你的 AI 助手”为主题，发布讯飞星火大模型 V4.0 及相关落地应用。官方披露发布会内容：全面提升大模型底座七大核心能力，对标 GPT-4 Turbo；全新升级讯飞星火 App / Desk，发布“个人空间”，打造更懂你的 AI 助手；全新发布星火智能批阅机，助力教师因材施教；全新升级讯飞 AI 学习机，个性化辅学升级 AI 1 对 1 答疑辅导；全新升级讯飞晓医 App，打造“每个人

6/24/2024 8:35:23 PM

浩渺

生成式 AI“上车”，大众高尔夫、途观、帕萨特等海外版车型现已支持 ChatGPT

当地时间 21 日，大众汽车宣布配备新一代信息娱乐系统的车型现已加入对 ChatGPT 的支持。在欧洲地区，引入 ChatGPT 的车型包括纯电动 ID.系列、新款高尔夫、新款途观、新款帕萨特，用户可通过车辆内置 IDA 语音助手访问 ChatGPT。据介绍，AI“上车”之后带来的体验远远超出以往，用户可以要求汽车直接读出搜索结果，或使用自然语言与汽车进行交互。例如，接入 ChatGPT 的车机可以提供旅游景点信息、报道过去的足球比赛或帮助解决数学问题。驾驶员只需用自然语言与助手交谈，无需将视线从道路上移开。与现有

6/22/2024 12:05:43 PM

清源

语音克隆技术引发担忧，OpenAI 再次解释其文本转语音工具

OpenAI 在几个月内第二次就其文本转语音工具进行解释，并再次强调该工具目前并未大范围开放，且未来也可能不会。图源 Pexels“无论我们最终是否会大规模部署这项技术，让世界各地的人们理解这项技术的发展方向都非常重要，”OpenAI 公司周五在其网站上发布的一份声明中表示，“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育，以及我们如何围绕该技术实施安全措施的原因。”据IT之家了解，去年年底，OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑，即可

6/10/2024 9:57:21 AM

远洋

准确率可达 70%，科学家利用 AI 解读狗的叫声

研究人员正在尝试使用 AI 来解读狗的叫声是在玩耍还是在生气。与此同时，研究人员还尝试使用 AI 识别狗的年龄、性别和品种。密歇根大学的研究人员与位于普埃布拉的墨西哥国家天体物理、光学和电子研究所（INAOE）合作开展了这一研究，发现最初用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。图源 Pixabay密歇根大学人工智能实验室负责人 Rada Mihalcea 表示，人工智能在理解语音的微妙之处方面有了显著进步，可以区分音调、音调和口音的细微差别，可凭借这些研究基础来理解狗吠。开发这种分析动物发声

6/7/2024 7:40:32 PM

满河（实习）

支持 30 种方言混说，中国电信 AI 研究院发布“星辰”超多方言语音识别大模型

中国电信人工智能研究院（TeleAI）日前宣布发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。据介绍，该模型可打破单一模型只能识别特定单一方言的困境，支持同时识别理解粤语、上海话、四川话、温州话等 30 多种方言，是国内支持最多方言的语音识别大模型。应用场景方面，该模型有望极大解决老年人、老少边穷地区用户信息服务无法触达的问题。该大模型研发团队首创“蒸馏膨胀”联合训练算法，解决超大规模多场景数据集和大规模参数条件下，预训练坍缩的问题，实现 1B 参数 80 层模型稳定

5/25/2024 3:47:03 PM

清源

声音太像斯嘉丽・约翰逊，OpenAI 停用 ChatGPT 语音选项“Sky”

感谢OpenAI 宣布将暂停供聊天机器人 ChatGPT 语音功能使用的“Sky” 语音，起因是用户指出该声音与演员斯嘉丽・约翰逊 (Scarlett Johansson) 的声音十分相似。IT之家注意到，OpenAI 在一篇博客文章中表示，“Sky”只是五个可用语音之一，其来源为某位女演员，但并非刻意模仿斯嘉丽・约翰逊。斯嘉丽・约翰逊曾出演电影《Her》，片中饰演让男主角坠入爱河的虚拟助手系统。5 月 14 日 OpenAI 发布了新的 GPT-4o 模型，GPT-4o 可以理解用户的语音提问并用语音进行回答。

5/20/2024 6:29:53 PM

远洋

行业首发多模态大模型辅助视障人士，vivo 看见 App 接入蓝心大模型

感谢vivo 今日宣布，vivo 看见 App 全新升级，接入蓝心大模型，成为行业首款多模态大模型视觉辅助产品。在 vivo 应用商店搜索“vivo 看见”即可下载（IT之家备注：目前仅支持 vivo / iQOO 手机）。vivo 看见支持实时语音播报，镜头对准周围环境和物品即自动播报画面内容及文字信息，还可切换到文字、卡证、条码等多种识别模式。定格画面后点击“对话”，即可与 vivo 看见进行多轮语音对话，轻松获取更多画面内的细节信息。vivo 看见可识别二维码及商品条码，支持识别支付宝、微信收款码，同时发出语

5/16/2024 4:11:42 PM

沛霖（实习）

OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o：语音对话更流畅，免费提供

感谢OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o，该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。最让人惊喜的是，GPT-4o 将免费提供给所有用户使用。综合 TechCrunch 等外媒报道，OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示，GPT-4o 将提供与 GPT-4 同等水平的智能，但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理，”穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。G

5/14/2024 1:25:13 AM

远洋

OpenAI GPT 搜索引擎原型曝光：新模型 GPT4-Lite 驱动，虽然鸽了发布会但代码已上传

OpenAI 发布会前一天，员工集体发疯中…… 上演大型套娃行为艺术。A：我为 B 的兴奋感到兴奋；B：我为 C 的兴奋感到兴奋……Z：我为这些升级感到兴奋与此同时还有小动作不断，比如现在 GPT-4 的文字描述已不再是“最先进的模型”，而仅仅是“先进的”。以及被鸽掉的 GPT 搜索引擎，原型代码上传到 ChatGPT 了。黑客“光头哥”Tibor Blaho，从更新的前端代码中扒出 SearchGPT 的界面。从泄露的界面来看，SearchGPT 会出现在侧边栏，与其他 GPTs 一起。首页目前还很简洁，像谷歌一

5/13/2024 12:44:57 PM

汪淼

搭载星火 AI 大模型，科大讯飞下月将推出语音台历产品

感谢科大讯飞周六在互动平台透露，公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历，具备更广泛的知识覆盖、更强的理解能力及更自然的人机交互。这款语音台历产品的更多配置、规格信息，目前官方没有过多透露。4 月 26 日，科大讯飞宣布讯飞星火大模型 V3.5 春季上新，带来新增功能大致如下：支持长文本、长图文、长语音的大模型上新，首发星火图文识别大模型，快速识别和学习多类型海量知识，行业场景下的回答更专业、更精准。星火合同助手首次上线，审核规避合同风险、提炼总结关键要素、一键起草合同文件。星火智能评标助

4/28/2024 7:32:08 AM

清源

AI助力脑机接口研究，纽约大学突破性神经语音解码技术，登Nature子刊

作者 | 陈旭鹏编辑 | ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍，它可能会限制人们的职业和社交生活。近年来，深度学习和脑机接口（BCI）技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而，神经信号的语音解码面临挑战。近日，纽约大学 VideoLab 和 Flinker Lab 的研究者开发了一个新型的可微分语音合成器，可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数（如音高，响度，共振峰频率等）并通过可微分语音合成器重新合成语音。通过将神经信号映射到

4/16/2024 6:14:00 PM

ScienceAI

百度文心一言上线新功能，可快速定制自己的 AI 声音

感谢近日百度文心一言上线了新功能，仅需几秒钟即可定制自己的声音。据IT之家了解，想要体验这一功能，只需打开文心一言 App，点击下方“ ”，然后选择创建智能体。在声音选项里，会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话，只需两秒左右的时间，系统便能捕捉到你的声音特点，为你生成一个独特的“语音助手”。在确认声音质量后，你的专属“语音库”就在瞬间构建完成。今后，在与智能体的每一次对话中，你都可以点击播放键，使用自己合成的音色进行语音播报。此外，还可以点击对话框上的通话按钮，与你自己构建的数字分身实时对话

4/7/2024 3:10:28 PM

远洋

微软 Azure 新增 9 款逼真 AI 语音，包括美式英语、中文等

2023 年 9 月，微软 Azure 团队宣布推出适用于商业客户的一系列逼真 AI 语音。本周微软表示，9 种更真实的人工智能声音现在普遍可供这些用户使用。根据微软博客文章，这些新语音可用于各种工作和任务，例如商务聊天机器人、语音助手、电子学习以及娱乐和游戏领域。微软表示：“这一扩展扩大了我们在 91 种语言及其变体中表达内容的能力。这一进展凸显了我们对克服语言障碍和促进更具包容性和可访问性的全球通信环境的坚定承诺。”这九款新语音现已在所有 Azure 地区上线，包括：美式英语 - en-US-AvaMultil

3/31/2024 7:24:25 AM

远洋

Meta用《圣经》训练超多语言模型：识别1107种、辨认4017种语言

在《圣经》中有一个巴别塔的故事，说是人类联合起来计划兴建一座高塔，希望能通往天堂，但神扰乱了人类的语言，计划也就因此失败。到了今天，AI 技术有望拆除人类语言之间的藩篱，帮助人类造出文明的巴别塔。

5/23/2023 3:05:00 PM

机器之心

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质开发者具身智能 xAI 生成式神经网络机器学习 3D 人形机器人 AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测