语音
生成式 AI“上车”,大众高尔夫、途观、帕萨特等海外版车型现已支持 ChatGPT
当地时间 21 日,大众汽车宣布配备新一代信息娱乐系统的车型现已加入对 ChatGPT 的支持。在欧洲地区,引入 ChatGPT 的车型包括纯电动 ID.系列、新款高尔夫、新款途观、新款帕萨特,用户可通过车辆内置 IDA 语音助手访问 ChatGPT。据介绍,AI“上车”之后带来的体验远远超出以往,用户可以要求汽车直接读出搜索结果,或使用自然语言与汽车进行交互。例如,接入 ChatGPT 的车机可以提供旅游景点信息、报道过去的足球比赛或帮助解决数学问题。驾驶员只需用自然语言与助手交谈,无需将视线从道路上移开。与现有
6/22/2024 12:05:43 PM
清源
语音克隆技术引发担忧,OpenAI 再次解释其文本转语音工具
OpenAI 在几个月内第二次就其文本转语音工具进行解释,并再次强调该工具目前并未大范围开放,且未来也可能不会。图源 Pexels“无论我们最终是否会大规模部署这项技术,让世界各地的人们理解这项技术的发展方向都非常重要,”OpenAI 公司周五在其网站上发布的一份声明中表示,“这就是为什么我们想要解释模型的运作方式、我们如何将其用于研究和教育,以及我们如何围绕该技术实施安全措施的原因。”据IT之家了解,去年年底,OpenAI 与一小部分外部用户分享了其“语音引擎”。该引擎利用文本输入和 15 秒的人声音频剪辑,即可
6/10/2024 9:57:21 AM
远洋
准确率可达 70%,科学家利用 AI 解读狗的叫声
研究人员正在尝试使用 AI 来解读狗的叫声是在玩耍还是在生气。与此同时,研究人员还尝试使用 AI 识别狗的年龄、性别和品种。密歇根大学的研究人员与位于普埃布拉的墨西哥国家天体物理、光学和电子研究所(INAOE)合作开展了这一研究,发现最初用于训练人类语音的 AI 模型可以作为训练动物交流模型的起点。图源 Pixabay密歇根大学人工智能实验室负责人 Rada Mihalcea 表示,人工智能在理解语音的微妙之处方面有了显著进步,可以区分音调、音调和口音的细微差别,可凭借这些研究基础来理解狗吠。开发这种分析动物发声
6/7/2024 7:40:32 PM
满河(实习)
支持 30 种方言混说,中国电信 AI 研究院发布“星辰”超多方言语音识别大模型
中国电信人工智能研究院(TeleAI)日前宣布发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。据介绍,该模型可打破单一模型只能识别特定单一方言的困境,支持同时识别理解粤语、上海话、四川话、温州话等 30 多种方言,是国内支持最多方言的语音识别大模型。应用场景方面,该模型有望极大解决老年人、老少边穷地区用户信息服务无法触达的问题。该大模型研发团队首创“蒸馏 膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下,预训练坍缩的问题,实现 1B 参数 80 层模型稳定
5/25/2024 3:47:03 PM
清源
声音太像斯嘉丽・约翰逊,OpenAI 停用 ChatGPT 语音选项“Sky”
感谢OpenAI 宣布将暂停供聊天机器人 ChatGPT 语音功能使用的“Sky” 语音,起因是用户指出该声音与演员斯嘉丽・约翰逊 (Scarlett Johansson) 的声音十分相似。IT之家注意到,OpenAI 在一篇博客文章中表示,“Sky”只是五个可用语音之一,其来源为某位女演员,但并非刻意模仿斯嘉丽・约翰逊。斯嘉丽・约翰逊曾出演电影《Her》,片中饰演让男主角坠入爱河的虚拟助手系统。5 月 14 日 OpenAI 发布了新的 GPT-4o 模型,GPT-4o 可以理解用户的语音提问并用语音进行回答。
5/20/2024 6:29:53 PM
远洋
行业首发多模态大模型辅助视障人士,vivo 看见 App 接入蓝心大模型
感谢vivo 今日宣布,vivo 看见 App 全新升级,接入蓝心大模型,成为行业首款多模态大模型视觉辅助产品。在 vivo 应用商店搜索“vivo 看见”即可下载(IT之家备注:目前仅支持 vivo / iQOO 手机)。vivo 看见支持实时语音播报,镜头对准周围环境和物品即自动播报画面内容及文字信息,还可切换到文字、卡证、条码等多种识别模式。定格画面后点击“对话”,即可与 vivo 看见进行多轮语音对话,轻松获取更多画面内的细节信息。vivo 看见可识别二维码及商品条码,支持识别支付宝、微信收款码,同时发出语
5/16/2024 4:11:42 PM
沛霖(实习)
OpenAI 发布全新旗舰生成式 AI 模型 GPT-4o:语音对话更流畅,免费提供
感谢OpenAI 宣布推出其最新旗舰生成式 AI 模型 GPT-4o,该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中。最让人惊喜的是,GPT-4o 将免费提供给所有用户使用。综合 TechCrunch 等外媒报道,OpenAI 首席技术官穆里・穆拉蒂 (Muri Murati) 表示,GPT-4o 将提供与 GPT-4 同等水平的智能,但在文本、图像以及语音处理方面均取得了进一步提升。“GPT-4o 可以综合利用语音、文本和视觉信息进行推理,”穆拉蒂在 OpenAI 公司总部举行的主题演讲中表示。G
5/14/2024 1:25:13 AM
远洋
OpenAI GPT 搜索引擎原型曝光:新模型 GPT4-Lite 驱动,虽然鸽了发布会但代码已上传
OpenAI 发布会前一天,员工集体发疯中…… 上演大型套娃行为艺术。A:我为 B 的兴奋感到兴奋;B:我为 C 的兴奋感到兴奋……Z:我为这些升级感到兴奋与此同时还有小动作不断,比如现在 GPT-4 的文字描述已不再是“最先进的模型”,而仅仅是“先进的”。以及被鸽掉的 GPT 搜索引擎,原型代码上传到 ChatGPT 了。黑客“光头哥”Tibor Blaho,从更新的前端代码中扒出 SearchGPT 的界面。从泄露的界面来看,SearchGPT 会出现在侧边栏,与其他 GPTs 一起。首页目前还很简洁,像谷歌一
5/13/2024 12:44:57 PM
汪淼
搭载星火 AI 大模型,科大讯飞下月将推出语音台历产品
感谢科大讯飞周六在互动平台透露,公司将于 5 月在京东、天猫等电商平台上新搭载星火大模型的语音台历,具备更广泛的知识覆盖、更强的理解能力及更自然的人机交互。这款语音台历产品的更多配置、规格信息,目前官方没有过多透露。4 月 26 日,科大讯飞宣布讯飞星火大模型 V3.5 春季上新,带来新增功能大致如下:支持长文本、长图文、长语音的大模型上新,首发星火图文识别大模型,快速识别和学习多类型海量知识,行业场景下的回答更专业、更精准。星火合同助手首次上线,审核规避合同风险、提炼总结关键要素、一键起草合同文件。星火智能评标助
4/28/2024 7:32:08 AM
清源
AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊
作者 | 陈旭鹏 编辑 | ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,纽约大学 VideoLab 和 Flinker Lab 的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高,响度,共振峰频率等)并通过可微分语音合成器重新合成语音。通过将神经信号映射到
4/16/2024 6:14:00 PM
ScienceAI
百度文心一言上线新功能,可快速定制自己的 AI 声音
感谢近日百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。据IT之家了解,想要体验这一功能,只需打开文心一言 App,点击下方“ ”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到你的声音特点,为你生成一个独特的“语音助手”。在确认声音质量后,你的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,你都可以点击播放键,使用自己合成的音色进行语音播报。此外,还可以点击对话框上的通话按钮,与你自己构建的数字分身实时对话
4/7/2024 3:10:28 PM
远洋
微软 Azure 新增 9 款逼真 AI 语音,包括美式英语、中文等
2023 年 9 月,微软 Azure 团队宣布推出适用于商业客户的一系列逼真 AI 语音。本周微软表示,9 种更真实的人工智能声音现在普遍可供这些用户使用。根据微软博客文章,这些新语音可用于各种工作和任务,例如商务聊天机器人、语音助手、电子学习以及娱乐和游戏领域。微软表示:“这一扩展扩大了我们在 91 种语言及其变体中表达内容的能力。这一进展凸显了我们对克服语言障碍和促进更具包容性和可访问性的全球通信环境的坚定承诺。”这九款新语音现已在所有 Azure 地区上线,包括:美式英语 - en-US-AvaMultil
3/31/2024 7:24:25 AM
远洋
Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言
在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。
5/23/2023 3:05:00 PM
机器之心
微软NaturalSpeech 2来了,基于扩散模型的语音合成
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音,NaturalSpeech 研究项目()应运而生。NaturalSpeech 的研究分为以下几个阶段:1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,研究团队在2022年推出了 NaturalSpeech 1,在 LJS
5/12/2023 2:18:00 PM
机器之心
使用魔搭开发自己的语音AI:从入门到精通
语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。由于技术的快速进步,以及各大云计算厂商以API形式提供的语音AI能力,目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性,不少开发者希望获得更多、更底层的把控力,希望对API背后AI模型有更深入的了解;不只是开发应用,还可以开发模型;不只是调用API接口,还可以通过对模型的训练或微调(f
12/1/2022 3:26:00 PM
机器之心
产业实践推动科技创新,京东科技集团3篇论文入选ICASSP 2021
ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。
8/25/2021 2:47:00 PM
京东科技开发者
网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备
机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音信号的损伤程度,保证了语音的质量和理解度。基于信号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪效果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪效果较差,而且
8/19/2021 2:18:00 PM
机器之心
《语音识别基础:(一)语音是什么》
从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声音。声音是这个世界存在并运动着的证据。
7/29/2021 6:44:00 PM
语音之家
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭“限流”
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
英伟达
代码
Anthropic
芯片
开发者
生成式
蛋白质
腾讯
神经网络
训练
3D
研究
生成
智能体
苹果
计算
机器学习
Sora
AI设计
Claude
AI for Science
GPU
AI视频
人形机器人
搜索
华为
百度
场景
大语言模型
xAI
预测
伟达
深度学习
Transformer
LLM
字节跳动
Agent
模态
具身智能
神器推荐
工具
文本
视觉
LLaMA
算力
Copilot
驾驶
大型语言模型
API
RAG
应用
架构