AI在线 AI在线

语音识别

​美国监狱电话隐私大曝光:囚犯通话竟成 AI 训练材料

近年来,美国一家名为 Securus Technologies 的电信公司,秘密地利用监狱内囚犯的电话和视频通话记录,构建其专有的人工智能模型。 根据《麻省理工科技评论》的报道,Securus 自2023年起开始开发其 AI 产品,而其收集的通话数据则早在更早的时间就已积累。 这些数据来源于各类监狱,从地方监狱到长期监禁的监狱,甚至包括移民和海关执法局的拘留中心。
12/8/2025 4:31:39 PM
AI在线

科大讯飞发布AI软硬一体方案:在90分贝噪声中也能精准识别

在2025年科大讯飞1024开发者节上,科大讯飞正式发布AI软硬一体解决方案,通过AI算法与硬件架构的深度融合,实现了在高噪声、远场等复杂环境下的精准识别与理解。 这一突破被视为语音与视觉智能融合领域的重要进展。 讯飞表示,传统AI语音识别系统在嘈杂环境下往往存在准确率下降的问题。
11/6/2025 2:36:33 PM
AI在线

窝呦,WenetSpeech-Chuan来了!首个超大规模川渝方言语料库震撼发布,川渝语音技术要火辣辣了!

大家伙儿都晓得,语音理解和合成发展得飞快,背后离不开大规模又高质量的语音数据集支撑。 特别是语音识别(ASR)和语音合成(TTS),两者算是语音AI的头牌主角。 但要说到咱们川渝地区的方言——川渝话,约1.2亿人都在用哦——它的研究就有点儿“捉襟见肘”了。
9/28/2025 11:39:00 AM
新闻资讯

OpenAI Evals新增原生音频输入和评估功能

近日,OpenAI 的 Evals 工具迎来了令人振奋的重大更新,新增了原生音频输入和评估功能。 这一创新意味着开发者们在测试和优化语音识别与生成模型时,可以直接使用音频文件进行评估,而无需经过繁琐的文本转录过程。 这一变化极大地简化了评估流程,使得音频应用的开发变得更加高效。
9/16/2025 10:06:11 AM
AI在线

通义推出CoGenAV多模态语音表征模型 可实现音画同步感知

近日,通义大模型发布CoGenAV,以音画同步理念创新语音识别技术,有效解决语音识别中噪声干扰的难题。 传统语音识别在噪声环境下表现欠佳,CoGenAV则另辟蹊径,通过学习audio-visual-text之间的时序对齐关系,构建出更鲁棒、更通用的语音表征框架,系统性提升语音识别任务(VSR/AVSR)、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。 在技术实现上,CoGenAV采用“对比生成同步”策略。
5/28/2025 8:00:50 PM
AI在线

SoundHound AI(SOUN)获得重要 AIOps 认可,但股价目标被下调

最近,SoundHound AI, Inc.(NASDAQ:SOUN)在人工智能领域获得了显著认可,特别是在 AIOps(人工智能运维)方面的表现。 然而,尽管在技术上取得了一定的成就,市场对其未来的预期却出现了下调。 这一消息引发了投资者的广泛关注。
4/17/2025 11:01:19 AM
AI在线

英语印度口音太重不用愁:初创公司 Krisp 推出 AI 转换,一键变为地道美式

Krisp 表示,该功能不会改变说话者的声音,仅调整音素以匹配美式发音。目前,该功能已在企业环境中测试,Beta 版已上线 Krisp 桌面应用,用户可在通话前或通话中随时启用。
3/27/2025 3:23:34 PM
清源

阿里通义实验室语音团队负责人鄢志杰离职

据tech星球消息,阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职,其职级为阿里原P序列体系中的P10 级别。 鄢志杰是智能语音领域专家, 2003 年进入中科大语音实验室攻读博士,师从科大讯飞创始人王仁华教授。 2008 年获博士学位后,他在微软亚洲研究院语音组担任主管研究员至 2015 年,主要研究语音识别、语音合成等领域。
3/14/2025 3:00:41 PM
AI在线

小红书开源的语音识别模型FireRedASR,中文识别准确率优越

在语音识别领域,中文识别的技术发展一直备受关注。 近日,小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。 这个基于大模型的语音识别系统在多个标准测试集上取得了优异的成绩,标志着中文语音识别技术的一次重大突破。
2/12/2025 9:14:00 AM
AI在线

小红书语音识别新突破!开源FireRedASR,中文效果新SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/9/2025 2:35:00 PM
机器之心

ICLR 2025|小米新一代Kaldi语音识别算法CR-CTC,纯CTC性能实现SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/7/2025 1:38:00 PM
机器之心

面向语音控制前端应用程序的自然语言处理(NLP):架构、进展与未来方向

译者 | 李睿审校 | 重楼由于智能设备、虚拟助手和免提界面的日益普及,语音控制前端应用程序获得了更多的关注。 自然语言处理(NLP)是这些系统的核心,能够实现类似人类的理解和语音生成。 本白皮书介绍了语音控制前端应用程序的NLP方法的深入研究,阐述了语音识别、自然语言理解和生成技术的最新技术,以及它们在现代Web前端中的架构集成。
1/14/2025 9:47:44 AM
李睿