语音识别

微信元宝 AI 助手增加新功能，轻松一句话设置提醒

近日，微信的元宝 AI 助手宣布了新功能，用户现在可以通过一句话在微信中设置提醒。只需向元宝发送包含事项及时间的消息，元宝就能自动识别任务内容，并在指定时间通过微信服务通知提醒用户。这一功能的推出，让设置提醒变得如同与朋友聊天一样简单。

12/19/2025 4:51:40 PM AI在线

美国监狱电话隐私大曝光：囚犯通话竟成 AI 训练材料

近年来，美国一家名为 Securus Technologies 的电信公司，秘密地利用监狱内囚犯的电话和视频通话记录，构建其专有的人工智能模型。根据《麻省理工科技评论》的报道，Securus 自2023年起开始开发其 AI 产品，而其收集的通话数据则早在更早的时间就已积累。这些数据来源于各类监狱，从地方监狱到长期监禁的监狱，甚至包括移民和海关执法局的拘留中心。

12/8/2025 4:31:39 PM AI在线

科大讯飞发布AI软硬一体方案：在90分贝噪声中也能精准识别

在2025年科大讯飞1024开发者节上，科大讯飞正式发布AI软硬一体解决方案，通过AI算法与硬件架构的深度融合，实现了在高噪声、远场等复杂环境下的精准识别与理解。这一突破被视为语音与视觉智能融合领域的重要进展。讯飞表示，传统AI语音识别系统在嘈杂环境下往往存在准确率下降的问题。

11/6/2025 2:36:33 PM AI在线

窝呦，WenetSpeech-Chuan来了！首个超大规模川渝方言语料库震撼发布，川渝语音技术要火辣辣了！

大家伙儿都晓得，语音理解和合成发展得飞快，背后离不开大规模又高质量的语音数据集支撑。特别是语音识别（ASR）和语音合成（TTS），两者算是语音AI的头牌主角。但要说到咱们川渝地区的方言——川渝话，约1.2亿人都在用哦——它的研究就有点儿“捉襟见肘”了。

9/28/2025 11:39:00 AM 新闻资讯

OpenAI Evals新增原生音频输入和评估功能

近日，OpenAI 的 Evals 工具迎来了令人振奋的重大更新，新增了原生音频输入和评估功能。这一创新意味着开发者们在测试和优化语音识别与生成模型时，可以直接使用音频文件进行评估，而无需经过繁琐的文本转录过程。这一变化极大地简化了评估流程，使得音频应用的开发变得更加高效。

9/16/2025 10:06:11 AM AI在线

通义推出CoGenAV多模态语音表征模型可实现音画同步感知

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visual-text之间的时序对齐关系，构建出更鲁棒、更通用的语音表征框架，系统性提升语音识别任务（VSR/AVSR）、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。在技术实现上，CoGenAV采用“对比生成同步”策略。

5/28/2025 8:00:50 PM AI在线

SoundHound AI（SOUN）获得重要 AIOps 认可，但股价目标被下调

最近，SoundHound AI， Inc.（NASDAQ:SOUN）在人工智能领域获得了显著认可，特别是在 AIOps(人工智能运维)方面的表现。然而，尽管在技术上取得了一定的成就，市场对其未来的预期却出现了下调。这一消息引发了投资者的广泛关注。

4/17/2025 11:01:19 AM AI在线

英语印度口音太重不用愁：初创公司 Krisp 推出 AI 转换，一键变为地道美式

Krisp 表示，该功能不会改变说话者的声音，仅调整音素以匹配美式发音。目前，该功能已在企业环境中测试，Beta 版已上线 Krisp 桌面应用，用户可在通话前或通话中随时启用。

3/27/2025 3:23:34 PM 清源

阿里通义实验室语音团队负责人鄢志杰离职

据tech星球消息，阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职，其职级为阿里原P序列体系中的P10 级别。鄢志杰是智能语音领域专家， 2003 年进入中科大语音实验室攻读博士，师从科大讯飞创始人王仁华教授。 2008 年获博士学位后，他在微软亚洲研究院语音组担任主管研究员至 2015 年，主要研究语音识别、语音合成等领域。

3/14/2025 3:00:41 PM AI在线

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

在语音识别领域，中文识别的技术发展一直备受关注。近日，小红书的 FireRed 团队发布了一个全新的开源语音识别模型 ——FireRedASR。这个基于大模型的语音识别系统在多个标准测试集上取得了优异的成绩，标志着中文语音识别技术的一次重大突破。

2/12/2025 9:14:00 AM AI在线

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/9/2025 2:35:00 PM 机器之心

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

2/7/2025 1:38:00 PM 机器之心

面向语音控制前端应用程序的自然语言处理（NLP）：架构、进展与未来方向

译者 | 李睿审校 | 重楼由于智能设备、虚拟助手和免提界面的日益普及，语音控制前端应用程序获得了更多的关注。自然语言处理（NLP）是这些系统的核心，能够实现类似人类的理解和语音生成。本白皮书介绍了语音控制前端应用程序的NLP方法的深入研究，阐述了语音识别、自然语言理解和生成技术的最新技术，以及它们在现代Web前端中的架构集成。

1/14/2025 9:47:44 AM 李睿

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

语音识别

​微信元宝 AI 助手增加新功能，轻松一句话设置提醒

​美国监狱电话隐私大曝光：囚犯通话竟成 AI 训练材料

科大讯飞发布AI软硬一体方案：在90分贝噪声中也能精准识别

窝呦，WenetSpeech-Chuan来了！首个超大规模川渝方言语料库震撼发布，川渝语音技术要火辣辣了！

OpenAI Evals新增原生音频输入和评估功能

通义推出CoGenAV多模态语音表征模型 可实现音画同步感知

SoundHound AI（SOUN）获得重要 AIOps 认可，但股价目标被下调

英语印度口音太重不用愁：初创公司 Krisp 推出 AI 转换，一键变为地道美式

阿里通义实验室语音团队负责人鄢志杰离职

小红书开源的语音识别模型FireRedASR，中文识别准确率优越

小红书语音识别新突破！开源FireRedASR，中文效果新SOTA

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

面向语音控制前端应用程序的自然语言处理（NLP）：架构、进展与未来方向

微信元宝 AI 助手增加新功能，轻松一句话设置提醒

美国监狱电话隐私大曝光：囚犯通话竟成 AI 训练材料

通义推出CoGenAV多模态语音表征模型可实现音画同步感知