AI在线 AI在线

Meta AI推出“全语种”语音识别系统,一口气支持1600+语言,打破全球语言壁垒!

【AIbase报道】 Meta的基础人工智能研究(FAIR)团队近日宣布推出Omnilingual ASR,这是一款创新的自动语音识别系统,能够转录超过1600种口语语言。 此举旨在弥合现有AI工具在语言覆盖上的巨大差距,正式迈向“通用转录系统”的目标。 长期以来,大多数语音识别系统仅专注于少数拥有大量转录音频资源的语言,导致全球7000多种语言中,有数千种几乎得不到AI支持。

【AIbase报道】 Meta的基础人工智能研究(FAIR)团队近日宣布推出Omnilingual ASR,这是一款创新的自动语音识别系统,能够转录超过1600种口语语言。此举旨在弥合现有AI工具在语言覆盖上的巨大差距,正式迈向“通用转录系统”的目标。

长期以来,大多数语音识别系统仅专注于少数拥有大量转录音频资源的语言,导致全球7000多种语言中,有数千种几乎得不到AI支持。Omnilingual ASR的发布将改变这一现状。Meta指出,在其支持的1600种语言中,有500种语言此前从未被任何人工智能系统覆盖

核心亮点:精度与扩展性并重

Omnilingual ASR的性能令人瞩目:

  • 在测试的1600种语言中,系统对78%的语言实现了低于10个字符的错误率

  • 对于拥有至少10小时训练音频的“资源丰富”语言,这一准确率标准达到了95%的覆盖。

  • 即使是音频时长不足10小时的“低资源”语言,也有36%的语言错误率低于10个字符的阈值,为这些群体带来了实用的语音识别功能。

情境学习:将覆盖范围扩展至5400种语言

Omnilingual ASR的一个关键创新是其“自带语言”选项,该功能借鉴大型语言模型的情境学习技术。用户只需提供少量的音频和文本配对样本,系统即可直接从这些样本中学习新语言,无需重新训练或大量的计算资源

Meta表示,理论上,这一方法有望将Omnilingual ASR的覆盖范围扩展到超过5400种语言,远远超越了当前的行业标准。

开源生态与研究支持

为了支持进一步的研究和应用,Meta采取了全面的开源策略:

  1. 模型开源: Omnilingual ASR以Apache2.0许可证发布,允许研究人员和开发者自由使用、修改和构建模型,包括用于商业用途。模型基于PyTorch的fairseq2框架构建,提供了从适用于低功耗设备的3亿参数版本到追求“顶级准确度”的70亿参数版本。

  2. 数据集发布: Meta同步发布了全语言自动语音识别语料库(Omnilingual ASR Corpus),这是一个包含350种代表性不足语言的大型转录语音数据集。该数据以**知识共享署名许可协议(CC-BY)**发布,旨在帮助全球开发者调整语音识别模型,以满足特定的本地化需求。

Omnilingual ASR的推出标志着打破全球语言壁垒的重要一步,为全球语言平等和AI技术的普惠化开辟了新道路。

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整:AI 随时“看”,语音云端存

Meta更新Ray-Ban智能眼镜隐私政策,AI摄像头功能默认开启,语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析,物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#
4/30/2025 11:24:30 PM
远洋

Adobe AI代理再扩军:新增产品支持与全球上线数据洞察代理

Adobe持续推进其AI代理生态扩展,正式发布“产品支持代理”,旨在简化Adobe Experience Platform中的故障排除流程,并优化客户体验管理。 同时,Adobe宣布其“数据洞察代理”现已在全球范围内上线。 新发布的“产品支持代理”由Adobe Experience Platform Agent Orchestrator提供技术支持,能够在AI Assistant的对话界面中,为用户提供即时的操作指导和支持案例创建流程。
6/6/2025 11:00:55 AM
AI在线

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM
AI在线
  • 1