AI在线 AI在线

英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王:1 秒 AI 转录 60 分钟音频,字错率低至 6.05%

英伟达最新推出 Parakeet TDT 0.6B,是一款先进的自动语音识别(ASR)模型,已在 Hugging Face 平台上完全开源。

科技媒体 marktechpost 昨日(5 月 6 日)发布博文,报道称英伟达最新推出 Parakeet TDT 0.6B,是一款先进的自动语音识别(ASR)模型,已在 Hugging Face 平台上完全开源。

Parakeet TDT 0.6B 的核心优势在于其无与伦比的速度和转录质量。该模型仅需 1 秒即可处理 60 分钟音频,是现有主流开源 ASR 典型模型速度的 50 倍。

在 Hugging Face 的 Open ASR Leaderboard 上,其字错率(WER)低至 6.05%,成为开源模型中的佼佼者。这一性能为实时转录、语音分析、呼叫中心智能和音频内容索引等企业级应用提供了强大支持。

英伟达 Parakeet TDT 0.6B 成开源 ASR 模型新王:1 秒 AI 转录 60 分钟音频,字错率低至 6.05%

该模型基于 Transformer 架构,结合高质量转录数据进行微调,并针对英伟达硬件优化推理。

AI在线援引博文介绍,该模型关键特性包括:6 亿参数的编码-解码结构、量化和融合内核以提升推理效率、支持 TDT(Transducer Decoder Transformer)架构,以及精确的时间戳、数字格式化和标点恢复功能。

此外,该模型还开创性地支持歌曲转歌词转录,这一罕见功能拓展了音乐索引和媒体平台的用例,依托英伟达的 TensorRT 和 FP8 量化技术,其实时率(Real Time Factor,RTF,模型处理时间和音频长度的比值)达到 3386。

Parakeet TDT 0.6B 不仅关注速度和精度,还内置了多项独特功能。该模型能将歌曲内容转为歌词,适用于音乐和媒体领域;支持数字和时间戳格式化,提升会议记录、法律转录和医疗记录的可读性;标点恢复功能则增强了下游自然语言处理(NLP)应用的表现。这些特性大幅提升转录质量,减轻后期处理或人工编辑的负担,尤其适合企业级部署。

相关资讯

突发!英伟达收购贾扬清新创业的Lepton AI

出品 | 51CTO技术栈(微信号:blog51cto)刚刚,有外媒曝出英伟达即将收购成立两年的 AI 创业公司 Lepton AI。 Lepton AI 的创始人是AI圈内知名人士贾扬清。 据悉这笔收购交易的金额是数亿美元。
3/27/2025 8:50:38 AM

英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”

英伟达宣布推出一项名为“NIM”的 AI 护栏服务,该服务现已以英伟达 NeMo 护栏(NeMo Guardrails)套件的形式提供,可以让开发人员为大语言模型(LLM)添加一系列护栏规则,旨在解决用户通过提示词“越狱”大模型。防止 AI 生成不符合预期的内容。
1/18/2025 10:39:35 PM
漾仔

英伟达推出 Signs 平台:AI 突破美式手语学习,助力连接无声世界

科技媒体 WinBuzzer 昨日(2 月 20 日)发布博文,报道称英伟达携手美国聋童协会(ASDC)和数字代理公司 Hello Monday,推出了一款名为 Signs 的 AI 平台,帮助更多人学习和应用美式手语(ASL)。
2/21/2025 11:22:10 AM
故渊
  • 1