英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升

作者：AI在线 2025-05-06 10:01

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结合，吸引了广泛关注。超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。

近日，英伟达在 Hugging Face 平台上推出了其最新的自动语音识别（ASR）模型 ——Parakeet-TDT-0.6B-V2。这一新模型不仅在性能上有显著提升，还将开源理念与商业应用相结合，吸引了广泛关注。

超强转录能力

Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。据称，该模型能够在仅仅一秒内完成60分钟音频的转录，极大提高了语音处理的速度。这一效率让开发者和企业在构建语音识别和转录服务时，能够获得更快的反馈和更高的生产力。

在技术参数上，Parakeet-TDT-0.6B-V2拥有6亿个参数，结合了 FastConformer 编码器和 TDT 解码器架构。这一设计使得该模型在 Hugging Face 的开放 ASR 排行榜上脱颖而出，当前其平均 “词错误率”（WER）仅为6.05%，接近市面上多个商业转录工具的表现，例如 OpenAI 的 GPT-4o-transcribe(2.46%)和 ElevenLabs Scribe(3.3%)。

广泛应用场景

Parakeet-TDT-0.6B-V2于2025年5月1日全球发布，旨在帮助开发者、研究人员和行业团队构建多样化的应用，包括转录服务、语音助手、字幕生成器以及对话式 AI 平台等。该模型支持标点符号、大小写字母的处理，并提供详细的逐字时间戳，满足各种语音转文本的需求。

开发者可以利用英伟达的 NeMo 工具包轻松部署该模型，支持 Python 和 PyTorch 等开发环境的兼容性，既可直接使用，也可根据特定需求进行微调。

训练数据与模型优化

Parakeet-TDT-0.6B-V2的训练数据来自名为 Granary 的大规模语音数据集，该数据集包含约12万小时的英语音频，其中包括1万小时的高质量人工转录数据和11万小时的伪标记语音。这些数据来源于多个知名数据集，如 LibriSpeech 和 Mozilla Common Voice，确保了模型的训练质量和多样性。

在评估方面，该模型经过多个英语 ASR 基准测试验证，显示出良好的泛化能力。即使在复杂的噪声环境下，它也能保持稳定的性能，适用于各种音频格式的转录。

兼容性与效率

为了确保广泛的应用场景，Parakeet-TDT-0.6B-V2针对英伟达的多款 GPU 硬件进行了优化，如 A100、H100、T4和 V100。虽然高端 GPU 能最大化其性能，但即使在只有2GB RAM 的系统上，该模型也能够顺利运行，这为其在不同设备上的应用提供了更多可能。

值得注意的是，英伟达在开发该模型时未使用任何个人数据，符合其负责任的 AI 开发框架。此外，英伟达还提供了详细的训练过程文档和数据集来源信息，确保用户在使用过程中能够理解模型的背景和依据。

Parakeet-TDT-0.6B-V2的发布不仅展示了英伟达在自动语音识别领域的创新实力，也为开发者提供了一个强大且灵活的工具，助力他们在各自的领域中实现更多可能。

huggingface:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

开源AI黑马突围!Cogito v2用机器直觉挑战DeepSeek与Claude

【AIbase 报道】近日，一家鲜为人知但备受关注的旧金山初创公司 Deep Cogito 发布了旗下 Cogito v2系列大型语言模型（LLM），试图在拥挤的开源AI赛道中突围。不同于传统的参数堆叠策略，这家由前谷歌工程师创立的公司，押注“机器直觉”与自我改进的推理能力，打造出真正能“边用边学”的AI模型。模型不仅回答问题，更学习“如何回答问题”Cogito v2系列包括四个模型，参数规模从 70B 到671B 不等，分为密集模型（Dense）和专家混合模型（MoE），均已在 Hugging Face、Together AI 等平台开放使用。

8/1/2025 10:42:09 AM AI在线

Anthropic疑似开始内测Claude Opus 4.1：代号"leopard"暗示推理能力重大升级

社交媒体上流传的内部截图显示，Anthropic正在对其下一代大语言模型Claude Opus4.1进行内部测试。根据泄露信息，该模型的内部代号为"claude-leopard-v2-02-prod"，官方宣传语强调了其在问题解决能力方面的显著提升。泄露信息揭示模型定位从流传的截图来看，Anthropic在内部测试界面中打出了"Opus4.1is here - Try our latest model for more problem solving power"的宣传语。

8/5/2025 3:23:04 PM AI在线

字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型

近日，苹果公司在HuggingFace上发布了20个新的Core ML模型和4个数据集，字节大模型团队的单目深度估计模型 Depth Anything V2入选其中。CoreML是苹果公司的机器学习框架，将机器学习模型集成到iOS，MacOS等设备上高效运行，可在无需互联网连接的情况下执行复杂的AI任务，从而增强用户隐私并减少延迟。苹果开发者可以利用这些模型更容易地构建智能、安全的AI应用。Depth Anything V2为字节大模型团队开发的单目深度估计模型。相比上一代版本，V2版在细节处理上更精细，鲁棒性更强

6/28/2024 4:42:00 PM 新闻助手

​英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升

相关资讯

开源AI黑马突围!Cogito v2用机器直觉挑战DeepSeek与Claude

Anthropic疑似开始内测Claude Opus 4.1：代号"leopard"暗示推理能力重大升级

字节大模型团队Depth Anything V2模型入选苹果最新CoreML模型

英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升