AI在线 AI在线

TEN Agent开源TEN VAD与Turn Detection,助力语音AI超低延迟

TEN Agent团队近日宣布,其核心模型**TEN Voice Activity Detection (VAD)**和**TEN Turn Detection**正式开源,为构建实时、多模态的语音AI代理提供了强大的技术支持。 这一举措标志着TEN框架在推动语音交互技术民主化与开源协作方面的重大进展。 以下是AIbase整理的最新资讯,深入解析这两大核心模型的功能、优势及对行业的潜在影响。

TEN Agent团队近日宣布,其核心模型**TEN Voice Activity Detection (VAD)**和**TEN Turn Detection**正式开源,为构建实时、多模态的语音AI代理提供了强大的技术支持。

这一举措标志着TEN框架在推动语音交互技术民主化与开源协作方面的重大进展。以下是AIbase整理的最新资讯,深入解析这两大核心模型的功能、优势及对行业的潜在影响。

image.png

TEN VAD:低延迟高性能的语音活动检测

TEN VAD是一款专为企业级应用设计的实时语音活动检测器,以低延迟、轻量化和高性能著称。根据官方信息及社交媒体反馈,TEN VAD能够精确到帧级别检测语音活动,显著优于业界常用的WebRTC VAD和Silero VAD。以下是其核心亮点:

- **低计算复杂度**:TEN VAD的库体积小,计算复杂度低,支持跨平台C语言兼容,覆盖Linux x64、Windows、macOS、Android和iOS等多种操作系统,同时提供针对Linux x64的Python绑定和Web端的WASM支持。[](https://huggingface.co/TEN-framework/ten-vad)

- **高精度与低延迟**:相比Silero VAD,TEN VAD在语音到非语音的转换检测中延迟更低,能快速识别短暂停顿,适合实时交互场景。测试显示,其实时因子(RTF)在多种CPU平台上表现优异。[](https://huggingface.co/TEN-framework/ten-vad)

- **最新开源进展**:2025年6月,TEN团队开源了ONNX模型及预处理代码,支持在任何支持ONNX的平台和硬件架构上部署,进一步增强了灵活性。此外,WASM+JS的支持扩展了其在Web端的应用可能性。

社交媒体上,开发者对TEN VAD的开源表示高度认可,认为其性能超越传统VAD模型,为实时语音助手开发提供了强有力的工具。

TEN Turn Detection:智能对话轮次管理

**TEN Turn Detection**是一款专为全双工语音通信设计的智能轮次检测模型,旨在解决人机对话中最具挑战性的问题之一:准确判断用户何时结束发言并进行上下文感知的中断处理。以下是其关键特性:

- **语义分析能力**:基于Qwen2.5-7B的Transformer模型,TEN Turn Detection通过分析对话的语义上下文和语言模式,精准区分用户发言的“完成”、“等待”和“未完成”状态。例如,它能识别“嘿,我想问个问题……”为未完成发言,从而避免不必要的AI打断。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **多语言支持**:目前支持英语和中文,能够准确识别多语言对话中的轮次信号,适用于全球化应用场景。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **优异性能**:在公开测试数据集上,TEN Turn Detection在各项指标上均超越其他开源轮次检测模型,尤其在动态实时对话中表现出色。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)

- **自然交互体验**:结合TEN VAD,TEN Turn Detection使AI代理能够像人类一样等待合适的发言时机,或在适当的语境下处理用户中断,从而打造更自然的对话体验。[](https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)

TEN Agent生态:多模态实时AI的基石

TEN Agent是TEN框架的展示项目,整合了TEN VAD、TEN Turn Detection等核心组件,支持语音、视频、文本等多模态实时交互。以下是其在生态中的作用:

- **无缝集成**:TEN VAD与TEN Turn Detection作为TEN框架的插件,开发者可通过简单配置将其融入语音代理开发流程,支持与Deepgram、ElevenLabs等服务的集成。

- **多场景应用**:TEN Agent支持从智能客服、实时翻译到虚拟伴侣等多种用例。例如,结合Google Gemini多模态API,TEN Agent可实现实时视觉和屏幕共享检测,扩展了其在教育、医疗等领域的应用。

- **开源协作**:TEN框架的全部组件(除TEN VAD部分代码外)均已完全开源,鼓励社区开发者贡献代码、修复Bug或提出新功能。TEN团队通过GitHub Issues和Projects提供协作渠道,吸引了广泛的开发者参与

项目:https://github.com/TEN-framework/ten-framework

相关资讯

还在为短视频转文案付费?豆包网页版一键就能搞定抖音视频转文案!

不少做自媒体的朋友都有提取视频文案的需求,但效果好点的一般都要付费,价格也不便宜,一些工具按月订阅收费,价格从几十元到上百元不等;还有的按提取次数计费,积少成多也是一笔不小的开支。 结果,我发现豆包网页版竟然可以免费提取文案。 只需在豆包网页版中输入抖音视频链拔,点击提取,短短几秒钟,完整的视频文案就整理好了,而且准确率很高。
3/24/2025 4:53:00 PM
AI在线

Qwen3正式确认本周发布,阿里云AI新篇章即将开启

阿里云Qwen团队通过社交平台正式确认,Qwen3系列模型将于本周内发布,标志着其旗舰大语言模型(LLM)与多模态能力的又一次重大升级。 据AIbase了解,Qwen3将推出包括0.6B、4B、8B、30B-A3B在内的多种模型规模,支持高达256K的上下文长度,涵盖推理与非推理任务。 社交平台上的热烈讨论凸显了其全球影响力,相关细节已通过Hugging Face与Qwen官网逐步公开。
4/28/2025 6:00:40 PM
AI在线

Qwen3正式发布,优化编码与代理能力,强化MCP支持引领AI新潮流

阿里云Qwen团队宣布Qwen3系列模型正式发布,以卓越的编码能力、增强的代理功能和对Model Context Protocol(MCP)的深度支持,掀起AI社区热潮。 据AIbase了解,Qwen3涵盖从0.6B到235B-A22B的多种模型规模,优化了数学推理、代码生成和多模态任务,性能直追GPT-4o与Gemini-2.5-Pro。 社交平台上的讨论显示,Qwen3的MCP集成与开源策略备受期待,相关细节已通过Hugging Face与Qwen官网公开。
4/29/2025 9:00:40 AM
AI在线
  • 1