googleRecorder实现谈话人自动标注,功能性与iOS语音备忘录再度拉大

google于 2019 年为其 Pixel 手机推出了安卓体系下的灌音软件 Recorder,对标 iOS 下的语音备忘录,并支持音频文件的录制、管理和编辑等。在此之后,google陆续为 Recorder 加入了大量基于机器学习的功能,包括语音辨认,音频事件检测,自动标题生成,以及智能浏览等。

不过当灌音文件较长并包孕多个谈话人的时候,一部分 Recorder 的用户在使用过程中会感到不便。因为仅凭语音辨认得到的文本,并不能判断每句话分别是谁说的。在今年的 Made By Google 大会上,google公布了 Recorder 使用的自动谈话人标注功能。该功能将及时地为语音辨认的文本加上匿名的谈话人标签(例如 “谈话人 1” 或“谈话人 2”)。这项功能将极大地提升灌音文本的可读性与实用性。而这项功能背后的技术,被称为声纹联系聚类(speaker diarization)。google在 2022 年的 ICASSP 会议上,首次介绍了其名为 Turn-to-Diarize 的声纹联系聚类体系。

图片

左图:关闭了谈话人标注的灌音文本。右图:开启了谈话人标注的灌音文本。

体系架构

google的 Turn-to-Diarize 体系包孕了多个高度优化的模型和算法,实现了在移动设备上,以极少的计算资源完成对长达数小时的音频从事及时声纹联系聚类处理。该体系主要包孕三个组成部分:用以检测谈话人身份变换的谈话人变换检测模型,用以提炼每个谈话人声音特征的声纹编码器模型,以及一个能够高效完成谈话人标注的多阶段聚类算法。所有组成部分都完全运行在用户的设备上,不依赖于任何服务器连接。

图片

Turn-to-Diarize 体系的架构图。

谈话人变换检测

该体系的第一个组成部分是一个基于 Transformer Transducer(T-T)的谈话人变换检测模型。该模型能够将声学特征序列变换为包孕了特殊字符 < st > 的文本序列。特殊字符 < st > 表示一个谈话人变换的事件。google之前发表的论文曾经用诸如 < doctor > 或 < patient > 的特殊字符来表示具体谈话人的身份。而在最新的体系中,由于 < st > 字符不局限于特定的身份,因此其使用也更加广泛。

对于大多数的使用,声纹联系聚类体系的输出一般不会直接呈现给用户,而是与语音辨认模型的输出从事结合。由于语音辨认模型在训练过程中已经针对词错率从事了优化,因此谈话人变换检测模型对于词错率较为宽容,但更加注重特殊字符 < st > 的准确率。在此基础上,google提出了一种新的基于字符的损失函数,实现了只需较小的模型,就能准确地检测出谈话人变换事件 < st>。

提炼声纹特征

当音频信号被按照谈话人变换事件从事联系之后,体系通过声纹编码器模型对每一个谈话人片段提炼包孕声纹信息的嵌入码,即 d-vector。google在之前发表的论文中,一般都是从固定长度的音频中提炼声纹嵌入码。与之相比,这次的新体系有多项改进。首先,新体系避免了从包孕多个谈话人信息的片段中提炼声纹嵌入码,从而提升了嵌入码的整体质量。其次,每一个声纹嵌入码对应的语音片段,其时长都比较长,因此包孕了对应谈话人较多的声纹信息。最后,该方法得到的最终声纹嵌入码序列,其长度较短,使得后续的聚类算法计算代价较低。

多阶段聚类

声纹联系聚类的最后一步,便是对前面几步得到的声纹嵌入码序列从事聚类。由于用户使用 Recorder 使用生成的灌音可能只有几秒钟,也可能长达 18 小时,所以聚类算法面临的关键挑战便是能够处理各种长度的声纹嵌入码序列。

为此,google的多阶段聚类计谋巧妙地结合了几种不同的聚类算法各自的优势。对于较短的序列,该计谋采用聚合式分层聚类(AHC)。对于中等长度的序列,该方法采用谱聚类,并利用特征值的最大间隔法,来准确地估算谈话人的数量。对于较长的序列,该方法先用聚合式分层聚类来对序列从事预处理,然后再调用谱聚类,从而降低了聚类这一步骤的计算代价。而在整个流式处理的过程当中,通过对之前的聚类结果从事动态缓存并重复利用,每一次聚类算法的调用,其时间复杂度以及空间复杂度,上限都可以被设置为一个常数。

多阶段聚类计谋是针对设备端使用的一项关键优化。因为在设备端,CPU、内存、电池等资源通常都较为稀缺。该计谋即使在处理过长达数小时的音频之后,依然能够维持在一个低能耗的状态下运行。而该计谋的常数复杂度上限,通常可以根据具体的设备型号从事调整,实现准确率和性能之间的平衡。

图片

多阶段聚类计谋的示意图。

及时校正以及用户标注

因为 Turn-to-Diarize 是一个及时的流式处理体系,所以当模型处理完更多的音频之后,其预测得到的谈话人标签也会变得更加准确。为此,Recorder 使用会在用户灌音的过程当中,持续地对之前预测的谈话人标签从事校正,保证用户在当前屏幕上看到的谈话人标签始终是更为准确的标签。

与此同时,Recorder 使用的用户界面还允许用户对每一段灌音中的谈话人标签从事重命名,例如将 “谈话人 2” 重命名为“汽车经销商”,从而方便用户阅读和记忆。

图片

Recorder 允许用户对谈话人标签从事重命名,从而提升可读性。

未来工作

google在最新的数款 Pixel 手机上推出了自研芯片 Google Tensor。而当前的声纹联系聚类体系主要便运行在 Google Tensor 的 CPU 模块上。未来google计划将声纹联系聚类体系运行到 Google Tensor 的 TPU 模块上,从而进一步降低能耗。此外,google还希望借助多语言的声纹编码器以及语音辨认模型,将这一功能扩展到除英语之外的其他语言上。

原文链接:

https://ai.googleblog.com/2022/12/who-said-what-recorders-on-device.html

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/24247

(0)
上一篇 2022年12月20日 下午2:51
下一篇 2022年12月20日 下午3:27

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注