《语音识别基础:(一)语音是什么》

从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声响。声响是这个世界存在并运动着的证据。

从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声响。声响是这个世界存在并运动着的证据。

1.1大音希声

假设我们已经知道了声响是什么。

我们可以找到很多描述声响的词语,如“抑扬顿挫”、“余音绕梁”。当我们在脑海中搜刮这类词语时,描述对象总绕不过这两个:人的声响和物的声响。人的声响,就是语音;物的声响,多数想到的是音乐。这样的选择源于人的先验预期:语音和音乐才最可能有意思,有意思的才去关注。估计不会有人乐于用丰富的辞藻来描述毫无意思的声响。所以,语音研究的意思在于语音自己所传送的意思是什么,以及语音为什么能够传送意思。

声响有很多,每时每刻每次振动都能孕育发生声响,可是有意思的声响实在不多。我们可以使用机器随机生成一段声响,心想着也许这段声响可以孕育发生一些笔墨内涵。这个想法与很多年前就开始忙不迭地敲打莎士比亚巨著的大猩猩没有差别。不管重复多少次,这些随机的声响听起来都是杂音,没意思。很显然,在这样一个庞大的声响空间中,有意思的语音和音乐只是其中极微小的一点,这也是“大音希声”的一种解释吧。偏偏人类就能毫不费力找到那个点,并且能说会道,这种搜索能力也是千百年来才积攒下来的。不过就算是这么一个小点,古往今来的文学和音乐经典也并未占据多少地盘,这也使得语音说话的研究、文学音乐的创作有着广阔的发挥空间。

从大音希声中,我们可以得到以下一些启示:说话是高度概括和规范化的产物,它的熵值(简单理解为系统的混乱程度)极低,所以说话自己反映了一种思维方式,比如分别说话对“过去时”、“现在时”、“将来时”的处理方式体现了对时间的分别感受,分别说话对主谓宾的排序体现了对空间层次的分别感知;还有,语音在声响空间中是高度集中的,这使得我们在解析一段语音时不用搜索整个声响空间,少了一些盲目性(不过说话自己的博大精深已让人叹为观止了)。

声响以波的情势传播,即声波(Sound Wave)。当我们以波的视角来理解声响时,却又大繁若简起来:仅凭频次(Frequency)、幅度(Magnitude)、相位(Phase)便构成了波及其叠加的所有,声响的分别音高(Pitch)、音量(Loudness)、音色(Timbre)也由这些根本“粒子”组合而来。图1.1展示了几种简单的波形,世上形形色色的声波都可以“降解”到根本波身上,这也是傅里叶变幻(Fourier Transform)的根本思想。分别的声波有分别的频次和幅度(决定音量),人耳也有自己的接受范围。人耳对频次的接受范围大致为 20 Hz至20 kHz,于是以人为本地将更高频次的声波定义为超声波(Ultrasound Wave)、更低频次的声波定义为次声波(Infrasound Wave),虽然其他动物可以听到分别范围的声响;人耳对音量的接受范围已经进化得适应了地球上的常规声响,小到呼吸声、飞虫声, 大到飞机起飞、火箭发射的声响(已经不是地球默认配置),再往上,人的身心就越来越承受不住了,为了衡量音量的大小,再一次以人为本地将人耳所能听到的1kHz纯音的音量下限定义为0dB。

《语音识别基础:(一)语音是什么》1.2孕育发生语音

说话是人类的标志性能力,是一项发明,只不过这个发明是人类群体在长远的历史当中不断打磨而成,趋近于稳定而不得稳定,因为新的人和新的思想总是不断涌现,说话随之而进化,根据社会的需要不断做出改变,比如小到每年孕育发生的新词(对于汉语来说,常用的字根本已经固定不变,是所有词句的根本单元,新加的词也不过是对已有单字进行组合,再赋予新的意思,这与利用字母组装成新词有所区别),大到一种说话的消亡和另一种说话的诞生(计算机说话也是一种情形)。当说话通过声响的情势表达出来,即为“语音”,是指由人类发出的、承载特定语义的声响,其中语义不仅可以借助笔墨自己来传送,也可以借助声响的音高、音强、音长、音色及其组合来表示分别的情感、态度等信息。

图1.2展示了人体的发音器官及其对声响的影响区域。简而言之,肺部孕育发生气流动力,经过气管引起声带振动形成声源(通常称为激励,图中激励区也叫声源区),最后经过声道(咽腔、口腔、鼻腔等区域)调制后由口唇辐射出来,孕育发生了我们所听到的语音。当我们说话、唱歌时,根本上所有的发声器官都被调用了;当我们哼着小曲时,口腔可以不动,而只通过调动鼻腔来调节音调;当我们捂着口鼻时,气流停止,没了动力,渐渐就发不出声响了。

《语音识别基础:(一)语音是什么》已知了人体发音器官的结构图,便可以仿生复制出语音发生器,然而仅仅只是功能上复制出这些发音器官以及将它们联系在一起的神经系统已是很难,而模拟孕育发生让各个器官能够联动协作的神经信号就更难了。

1.3看见语音

语音是用来听的,看不见,摸不着,但是我们可以看看语音的遗失情势。自然存在的语音是连续的波动,具有波的所有属性。声波可以遗失成失散的数字,即模数转换(Analog to Digital Conversion,ADC),所以,我们之后所研究的语音并不是声响的最原始形态,甚至都不叫声响,一串数字而已,但这些数字却达到了它的目的:再现声响,且原始声响所要传送的信息不丢失。音乐可以做得更彻底,直接将声响记录在一纸没有动静的乐谱上。除了声响,光线也是自然存在的现象,同样地,我们也可以将它数字化,遗失成图片或视频。机器进修中注重表征进修(Representation Learning),不管是声响还是光影,它们的数字化遗失情势已经是一种表征方法了。对文本的处理显得直来直去一些,因为笔墨是人类发明出来的,发明笔墨的目的就是为了遗失和传承,如音符一样,它也是一种失散的可记录、传播的符号,它的形态就是它的遗失情势,所以笔墨自己就是文本处理的原始表征方法。

《语音识别基础:(一)语音是什么》《语音识别基础:(一)语音是什么》语音的根本遗失情势可用波形图(Waveform)展现出来,如图1.3所示,可以简单地看作是一串上下摆动的数字序列,比如,每1秒的音频可以用16000个电压数值表示,即采样率为16kHz。进一步聚焦放大波形图,可以清晰地看到每个采样点,如图1.4所示。真正的语音不需要额外的注解,但对于数字化的语音来说,还需要额外的信息对文件格式进行说明,如信道、采样率、精度、时长等,并有文件大小=格式信息+信道数*采样率*精度*时长。可以用soxi查看文件信息,如图1.5所示。

《语音识别基础:(一)语音是什么》语音,是包含时序信息的序列,是时域上的一维信号。失散傅里叶变幻(Discrete Fourier Transform,DFT)使得语音的频域分析成为可能,图 1.3的语音可以变成图1.6的频谱图(Spectrogram)模样,图中可以清楚地看到“层峦叠嶂”,原始音频里的信息又以另一种表征方法释放出来了,颜色明暗表示频带能量大小,较亮的条纹即是共振峰(Formant)。整个过程就好比一双好耳朵听到了一首随时间流动的曲子,随即写出了它的谱子,看着谱,曲子又随即可以复现出来。傅里叶变幻适宜具有平稳性(Stationarity)的波,而表意丰富的语音显然不具有长时平稳性,为了适用傅里叶变幻,则需要假设语音的短时平稳性,所以语音的傅里叶变幻是一小段一小段(一帧)进行的,而“短时”有多短也有分别影响,较短的窗口有较高的时域分辨率、较低的频域分辨率,较长的窗口有较高的频域分辨率、较低的时域分辨率,语音识别中常取25毫秒。时域与频域之间是一一对应的,可以代表彼此。从一种表征到另一种表征,包含的意思都在,只是有些藏得深,挖掘不到,有些露得浅,一目了然,后者才更利于机器进修,所以机器进修领域常常撇不开表征进修,而深度进修的优势就在于表征进修。

《语音识别基础:(一)语音是什么》1.4小结

研究一个事物之前,先去观察它、了解它,看它的来历,看它的形态、结构。语音识别的研究对象就是“语音”,本章简介了语音的物理孕育发生原理及其大繁若简的呈现情势。

原创文章,作者:语音之家,如若转载,请注明出处:https://www.iaiol.com/news/yu-yin-shi-bie-ji-chu-yi-yu-yin-shi-shen-me/

(0)
上一篇 2021年 7月 29日 上午11:37
下一篇 2021年 8月 4日 下午2:20

相关推荐

  • CVPR 2021 | 革新奇智首次提出零样本实例联系,助力解决工业场景数据瓶颈难题

    对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升。

    2021年 3月 31日
  • 崭新定名、高通首款4nm、小米12寰球首发,骁龙8 Gen1实拍图来了

    高通崭新定名的旗舰芯片骁龙 8 Gen1 来了

    2021年 12月 1日
  • 这个夏天,跟陈天奇学「呆板进修编译」中英文课程,6月17日开课!

    陈天奇:「因为世界上还没有关于这个方位的体系性课程,所以这一次尝试应该会是和小伙伴们共同的探索」。随着呆板进修框架和硬件需求的发展,呆板进修 / 深度进修编译正成为一个越来越受关注的话题。在去年 12 月的一篇文章中,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇探讨了「新一代深度进修编译技术的变革和展望」。他指出,现在深度进修编译生态正围绕四类笼统展开:估计图体现、张量步调体现、算子库和运行情况、硬件专用指令。不过,由于篇幅受限,陈天奇并未就这一话题展开体系、详细的讨论,

    2022年 6月 4日
  • 这场较量,让上百个AI智能体「卷起来了」

    过去数年,随着神经网络、基于加强进修的自我博弈、多智能体进修和模仿进修等通用机器进修理论的突破,AI 智能体的计划才智实现了飞跃式发展。可以看到,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,在学术研究和产业落地上,它们的关注焦点都在从智能感知向智能计划过渡。「计划 AI」成了领域内的必争之地。今年 5 月,谷歌旗下的机构 DeepMind 发布 Gato,这款全新的 AI 智能体能够在「广泛的情况中」完成 604 项不同的任务。Gato 的诞生,再次刷新了单智能体的才智上限。当然,关于

    2022年 8月 19日
  • 从算法到开发,字节跳动Leader们最中意的40项进修资源

    “春季招聘和金三银四要开始了,我想提升技巧,更上一层楼,除了投简历刷题,还有什么可以努力的方向啊?”如果你是技巧领域的新人,或者已经毕业多年、正在考虑转向新的技巧方向,上面这个问题可能正在困扰着你。为了回答这个问题,技巧范儿找到了多媒体、引荐算法、计算机视觉、强化进修、机器翻译、常识图谱、安卓、iOS、服务端、前端等几个方向的Leader,引荐了各个技巧方向的自学资源。其中,有不少业界知名的书籍、全球CS名校的公开课程,可以系统性地帮你了解一个领域的全貌。还有不少应用技巧和开源项目,工业界的常备工具都列齐了。另外,

    2021年 2月 26日
  • 不氪金玩转中文超大规模预训练,这里有一份详细攻略

    随着企业智能化转型的深入,智能文本处理需求广泛存在,而传统的NLP定制方法在实际的产业使用中面临着不少问题,包括需要较多高质量的人工标注数据、缺少NLP手艺选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。

    2020年 12月 18日
  • baidu全新无人挖掘机功课体系登上国际权威期刊《Science Robotics》

    近日,由baidu研究院机器人与自动驾驶实验室(RAL)团队牵头开发的全新无人挖掘机功课体系(AES)这一最新技能成果,登上了国际顶级期刊《Science》子刊《Science Robotics》,并获得了评审专家与期刊编委的高度评价。该研究融合了感知、活动布局和控制体系,可驱动挖掘机自主完成挖装恣意,从事24小时连续无人化功课,并成为全球首个实际落地的、可长时间功课的无人挖掘机体系,在工程机械自动化、无人化功课领域具有重要价值和影响。随着新型基础设施建设的大力推进,工程机械行业乘风而上,并不断向数字化、智能化方向演进。

    2021年 7月 2日
  • ICML 2021 | 鉴于拆卸的视频无监视零件宰割

    本文是第三十八届国际机器进修会议(ICML 2021)入选论文《鉴于拆卸的视频无监视零件宰割(Unsupervised Co-part Segmentation through Assembly)》的解读。
    该论文由北京大学陈宝权-刘利斌研究团队与山东大学、北京电影学院未来影像高精尖创新中心合作,提出了一种无监视的图像零件宰割法子,创新性地采用了将零件宰割历程和零件拆卸历程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特性,从而实行对物体零件的有意义的宰割。

    2022年 7月 18日
  • Creator 面对面 | 多少深度进修的算法设计和数学表面

    2016年,Yann LeCun 等人在 《Geometric deep learning: going beyond Euclidean data》一文中提出多少深度进修这一概念。现今多少机器进修和基于图的机器进修已经是当前最热门的研究课题之一。

    2022年 7月 23日
  • 带你读论文 | 端到端语音辨别模型

    编者按:过去十年,得益于人工智能与机器学习的突破、算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的、大规模的语音辨别与合成模型,使得语音处理技术获得飞跃性进展。

    2020年 11月 18日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注