纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

距离 Mirco Ravanelli 宣布打造新的语音工具包过去了一年多,SpeechBrain 真的如期而至。

纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

语音处理手艺的进步,是人工智能改变大众的生活的重要一环。深度进修手艺的兴起,也让这一领域近年来得到了长足的发展。在过往,该领域的主要方法是为不同的任务开发不同的工具包,对于运用者来讲,进修各个工具包需要大量时间,还可能涉及到进修不同的编程语言,熟悉不同的代码风格和标准等。现在,这些任务大多可以用深度进修手艺来实现。此前,开发者常用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等,它们各有各的不足之处。以 Kaldi 为例,它依赖大量的脚本语言,而且核心算法运用 C++ 编写,再加上可能需要改变各种神经网络的结构。即便是拥有丰富经验的工程师,在调试的时候也会经历巨大的痛苦。秉承着让语音开发者更轻松的原则,Yoshua Bengio 团队成员 Mirco Ravanelli 等人曾经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi,但据开发成员本人认为「还不够完善」。所以,在一年多前, Mirco Ravanelli 宣布要打造一款新的一体化语音工具包 SpeechBrain。该项目于近日正式开源,鉴于上述背景,SpeechBrain 诞生的主要宗旨是:够简单、够灵活、对用户友好。

纯PyTorch语音工具包SpeechBrain开源,Kaldi:我压力有点大

项目地址:https://github.com/speechbrain/speechbrain作为一个基于 PyTorch 的开源一体化语音工具包,SpeechBrain 可用于开发最新的语音手艺,包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等,且拥有相当出色的性能。团队将其特征概况为「易于运用」、「易于定制」、「灵活」、「模块化」等。对于机器进修研究者来讲,SpeechBrain 可轻松嵌入其他模型,促进语音手艺的相关研究;对于初学者来讲,SpeechBrain 也不难掌握,根据测试,一般开发者仅需要几个小时就能熟悉该工具包的运用。此外,开发团队也发布了很多教程以供参考(https://speechbrain.github.io/tutorial_basics.html)。总体来讲,SpeechBrain 有以下几大亮点:

开发团队与 HuggingFace 集成一些预训练模型,这些模型具备可运行推理的接口。如果 HuggingFace 模型不可用,团队会提供一个 Google Drive 文件夹,包含所有对应的实验结果;

运用 PyTorch 数据并行或分布式数据并行来进行多 GPU 训练和推理;

混合精度,加快训练速度;

透明且完全可自定义的数据输出和输出 pipeline。SpeechBrain 遵循 PyTorch 数据加载器和数据集样式,运用户能够自定义 I / O pipeline。

快速装置目前开发者可以通过 PyPI 装置 SpeechBrain,此外还可以运用本地装置来运行实验和修改 / 自定义工具包。SpeechBrain 支持基于 Linux 的发行版和 macOS(且针对 Windows 用户也提供了相应解决方案:https://github.com/speechbrain/speechbrain/issues/512)。SpeechBrain 支持 CPU 和 GPU,但对于大多数 recipe 而言,训练期间必须运用 GPU。需要注意的是,必须正确装置 CUDA 才能运用 GPU。装置教程地址:https://speechbrain.readthedocs.io/en/latest/installation.html通过 PyPI 装置创建 Python 环境后,只需输出以下内容即可:pip install speechbrain然后可以运用以下命令访问 SpeechBrain:import speech brain as sb本地装置创建 Python 环境后,只需输出以下内容即可:git clone https://github.com/speechbrain/speechbrain.gitcd speechbrainpip install -r requirements.txtpip install –editable .然后可以通过以下方式访问 SpeechBrain:import speechbrain as sb对 speechbrain 软件包所做的任何修改,将在装置带有 –editable 标志的软件包时自动解释。SpeechBrain 未附属于任何机构,团队成员来自 Mila 研究所、Nuance、杜比实验室、英伟达、三星、Viadialog 等实验室和企业单位。最初的两位负责人是 Mila 研究所博士后 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前,Speechbrain 项目还在完善中,也欢迎更多开发人员加入。看到这里,Kaldi 会不会感到压力有点大了呢?

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/chun-pytorch-yu-yin-gong-ju-bao-speechbrain-kai-yuan-kaldi/

(0)
上一篇 2021年 3月 15日 下午6:56
下一篇 2021年 3月 16日 下午2:44

相关推荐

  • 时空智能新赛道是怎样炼成的?千寻地位引领自立技巧创新突破

    2020年10月,华为推出Mate 40系列旗舰手机,在全球范围内首次完成车道级导航功能,及时显示用户所在车道地位。2020年11月,小鹏汽车智能轿跑P7,通过OTA升级,在深圳、重庆、杭州等高速公路上,可完成NGP高速自立导航驾驶。2020年初,武汉火神山医院在建设中,一次性完成放线测量,精确标绘,与病魔赛跑,向世界展示“十几天建一所医院”的壮举。这一年,人们离自动驾驶更近了,手机导航有了不同的体验,战疫的身影中有了科技力量。在这背后,是时空智能这项中国自立研发的技巧在消费级场景全方位渗透。作为千寻地位开创的硬核

    2021年 5月 27日
  • 元宇宙虚构数字人的建立与将来身份系统

    「机器之心2021-2022年度AI趋势大咖说」聚焦「启动将来的AI技术」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

    2022年 8月 1日
  • 阿里开源 反对10万亿模型的自研分布式训练框架EPL(Easy Parallel Library)

    最近阿里云机器学习PAI平台和达摩院智能估计实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。

    2022年 3月 30日
  • 比利时艺术家在Twitter上线AI,督促政客开会时不要玩手机

    在日常任务中,人人都会在沉闷的聚会上分神看手机。但如果你身为一名政府人员,在为纳税人任务,那么参加立法会的时候,你应该准备好接受人工智能的监督,立法机关的「黑镜」正盯着你呢。整理报道 | 吕海洋数字艺术家 Dries Depoorter 将他的最新装置「The Flemish Scrollers」链接到了比利时佛兰德省议会的聚会直播间。他的软件使用面部辨别技术,可以自动点名那些开会时专心玩手机的政客。该项目是在佛兰德部长兼总统扬·詹邦(Jan Jambon)在政策评论辩论期间玩气忿的小鸟后引起公众气忿近

    2021年 7月 7日
  • 新版Linux在M2 MacBook Air可用,Linus Torvalds发布最新内核

    更多人应用 Arm 硬件将带来更好的 Arm 软件。

    2022年 8月 2日
  • 开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当

    来自谷歌的钻研者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩办法,该办法优于以前的神经视频压缩办法,并且在用户钻研中与 HEVC 性能相当。

    2021年 8月 11日
  • 「Hello World」中的「bug」

    Hello World 可能是许多人编写的第一个次序。这么简单的次序按理说应该没有 bug 吧?一位叫「sunfishcode」的开发者给出了令人意外的结论。

    2022年 3月 23日
  • Nature | 电动汽车间接排放超过燃油车?实际比预想的更绿色

    长期以来,电动汽车制造商一直打着节能减排的口号来宣传。然而,一些分析师对电动汽车行业的实际绿色程度意味担忧。他们认为,电力和电池生产过程中的间接排放量可能会增加,而这些排放不仅总量不小还往往容易被忽视。但耶鲁大学环境学院最近一项发表在Nature Communications 上的研讨发现,与化石燃料汽车的间接排放相比,电动汽车的间接排放总量相形见绌。这是对燃烧化石燃料的间接排放的补充,也就是说,无论是从汽车的排气管中排出的还是从发电厂的烟囱内排出的,数据表明电动汽车在排放方面比内燃机汽车具有明显的优势。&nbsp

    2022年 1月 10日
  • CS上榜超百,华夏要地本地935人,2021全球「高被引科学家」名单揭晓

    备受期待的科睿唯安「高被引科学家」名单公布。其中,就华夏要地本地的高校来说,清华大学当选 58 位,华夏科学技术大学当选 41 位,浙江大学当选 29 位,北京大学当选 28 位。

    2021年 11月 17日
  • WAIC开发者日Workshop预告:超参数科技如何索求海量AI计划问题

    近年来,无论是在学术研究还是产业落地层面,关注的焦点都在从智能感知向智能计划阶段过渡。「计划 AI」逐渐成为热点问题,不管是谷歌、微软、IBM 等全球科技巨头,还是国内一众 AI 龙头企业,均积极投身于智能计划的相关研究。其中,海量 AI 如何在大型开放世界做智能计划,是推动智能计划手艺发展、加速社会智能化转型的重要问题,也是人工智能领域的手艺难题之一。为深入研究海量 AI 前沿问题,超参数科技联合麻省理工学院、清华大学深圳国际研究生院,以及数据科学挑战平台 Alcrowd 主办了 Neural MMO 系列挑战赛

    2022年 8月 30日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注