企业资讯

首页 关于我们

企业资讯

荐读丨为您全方位解读语音识别理论与技术
发布时间:2020/08/07
返回列表

自然界的声音有很多种,包括风声、雨声、鸟叫声等,而语音特指人类发出的声音。语音是语言的声学表现,是人类交流信息最直接、有效的方式,语音的产生及感知应用,代表的就是人与人之间双向的交互过程。

 

随着物联网、智能设备等技术的快速发展,人与机器的交互,逐步从对鼠标和键盘的依赖转移到语音方式,其中的关键技术就是自动语音识别(Automatic Speech Recognition,简称“ASR”)。语音识别,简单地说,就是在人与机器通过语音交流时,让机器能够听懂你在说什么。自20世纪50年代以来,对语音识别的研究已有近70年的历史,技术理论获得多方突破,越来越多的应用也出现在我们生活中,如语音输入法、语音搜索、智能音箱等。这些成果的成功落地激励着更多的企业和科研机构参与进来,对人才储备的需求也不断扩大。

 

语音识别技术的发展日新月异,新的理论和方案不断涌现,除了基本原理,相关从业人员也亟须了解语音识别的前沿技术,例如加权有限状态转换器(WFST)、端到端(E2E)语音识别等。

 

今天就为大家推荐一本全方位解读语音识别的新书:

《语音识别:原理与应用》

作者:洪青阳,李琳

封吗.jpg

本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,并辅以实例,力求深入浅出让读者能较快地理解语音识别的基础理论和关键技术。为帮助读者动手操作,提高实战技能,本书最后还结合Kaldi和Espnet等开源工具,介绍了具体的工程实践方法。

 

第一作者洪青阳承担过大量的语音识别项目研究和开发工作,有丰富的工业应用经验。另外,作者从事本科生、研究生的语音识别教学十多年,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到最新的E2E语音识别框架,积累了丰富的教学经验,深感理论知识讲解的困难,特别是语音识别原理比较复杂,从声学特征提取到HMM建模和解码过程,涉及信号处理、概率模型和神经网络等多个领域知识,要做到浅显易懂尤为不易,因此作者希望通过本书弥补高校人工智能等专业语音教材的匮乏,同时也为产业界工程师的语音识别入门提供经验参考。

 

全书共包含15个章节:

1

语音识别概论,介绍人类语音的产生和感知过程、语音识别的关键技术、发展历史等。

2

语音信号基础,介绍声音的采集和量化过程,以及编码和存储格式。

3

语音特征提取,介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。

4

HMM,介绍双重随机过程,以及HMM的三大问题。

5

GMM-HMM,介绍高斯混合模型的定义和重估计公式,并结合例子讲解GMM如何与HMM结合,以及对应的具体参数形式。

6

基于HMM的语音识别,介绍单音子声学模型和Viterbi解码过程。

7

音素的上下文建模,介绍双音子和三音子模型,并基于问题集和决策树讲述三音子的训练过程。

8

语言模型,介绍语言模型训练过程及在语音识别中的作用。

9

WFST 解码器,介绍动态和静态解码网络,以及WFST、HCLG等关键技术。

10

DNN-HMM,介绍深度学习在语音识别中的应用,包括CNN、LSTM、TDNN等网络。

11

序列区分性训练,介绍 MMI/BMMI、MPE/sMBR等准则,以及Lattice-free MMI训练方法。

12

端到端语音识别,介绍CTC、RNN-T、Attention和Transformer等端到端语音识别系统。

13

Kaldi实践,首先介绍Kaldi的下载安装步骤,然后以aishell-1中文数据库为例,介绍如何训练和测试模型。

14

Espnet实践,介绍使用Espnet进行目前主流的端到端语音识别模型的训练和解码过程。

15

工业应用实践,介绍如何封装语音识别动态库,如何调用和调优。

 

 

 

内页.jpg 

​(内页展示)

 

本书理论知识充沛,并兼顾工程实践,是高校学生和初级技术人员的绝佳选择,欢迎大家阅读。

 

赠 书 福 利

 

为感谢大家长期以来对海天瑞声的支持,我们现举办限时赠书活动,扫描下方二维码阅读微信文章,在文章底部留言并获得前三名点赞数量的小伙伴即可免费得到《语音识别:原理与应用》一本,活动有效期至8月14日18:00。欢迎大家踊跃留言。

 

e87eec0b557730bedb7460e6bb4ee2a.png

 

分享到微信朋友圈

打开微信,点击底部的"发现"

使用“扫一扫”即可将网页分享至朋友圈。