语音识别技术

语音识别技术一

人们对深度学习领域的研究越来越深入，语音识别技术的准确率越来越高，甚至在不少领域已接近人类水平。通过对信号处理及识别技术的研究，计算机可以通过融合语音识别技术来“听懂”人类的语言。该技术大大提升了从业人员的工作效率，推动了行业应用的进程。

语音识别技术概述

得益于深度学习技术的不断突破，语音识别技术的运用按业务难度来分主要有两个方面。①人机对话。人机对话主要得益于语音识别技术中的语音听写功能，逐渐成熟的语音听写技术现已广泛应用于智能语音助手、智能语音搜索、智能语音输入等产品当中。②人人对话。人人对话主要得益于语音识别技术中的语音转写功能，随着人人对话场景的不断增多，语音识别在说话风格、口音、质量等方面的问题越发凸显。即使现在识别技术已日臻成熟，但为了使其具有可读性，仍需要对口语化文本进行分句、分段等处理。
近年来，人们对语音转写问题的研究越来越深入，学术界和工业界的研究重心侧重在两个方面。①交谈风格。为解决书面语言和口语之间无法匹配的问题，研究者首先通过引入倒装句、适用语气词、运用回读法的方式打破了书面语言和口语建模的风格鸿沟，其次运用神经网络建模技术对口语化文本进行分段、分句，使语音识别结果的可阅读性大大提升。通过进一步提高语音识别系统的稳定性、易用性，为语音识别技术大规模应用奠定了基础。②声音质量为了能够使远距离、有噪声场景下的语音转写达到可用门槛，使用麦克风阵列技术在目标人方向上形成拾音波束，通过融合深度学习技术，在抑制背景噪声的同时增强目标语音，从而进一步实现降噪。。

语音识别技术的原理

◆ 预处理：

声音的实质是一种波。能够通过语音识别出来的音频文件都是wav格式的，而在现实生活中人们常常使用的MP3等音频文件的格式都是经过压缩而无法直接识别的，语音波形示例如下图所示。

◆ 自适应和灵活性满足复杂需求：

     1)VAD算法
     VAD算法又称语音激活检测，该算法既可去除语音识别过程中噪声的干扰，又可去除有效语音信号中的静音部分。VAD算法判断语音信号中是否属于静音部分的方式是对输入语音信号的时域、频域特征进行判别。
     2)时域参数
     为了区分输入信号在时域上的特征参量，我们在高信噪比条件下使用时域参数，区分效果尤为明显。
     (1)相关性分析。判断某个信号是否属于静音部分的方式之一是对足够短时间范围内的语音信号进行相关性检测。我们在高信噪比条件下区分静音成功率很高的原因是各式各样的噪声在一定的时间范围内的相关性远远弱于人人对话的语音。但不能忽视的一点是，由于噪声的种类五花八门，因此相关性分析只适用于小部分噪声和语音。
     (2)时域能量。用来判断一个信号是否为静音部分的另一种方式是通过信号能量来判断，能量高的为有效语音，能量低的为静音部分的噪声。但在实际生活中，高能量的噪声会经常出现，此时再用时域能量参数就不准确了。
     3)频域参数
     相比时域参数，通过使用傅里叶变换等方式进行分析的频域参数的抗噪性能更优。但由于傅里叶变换等方法的计算复杂度较高，因此该方式所花费的时间相比时域参数也更长。
     (1)谱熵。熵在信息论中用于描述信息源的不确定性，在实际生活中，可通过熵来判断某段信号是噪声还是有效语音。谱熵可靠性的强弱只与信噪比有关：谱熵较大是因为噪声谱比较平坦，谱熵较小是因为语音能量主要集中在低频段。
     (2)自适应子频带。相比于噪声帧，语音帧在很低的信噪比下也具有较高的子频带。我们需要在每帧信号的总能量中获知最小频带占比的概率，然后自适应选择多少子频带。在时域上识别有效语音信号波形的前提是计算出其在频域上的分布情况，在此我们运用傅里叶变换对有效语音信号进行处理，从而得到需要的分布情况信息，有效语音信号波形如下图所示。
     平稳的输入信号是傅里叶变换的前提，从上图可以看出，有效语音信号波形的前部和后部有明显的不同，信号之所以产生这种不平稳的现象，是因为发音者的发音姿态不同。我们可以把图中矩形框所示部分信号看作平稳的，从该部分中截取的信号就可以进行傅里叶变换。分帧是将有效语音信号截取成一帧帧平稳信号的过程。
     4)分帧时长
     通过分帧所得到的每帧信号都需满足两个条件。一是必须保证帧内信号平稳且足够短。导致信号不平稳的原因是某一帧内发音姿态产生明显变化，为解决该问题，最好使一帧的长度小于一个音素的长度，即帧长小于50ms(一个音素在正常情况下的持续时间不低于50ms,不高于200ms)。二是每帧信号必须包括足够多的振动周期。而对语音的基频来说，男女声音是不一样的，男声的基频约为100Hz,女声的基频约为200Hz, 换算成周期分别为10ms和5ms。一般取20ms为一帧，因此一般帧长的数值为不低于20ms,不高于50ms。

◆ 2.声学特征提取

     人类是通过声带发出声音的，我们可以对产生的音素进行表述的前提是准确知道声带的形状(包括舌头、牙齿等)。声带的形状在语音时长较短时可以在功率谱的包络中显示出来。因此，准确描述这一包络的特征就是声学特征识别步骤的主要功能。
     接收端接收的语音信号经过预处理后便得到有效的语音信号，对每帧波形进行声学特征提取可以得到一个多维向量。这个向量包含了一帧波形的信息内容，为后续的进一步识别做准备。在此主要介绍使用最多的MFCC声学特征。MFCC是梅尔频率倒谱系数的英文缩写。
     语音信号的能量表现为音量的大小，每帧信号的能量也是语音信号的一个重要特征，而这个参数非常容易计算得到。因此，通常在已经得到的参数基础上再加上一帧的对数能量。对数能量的定义为：E=101g( 一帧内信号的平方和)
     如此就使每帧语音信号特征向量多了一个维度。在此阶段也可加入其他语音特征，如音高、过零率及共振峰等。
     1)动态差分参数的提取(包括一阶差分和二阶差分)
     标准的MFCC只反映了语音参数的静态特性，语音的动态特性可以用这些静态特征的差分谱来描述。实验证明，只有把动态、静态特征结合起来才可有效提高系统的识别性能。
     2)特征提取结果
     总而言之，MFCC的全部组成是：N维MFCC参数(N/3 MFCC系数+N/3一阶差分参数+N/3二阶差分参数)+帧能量(此项可根据需求替换)。
     声音信号经过MFCC特征提取后，可得到描述其信息内容特征的向量。为方便后续的说明，这里假设经过特征提取后每帧信号都变换为一个12维的向量，并用色块来表示向量值的大小。原波形示如下图所示。