- 文献综述(或调研报告):
语音分析的研究可以追溯到十九世纪初,贝尔实验室的荷马达德利在20世纪30年代首次提出语音分析和合成系统[1,2]。 1952年,戴维斯等人为单个扬声器制造了一个独立的数字识别器。贝尔实验室[3],其次是一个系统,可以识别由Olson和Belar等人提出的单个发言者的10个音节。[4]。
一个重要的成就发生在1959年,当时一个音素识别器被开发用来识别四个元音和九个辅音,利用了英语音位序列的统计信息[5]。这标志着语音识别中首次使用统计语法。在20世纪70年代流行的一项宝贵技术是用于自动语音识别(ASR)的动态编程。通常称为动态时间翘曲的技术首先由Vintsyuk等人提出。 [6]。与此同时,在贝尔实验室,重点是创建一个自动语音转录系统,这是一个独立于讲话者,可以处理来自不同区域口音的不同讲话者的讲话中产生的声学变异[7]。这是为了实现为人们提供电信服务的目标,包括语音拨号和基于命令的电话自动化。贝尔的ASR方法中另一个重要的技术是关键字识别的概念,它试图只检测在话语中特定意义的指定词或短语,而忽略其他非重要的部分[8]。这是为了适应那些经常喜欢说自然语句而不是严格的普通话的人。传统的认证机制在安全应用中受到青睐,因为生物统计识别系统占据了领先地位。如[9]中所述,随着可以提高系统健壮性的多模式识别系统的涌现,语音被认为是一种重要的生物识别技术。利用语音中存在的信息和各种方法,语音识别可以扩展到识别说话人,在[10,11]中有所介绍。
之后的语音识别逐渐形成了一个大的框架,最需要做的预处理是噪声消除,在任何语音识别系统中都是必须的操作。在后来的文献中提出了大量的噪声消除机制,Singh等人[12]以自己的方式对开窗,维纳滤波,谱减法,谱幅度估计等常用语音增强技术进行了分析。语音语音识别的框架为:输入语音信号首先传递到听觉前段,后者对信号进行预处理并产生类似光谱的特征。然后将这些功能传递给音素可能性估算器,估算每个音素的可能性。音素可能性以及HMM模型和n-gram语言模型(LM)被解码器用于解码语音。然后将输出的单词发送到解析器,将其转换为可读形式。在估计音素阶段需要声学模型。该单元用于通过使用代表音素可能性的状态序列对声学输入进行建模来从语音帧中提取声音内容,通过GMM或神经网络来估计每个音素的可能性以及发声词典,除此之外还需要语言模型对声学模型进行耦合。语言模型是根据声学模型判断的音素组成的单词序列来计算可能正确的句子序列。
ASR系统中逐渐引入许多机器学习技术,但仍然存在许多问题。语音识别曾经使用马尔科夫模型对问题进行预测,但是由于现实问题无法与特定的马尔科夫模型状态相关联,所以催生了在ASR中最重要的HMM(隐式马尔科夫模型)。从20世纪70年代在ASR中的介绍[14,15],HMM是语音识别的重要范式转换[16]。HMM可以认为是ASR的起点。与HMM相关的三个经典问题是评估,解码和训练。给定模型和观察序列(结果),确定模型生成序列的概率是评估,即前向算法;确定产生结果的最可能的状态序列是解码,一般使用维特比算法;更新模型参数以最大化发生的可能性是训练,一般使用Baum-welch算法。
然而,HMM有其自身的局限性,其中最重要的是需要大量的训练数据来防止由于测试和训练条件之间的不匹配而导致的性能损失。通常,GMM用于估计这些HMM状态的输出密度。这些GMM / HMM系统是ASR中使用的最突出的生成式学习方法[17-20]。尽管如此,ASR研究人员从未停止考虑用于HMM的替代估计方法。这导致了在20世纪80年代末和90年代初期对各种基于ANN的方法的探索。正如文献[21-23]所讨论的,文献中的大量工作已经证明使用人工神经网络或特定多层感知器进行ASR中的概率估计是合理的。由于一些缺陷,另外一个研究的替代概率估计技术是SVM(支持向量机)。从区别上来说HMM是生成模型,决策是根据生成模型上产生的最大可能性来做出判断的。由于生成和区分方法是互补的,所以SVM/HMM混合系统的开发产生了一些有趣的结果,SVM的泛化能力更加出色,提升了ASR的稳定性。
后来的发展中,随着人工神经网络(ANN)的兴起,在ASR中提出了许多人工神经网络的方法来克服HMM的局限性。突破模式识别问题的一种众所周知的方式是将其转换为空间识别问题,其中人工神经网络采用多层前馈神经网络架构的变体来匹配语音的时间结构。每个语音单元都与MLP输出层中的特定输出单元相关联[27,28]。两种常用的神经网络类型是时间延迟神经网络(TDNN)[29]和递归神经网络[30,32]。神经网路结构中的反馈通过添加一个包含前一个输入产生的隐藏单位值的附加向量来实现。在[33]中已经提出了另一种变体,其中输出层环回到输入层。 TDNN是一种替代MLP架构,已经在[29]中用于部署FIR/IIR滤波器和音素识别。上述模型都被证明在单个语音识别(包括短单元)上表现平平(部分结果有时胜过HMM)。这是因为这些模型需要定义目标函数,如果训练数据由分割困难的连续语音组成,定义目标函数就很困难。因此,使用MLP来估计HMM的输出概率的混合方法已经变得突出。
后来提出了高斯混合模型(GMM)。高斯混合模型用于将连续分布组件建模为参数概率分布(高斯或正太分布),整个数据集可以使用高斯混合来建模。在大量样本中使用GMM使得分布的平滑近似方面非常有用。基于GMM的HMM或GM/HMM系统是ASR中最常用的机器学习方法。HMM模型的状态通常与语音中因素的子段相关联。句子通过连接因素序列的HMM来建模,并且GMM分布被用于生成HMM状态中的向量。
参考文献
