载入中
自定义HTML载入中... loading
语音识别简述-青岛文达通指纹识别 [转贴 2006-07-14 10:37:58]   
字体变小 字体变大
 

语音识别简述

语音识别的概念

语音识别是一种将人讲话发出的语音通信声波识别(转换)成为一种能够表达通信消息的符号序列。这些符号可以是识别系统的词汇本身,也可以是识别系统词汇的组成单元,在专业文献中常常称为识别系统的基元或子词基元。例如,当汉语语音识别系统的基元选取为音素,或者声韵母,或者音节,或者多音节时,识别输出结果的符号序列相应为音素序列,或者声韵母序列,或者音节序列,或者多音节序列。

声波符号的识别可以有匹配识别和检测识别两种方式。匹配识别的原理是,将输人语音声波进行适当处理成为特征数据流,然后与系统已有的符号或符号序列的模型进行对比,把系统中与输人特征数据流最接近的模型的符号或符号序列作为系统的识别结果。

检测识别的原理如下。将输人语音声波进行适当处理成为特征数据流,然后在其中检测是否出现了系统已有的符号或符号序列的模型,把输人特征数据流中出现的系统模型的符号或符号序列作为系统的识别结果。

匹配识别和检测识别的主要差别如下。匹配识别是一种相对最佳表示的判断准则,即使输人语音声波的真实符号序列完全不在系扰已有的符号或符号序列中,系统也会从它已知的范围中找出一个最接近的符号序列作为识别的输出结果,而检测识别是一种基于置信程度的判断准则,对于输人语音声波的真实符号序列不在系统已有的符号或符号序列中,系统会因为置信程度低而拒绝输出识别结果。

语音识别的方法

语音识别的研究从20世纪50年代开始到现在的50多年中一直非常活跃。接近工程实现的最初尝试是基于模板匹配技术。通常,这些模板就是语音的实例样板。在识别的时候,把模板与未知词进行比较。并把能与最佳匹配的模板相联系的符号作为未知语音的识别结果。基于模板匹配的方法实现简单,但缺乏通用性。

简单的模板匹配技术不适于识别连续语音,最大困难在于音段边界的检测。在正常的语音中,词的边界不与任何特定的声音事件相联系。为了将一句话中的词分割出来,说话时需要在词与词之间留出短暂的静音,一般称这种发音方式为孤立词语发音。在这种情况下,可以把每一个分割出来的词与模板进行比较识别,得到孤立词语的识别结果。

因为这种孤立词语识别使用一组固定的实例模板,所以这种方法最适用于较小词汇量的特定人识别系统。由于每一个词需要实例样板,所以该方法限制了系统词汇量的增大;由于一次只有一个模板参与匹配,所以系统对于说话人变化的可靠性较低。

人们通过增加辅助的专家知识(如语言学家、读谱专家和其他语音专家)来解决这些问题。将专家知识表示成规则的形式,并在特定的特征出现时产生作用。这些决策判断通常是根据辨认信号中出现的共振峰来进行的。由于只有在元音中才能较容易检测共振峰,加上语音还有自然的变化性,这些规则很难做出可靠的的判断,并且一旦做出错误的决策就很难纠正。

上述基于词模板的方法的局限在于,对每一个要识别的词语都要建立实例样板,并且这种实例样板不具备容纳语音的自然变化性的机制;而基于知识的方法又难以确定能够做出区分微小差异的规则,以及辨认在较大自然变化的背景下特定特征出现的趋势。

这些局限性可以用子词基元的随机处理模型来克服。隐马尔可夫模型(HMM)是一种典型的子词基元的随机处理模型,是当前大多数流行语音识别系统的基础。

统计方法使用实例样本的数据库来估计概率模型的参数。当可用的数据库包含有每一个声音模型的足够多的实例时,就可以产生一种对语音的自然变化有可靠性的声音表示。

由于语音被表示成为一种过程,因此可以将一系列模型串接起来构成一句完整的连续语音的复合模型。这个特点使得对语音采用较低层表示成为可能。用较小的子词模型集和词典对每个词构造复合模型的方法可以大大降低覆盖词典所包含词语的语音训练数据的数量。

(本文摘录整理自张成海、张铎主编的《现代自动识别技术与应用》一书。)

票数:
什么是“我顶”?
点击数:    评论数:
本文章引用通告地址(TrackBack Ping URL)为:
本文章尚未被引用。
发表评论
大 名:
(不填写则显示为匿名者)
网 址:
(您的网址,可以不填)
标 题:
内 容:
请根据下图中的字符输入验证码:
(您的评论将有可能审核后才能发表)
和讯个人门户 v1.0 | 和讯部落 | 客服中心