所需技术
(1) 梅尔倒谱系数特征:梅尔倒谱系数特征是一种在语音识别领域中一种得到广泛使用的特征,其简明扼要地描述了频谱包络的整体形状,能模拟人耳接收声音规律。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果,非常适用于语音信号的处理。
(2) 双门限端点检测:通常一段语音会有静音和浊音部分,静音部分包括清音、噪音和无音,我们所需要语音部分是浊音和清音部分。浊音的能量一般高于清音,所以我们就可以利用短时能量,将区分浊音部分,再利用清音的过零率高于其他静音部分,将清音也区分出来,就可以有效地进行端点检测。双门限法通过语音能量的阈值和过零率的阈值这两个时域特征去检测端点,可以较为准确地确定语音信号中的起始点和终止点,并区分语音段部分和非语音段部分。
(3) 动态时间规整:用于计算两段长度不同的时间序列(例如两端语音信号)的相似度或者距离的方法。因为不同的人对同一个单词的发音会有细微的不同,有些人的发音语速不一样,有的人发音时间较长,有的人发音时间较短,而DTW算法对这种发音的延续性并不敏感,其被广泛运用到语音识别,视频动作识别,生物信息对比和数据挖掘等领域。