研究背景及意义

  随着世界经济文化交流日益紧密,英语作为主要的交流语言,在其中发挥了不可磨灭的作用。然而在中国的传统教学模式中,无论是日常的教学,还是各种中大型考试,英语的口语教学没有得到重视,所以很多的英语学习者的发音普遍错误、口语表达较弱。口语发音成了一个难以克服的问题,例如发音拗口,不准确,停顿有误等。于是,越来越多的英语学习者迫切地需要一种能够指明发音错误,并能够提供矫正策略的方法。本工程将应用语音信号处理的算法,结合语素,重读,语调和中间停顿四个指标,给出学习者的口语发音的评分,并以可视化的方式展示给学习者正确发音对应的标准发音器官行为。这不仅可以帮助学习者纠正错误的英语发音,降低练习英语口语的心理压力,还能提高英语口语的表达能力。

 

 

研究方法

  本系统运用的是基于发音器官的偏差形态行为可视化的发音矫正方法,该方法可以根据能够对学习者的口语发音进行处理分析,获取学习者语音内容和对应发音时的器官动作,再根据学习者选择的目标外语,调出标准库中的对应发音模块。根据语素,重读,语调和中间停顿四个指标,给出发音评分,反馈给学习者发音不准确的地方,然后通过对比学习者和标准库的相同发音内容和器官动作形态,计算得出学习者唇位、舌位、齿位、呼气量以及下颌高度的位置和对应标准库中的数据的偏差,最后,以可视化的方式展示出学习者和标准音的器官形态差异。

 

所需技术

  (1) 梅尔倒谱系数特征:梅尔倒谱系数特征是一种在语音识别领域中一种得到广泛使用的特征,其简明扼要地描述了频谱包络的整体形状,能模拟人耳接收声音规律。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果,非常适用于语音信号的处理。

 

  (2) 双门限端点检测:通常一段语音会有静音和浊音部分,静音部分包括清音、噪音和无音,我们所需要语音部分是浊音和清音部分。浊音的能量一般高于清音,所以我们就可以利用短时能量,将区分浊音部分,再利用清音的过零率高于其他静音部分,将清音也区分出来,就可以有效地进行端点检测。双门限法通过语音能量的阈值和过零率的阈值这两个时域特征去检测端点,可以较为准确地确定语音信号中的起始点和终止点,并区分语音段部分和非语音段部分。

 

  (3) 动态时间规整:用于计算两段长度不同的时间序列(例如两端语音信号)的相似度或者距离的方法。因为不同的人对同一个单词的发音会有细微的不同,有些人的发音语速不一样,有的人发音时间较长,有的人发音时间较短,而DTW算法对这种发音的延续性并不敏感,其被广泛运用到语音识别,视频动作识别,生物信息对比和数据挖掘等领域。

研究目标

  (1)在矫正学习者外语学习的过程中使用了基于偏差器官形态的方法,将学习者发音与对应外语标准库中的标准音进行对比,对比学习者唇位、舌位、齿位、呼气量和下颌高度等位置的偏差,方法具有可靠性

 

  (2) 提供可视化的矫正方法,能够根据偏差可视化显式学习者发音和正确的器官行为的偏差,为学习者的外语学习提供的方便和智能,提高学习者的学习的兴趣。

系统框架

         该系统会将采集到的学习者的发音信息进行数据预处理,提取句子的音素,重读,语调和词间停顿四个语音特征,然后将对应的标准音映射标准发音器官形态库,再将这四个语音特征与标准音的发音特征做相似度比较,计算出发音评分。如果有发音不准确的地方,将以可视化的形式展示出学习者的发音器官形态与标准音的偏差,用以帮助学习者矫正英语发音。

 

 

表现形式

  对每一个音素的梅尔倒谱系数特征与标准发音器官形态行为库建立映射关系。根据该映射关系将学习者每个音素的梅尔倒谱系数特征映射到标准器官形态行为库,得到相应的标准器官动作,再用matplotlib绘图包,画出学习者和标准音发音器官的偏差。