基于复杂网络的高密度表面肌电无声语音识别通道选择方法

文献发布时间：2024-04-18 20:00:50

技术领域

本发明属于语音识别技术领域，具体涉及表面肌电无声语音识别通道选择方法。

背景技术

语言是人类人际交往、思想表达和信息传递的重要工具。然而，对于接受喉切除术或中枢神经系统的患者，他们可能会出现发音障碍或言语障碍。另外，某些情况下，人们不便于直接发声交流，因此无声语音识别技术变得至关重要。目前实现无声通信的主流方法有：(1)基于脑电的方法，(2)基于机器视觉识别嘴唇运动的办法，(3)基于表面肌电的办法。

基于脑电的方法容易受到环境噪声和运动伪影的影响，导致信号质量不稳定，分类性能较差；而基于机器视觉的方法受限于设备体积，便携性很差，且嘴唇的运动信息无法描述所有的语言特征。基于表面肌电(surface electromyography，sEMG)的方法中，表面肌电是由神经肌肉活动产生的生物电信号，可用于捕捉发音相关肌肉活动期间产生的电信号。与嘴唇运动图像所携带的成像技术相比，传感器捕获的sEMG信号包含更精确的语音信息。与基于大脑活动的EEG信号相比，基于肌肉活动的sEMG信号具有更高的信号强度和灵敏度，然而单个电极携带的信息较少，大量的电极又存在信息冗余的问题，针对无声语音识别的高密度表面电极优化的研究还很少。本发明聚焦于基于表面肌电的办法。

近年来，基于sEMG的无声语音识别研究很多，与本发明相关的方法有：

1、一种基于面部三个通道的日语发音分类方法，该方法仅仅使用了3个电极，均贴在单侧脸颊处，对5个日语元音进行分类，准确率为71％；

2、一种基于面部、颈部的无声中英文语音识别方法，该方法总共使用了120个电极通道，通道位置分布在脸颊两侧，脖颈两侧，但没有对通道进行筛选，实现了超过80％的中英文分类准确率。

上述基于sEMG的无声语音识别的缺陷如下：

缺陷1：现有的基于肌电信号的无声语音识别，在电极数量上很少，多为3-8个通道，且受限于电极数量，覆盖发音相关的肌肉区域不完整，而事实上参与发音的肌群有颊肌、环甲肌等多个肌群，因此较少的电极通道不能完整的反应发音时的肌肉特征信息，从而导致准确率有待提高；

缺陷2：基于高密度肌电信号的无声语音识别，虽然在电极数量上大幅增加，解决了覆盖区域的问题，但是由于缺乏对通道的筛选，会导致存在电极冗余、高计算复杂性、成本增加等问题，此外，过多的电极会增加设备的复杂度，为后续的可穿戴化带来了挑战。

发明内容

本发明的目的在于提供一种基于复杂网络的高密度表面肌电无声语音识别通道选择方法，以克服现有基于sEMG的无声语音识别方法的不足，有效提取发音时肌肉活动的特征信息，提升识别准确率，大幅减少冗余通道，提高计算速度。

本发明提出的基于高密度表面肌电的无声语音识别通道选择办法，具体步骤为：

步骤一：面部肌电信号采集及处理

采集320个通道的面部、颈部肌电信号，320个通道分别位于面颊处、颈部、下巴处；具体而言，将四个8×8的高密度电极阵列分别放置在双侧面部和颈部的中心区域，而将一个5×13的高密度电极阵列放置在下巴上；电极放置位置如图1所示：

在数据采集过程中，每个受试者无声地执行14个元音和15个辅音的语音任务，发音任务如图2所示；

如图3所示，指令以随机顺序呈现；每项任务分两块重复执行；在每个区块内，参与者进行3对试验；每个试验-休息对包括1秒的语音试验、然后是1秒的休息期；为了最大限度地减少肌肉疲劳的影响，参与者被允许进行5秒的实验间休息；因此，每个参与者进行84次元音测试(14个元音×2个实验×3次重复任务)和90次辅音测试(15个辅音×2个实验×3次重复任务)；每次试验持续1秒；如果参与者跳过或错误地完成试验，则应通知实验助理，试验将从数据集中删除；

采集到的肌电信号数据用10Hz高通滤波器和500Hz低通滤波器对收集的HD sEMG信号进行滤波，以减少运动伪影，并降低高频噪声；然后，采用一组陷波滤波器来避免电力线的干扰；然后，去除每个试验的前0.25s内的信号，保留0.75s的持续和稳定信号。

步骤二：构建复杂网络

发音是肌肉协调动作的结果，表现在不同面部、颈部和下巴肌肉的表面肌电信号中会表现出不同程度的力量；每个肌肉群单独行动，同时相互连接，形成一个复杂的网络系统；因此，从复杂网络理论的角度分析不同语音状态下通道的激活模式，可以深入了解语音过程与肌肉群之间的关系；这种分析可以帮助减少冗余通道和计算复杂性；

复杂网络可以用图G(V，E)表示，该图由一组节点V和一组边E组成：

V＝{V1，...，Vn}，

E＝{E

其中，Vn表示网络的节点，E

将每个sEMG通道视为一个节点，并将通道之间的相关性视为边的存在或不存在，将肌群映射到一个复杂网络中；利用互信息方法，分析每对通道之间的相关性；考虑两个任意通道S和Q，通道的每一个采样点信号s和q的香农熵定义如下：

其中，n是信号的长度，s

MI(s，q)＝H(S)+H(Q)-H(S，Q)， (5)

对于每个电极阵列，分别基于64个内部通道之间的相互信息构造邻接矩阵A(a

步骤三：使用louvain算法优化网络

然后使用Louvain算法[8]构建肌肉网络；Louvain是一种提取网络社区结构的方法，它比其他社区检测方法更具有时间效率，并已用于分析社交网络；Louvain算法的目标是最大限度地提高图中社区的模块度；模块度是一个用于衡量社区内连接相对于社区之间连接的紧密性的指数；较高的模块度表示社区内的边的数量较高，而社区之间的边较少；模块度(Q)定义为：

其中，表示社区，∑_in表示社区c内的边权重之和，∑_tot代表连接到社区c节点的边权重的和；因为网络是无权的，所以所有边的权重都被认为是1。

使用louvain算法构建肌肉网络的流程如下：

(1)构建关联矩阵：基于互信息建立一个肌肉节点之间的关联矩阵；该关联矩阵反映了不同肌肉之间的连接关系；

(2)构建无向无权网络：根据关联矩阵构建一个无向无权网络，其中节点表示不同的肌肉，边表示肌肉之间的连接；

(3)Louvain算法运行：将构建的肌肉网络输入Louvain算法；Louvain算法将对网络进行迭代，优化网络的模块度，即将网络划分为多个社区，使得社区内的连接较多，社区间的连接较少；

(4)社区检测：Louvain算法将对网络进行社区检测，将肌肉节点划分到不同的社区中，形成多个肌肉组；

(5)选择最优通道：根据Louvain算法的结果，选择每个社区中具有最高连接强度或关联程度的肌肉通道作为该社区的代表性通道；这些代表性通道被认为是最优通道，可以用于进一步的特征提取和应用。

通过以上流程，可以对筛选出的最优通道进行结果分析，了解不同社区的功能和特性；可以观察最优通道的位置和连接情况，进一步了解肌肉活动的模式和特征；对于每个社区，计算其内部通道的度，并选择度较高的通道来代表这个社区；在所有试验中，统计每个电极阵列的代表性通道的数量；对于每个电极阵列，选择出现频率最高的m个通道高来构建社区；因此，最终选择5×m数量的通道。

步骤四：提取特征及分类

筛选完通道后，从sEMG信号提取5个主要特征：包括均方根(RMS)、波长(WL)、过零(ZC)、方差和斜率变化(SSC)；将特征矩阵输入到线性判别分析(LDA)分类器中进行训练，LDA模型可以预测测试数据的标签；以一名被试的数据为例；由于每个发音被重复了6次，因此将所有的数据集6等分，一份数据集均包含一个不同的发音数据，每次训练轮流将其中5组数据集组合作为训练集，将余下一组数据集作为测试集，最终计算得到分类的平均准确率；与此同时，将全部320个通道的信号、随机选取通道的信号作为对照进行同样的分类预测操作。

本发明方法具有如下特点和优势

(1)本发明采集与发音密切关联的颊肌、环甲肌、提角肌等肌群的肌电信号，以320个电极通道为输入，首次以复杂网络理论为基础对发音肌群进行了网络建模，获取到发音时各个肌肉间的相关性等信息，为量化研究参与发音的肌肉状态提供了基础；

(2)本发明在初始肌肉网络的基础上，首次利用复杂网络理论中社区优化的Louvain算法，对每一个电极片分别进行通道筛选，通过通道筛选，既有效提取发音时肌肉活动的特征信息，保证识别准确率，还大幅减少冗余通道，提高计算速度；

(3)本发明可以筛选出对无声语音识别贡献大的通道，降低冗余的同时提高准确率；

(4)本发明办法基于复杂网络理论，筛选过程以构建初始肌肉网络为基础，通过Louvain算法对网络进行重新划分，找到其中的代表性通道，针对不同的被试者仅仅只需根据其采集的数据进行处理即可得到较优的通道组合；

(5)本发明中构建初始肌肉网络时，采用相关性的衡量指标，以两两通道间是否相关作为构建网络中边的依据；

(6)本发明在对重新划分的肌肉网络进行筛选时，采用模块度的衡量指标，从模块度的角度出发选择代表性节点。

附图说明

图1为采集数据时电极粘贴位置图。

图2为发音任务图示。

图3为发音任务的时序图示。

图4为被试者发音数据流程图。

图5为初始的互信息矩阵。

图6为二值化后的互信息矩阵。

图7为初始的网络结构。

图8为经过louvain算法优化的网络结构。

图9为元音的分类效果。

图10为辅音的分类效果。

图11为筛选的50个通道和全部320个通道的分类效果对比。

具体实施方式

下面通过实施例结合附图进一步介绍本发明。

本发明以一位被试的辅音数据为例，图4展示了流程。采集到的数据经过预处理去除电力线和高频噪音。之后将每个发音的数据按照按照5个电极片的划分分别提取互信息，每个电极片上的通道数据经过互信息提取会得到一个64*64维度的的矩阵。矩阵的对角线表示通道的自信息，其余元素表示通道的互信息，经过归一化后，自信息为1，互信息数值越大表示通道间的相关性越强，反之亦然。为了简化网络结构，假设所有通道的相关性没有强弱之分，只有相关与不相关之分。将对矩阵进行二值化处理，二值化处理的依据是选取方差最大的阈值。如果阈值选择过大，则大部分通道都互相不连通，如果阈值选择国小，则大部分通道都连通，因此，选择差异最大时刻的点作为阈值最有意义。之后根据二值化的矩阵构建初始网络，将每一个通道视作一个独立节点，将通道间的相关性为1视作节点间有边连接，为0视作节点不连通，由此，得到初始的网络。之后，将此网络用louvain算法进行社区划分。每个电极片上的64个电极会被分成若干个社区，每个社区我们按照社区内节点数量的多少按照1/5的比例选取代表节点，之后将该电极片所有发音任务选取的代表性节点统计频率，选取出现最多的前m个节点作为该电极片的代表通道。将筛选到的通道的肌电数据提取它们的均方根(RMS)、波长(WL)、过零(ZC)、方差和斜率变化(SSC)特征。由此得到一个5*m*5*84的特征向量，由于每个发音被重复了6次，因此将所有的数据集6等分，一份数据集均包含一个不同的发音数据，也就是14个5*m*m的特征向量，每次训练轮流将其中5组数据集组合作为训练集，将余下一组数据集作为测试集，最终计算得到分类的平均准确率。与此同时，将全部320个通道的信号、随机选取通道的信号作为对照进行同样的分类预测操作。

图5展示了初始的互信息矩阵，颜色越红表示相关性越高，越偏蓝色表示相关性越低。

图6展示了二值化后的互信息矩阵，白色表示相关性为1，黑色表示相关性为0，也就是不相关。

图7展示了根据二值化后的互信息矩阵建立的网络结构，由图可知针对这次发音数据，已建立了第一个电极片也就是左脸颊的网络结构，颜色相同表示他们初始默认处于同一社区。

图8展示了经过louvain算法优化后的新的网络结构，由图可知，优化后该网络被划分为三个社区，可以认为这64个通道根据其相关性被分成了3个簇，簇内的通道代表他们之间高度相关，而他们和其他社区之间关系很弱，这在一定程度反映出不同肌肉群的作用。

图9、图10展示了依据本发明方法筛选的通道的识别效果远远好于同样数量的随机通道的分类效果。图9表示，对元音数据进行了验证，表明本发明的通道选择办法总是远远优于随即通道的分类效果，图10表示在辅音数据集下，本发明办法效果依然更好。

经过进一步分析，本发明仅仅使用50个通道取得的分类效果非常接近使用全部320个通道的准确率，图11展示了这一结果。

上述结果充分说明本发明所提出的方法的有效性和优越性。

本发明首次提出从复杂网络理论出发，提出了一种针对高密度表面肌电无声语音识别的通道选择办法这种选择办法也可以在处理过程中进行一些微调：如在构建初始的肌肉网络时，可以采取其他方式计算边是否连通，如基于均方根的互信息量来判断两两通道之间是否联通；也可以选择构建有权的复杂网络来建模发音肌群。一切利复杂网络理论进行高密度表面肌电无声语音识别的通道选择方法均在本发明保护范围内。

完整全部详细技术资料下载