导航：首页> 有机化学〔2〕>一种基于面部视觉的多模态融合中医体质判别方法及系统

一种基于面部视觉的多模态融合中医体质判别方法及系统

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及医疗及信息技术领域，特别涉及一种基于面部视觉的多模态融合中医体质判别方法及系统。

背景技术

中医体质是一种客观存在的生命现象，是不同个体在先天遗传和后天获得基础上形成的一种相对稳定的特质状态。早在中国古代就有医家在疾病诊治中应用中医体质思想，《伤寒论》有云“强人半钱匕，羸者减之”。现代学者普遍认为，中医体质是疾病易感、进展和诊疗的重要影响因素，恰当准确的体质辨识可有效指导疾病预防及养生康复。多项研究发现，不同疾病的中医体质分布不尽相同，某类/某几类中医体质分布存在显著性差异，这亦为疾病针对性预防、诊治提供重要参考。

目前体质辨识以中华中医药学会颁布的《中医体质分类与判定》标准及中医体质量表为主。临床应用中，体质辨识主要依靠患者主观感受及量表问答，缺乏简便客观的评判指标。面诊是中医望诊的主要内容；中医学认为，面部为人体经络汇聚之处，具有丰富的血脉供应。生理状态下，五脏六腑的气血皆上荣于面，病理状态下人体的气血盈衰亦可通过面部反映于外。面部的颜色、光泽、目、唇、舌等特征均可反映人体体质的偏颇；随着现代计算机技术的发展，机器视觉及人工智能技术赋予人类观察面部信息细微变化的可能，进而“思外揣内”客观化评估体质变化。

近年来，机器视觉及人工智能技术的突飞猛进为疾病智能诊断带来新的发展契机。随着硬件升级及计算机算力提升，摄像头可清晰捕捉面部信息中的舌、唇、面及血管中的血红蛋白反射特定频谱的光变化，从而检测诸多生理健康参数。目前，基于面部信息可实现舌、面、脉、目诊等判读，而上述结果与中医体质辨识密切相关，故而本研究以面部视觉为载体，通过多模态融合技术整合舌、面、唇、脉、目诊信息，进而建立面部视觉与中医体质映射关系，创新中医体质辨识新范式。

目前中医体质检测使用的技术存在如下问题和缺陷：

1、涉及的采集设备较多，包括舌诊仪、面诊仪、脉诊仪等，采集过程繁琐，需依次采用不同设备仪器对人体数据进行采集，此类采集设备通常较昂贵，难以向社区及基层推广。

2、采用传统机器学习方法提取舌、面诊等特征，采集后还需专家进行判断和修正，结果准确率有待提高，且该过程过度依赖专家经验，耗费大量人力财力。

发明内容

本发明的目的在于克服现有技术中所存在的上述体质辨识过程繁琐不足，提供一种基于面部视觉的多模态融合中医体质判别方法及系统，摒弃传统体质辨识的冗杂步骤，简化过程，创新体质辨识新模式，基于面部视觉通过人工智能先进范式侦测面、唇、目、舌、脉，使用多模态融合技术进行多维数据融合，使得不同模态数据相互补充，更全面且准确得出结论，设备依耐性低，便于推动中医优质资源的配置和中医发展，为疾病治疗方案确定奠定基础。

为了实现上述发明目的，本发明提供了以下技术方案：

一种基于面部视觉的多模态融合中医体质判别方法，其包括以下步骤：

S1、采集待测者的多视角图像和视频。

S2、从视频中寻找预先划定的感兴趣区域，在上述区域通过神经网络获取脉搏波波形图，从图像和脉搏波波形图的模态数据中提取特征向量

S3、将提取的特征向量

S4、采用多头注意力机制模型对归一化后的特征向量进行融合，输出融合特征

S5、基于最终融合特征I＇对神经网络进行训练，根据全连接层非线性激活计算得到体质分类的概率，并进行分类。

传统的中医体质判别，很大程度上依靠医生的经验，不同医生辨识结果往往具有很大的差异，不能做到规范化和统一化；而本发明的方法摒弃了传统体质辨识的冗杂步骤，基于面部视觉将多视角的图像和视频作为采集数据，通过神经网络从中获取特征向量，针对性选择作为辨识判断依据的数据，采用多头注意力机制转为融合特征，通过神经网络对融合特征训练，直接对中医体质进行分类；该方法基于深度学习算法，创新体质辨识新模式，使得不同模态数据相互补充，采用仪器自动提取多模态数据的特征并进行自主训练，避免了人为因素的影响，让机器自主学习判断，判断过程能够更加规范化，提高了辨识结果一致性，更全面且准确得出结论，便于推动中医优质资源的配置和中医发展，同时减少了人力成本。

在本发明较佳的实施方案中，上述S3具体为：

S3、将所提取的特征向量接入神经网络

，

其中，

在本发明较佳的实施方案中，上述S4包括：

S41、对每个模态的每个特征

，

其中，

S42、将融合特征

，/>

其中，

通过步骤S4，能够将采集的特征接入神经网络，通过神经网络进行融合，通过引入三个矩阵变量可使神经网络更关注结局相关指标，优化计算，在多参数的计算中更加快速和准确，通过融合特征，能够将各模态数据中的数据综合考虑，更全面地进行辨识判断。

在本发明较佳的实施方案中，上述S5包括：

S51、将最终融合特征

，

其中，

S52、根据概率值判断，概率值≥0.5时，判断可能存在对应体质，概率值<0.5时，判断不存在对应体质；输出体质分类结果。

通过S5将最终融合特征输入至神经网络，通过神经网络的自主学习，确定出属于对应体质的概率，再通过概率来判断是否属于对应体质，能够进行量化计算，省去了人为的判断，并避免了不同医生的判断偏差，能够提高辨识结果一致性。

在本发明较佳的实施方案中，上述S5还包括：

S53、采用二值交叉熵函数计算每类体质辨识的损失，训练过程中损失值逐渐减小，且初始的损失值最大，若损失值相比前一次减小，则判断分类不正确，此时反馈至神经网络进行修正，重新执行步骤S53，直至损失值不再继续减小，判断分类正确；通过加入辨识损失的计算，能够将神经网络自主判断的不正确数据找出，能够进行迭代计算，从而对不符合的数据进行修正，能够更准确地进行分类。

在本发明较佳的实施方案中，上述S1中，多视角图像包括舌图、面图、目图和唇图，视频包括面部视频；通过多视角的图像和视频，系统能够提供舌诊仪、面诊仪、脉诊仪等仪器的采集功能，替换掉这些仪器，减少了仪器数量，能够实现多功能效果并避免购买多种仪器，为用户提供一台体质辨识仪器，节约了成本。

一种基于面部视觉的多模态融合中医体质判别系统，系统采用上述的判别方法，系统包括信息融合模块、采集模块和体质辨识模块，信息融合模块包括特征提取单元和特征融合单元，特征提取单元用于对采集模块输出的图像进行特征向量提取，特征融合单元用于采用多头注意力机制模型对特征向量进行加权求和，并得到最终融合特征，体质辨识模块通过神经网络对最终融合特征进行训练，并分类体质结果；通过采集模块对人体数据进行收集，通过特征提取单元对舌图、面图、唇图、目图、脉搏波图提取高维特征得到特征向量，通过特征融合单元对高维特征的特征向量进行融合，能够综合考虑各模态数据中体现的中医体质特点，更全面进行分析；通过体质辨识模块对融合特征进行训练，基于神经网络自动计算出所属对应的中医体质概率并根据概率分类体质，让机器自主判断结果，能够剔除人为因素的影响，保持结果的唯一性和提高准确性。

在本发明较佳的实施方案中，上述采集模块包括脉诊治理模块，脉诊治理模块包括摄像头和脉诊信号处理单元，摄像头用于人脸面部的视频拍摄采集，脉诊信号处理单元用于侦测面部视频中每帧画面中人脸的最大裸露区域，从中提取绿色光谱，并使用神经网络构成的滤波器对光谱信号去噪，提取脉搏波波形；通过摄像头采集视频数据，不再需要感应人体脉搏，省去了传统诊脉的传感器，通过从视频中提取数据进行脉象预测。

在本发明较佳的实施方案中，上述系统包括模型升级模块，模型升级模块通过神经网络将不正确数据进行反馈，修正体质结果，并送入体质辨识模块重新训练；通过模型升级模块，让机器自主学习和修正错误结果，能够不断进行优化，获得更准确的体质分类，实现模型闭环优化。

在本发明较佳的实施方案中，上述采集模块包括舌诊治理模块、面诊治理模块、目诊治理模块和唇诊治理模块，舌诊治理模块、面诊治理模块、目诊治理模块和唇诊治理模块分别具有摄像头，或共用摄像头，该摄像头用于采集舌图、面图、目图和唇图，并将所有图传输至信息融合模块；通过采集模块能够对人体舌、面、唇、目的数据进行采集，以便于机器分析，既往体质辨识均需依靠设备依附于人体上进行，而该系统采用的仪器实现体质辨识，仅基于一个摄像头就可实现，创新出一种方便快捷的辨识模式，提供诊疗新思路。

与现有技术相比，本发明的有益效果：

1、该方法摒弃了传统体质辨识的冗杂步骤，基于面部视觉通过人工智能先进范式侦测面、唇、目、舌、脉，使用多模态融合技术进行多维数据融合，简化过程，创新体质辨识新模式，使得不同模态数据相互补充，更全面且准确得出结论，便于推动中医优质资源的配置和中医发展。

2、该方法基于深度学习算法，创新体质辨识新模式，使得不同模态数据相互补充，采用仪器自动提取多模态数据的特征并进行自主训练，避免了人为因素的影响，让机器自主学习判断，判断过程能够更加规范化，提高了辨识结果一致性，能够更全面且准确得出结论，同时减少了人力成本。

3、该系统综合了现有的多种设备和仪器，基于面部视觉通过人工智能先进范式侦测面、唇、目、舌、脉，使用多模态融合技术进行多维数据融合，使得不同模态数据相互补充，更全面且准确得出结论，在有限搭载结构情况下，实现多种人体数据的采集和处理分析；且在智能手机高普及的时代背景下，本发明能够实现基于移动端的中医体质辨识，设备依耐性低，能够快速判别并辨识输出人的中医体质，结果更加全面和准确，便于为医生提供参考数据，提高医生效率。

附图说明

图1为本发明基于面部视觉的多模态融合中医体质判别方法的步骤图。

图2为本发明基于面部视觉的多模态融合中医体质判别系统的结构框图。

图3为本发明采集模块的结构框图。

图4为本发明中特征融合的神经网络。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

实施例1

请参照图1，本实施例提供一种基于面部视觉的多模态融合中医体质判别方法，方法包括以下步骤：

S1、采集待测者的多视角图像和视频，待测者取坐位或站立位，在白天自然光下进行采集拍摄，多视角图像和视频的采集是通过摄像头实现的，各图的采集可分别采用一个摄像头，也可共用摄像头，待测者需在摄像头前70cm±10cm。多视角图像包括舌图、面图、目图和唇图，视频包括面部视频，本实施例仅采集了面部视频，其他实施方式可采集人体除面部外的其他部位视频；通过多视角的图像和视频，系统能够提供舌诊仪、面诊仪、脉诊仪等仪器的采集功能，替换掉这些仪器，减少了仪器数量，能够实现多功能效果并避免购买多种仪器，为用户提供一台体质辨识仪器，节约了成本。

S2、从视频中寻找预先划定的感兴趣区域，感兴趣区域为预先划定好的，该区域为中医体质判断过程中，基于机器视觉、图像处理从图像中所选取的区域，人为预先设定，该区域通过神经网络训练后自动获取，基于该区域通过神经网络获取脉搏波波形图，使用GoogleNet、ResNet、DensNet、Shufflenet、DarkNet对图像和脉搏波波形图进行特征提取，从图像和脉搏波波形图的模态数据中提取特征向量

通过对模态数据进行特征提取，能够从模态数据中针对性选择作为辨识依据的数据，作为机器判断的基础。

S3、将提取的特征向量

，

其中，

S4、采用多头注意力机制模型对归一化后的5*n个特征向量进行融合，输出融合特征

S41、对每个模态的每个特征

，

其中，

S42、设多头注意力为

，

其中，

通过步骤S3，能够将采集的特征接入神经网络，通过神经网络进行融合，通过引入三个矩阵变量提升神经网络性能，使网络只关注与结局相关的信息，在多参数的计算中更加快速和准确，通过融合特征，能够将各模态数据中的数据综合考虑，更全面地进行辨识判断。

S5、基于最终融合特征I＇对神经网络进行训练，根据全连接层非线性激活计算得到体质分类的概率，并进行分类，包括：

S51、将最终融合特征

，

其中，

S52、根据概率值判断，概率值≥0.5时，判断可能存在对应体质，概率值<0.5时，判断不存在对应体质；输出体质分类结果。

通过上述S5的步骤将最终融合特征输入至神经网络，通过神经网络的自主学习，确定出属于对应体质的概率，再通过概率来判断是否属于对应体质，能够进行量化计算，省去了人为的判断，并避免了不同医生的判断偏差，能够提高辨识结果一致性。

S53、采用二值交叉熵函数计算每类体质辨识的损失，计算公式如下式：

，

其中，

体质分类为行业标准分类，共9类，包括：平和体质、阳虚体质、阴虚体质、痰湿体质、湿热体质、血瘀体质、特禀体质、气郁体质和气虚体质，损失权重分别是0.2、0.1、0.1、0.1、0.1、0.1、0.1、0.1、0.1。

将9类损失加权求和，得到最终损失：

，

其中，

最终损失值计算得：

Loss

训练过程中损失值逐渐减小，且初始的损失值最大，若损失值相比前一次减小，则判断分类不正确，需要继续优化，此时反馈至神经网络进行修正，随着训练的推进损失值会越来越小，重新执行步骤S53，直至损失值不再继续减小，最后损失值降到某个数值后不再继续下降，则此时判断分类正确；通过加入辨识损失的计算，能够将神经网络自主判断的不正确数据找出，能够进行迭代计算，从而对不符合的数据进行修正，能够更准确地进行分类。

该方法摒弃了传统体质辨识的冗杂步骤，基于面部视觉将多视角的图像和视频作为采集数据，通过神经网络从中获取特征向量，再接入全连接层激活，采用多头注意力机制转为融合特征，通过神经网络对融合特征训练，直接对中医体质进行分类。

实施例2

请参照图2，本实施例提供一种基于面部视觉的多模态融合中医体质判别系统，系统采用实施例1的判别方法，该系统包括：显示模块、采集模块、信息融合模块、体质辨识模块和模型升级模块，采集模块包括舌诊治理模块、面诊治理模块、目诊治理模块、唇诊治理模块和脉诊治理模块，通过采集模块对人体数据进行收集，存储为模态数据，通过信息融合单元提取各模态数据的特征向量并融合为融合特征，基于机器视觉和深度学习，通过神经网络综合考虑各模态数据中体现的中医体质特点并进行辨识，能够更全面进行分析，摒弃传统体质辨识依赖硬件仪器和经验判断的行业瓶颈，推广面向社区、家庭、医院的泛在化在线体质辨识场景应用，为下一步智能中医远程诊疗、智慧诊疗开辟崭新思路，便于推动中医优质资源的配置和中医发展。

显示模块为显示屏或显示器，显示模块电连接其他各模块，显示模块具有输入数据和输出数据的显示功能，可通过显示模块向神经网络输入数据，输入数据包括个人信息，如待测者的姓名、性别、年龄、身高、体重等，显示模块用于显示各中间数据和结果。

请参照图3，采集模块为机器视觉的具体应用，采集模块包括信号采集单元和信号处理单元，信号采集单元为摄像头，摄像头安装在基于该系统的设备上，在其他实施方式中，也可将手机摄像头作为信号采集单元的摄像头，舌诊治理模块、面诊治理模块、目诊治理模块、唇诊治理模块和脉诊治理模块分别设置有摄像头，也可采用共用摄像头的形式，摄像头采用高清摄像头，HD960P以上，在硬件仪器上仅设置一个摄像头，当需要拍摄具体图像时，摄像头能够转动并朝向舌、面、目、唇进行拍摄，该转向功能可通过现有的硬件实现，如云台或摄像头内置的转向结构；通过摄像头能够对人体舌、面、唇、目的数据进行采集，再通过摄像头连接的存储单元保存数据，如设有储存卡，再将采集的所有图和视频传输至信息融合模块，以便于机器分析，既往体质辨识均需依靠设备依附于人体上进行，而该系统采用的仪器实现体质辨识，仅基于一个摄像头就可实现，创新出一种方便快捷的辨识模式，提供诊疗新思路。

舌诊治理模块通过摄像头对待测者进行舌图拍摄，待测者静坐在摄像头前张口伸舌，伸舌时应保持舌体放松舌面平展，舌尖部自然下垂，信号处理单元使用U

信号处理单元为舌诊治理模块、面诊治理模块、目诊治理模块、唇诊治理模块和脉诊治理模块都分别具有的共用单元，信号处理单元为带有深度学习算法的处理器或芯片，信号处理单元也可内置存储单元。信号处理单元使用深度学习算法从采集的面部视频中侦测人脸并获取面部感兴趣区域，或从舌图、面图、唇图和目图中获取感兴趣的图像区域，基于机器自主学习的方式，先对已有的不同图像和视频进行人为划分和标定，信号处理单元会根据标定的结果进行训练，训练后能够自动识别并分割图形，获取符合要求的区域；面部感兴趣区域为预先划定好的感兴趣区域，通过神经网络训练后自动获取，具体是通过循环神经网络、卷积神经网络提取感兴趣区域中的脉搏波并进行去噪，最终获取脉搏波波形。

请参照图4，信息融合模块包括特征提取单元和特征融合单元，特征提取单元用于对采集模块输出的图像进行特征向量提取，采集模块的摄像头采集数据后，通过信号处理单元将数据传输至特征提取单元，特征提取单元分别使用GoogleNet、ResNet、DensNet、Shufflenet、DarkNet对舌图、面图、目图、唇图、脉波波形图进行高维特征提取，得到特征向量

体质辨识模块用于接收信息融合模块的数据，具体地特征融合模块将最终融合特征

模型升级模块通过神经网络将不正确数据进行反馈，使用二值交叉熵函数计算每类体质辨识的损失Loss值，基于损失Loss值对数据是否正确进行判断，计算过程如实施例1中相关部分，先预设一个损失值，预设的值需要专家对体质结果判断来确，保证损失值在较小的预设值范围内，结果正确；当损失值超过了预设的值时，则神经网络的模型对中医体质判断不正确，此时需要将准确的体质结果输入至神经网络对体质结果进行修正，输入时需专家对该待测者的体质进行评估判断，并送入体质辨识模块重新训练，继续体质辨识，具体重新按实施例1中的步骤S5进行重新训练，通过模型升级模块，让机器自主学习和修正错误结果，能够不断进行优化，获得更准确的体质分类，实现模型闭环优化。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：成都中医药大学;

上一篇：一种高活性淀粉酶抑制活性肽及其制备方法和应用
下一篇：一种井下采区快速反风自动化装置