掌桥专利:专业的专利平台
掌桥专利
首页

基于Cnn-former的肝纤维化病变检测模型训练方法与系统

文献发布时间:2023-06-19 13:49:36


基于Cnn-former的肝纤维化病变检测模型训练方法与系统

技术领域

本发明属于深度学习结合多模态医疗技术领域,具体涉及基于Cnn-former的肝纤维化病变检测模型训练方法与系统。

背景技术

人口数量与结构的改变以及不可控的环境因素导致了医疗行业面对的压力逐年上升。但随着人工智能技术的突破与推广,其应用的场景也越来越丰富化、普遍化。借助计算机高性能、高效率的数据处理优势,再结合大数据分析和深度学习,人工智能在很大程度上改变医疗现状、显著降低成本提高效率。

目前我们已经实现了肝纤维化检测领域内MLP、决策树、SVM、K-Means等机器学习算法的训练,但训练结果表明,这些算法在准确性上不能得到令人满意的结果,在模型准确率和效率上还有提升的空间。

因此,构建一种高效深度学习算法辅助肝纤维化检测是必要的。本发明所构建的Cnn-former是一种基于Informer的长序列时间序列预测(Long sequence time-seriesforecasting,LSTF)改进后的模型。与传统的Informer相比,该模型具有三个显著特征:(1)在模型的最外层加入一维卷积层,可以使得模型在训练集输入网络后快速提取特征,更快完成收敛;(2)去除掉词嵌入embedding层与相对位置编码层后,Informer不再局限于自然语言处理任务,从而可以更好的应用在病理检测中;(3)在本发明数据集上的实验表明,Cnn-former方法损失函数收敛速度显著优于现有方法,为本研究提供了一种新的解决方案。

随着医疗与人工智能结合的必然趋势,本发明立足于充足的数据储备支撑,率先将在Informer模型基础上改进的Cnn-former算法模型使用在肝纤维化检测领域,旨在提高医疗质量和服务效率,减少误诊误治,为医疗与人工智能多学科交叉做出贡献。

发明内容:

发明目的:本发明目的在于提供一种基于Cnn-former模型的肝纤维化病变检测模型训练方法与系统,构建融合医疗健康与现代科学的人工智能技术体系,为突发肝纤维化预测、减少患者痛苦、提高医疗人员效率和准确率提供辅助支持。

技术方案:为实现上述发明目的,本发明采用如下技术方案:

基于Cnn-former的肝纤维化病变检测模型训练方法,包括以下步骤:

(1)获取电子病历,包括生化特征、生理特征和CT图像特征;

(2)对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;

(3)绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;

(4)根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证步骤(3)中筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;

(5)使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpareself-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;

(6)对步骤(5)所获得的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。

进一步地,所述步骤(2)中对生化特征的处理包括::

对所得数据样本的所有属性进行缺失值处理,主要字段采用均值插补的方法,如果字段可用常数度量,则使用该属性有效值的平均值来插补缺失值,如果该属性由数值等级度量,则使用该属性有效值的众数来插补缺失值;

根据Z-Score标准化方法对补全后的数据进行标准化处理,经过处理的数据符合标准正态分布,从而取消由于量纲不同引起的误差;

基于Isolation Forest异常检测算法的思想,递归随机划分肝纤维化病变数据集并建立局部模型,其中每棵孤立树用来识别特定属性子样本;计算出每个样本点的异常得分进行排序,将异常得分接近于1的样本点断为异常点;将标记为异常点的样本点直接删除,从而去除分布稀疏且离密度高的群体较远的异常数据。

进一步地,所述步骤(2)中对生理特征的处理包括:

对病理信息的医嘱、病情描述部分,通过Lac工具完成自定义实体提取,获得“是否酗酒”、“是否有过刺痛感”信息,再将特征处理为数据,用0/1区分无酗酒/有酗酒,用1~12标定疼痛等级,将提取出的病理信息进一步转化为数据特征。

进一步地,所述步骤(2)对CT图像的处理包括:

使用ResNet网络对CT图像进行分类,将图像转化为疑似病例和未疑似病例,作为一维特征加入训练数据集中。

进一步地,经过步骤(3)、(4)后,筛选后的有效特征包括:年龄(age)、性别(sex)、G值(肝炎炎症)、S值(炎症程度)、总胆红素(Total-bilirubin)、直接胆红素(Direct-bilirubin)、间接胆红素(Indirect-bilirubin)、总蛋白(Total-protein)、白蛋白(albumin)、球蛋白(globulin)、白球比(White-ball-ratio)、谷丙转氨酶(Alanine-aminotransferase)、谷草转氨酶(Aspartate-aminotransferase)、谷草/谷丙(Cereal-grass/grain-c)、碱性磷酸酶(Alkaline-phosphatase)、谷氨酰转肽酶(Glutamyl-transpeptidase)、总胆汁酸(Total-bile-acid)、前白蛋白(Prealbumin)、胆碱酯酶(Cholinesterase)、α岩藻糖苷酶(Alpha-Fucosidase)、乳酸脱氢酶(Lactate-dehydrogenase)、尿素氮(Urea-Nitrogen)、肌酐(Creatinine)、尿酸(Uric-acid)、β微球蛋白(beta-microglobulin)、胱抑素C(Cystatin-C)、葡萄糖(glucose)、总胆固醇(Total-cholesterol)、甘油三酯(Triglycerides)、高密度胆固醇(High-density-cholesterol)、低密度胆固醇(Low-density-cholesterol)、甲胎蛋白(Alpha-fetoprotein)、III型前胶原PIIINP(Type-III-procollagen-PIIINP)、IV型胶原IV型胶原(IV-ColIV-Col)、层粘蛋白(LNLN)、透明质酸(HAHA)、红细胞(RBC)、血红蛋白(Hemoglobin)、白细胞(WBC)、中性粒细胞(Neutrophils)、淋巴细胞(Lymphocytes)、血小板(platelet)、凝血酶原时间(Prothrombin-time)、INR、免疫球蛋白(IgG)、免疫球蛋白(IgA)、免疫球蛋白(IgM)、补体C3、补体C4、纤维化(target),有无酗酒史、有无肝病史、体感疼痛等级、CT特征;

其中,“sex”的值为1时表示男性,为0时表示女性;“target”的值为0时表示肝纤维化病变率低,为1时表示肝纤维化病变率高。

进一步地,所述步骤(5)中,将筛选后的训练集中的数值化病理特征输入进一维CNN卷积,卷积后的结果加入ProbSpare Self-attention层中,其中ProbSparse Self-Attention取代了标准的self-attention,多头自注意力层自主计算输入数据的自注意力权重,并分配权重,数据经过多头自注意力层处理,传输给全连接前馈神经网络;decoder接受encoder的输出结果与decoder第一个子层的输出结果,对数据进行层标准化处理,经过SoftMax层激活函数后最后得到患病与否的概率。

进一步地,所述步骤(6)中基于测试集和混淆矩阵计算模型的正确率和灵敏度对模型进行评估。

基于Cnn-former的肝纤维化病变检测模型训练系统,包括以下模块:

数据采集模块,用于获取电子病历,包括生化特征、生理特征和CT图像特征;

预处理模块,用于对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;

特征筛选模块,用于绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;并根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;

模型构建与训练模块,用于使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;

以及评估模块,用于对训练好的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。

基于Cnn-former的肝纤维化病变检测模型训练系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于Cnn-former的肝纤维化病变检测模型训练方法。

基于Cnn-former的肝纤维化病变检测系统,包括采用所述基于Cnn-former的肝纤维化病变检测模型训练方法得到的肝纤维化病变检测模型;以及检测模块,用于从患者体检的生化特征、生理特征和CT图像特征中提取出筛选的有效特征,输入肝纤维化病变检测模型得到是否患病的概率。

有益效果:与现有技术相比,本发明具有如下优点:

1、本发明整合了肝病生理、生化、影像特征信息,通过相关技术手段进行数据预处理,提高了数据的全面性和有效性,贡献了一份真实有效的肝病数据集。

2、本发明首次将Cnn-former与医疗领域的肝纤维化病变检测相结合,有效避免了传统深度学习必须结合MLP、RNN神经网络模型的弊端,在保障准确率的同时,可观地加快了计算效率。通过体检数据进行肝纤维化病变检测,避免了传统的“肝穿刺”方式给患者带来的生理与心理方面的负担,同时也减轻了医疗系统的负担。目前医疗AI已在医疗成像、体外诊断、辅助治疗等多个方面取得了实际应用,本发明紧跟科技发展前沿,基于实际新增临床医学数据预测模型,构建本土医疗数据库,助力AI医疗新发展。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例中根据相关系数绘制的特征热力图。

图3为本发明实施例中采用特征工程绘制的特征权重影响图。

图4为本发明实施例中改进的适用于肝纤维化病理特征数据的Cnn-former网络结构图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合附图和具体实施例,进一步阐述本发明。

如图1所示,本发明实施例公开的一种基于Cnn-former的肝纤维化检测模型训练方法,包括以下步骤:

(1)获取电子病历,包括生化特征、生理特征和CT图像特征,将其整理为CSV格式数据样表;

(2)对上述生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;

(3)绘制出Features Importance Plot特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选,去除掉无意义特征,保留下有效特征;

(4)根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证上述步骤(3)中筛选的特征是否有效,如果出现不一致,则针对该特征进行专家分析,根据专家分析结果决定是否将其判定为有效特征;

(5)使用Cnn-former构建肝纤维化病变检测模型,使用构建的训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征。其次,在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率。经实验证明,加入CNN一维卷积后的网络可以使得模型聚焦特征,快速完成收敛。

(6)对步骤(5)所获得的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。

具体地,步骤(1)中构建的数据集具有不同的表征方式,将人工收集到的电子病历经过统一化处理存入CSV数据集中,包含病历的生化特征、生理特征、CT图像特征。

步骤(2)中对数据进行分类,对文本数据与图像数据进行预处理,提取文本和图像中的特征,最终得到病理特征矩阵。具体处理过程包括:

(2.1)生理特征预处理:

(2.1.1)对所得数据样本的所有属性进行缺失值处理,主要字段采用均值插补的方法,如果字段可用常数度量,则使用该属性有效值的平均值来插补缺失值,如果该属性由数值等级度量,则使用该属性有效值的众数来插补缺失值;

(2.1.2)根据Z-Score标准化方法对步骤(2.1.1)得到的数据进行标准化处理,经过处理的数据符合标准正态分布,从而取消由于量纲不同引起的误差。

(2.1.3)基于Isolation Forest异常检测算法的思想,递归随机划分肝纤维化病变数据集并建立局部模型,其中每棵孤立树用来识别特定属性子样本。计算出每个样本点的异常得分进行排序,将异常得分接近于1的样本点断为异常点。将标记为异常点的样本点直接删除,从而去除分布稀疏且离密度高的群体较远的异常数据。

(2.2)生理特征预处理

对病理信息的医嘱、病情描述等部分,通过Lac工具完成自定义实体提取,获得“是否酗酒”、“是否有过刺痛感”等信息,再将特征处理为数据,例如:用0/1区分无酗酒/有酗酒,用1~12标定疼痛等级,将提取出的病理信息进一步转化为数据特征。

(2.3)CT图像信息预处理

(2.3.1)将已有图像按是否确诊为肝纤维化病变分为两个目录,并将两个目录下的图像均按9:1分成训练集和测试集。建立训练集文件和测试集文件记录目录图片路径,便于数据读取器读取。

(2.3.2)用python搭建ResNet网络并进行训练;

(2.3.3)使用训练好的ResNet网络对CT图像进行分类,将图像转化为疑似病例和未疑似病例,作为一维特征加入训练数据集中。

在得到数值化的病理特征数据集后,利用Pycaret工具进行特征工程分析,绘制Features Importance Plot图,根据特征影响权重调整特征,从而完成特征筛选工程。此外基于Spearman相关分析算法思想,衡量分级定序过后的肝纤维化属性等级变量之间的相关程度,获取其等级相关系数并评价其相关性,绘制相应热力图,从而辅助特征选择。在特征筛选出现不一致时,则进行专家分析,决定是否为有效特征,以确保数据分析的全面性和有效性(特征筛选过程辅助图如2、3)。

基于本发明的数据集,最终筛选得到以下特征:年龄(age)、性别(sex)、G值(肝炎炎症)、S值(炎症程度)、总胆红素(Total-bilirubin)、直接胆红素(Direct-bilirubin)、间接胆红素(Indirect-bilirubin)、总蛋白(Total-protein)、白蛋白(albumin)、球蛋白(globulin)、白球比(White-ball-ratio)、谷丙转氨酶(Alanine-aminotransferase)、谷草转氨酶(Aspartate-aminotransferase)、谷草/谷丙(Cereal-grass/grain-c)、碱性磷酸酶(Alkaline-phosphatase)、谷氨酰转肽酶(Glutamyl-transpeptidase)、总胆汁酸(Total-bile-acid)、前白蛋白(Prealbumin)、胆碱酯酶(Cholinesterase)、α岩藻糖苷酶(Alpha-Fucosidase)、乳酸脱氢酶

(Lactate-dehydrogenase)、尿素氮(Urea-Nitrogen)、肌酐(Creatinine)、尿酸(Uric-acid)、β微球蛋白(beta-microglobulin)、胱抑素C(Cystatin-C)、葡萄糖(glucose)、总胆固醇(Total-cholesterol)、甘油三酯(Triglycerides)、高密度胆固醇(High-density-cholesterol)、低密度胆固醇(Low-density-cholesterol)、甲胎蛋白(Alpha-fetoprotein)、III型前胶原PIIINP(Type-III-procollagen-PIIINP)、IV型胶原IV型胶原(IV-ColIV-Col)、层粘蛋白(LNLN)、透明质酸(HAHA)、红细胞(RBC)、血红蛋白(Hemoglobin)、白细胞(WBC)、中性粒细胞(Neutrophils)、淋巴细胞(Lymphocytes)、血小板(platelet)、凝血酶原时间(Prothrombin-time)、INR、免疫球蛋白(IgG)、免疫球蛋白(IgA)、免疫球蛋白(IgM)、补体C3、补体C4、纤维化(target)、有无酗酒史、有无其他肝病(例如:乙肝病史、脂肪肝病史)、体感疼痛等级、CT特征。

其中,“sex”的值为1时表示男性,为0时表示女性;“target”的值为0时表示肝纤维化病变率低,为1时表示肝纤维化病变率高。

传统的深度学习模型在处理一些长特征时存在如下不足:

(a)传统深度学习模型采用self-attention导致的二次计算复杂度,由于self-attention计算机制的操作,会导致我们模型的时间复杂度为O(L*L),L表示特征的长度。

(b)特征输入的内存瓶颈:J个encoder/decoder的叠加会导致内存的使用为O(J*L*L),预测输出的速度骤降,输入的特征越长,预测时间也就越长。

(c)模型不适配性,Informer模型作为自然语言处理领域的模型,在医疗深度学习预测任务上具有很大的不适配性,需要对模型进行一些适配改进,才能将其应用在医疗深度学习预测上。

为了解决这些问题,本发明步骤(5)中改进了一个有效的基于LSTF(长特征预测)模型Cnn-former,改进后的模型结构图如图4所示。改进包括:

(a)自注意机制,使用一种ProbSpare自注意机制来代替传统的自注意机制,使它在序列的依赖性对齐上具有更好的性能。通过self-attention蒸馏机制来缩短每一层的输入特征长度,从而降低计算量与空间复杂度,进而完成后续计算。

(b)去除最外层的词嵌入(Embedding)层以及相对位置编码层,将最后一层的激活函数由Softplus更改为SoftMax层,使得Cnn-former网络层可以输入病理特征,改进前的Informer网络用来解决自然语言处理领域的问题,需要对模型的框架进行修改,才能保证模型可以在本发明的任务中适用。

(c)在网络的最外层加入Cnn一维卷积层,可以使得网络识别主要特征,加快模型的收敛速度。

将筛选后的训练集中的数值化病理特征输入进一维CNN卷积,卷积后的结果加入ProbSpare Self-attention层中,数据经过多头自注意力层处理,传输给全连接前馈神经网络;decoder接受encoder的输出结果与decoder第一个子层的输出结果,对数据进行层标准化处理,经过SoftMax层激活函数后最后得到患病与否的概率。

步骤(6)中基于测试集和混淆矩阵计算模型的正确率、灵敏度等评价指标,比较多种模型在预测肝纤维化概率问题的性能,实现最终预测性能期望。证明本发明使用的基于Cnn-former的肝纤维化病变检测模型与传统模型相比具有较好的准确性和泛化性。具体地,评价方法为:

分类目标只有两类,计为正例(positive)和负例(negtive)分别是:

True positives(TP):被正确地划分为正例的个数,即将确诊患病的病理样本预测为患病;

False positives(FP):被错误地划分为正例的个数,即将未患病的病理样本预测为患病;

False negatives(FN):被错误地划分为负例的个数,即将实际患病的病理样本预测为未患病;

True negatives(TN):被正确地划分为负例的个数,即将未患病的病理样本预测为未患病。

然后根据上述两类分类目标计算如下评价指标:

(6.1)正确率(accuracy)

正确率accuracy=(TP+TN)/(P+N),代表正确预测患病与未患病的概率,是重点关注的评价指标,越高越好。

(6.2)灵敏度(sensitive)

灵敏度sensitive=TP/P,表示的是所有患病病例被分对的比例,衡量分类器对正例的识别能力,我们更关注于患病的预测概率,因而灵敏度也是重点评判指标。

表1模型评估结果表

由表1可以看出,本发明使用的Cnn-former模型相比于其他模型在各项评价指标上具有明显的优势。

基于相同的发明构思,本发明实施例公开的基于Cnn-former的肝纤维化病变检测模型训练系统,包括以下模块:

数据采集模块,用于获取电子病历,包括生化特征、生理特征和CT图像特征;

预处理模块,用于对生化特征进行缺失值补全、标准化处理以及异常检测处理,提取生理特征描述信息的自定义实体并转换为数值,通过二分类图像网络将CT图像分为是否疑似患病标签,将其作为一个特征加入训练数据集;训练数据集中的病理特征包括数值化的生化特征、生理特征和CT图像特征;

特征筛选模块,用于绘制特征权重影响图,根据图中特征对于分类标签的影响进行特征筛选;并根据Spearman相关系数计算所有特征的相关系数,将结果绘制为热力图,用于验证筛选的特征是否有效,如果出现不一致,则根据专家分析结果,决定是否将其判定为有效特征;

模型构建与训练模块,用于使用Cnn-former构建肝纤维化病变检测模型,使用训练数据集进行模型训练,其中Cnn-former是基于Informer模型改进的,在已有的Informer的基础上,去除掉最外层的词嵌入层以及相对位置编码层,使得Informer网络层可以输入病理特征;在最外层嵌入一个一维卷积层,训练集的输入先输入进一维CNN卷积,卷积后的结果加入ProbSpare self-attention层中,经过编码层与解码层,将最后的SoftPlus激活函数改为Softmax激活函数,得到患病的概率;

以及评估模块,用于对训练好的基于Cnn-former的肝纤维化病变检测模型进行测试和评估,验证其准确性。

基于相同的发明构思,本发明实施例公开的基于Cnn-former的肝纤维化病变检测模型训练系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于Cnn-former的肝纤维化病变检测模型训练方法。

本发明实施例还提供的基于Cnn-former的肝纤维化病变检测系统,包括采用所述基于Cnn-former的肝纤维化病变检测模型训练方法得到的肝纤维化病变检测模型;以及检测模块,用于从患者体检的生化特征、生理特征和CT图像特征中提取出筛选的有效特征,输入肝纤维化病变检测模型得到是否患病的概率。

相关技术
  • 基于Cnn-former的肝纤维化病变检测模型训练方法与系统
  • 基于人工神经网络的组织病变识别的训练方法及训练系统
技术分类

06120113820671