一种基于机器学习的布鲁氏菌病筛查率提升方法

文献发布时间：2023-06-19 18:37:28

技术领域

本发明涉及医疗数据处理技术领域，尤其是涉及一种基于机器学习的布鲁氏菌病筛查率提升方法。

背景技术

临床存在很多疾病在前期症状特征比较微弱，尤其有些重病的潜伏期隐秘，即使存在某些症状有时往往因为患者本身的认知不足导致疾病的耽误或错诊情况。以布鲁氏菌病(简称布病)为例，布病属于我国《传染病防治法》规定的乙类传染病，根据临床病程分为急、慢性期。急性期临床患者表现为非特异性的发热(包括低热)、乏力、多汗、肌肉、关节疼痛等症状，常易与其他发热性疾病，如：发烧，感冒、风湿病和结核病等混淆，临床难以早期诊断，这不仅使临床干预时间窗缩短，而且增大了转为慢性期并引发严重并发症的风险。另外，早期发现布病隐性感染者，亦是传染性疾病面临的挑战。为此，如何实现对非典型临床症状布病患者早期诊断以及早期筛查布病隐性感染者，是布病诊疗中亟待解决问题。影响疾病早期的临床诊断因素很多，一方面是患者本身的重视和意识程度，另一方面在临床诊断过程中针对某些疾病也会存在一定的漏诊错诊情况。

人工智能(AI)技术融合了多领域多学科的知识，是当今科技发展的代表性前沿技术。该技术在医学影像、病理、辅助决策等方面取得了长足的进展，许多AI产品已经从实验阶段过渡到了临床应用阶段。机器学习作为人工智能研究的核心技术，近年来在生物医学数据与图像的分析及识别、疾病预测、精准医学治疗等方面的研究已逐渐广泛。机器学习作为人工智能的重要技术手段，主要是从数据中学习处理复杂的任务，有较强的拟合能力，但同时对数据存在强依赖，即特征和数据量。当数据质量不佳时，模型也会对实际问题的解决存在偏误。其次摆脱临床属性的机器学习是不被客观接受和不受解释的。

疾病问卷在临床领域的意义非常重要，问卷即是一种“望闻问切”的另一种体现形式，医生了解患者基本情况后结合自己的临床医学经验，对患者疾病进行推断，那么问卷就是患者身体状况的基本体现，对患者的疾病诊断及程度鉴别具备很大的参考意义，对医生的诊断起到很大的辅助作用。但疾病问卷通常存在较大的人为因素，取决与被测患者自身的认知和态度，在大规模筛查中通常效果大打折扣。

发明内容

本发明的目的是提供一种基于机器学习的布鲁氏菌病筛查率提升方法，解决布鲁氏菌病筛查率低的问题。

为实现上述目的，本发明提供了一种基于机器学习的布鲁氏菌病筛查率提升方法，包括以下步骤：

S1、建立阳性倾斜模型，在训练模型中加重阳性权重，提升模型阳性检出率，报告阳性样本；

S2、阳性样本进入问卷调查环节；

S3、结合问卷调查结果及阳性患病概率，综合分析布鲁氏菌病的患病风险，并推送医生端。

优选的，建立阳性倾斜模型的具体步骤为：

S11、数据预处理，收集数据，并清洗处理数据，将数据处理为符合机器学习的结构化表格或矩阵类型的结构化数据，处理数据缺失值，处理异常数据；

S12、特征工程，从结构化数据中提取或增强与标签或问题相关的特征；

S13、模型训练，基于结构化数据及目标问题，利用算法对数据进行学习迭代，形成机器学习算法经验，用于问题的预测，形成模型；

S14、模型调优，基于效能指标和损失情况进行训练效果评估，如未达到预期则调优迭代，直至模型效果符合预期，模型训练成功。

优选的，所述S11中数据包括确诊为布鲁氏菌病的体检样本和非布鲁氏菌病人群体检样本；样本数据为血常规、患者年龄、性别，其中确诊为布鲁氏菌病的体检样本的血常规数据为首诊血常规。

优选的，所述S12具体步骤为：

S121、将所有类别维度数值化或编码化；

S122、为结构化数据增加标签列；

S123、对各个维度进行数据标准化；

S124、拆分训练集、测试集，对标准化完成后的数据按照9:1数量比例抽取训练集和测试集；

S125、存在类别数据不平衡时，利用过采样方法将数据取平。

优选的，所述S13具体为：基于特征工程后的数据利用神经网络训练分类任务，初始化网络参数，并设置模型轮次验证，观察模型初次训练效果；如存在验证集准确率、敏感度、特异度指标不理想，则增加神经元数量和网络深度进行增强，对compile方法内部及fit方法内部参数进行调整测试，提升模型效能。

优选的，所述S14具体为：设置预测阈值，在模型训练完成后，降低预测阈值来提升模型敏感度，使得模型偏向于阳性检出效能。

优选的，所述S2具体包括以下步骤：

S21、依据布鲁氏菌病的临床知识抽取其典型特征、流行病史作为问卷题目；

S22、抽取患有布鲁氏菌病的病例若干例和未患有布鲁氏菌病的病例若干例，对问卷进行测试，估算问卷对于疾病的区分效能、敏感度、特异度、准确率；

S23、为问卷划定分值范围，与疾病的风险相关联。

本发明所述的一种基于机器学习的布鲁氏菌病筛查率提升方法，将机器学习与问卷进行整合，首先通过阳性倾斜模型，提升模型阳性检出率。布病阳性的筛查率可以达到86％以上，阴性的筛查率达到90％以上。机器学习模型报告为阳性后，进入问卷环节，排出假阳性；从而提高了布鲁氏菌病筛查率。

具体实施方式

以下通过实施例对本发明的技术方案作进一步说明。

实施例

一种基于机器学习的布鲁氏菌病筛查率提升方法，包括以下步骤：

S1、建立阳性倾斜模型，在训练模型中加重阳性权重，提升模型阳性检出率，报告阳性样本。

用于评估患者指标是否具有患病风险，或是否患有某种疾病，属于机器学习有监督二分类问题。在二分类问题的模型训练过程中，可利用阈值调控、分类权重控制等手段，刻意使模型效能偏向于敏感度，即使模型偏向于阳性检出效能。这样做会使得模型在二分类的效能上出现不平衡，即损失特异性精度，故称作阳性倾斜模型。

建立阳性倾斜模型的具体步骤为：

基于Tensorflow2.0版本作为模型构建工具。

S11、数据预处理，收集数据，并清洗处理数据，将数据处理为符合机器学习的结构化表格或矩阵类型的结构化数据，处理数据缺失值，根据缺失情况进行直接剔除或填补；处理异常数据，即单位量纲不一致或存在取值异常的样本。

S11中数据包括确诊为布鲁氏菌病的体检样本N份，作为有监督二分类问题阳性类；非布鲁氏菌病人群体检样本M份，作为有监督二分类问题阴性类。整体数据量越大越好。

样本数据为血常规、患者年龄、性别，血常规为22项目，共计24个特征维度。血常规的项目及标准范围可以如表1所示：

表1血常规的项目及标准范围

其中确诊为布鲁氏菌病的体检样本的血常规阳性数据为首诊血常规，非首诊血常规数据可以存在用药经历致使血常规布病表征发生较大改变，从而影响模型的分类效能。阴性数据为抽取非布病患者的血常规数据，包括除布病外的健康或非健康人群。

S12、特征工程，从结构化数据中提取或增强与标签或问题相关的特征。

S12具体步骤为：

S121、将所有类别维度数值化或编码化，例如性能用0和1代替。

S122、为结构化数据增加标签列，即阳性样本标签为1，阴性样本标签为0。

S123、对各个维度利用正态标准化进行数据标准化；

S124、拆分训练集、测试集，对标准化完成后的数据按照9:1数量比例抽取训练集和测试集；

S125、如存在类别数据不平衡时，利用过采样方法将数据取平。

S13、模型训练，基于结构化数据及目标问题，利用算法对数据进行学习迭代，形成机器学习算法经验，用于问题的预测，形成模型。

S13具体为：基于特征工程后的数据利用神经网络训练分类任务，初始化网络参数，并设置模型轮次验证，观察模型初次训练效果；如存在验证集准确率、敏感度、特异度等指标不理想则，则增加神经元数量和网络深度进行增强。对compile方法内部及fit方法内部参数进行调整测试，提升模型效能。

部分参数不明确可设置网格搜索进行寻优。模型快速取优的思想是，先拟合再泛化。这里的拟合是指模型先要尽可能先拟合于训练集，以评估其模型对于数据的学习程度，间接评估模型参数初始设置是否合理，模型的拟合程度是否足够强。泛化是指模型对于测试集的效能对比于训练集是否相对稳定。过拟合后必然会存在泛化问题，即训练集精度高于测试集。泛化问题可通过删减网络节点来解决，如手动减少网络层数、减少神经元数量、添加dropout层。

S14、模型调优，基于效能指标和损失情况进行训练效果评估，如未达到预期则调优迭代，直至模型效果符合预期，模型训练成功。

S14具体为：设置预测阈值，在模型训练完成后，降低预测阈值来提升模型敏感度，使得模型偏向于阳性检出效能。尽可能不让模型漏掉阳性样本，但阈值每做下降调整将降低模型特异度，导致假阳性结果增多。但阈值调控对二者的影响基本符合线性规律。在不同的疾病上降低阈值后敏感度的提升和特异度的下降是不同的。所以具体阈值设置要在调整后结合测试集评估每次调整后敏感度和特异度的变化。根据敏感度的提升率和特异度的下降率寻得最合理的阳性倾斜阈值。

采用上述阳性倾斜模型训练方法对8000例布病阳性样本和100万例非布病样本(除布病以外的健康或非健康人群)进行筛查，得到的模型效能指标如表2所示：

表2模型效能指标

由表2的模型效能指标可以看出上述阳性倾斜模型对布病阳性的筛查率可以达到86％以上，阴性的筛查率达到90％以上。

S2、阳性样本进入问卷调查环节。

S2具体包括以下步骤：

S21、依据布鲁氏菌病的临床知识抽取其典型特征、流行病史作为问卷题目。问卷在该方案中起到部分的辅助作用，并非决定因素。根据题目重要程度具体题目分值，进而确定题目下选项分值。

布鲁氏菌病问卷内容依据以下文件综合评估得出，主要参考文件如下：

《布鲁氏菌病诊断》

《呼伦贝尔地区布鲁氏菌病流行特征和布鲁氏菌三种血清学检测方法分析》

《27例神经型布鲁杆菌病的临床分析》

《342例布鲁氏菌感染者检测资料分析_张丽芳》

《1028例布鲁氏菌病的临床表现及并发症：回顾性评价及文献回顾》

《2012—2019年伊犁州人间布鲁氏菌病流行特征分析_陈志胜》

《2016—2020年北京市房山区布鲁氏菌病监测分析_李海娇》

《2018-2020年内蒙古自治区人间布鲁氏菌病流行特征分析》

《全国布鲁氏菌病检测工作方案》

《内蒙古自治区综合疾病预防控制中心》。

布鲁氏菌病的调查问卷如下图所述：

1.您是否反复多次出现高热后体温逐渐下降到正常水平，持续几天后又逐渐升高的情况(波状热)？30分

A.是 B.否

2.您是否有以下症状：44分

(1)游走性关节疼痛(腰、胯、膝盖、背、脚踝等)10

注：一会儿这疼一会儿那疼

(2)乏力9

(3)肌肉酸痛、头疼9

(4)多汗(夜间出汗)8

(5)睾丸肿大、疼痛、肿胀4

(6)间断或持续数日乃至数周发热(包括低热)4

(7)以上均无0

3.您或您家人是否从事以下职业：34分

(1)农民或牧民14

(2)布病疫苗生产与物流从业人员10

(3)畜牧业相关从业人员(兽医、牛羊屠宰、贩卖及加工肉、奶、皮毛等产品)10

(4)其他0

4.您近年来有牛羊饲养、挤奶、无防护接生、宰割等牛羊接触经历？7分

A.经常5 B.偶尔2 C.从未0

5.您是否食用过未熟的牛羊肉、生奶及奶制品？15分

A.经常9 B.偶尔6 C.从未0

其中分值设置以症状、职业、流调信息设计题目，并参考文献根据其重要性进行排序。具体分值设计依据先设置题目分数再设计选项分数而定，最终在敲定题目权重之后初定阈值，利用实际阳性样本进行测试。如表3所示，

表3临床类型分类病例的症状和发现

b黄疸：总胆红素≥2.5mg/dl。

发热：急性时波浪热(≥38℃)；慢性是低热

+：出现的症状、表现

对上表按照症状出现的情况进行降序排序，选取最常见症状作为选项，并根据排序赋予分值。

S22、抽取患有布鲁氏菌病的病例若干例和未患有布鲁氏菌病的病例若干例，对问卷进行测试，估算问卷对于疾病的区分效能、敏感度、特异度、准确率。

选取阳性样本27例，阴性样本10例，对上述调查问卷进行测试，阳性病例统计结果如表4所述：

表4阳性病例统计结果

阴性病例统计结果如表5所述：

表5阴性病例统计结果

S23、为问卷划定分值范围，与疾病的风险相关联。

表2和表3中，其中27例阳性均值为47分，10例阴性均值为11.4分，两者均值为29.2分，所以最终阈值定为30分。在阈值为30分的情况下，阳性样本27例中检出25例，阴性样本10例全部检出。

S3、结合问卷调查结果及阳性患病概率，综合分析布鲁氏菌病的患病风险，并推送医生端。

当模型预测某样本结果为阳性时将阳性样本推送至问卷端，问卷端对接患者进行问卷测试。得出问卷测试分后，结合模型报阳概率值进行进一步判断。医生可对模型输出概率和问卷分值进行阈值设置，例如当某样本概率达到某值且问卷分达到某分即推送阳性信息，系统评估只是根据模型和问卷的量化结果，提供逻辑关系设置的功能。具体判断依据此处不设置标准。从模型角度看，模型只实现初步筛查，找出在机器学习过程所囊括的特征偏向阳性的样本，概率值越高表明其在当前特征下阳性相似率越高。从问卷角度看，问卷的主要目的是进一步根据问卷反应的疾病表征依据疾病临床特征进行进一步过滤，进行精确滤除。系统报告规则由系统使用者掌握，最终的处决权由系统使用者掌握。

可以通过现有的系统日志、短信、邮件等方式将消息推送给医生端。

因此，本发明采用上述基于机器学习的布鲁氏菌病筛查率提升方法，能够解决布鲁氏菌病筛查率低的问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈超;宋彪;冯祥;
专利申请人：内蒙古卫数数据科技有限公司;