掌桥专利:专业的专利平台
掌桥专利
首页

面向深度学习的医学影像分类模型公平性评估方法及装置

文献发布时间:2024-04-18 19:53:33


面向深度学习的医学影像分类模型公平性评估方法及装置

技术领域

本发明涉及计算机视觉技术和算法治理领域,具体涉及一种面向深度学习的医学影像分类模型公平性分析方法及装置。

背景技术

人工智能技术在赋能行业发展的同时,也引发了一系列的伦理冲突议题,如算法偏见,因此研究算法公平性是一个极具意义的方向。算法公平性指的是在算法的设计和应用过程中,确保决策和预测不对特定群体产生不公平的影响。

算法在给医疗领域进步与发展带来重大利好的同时,也带来了以算法偏见为代表的隐患。在医疗领域,算法的公平性意味着这些算法应该在面对所有个体应用时遵循公正的标准,避免对不同人群施加任何形式的偏见。如果算法基于患者身份信息中的相关因素对患者进行评估,而非基于科学和客观的医学指标,就会带来不准确和偏见的诊断结果。因此,一些患者可能被错误地诊断或漏诊,从而延误了治疗的时机,给他们的生命和健康造成风险。

现有的深度学习算法在医疗诊断场景中取得了重要的技术突破,能够较好地辅助医生完成疾病的评估,实现快速精准的医学判断。但是同时也存在一些问题,例如:难追溯性、过程难以理解性、结果不确定性和数据驱动性的技术特征使得模型的决策结果模糊性太高,也难以公平驱动系统运行。

综上所述,基于深度学习算法在医学影像上实现智能诊断,在保证模型准确度的情况下,能够综合评估模型是否公平,以及追溯造成不公平诊断的原因是一个亟待解决的问题。

发明内容

本发明提供一种面向深度学习的医学影像分类模型公平性评估方法及装置,在保证模型准确度的情况下,能够有效地评估模型的公平性。

为此,本发明提供如下技术方案:

一种面向深度学习的医学影像分类模型公平性评估方法,所述方法包括:

采集患者X光影像,所述患者X光影像中包括一个或多个标签;

构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息,获取患者身份信息需经患者同意或授权;

利用所述训练数据集训练得到基于深度学习的患病预测模型;

利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;

根据所述测试结果确定模型的公平性。

可选地,所述构造单标签二分类数据集包括:

从所述患者X光影像中筛选出具有设定标签的X光影像,生成二分类数据集;所述设定标签用于标识所述患者是否患有设定疾病;

以患者编号为主键进行多表关联,获得所述二分类数据集中各患者的相关信息;所述相关信息包括:患者X光影像、患病信息、以及身份信息;

对所述设定标签进行编码,得到编码信息;

根据所述二分类数据集及所述编码信息构造单标签二分类数据集,所述单标签二分类数据集中的每一条数据样本包括:所述X光影像信息、患者信息、以及所述设定标签的编码信息。

可选地,所述构造单标签二分类数据集还包括:

以所述患者编号为索引对所述单标签二分类数据集中的数据样本进行去重处理;

剔除所述单标签二分类数据集中患者X光影像尺寸小于设定值的数据样本,并将所有患者X光影像转换成统一模式;

对所述单标签二分类数据集中的患者X光影像进行变换,实现数据样本增强。

可选地,所述对所述单标签二分类数据集中的患者X光影像进行变换包括以下任意一种或多种:随机水平翻转、随机仿射变换、随机锐度调整和随机旋转。

可选地,所述利用所述训练数据集训练得到基于深度学习的患病预测模型包括:

利用所述训练数据集训练多种不同的基于深度学习的患病预测模型;

从所述多种不同的基于深度学习的患病预测模型选择最优模型。

可选地,所述利用所述训练数据集训练多种不同的基于深度学习的患病预测模型包括:

基于以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;

将原始激活函数替换成适合二分类算法的Sigmoid函数,利用所述训练数据集训练得到对应的患病预测模型。

可选地,所述利用所述训练数据集训练得到基于深度学习的患病预测模型还包括:

从所述多种不同患病预测模型选择最优模型之前,对所述多种不同患病预测模型进行优化;或者

对选择的最优模型进行优化。

可选地,所述身份信息中包括多种不同敏感属性;

所述根据所述测试结果确定模型的公平性包括:

对不同敏感属性及敏感属性组合分别计算加权误分类率;

根据所述加权误分类率确定模型的公平性。

可选地,按以下方式计算各组的加权误分类率:

其中,

可选地,所述根据所述测试结果确定模型的公平性还包括:

根据所述测试结果构建混淆矩阵;

根据所述混淆矩阵计算公平性评价指标参数,所述公平性评价指标参数包括以下任意一种或多种:真阳性率、正预测值、负预测值、误报率、错误发现率、错误遗漏率;

根据所述公平性评价指标参数确定模型是否违反公平性准则,所述公平性准则包括以下任意一种或多种:分离性准则、充分性准则、独立性准则;其中:

所述分离性准则是指在敏感组之间的假阳性率和假阴性率不同时,模型违反分离性准则;

所述充分性准则是指在敏感组之间的错误发现率或错误遗漏率不平衡时,模型违反充分性准则;

所述独立性准则是指在所有敏感组的预测阳性或等效预测阳性分数不相同时,模型违反独立性准则。

可选地,所述根据所述公平性评价指标参数确定模型是否违反公平性准则包括:

利用ROC曲线确定模型在选取不同阈值时各敏感组的敏感性和特异性的趋势走向,根据所述趋势走向确定模型是否违反所述分离性准则;

利用校准曲线分析模型预测概率和实际概率的一致性,确定模型是否违反所述充分性准则;所述校准曲线以每个敏感组中所有样本预测概率的平均值为横坐标,每个敏感组内阳例的概率为纵坐标;

利用正预测值或负预测值分析各组的预测阳性率或预测阴性率,确定模型是否违反独立性准则。

一种面向深度学习的医学影像分类模型公平性评估装置,所述装置包括:

数据采集模块,用于采集患者X光影像,所述患者X光影像中包括一个或多个标签;

数据集生成模块,用于构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;

模型训练模块,用于利用所述训练数据集训练得到基于深度学习的患病预测模型;

测试模块,用于利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;

公平性评估模块,用于根据所述测试结果确定模型的公平性。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行前面所述面向深度学习的医学影像分类模型公平性评估方法的步骤。

本发明提供的面向深度学习的医学影像分类模型公平性评估方法及装置,将问题转化为“患病”和“未患病”的二分类问题,构造单标签二分类数据集并将其分为训练数据集和测试数据集,利用训练数据集训练深度学习模型对患者X光影像进行患病预测,利用测试数据集对模型进行测试,根据测试结果确定模型的公平性。由于数据集中包含了患者的身份信息,因此根据模型的测试结果和患者的敏感属性信息,对模型的公平性进行有效地评估。

进一步地,通过多模型对比,选择最优预测模型,从而尽可能提升模型分类准确度。在保证模型分类结果准确性的基础上,可以使对模型公平性的评估结果更准确。

进一步地,基于最优模型的推理结果结合患者的其他敏感属性构建混淆矩阵与公平评估指标,多层次多维度分析模型面向不同评估指标的分类是否公平,而且还可追溯造成不公平分类的敏感属性。

附图说明

图1是本发明提供的面向深度学习的医学影像分类算法公平性评估方法的一种流程图;

图2是本发明实施例中构造单标签二分类数据集的一种流程图;

图3是本发明提供的面向深度学习的医学影像分类算法公平性评估装置的一种结构示意图。

具体实施方式

为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。

如图1所示,是本发明实施中面向深度学习的医学影像分类算法公平性评估方法的一种流程图,包括以下步骤:

步骤101,采集患者X光影像,所述患者X光影像中包括一个或多个标签。

步骤102,构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息。需要说明的是,获取患者身份信息需经患者同意或授权。

步骤103,利用所述训练数据集训练得到基于深度学习的患病预测模型。

步骤104,利用所述测试数据集对所述患病预测模型进行测试,得到测试结果。

步骤105,根据所述测试结果确定模型的公平性。

如图2所示,是本发明实施例中构造单标签二分类数据集的一种流程图,包括以下步骤:

步骤201,从所述患者X光影像中筛选出具有设定标签的X光影像,生成二分类数据集;所述设定标签用于标识所述患者是否患有设定疾病。

步骤202,以患者编号为主键进行多表关联,获得所述二分类数据集中各患者的相关信息;所述相关信息包括:患者X光影像、患病信息、以及身份信息。

其中,身份信息中包括多种不同敏感属性。

步骤203,对所述设定标签进行编码,得到编码信息。

比如,可以采用U-zeros编码方式对是否患病标签进行编码。

步骤204,根据所述二分类数据集及所述编码信息构造单标签二分类数据集,所述单标签二分类数据集中的每一条数据样本包括:所述X光影像信息、患者信息、以及所述设定标签的编码信息。

进一步地,为了提高单标签二分类数据集中的数据质量,还可对数据集中数据进行去重、筛选、增强等处理。比如:

以所述患者编号为索引对所述单标签二分类数据集中的数据样本进行去重处理;

剔除所述单标签二分类数据集中患者X光影像尺寸小于设定值(比如尺寸小于(224,224))的数据样本,并将所有患者X光影像转换成统一模式;

对所述单标签二分类数据集中的患者X光影像进行变换,实现数据样本增强。比如可以采用以下任意一种或多种变换方式:随机水平翻转、随机仿射变换、随机锐度调整和随机旋转等。

在上述步骤103中利用所述训练数据集训练基于深度学习的患病预测模型时,可以采用多种方式确定最终模型。在训练基于深度学习的患病预测模型时,选取相应的网络结构后,可以将原始激活函数替换成适合二分类算法的Sigmoid函数,利用所述训练数据集训练得到对应的患病预测模型。

比如,在一种非限制性实施例中,可以选取一种神经网络,比如DenseNet-121网络,将其作为特征提取器进行迭代训练,基于手动设置一组待优化的超参数候选值列表,对所极的参数进行穷举搜索,并使用Early-Stopping方式防止模型训练过拟合,最终选择具有最佳性能的参数组合作为DenseNet-121最优模型的超参数。

再比如,在另一种非限制性实施例中,可以利用所述训练数据集训练多种不同的基于深度学习的患病预测模型;从所述多种不同患病预测模型选择最优模型。进一步地,还可以从所述多种不同患病预测模型选择最优模型之前,对所述多种不同患病预测模型进行优化;或者对选择的最优模型进行优化。

比如,选取以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;在不更改任何参的情况下分别训练多种模型,从中选取一个最优模型使用网络搜索的方式进行不同参数组合的穷举搜索,并使用Early-Stopping方式防止模型训练过拟合,最终得到适用于本训练数据集的最优模型。

再比如,选取以下任意两种或多种网络结构作为特征提取器:ResNet-152、Inception-v4、SE-ResNeXt-101、DenseNet-121;用Optuna自动地选择最优的超参数组合,采用二进制交叉熵损失对网络进行训练,在相同训练集和验证集上进行多种模型对比,选出适用于本训练数据集的最优模型。

在选择最优模型时,可以根据相应的混淆矩阵进行选择。所述混淆矩阵可以表示如下表1所示,其中TP为将正类预测为正类的数量,FN为将正类预测为负类的数量,FP为将负类预测为正类的数量,TN为将负类预测为负类的数量。

表1

基于上述混淆矩阵,使用

比如,选出的最优分类模型为卷积神经网络DenseNet-121。

相应地,利用所述测试数据集对该卷积神经网络DenseNet-121进行测试,得到测试结果,然后可以根据测试结果确定模型的公平性。

在本发明方案中,对模型的公平性的评价可以从多种不同角度进行综合判断。

比如,在一种非限制性实施例中,可以对不同敏感属性及敏感属性组合分别计算加权误分类率(WMR);根据所述加权误分类率确定模型的公平性,根据不同组的WMR值还可确定不公平的程度。

WMR的计算公式如下:

其中,

也就是说,需要根据测试结果统计各组的假阳数量和假阴数量、以及观测次数,计算各组的WMR。如果不同组的WMR值相差较大,比如大于设定的阈值,则确定该模型存在不公平性。进一步地,根据两组WMR的差值,还可判断模型存在不公平的程度,差值越大,不公平的程度越高。

再比如,在另一种非限制性实施例中,还可根据所述测试结果构建上述表1所示的混淆矩阵,根据所述混淆矩阵计算公平性评价指标参数,所述公平性评价指标参数包括以下任意一种或多种:真阳性率(TPR)、正预测值(PPV)、负预测值(NPV)、误报率(FPR)、错误发现率(FDR)、错误遗漏率(FOR);基于所述公平性评价指标参数确定模型是否违反公平性准则,所述公平性准则包括以下任意一种或多种:分离性准则、充分性准则、独立性准则。下面对这三种情况分别进行说明。

(1)所述分离性准则是指在敏感组之间的假阳性率和假阴性率不同时,模型违反分离性(separation)准则。

对于是否违反分离性准则的判断,可以利用ROC (receiver operatingcharacteristiccurve,受试者工作曲线,又称为感受性曲线)确定模型在选取不同阈值时各敏感组的敏感性和特异性的趋势走向,根据所述趋势走向确定模型是否违反所述分离性准则。

ROC曲线是医学诊断试验、预测模型性能区分度评价的最核心指标。ROC曲线代表了无数个分类器。ROC曲线的横坐标和纵坐标不具有相关性,可以将ROC曲线看成是无数个点,每个点都代表一个分类器,每个点对应的x、y轴代表了这个分类器的性能。ROC曲线就是分类器性能随着阈值的变化而变化的过程。

例如,以特征性别

在本发明实施例中,ROC曲线是以TPR为纵坐标,FPR为横坐标绘制的。ROC曲线下的面积越大,表示模型的分离性越好。

FPR和TPR的计算公式如下:

式中,

所述真阳是指将“患有疾病”预测为“患有疾病”的数量;假阳是指将“未患疾病”预测为“患有疾病”的数量。

(2)所述充分性(sufficiency)准则是指在敏感组之间的错误发现率或错误遗漏率不平衡时,模型违反充分性准则。

对于是否违反充分性准则的判断,可以利用校准曲线(Calibrationcurve)分析模型预测概率和实际概率的一致性,确定模型是否违反充分性准则。所述校准曲线是实际发生率和预测发生率的散点图,以每个敏感组中所有样本预测概率的平均值为横坐标,每个敏感组内阳例的概率为纵坐标。

在本发明实施例中,校准曲线横坐标为预测发生率,纵坐标为实际发生率,通过绘制出来的曲线可以观测出不同敏感组的错误遗漏率和错误发现率,从而进一步判断是否违背了充分性准则。

校准曲线能够显示阈值对错误遗漏率(FOR)和错误发现率(FDR)的影响,可以看出哪些敏感组的错误遗漏率更高,从而判断是否违背了充分性准则,并追溯违背充分性准则的敏感属性。

FDR和FOR的计算公式如下:

(3)所述独立性准则是指在所有敏感组的预测阳性或等效预测阳性分数不相同时,模型违反独立性准则。

具体地,可以利用正预测值(PPV)或负预测值(NPV)分析各组的预测阳性率或预测阴性率,确定模型是否违反充分性准则。

PPV和NPV的计算公式如下:

需要说明的是,在具体应用中,可以根据应用需求,对模型的公平性进行多角度的分析,对此本发明实施例不做限定。

本发明提供的面向深度学习的医学影像分类模型公平性评估方法及装置,将问题转化为“患病”和“未患病”的二分类问题,构造单标签二分类数据集并将其分为训练数据集和测试数据集,利用训练数据集训练深度学习模型对患者X光影像进行患病预测,利用测试数据集对模型进行测试,根据测试结果确定模型的公平性。由于数据集中包含了患者的身份信息,因此根据模型的测试结果和患者的敏感属性信息,对模型的公平性进行有效地评估。

相应地,本发明实施例还提供一种面向深度学习的医学影像分类模型公平性评估装置,如图3所示,是该装置的一种结构示意图。

该装置300包括以下各模块:

数据采集模块301,用于采集患者X光影像,所述患者X光影像中包括一个或多个标签;

数据集生成模块302,用于构造单标签二分类数据集,并将所述单标签二分类数据集分为训练数据集和测试数据集;所述单标签二分类数据集中的数据样本包括患者身份信息;

模型训练模块303,用于利用所述训练数据集训练得到基于深度学习的患病预测模型;

测试模块304,用于利用所述测试数据集对所述患病预测模型进行测试,得到测试结果;

公平性评估模块305,用于根据所述测试结果确定模型的公平性。

上述各模块的具体实现方式可参见前面本发明方法实施例中的描述,在此不再赘述。

本发明实施例中出现的“多个”是指两个或两个以上。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语 “包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的模块和单元可以是或者也可以不是物理上分开的,即可以位于一个网络单元上,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

在具体实施中,关于上述实施例中描述的各个装置、产品包含的各个模块/单元,其可以是软件模块/单元,也可以是硬件模块/单元,或者也可以部分是软件模块/单元,部分是硬件模块/单元。

例如,对于应用于或集成于芯片的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于芯片模组的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于芯片模组内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现;对于应用于或集成于终端的各个装置、产品,其包含的各个模块/单元可以都采用电路等硬件的方式实现,不同的模块/单元可以位于终端内同一组件(例如,芯片、电路模块等)或者不同组件中,或者,至少部分模块/单元可以采用软件程序的方式实现,该软件程序运行于终端内部集成的处理器,剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理布置,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的部分步骤。

以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统,其仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围,本说明书内容不应理解为对本发明的限制。因此,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 可弯曲电子设备、可弯曲电子设备的控制方法、装置及电子设备
  • 电子设备的显示屏盖板、电子设备及电子设备的控制方法
  • 印刷布线板制造装置、印刷布线板、印刷布线板制造方法以及电子设备
  • 电子设备和电子设备的布线方法
技术分类

06120116336470