掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的PD-1/PD-L1病理图片识别方法和装置

文献发布时间:2023-06-19 11:11:32


一种基于深度学习的PD-1/PD-L1病理图片识别方法和装置

技术领域

本发明涉及图像识别技术和医疗技术领域,具体涉及一种基于深度学习的PD-1/PD-L1病理图片识别方法和装置。

背景技术

肿瘤是世界第一大病,肿瘤免疫疗法是一种通过重启并维持机体的肿瘤免疫循环,恢复机体正常的抗肿瘤免疫反应,从而控制与清除肿瘤的治疗方法。免疫细胞(如T细胞、B细胞及髓系细胞)会表达程序性死亡蛋白1(programmed death 1,PD-1)对抗肿瘤细胞,而肿瘤细胞为抵抗免疫细胞对其攻击,则会产生该蛋白的相应配体,称为程序性死亡分子配体-1(programmed death ligand 1,PD-L1)。PD-L1与PD-1结合会产生一个分子信号,该信号会降低免疫细胞的活性,从而阻断了免疫细胞对肿瘤细胞的攻击,对人体免疫应答起到负调节作用。PD-1/PD-L1抗体药能够与免疫细胞的PD-1蛋白或者肿瘤细胞产生的PD-L1分子结合,使PD-1无法与PD-L1结合,从而使免疫细胞保持杀肿瘤细胞活性。PD-L1和PD-L1蛋白的表达与多种肿瘤直接相关。针对多种肿瘤的PD-1/PD-L1抗体药已在进行临床试验或者获得上市批准,包括黑色素瘤、肺癌、肾癌、膀胱癌、胃癌、卵巢癌、肝癌、乳腺癌、结直肠癌等。

可以通过免疫组织化学染色法(IHC)来检测PD-1/PD-L1蛋白的表达情况,但目前对IHC染色图片的判读主要还是依靠人工肉眼来判读PD-1/PD-L1蛋白IHC染色图片所指示的阴阳性。这样做很耗人力和时间,并且肉眼判读存在主观性和受个人精神状况影响,使得结果可能出错或不稳定。近年来随着深度学习模型的发展,使用深度学习的工作环境成本不断下降,使用门槛降低,这使得在普通实验室搭建深度学习环境和利用其工作成为可能。但是,本领域仍没有基于深度学习的PD-1/PD-L1病理图片识别方法和装置。

发明内容

鉴于近年来深度学习在图像识别上的进展,本发明的目的在于提供一种基于深度学习的PD-1/PD-L1病理图片识别方法和装置,解决目前人为识别判读存在主观性和受个人精神状况影响,使得结果可能出错或不稳定的问题。

因此,在一个方面,本发明提供一种基于深度学习的PD-1/PD-L1病理图片识别方法,该方法包括以下步骤:

S1:构建深度残差网络模型;

S2:获取经人工标记的PD-1/PD-L1免疫组织化学染色图片;

S3:在该深度残差网络模型上用该经人工标记的PD-1/PD-L1免疫组织化学染色图片构建PD-1/PD-L1病理染色图片识别模型,包括以下分步骤:

S31:图片处理分步骤,将该经人工标记的PD-1/PD-L1免疫组织化学染色图片进行处理,包括将图片分为训练集和验证集,其中对训练集的PD-1/PD-L1病理染色图片进行数据扩充以产生更多的图片,将图片归一化成相同的像素大小,并将图片转换成RGB数字信号读入生成numpy数组;

S32:模型训练分步骤,用该训练集对该深度残差网络模型进行训练,确定训练系数;设置该深度残差网络模型最后一个全连接层的权值为“可训练”,其余层的权值为“不可训练”,使用该训练系数对该深度残差网络模型进行初步训练;设置该深度残差网络模型的全部层的权值为“可训练”,使用以该训练系数为起始的逐步衰减的训练系数,对该深度残差网络模型进行全参数训练;用该训练集的PD-1/PD-L1病理染色图片的扩充图片再次进行全参数训练,得到经训练的深度残差网络模型;

S33:模型验证分步骤,用该验证集对该经训练的深度残差网络模型进行验证,最终构建出该PD-1/PD-L1病理染色图片识别模型;

S4:用该PD-1/PD-L1病理染色图片识别模型识别待测患者的PD-1/PD-L1病理图片。

进一步地,在该方法的S1步骤中,该深度残差网络模型为经使用大量的图片集作为预训练数据集进行了预训练的深度残差网络模型。

进一步地,在该方法的S1步骤中,该深度残差网络模型为34层的深度残差网络模型。

进一步地,在该方法的S2步骤中,该经人工标记的PD-1/PD-L1免疫组织化学染色图片的标记方法为:判断并计算肿瘤细胞数占总细胞数的百分比,该百分比大于1%标记为阳性,否则标记为阴性。

进一步地,在该方法的S32步骤中,该训练系数为0.01,该逐步衰减的训练系数分别为0.01、0.001、0.0001。

在第二方面,本发明提供一种基于深度学习的PD-1/PD-L1病理图片识别装置,该装置包括以下模块:

M1:深度残差网络模型构建模块;

M2:经人工标记的PD-1/PD-L1免疫组织化学染色图片获取模块;

M3:PD-1/PD-L1病理染色图片识别模型构建模块,用于在该深度残差网络模型上用该经人工标记的PD-1/PD-L1免疫组织化学染色图片构建PD-1/PD-L1病理染色图片识别模型,包括以下分模块:

M31:图片处理模块,用于将该经人工标记的PD-1/PD-L1免疫组织化学染色图片进行处理,包括将图片分为训练集和验证集,其中对训练集的PD-1/PD-L1病理染色图片进行数据扩充以产生更多的图片,将图片归一化成相同的像素大小,并将图片转换成RGB数字信号读入生成numpy数组;

M32:模型训练模块,用于用该训练集对该深度残差网络模型进行训练,确定训练系数;设置该深度残差网络模型最后一个全连接层的权值为“可训练”,其余层的权值为“不可训练”,使用该训练系数对该深度残差网络模型进行初步训练;设置该深度残差网络模型的全部层的权值为“可训练”,使用以该训练系数为起始的逐步衰减的训练系数,对该深度残差网络模型进行全参数训练;用该训练集的PD-1/PD-L1病理染色图片的扩充图片再次进行全参数训练,得到经训练的深度残差网络模型;

M33:模型验证模块,用于用该验证集对该经训练的深度残差网络模型进行验证,最终构建出该PD-1/PD-L1病理染色图片识别模型;

M4:图片识别模块,用于用该PD-1/PD-L1病理染色图片识别模型识别待测患者的PD-1/PD-L1病理图片。

进一步地,在该装置中,该深度残差网络模型构建模块包括预训练模块,用于使用大量的图片集作为预训练数据集对该深度残差网络模型进行预训练。

进一步地,在该装置中,该深度残差网络模型为34层的深度残差网络模型。

进一步地,在该装置中,该经人工标记的PD-1/PD-L1免疫组织化学染色图片的标记方法为:判断并计算肿瘤细胞数占总细胞数的百分比,该百分比大于1%标记为阳性,否则标记为阴性。

在第三方面,本发明提供一种计算机设备,该计算机设备包括存储器、处理器和存储在该存储器中并可在该处理器中运行的计算机程序,其中该计算机程序用于执行根据本发明第一方面的基于深度学习的PD-1/PD-L1病理图片识别方法。

在第四方面,本发明提供一种计算机可读存储介质,该计算机可读存储介质存储有用于执行根据本发明第一方面的基于深度学习的PD-1/PD-L1病理图片识别方法的计算机程序。

本发明利用PD-1/PD-L1病理平台和深度残差网络模型,使用经由人工判断阴阳性的PD-1/PD-L1 IHC病理染色图片数据训练,得到一个能够判断病人PD-1/PD-L1 IHC病理染色图片阴阳性结果的人工智能识别模型。该模型能够正确、快速、稳定地判断病人体内的PD-1/PD-L1是否存在阳性表达,判断结果达到人类水平,可以解决人工判断时耗费人力精力并且结果带有主观性和不稳定因素的问题,可以用来代替人工判断,给出更快捷的应答和更准确稳定的结果。

需要说明的是,本发明所涉及的PD-1/PD-L1病理图片识别,判断结果仅仅为中间结果,不能直接用于诊断疾病,还需要结合其他的检测指标才能指导后续进一步实验验证和/或免疫治疗。本发明的方法针对肿瘤患者等受试者,但该方法本身并不以获取受试者的患病信息作为直接目的。事实上,受试者的患病信息在进行本发明的识别方法之前已经确认,本发明的方法的目的在于代替人工识别PD-1/PD-L1病理图片。因此,本发明的方法不属于疾病的诊断和治疗方法的范畴。

本发明也适用于非诊断、治疗目的的PD-1/PD-L1检测,例如,在一些实施例中,本发明可用于PD-1/PD-L1通路相关疾病的现有药物或新候选药物的筛选。

附图说明

图1显示本发明的基于深度学习的PD-1/PD-L1病理图片识别方法的示意性流程图;

图2显示本发明的基于深度学习的PD-1/PD-L1病理图片识别装置的示意性模块组成图;

图3显示本发明中使用的深度残差网络模型的示意图;

图4显示本发明示例性实例中使用的代表性的肿瘤PD-1/PD-L1 IHC病理图片;

图5显示本发明示例性实例中进行数据扩充后产生的代表性的PD-1/PD-L1病理图片;

图6显示本发明示例性实例中构建的PD-1/PD-L1病理染色图片识别模型对PD-1/PD-L1 IHC病理图片的预测准确度。

具体实施方式

下面通过具体实施方式并结合附图对本发明作进一步详细阐述。应指出的是,本文中所使用的所有科学用语与专业术语与本领域熟练人员所熟悉的意义相同,除非另有定义。

本发明提供了一种基于深度学习的PD-1/PD-L1病理图片识别方法,可以用于自动判断人体组织中PD-1/PD-L1是否表达。该方法包括S1步骤:构建深度残差网络模型;S2步骤:获取经人工标记的PD-1/PD-L1免疫组织化学染色图片;S3步骤:在该深度残差网络模型上用该经人工标记的PD-1/PD-L1免疫组织化学染色图片构建PD-1/PD-L1病理染色图片识别模型;S4步骤:用该PD-1/PD-L1病理染色图片识别模型识别待测患者的PD-1/PD-L1病理图片。其中S3步骤还包括多个分步骤。以下结合本发明的一个示例性实例对本发明方法的各步骤进行详细说明。

S1步骤:构建深度残差网络模型

深度残差网络是卷积神经网络的发展,卷积层与输出层之间有连接,使数据传递避免梯度消失,使得网络层数可以做到很大。深度残差网络对图像识别具有高准确度和效率,本发明选择深度残差网络来构建基于深度学习的PD-1/PD-L1病理图片识别模型。在本发明的示例性实例中,选择一个34层的深度残差网络模型,其结构见图3,通常包括输入层、残差卷积层和输出层。

为构建深度残差网络模型,需要准备好计算环境。例如,需要准备企业级CPU、Linux系统的计算节点,安装NVIDIA的支持深度学习的显卡,如RTX2080Ti,并装好CUDA支持环境。

在临床肿瘤诊断中,所获得的PD-1/PD-L1病理染色图片数量是有限的。为了使深度残差网络模型获得更强的图片特征提取能力,需要使用大量的图片集来对其进行预训练,训练其权值以使其获得较好的图片特征提取能力。可以从储存有海量图片数据的图片数据库中下载图片数据集,作为预训练数据集对深度残差网络模型进行预训练。

在本发明的示例性实例中,从ImageNet(http://www.image-net.org/)下载图片数据集,共约1000种类上百万张图片,作为预训练数据集,对34层的深度残差网络模型进行一次遍历的模型预训练,保存训练好的模型结构及其权值信息。预训练后该模型能够对1000种类的图片进行分类。

S2步骤:获取经人工标记的PD-1/PD-L1免疫组织化学染色图片

免疫组织化学(IHC)染色技术是一种利用抗原抗体的特异性结合反应来检测和定位组织和细胞中的特定蛋白质的技术,由免疫学和传统组织化学相结合发展而成。IHC染色技术直接在组织切片、细胞涂片或培养细胞爬片上定位蛋白质和多肽类物质的存在,并可精确到亚细胞结构水平,结合电子计算机图像分析系统或激光扫描共聚集显微术等技术,对被检蛋白进行定量分析,最后由电子计算机输出染色图片,例如病理染色图片。IHC染色技术具有较高的敏感性和特异性,能将细胞和组织形态学改变与生物体的功能、代谢变化相关联,可以检测肿瘤的存在。

提取组织样本进行PD-1/PD-L1免疫组织化学染色,以得到原始的PD-1/PD-L1免疫组织化学染色图片。提取组织样本和进行免疫组织化学染色的方法是医学领域公知的。

在本发明的示例性实例中,获取了84张肿瘤PD-1/PD-L1 IHC染色病理图片,包括肺癌、膀胱癌、胆管癌、前列腺癌、乳腺癌、卵巢癌、胃癌、肠癌和甲状腺癌。代表性的图片在图4中显示。应指出的是,这些肿瘤PD-1/PD-L1 IHC染色病理图片仅为了举例说明。本发明的核心在于基于深度学习的PD-1/PD-L1病理图片识别方法及相关的识别装置,并不限于具体的肿瘤,而是该识别方法和识别装置可应用于各种肿瘤类型的PD-1/PD-L1 IHC染色病理图片的识别。

然后,人工标记所得的PD-1/PD-L1 IHC病理染色图片。通常,由有经验的医生对这些病理染色图片进行观察,计数总细胞数(TC)并根据染色程度计数细胞膜被染色的肿瘤细胞数(TTC),计算TTC/TC*100%,得到染色肿瘤细胞的百分比。具体的染色程度可以按具体的肿瘤的判断方案来确定,这通常是医学领域公知的。可以设定一定的百分比数值,作为区分阳性样本和阴性样本的阈值。通常,将染色肿瘤细胞百分比>1%标记为阳性样本,否则标记为阴性样本。记录每张PD-1/PD-L1 IHC染色病理图片的阴阳性判断结果,作为其后续训练用的结果标签。

在本发明的示例性实例中,以染色肿瘤细胞百分比>1%作为区分阳性样本和阴性样本的阈值,84张肿瘤PD-1/PD-L1 IHC染色病理图片经医生人工标记,得到30张阳性样本图片,54张阴性样本图片。

S3步骤:在该深度残差网络模型上用该经人工标记的PD-1/PD-L1免疫组织化学染色图片构建PD-1/PD-L1病理染色图片识别模型

S3步骤包括以下S31图片处理分步骤、S32模型训练分步骤和S33模型验证分步骤。

S31:图片处理分步骤

将该经人工标记的PD-1/PD-L1免疫组织化学染色图片进行处理,包括将图片分为训练集和验证集,其中对训练集的PD-1/PD-L1病理染色图片进行数据扩充以产生更多的图片,将图片归一化成相同的像素大小,并将图片转换成RGB数字信号读入生成numpy数组。

在本发明的示例性实例中,将包含30张阳性样本和54张阴性样本的84张经人工标记的PD-1/PD-L1 IHC染色病理图片随机地分成训练集和验证集,其中训练集包含24张阳性样本图片和44张阴性样本图片,验证集包含6张阳性样本图片和10张阴性样本图片。

由于训练集的图片数量有限,还使用数据扩充(Data Augmentation)方法对这些有限的图片进行90度、180度、270度方向的旋转和左右对换,以产生更多的图片供进行训练。数据扩充得到的代表性的肿瘤PD-1/PD-L1病理图片在图5中显示。

如果PD-1/PD-L1病理图片的分辨率不同,可以将这些图片归一化成相同的像素大小,例如224×224像素大小,使得标准统一以有利于数据训练并固化模型结构。

然后,将图片转换成RGB数字信号读入生成numpy数组,一个numpy数组代表一个图片,每个像素由3个数字代表,例如[218,211,201]。对于每张224×224像素大小的图片,转换成一个224×224×3的numpy数组及其对应的代表其为阳性或阴性样本的一个向量的数据。在本发明的示例性实例中,84张PD-1/PD-L1病理图片得到84个numpy数组。将数据读入内存并按训练集和验证集分开,作为训练和验证模型所使用的数据。

S32:模型训练分步骤

用训练集对深度残差网络模型进行训练,确定训练系数;设置深度残差网络模型最后一个全连接层的权值为“可训练”,其余层的权值为“不可训练”,使用训练系数对深度残差网络模型进行初步训练;设置深度残差网络模型的全部层的权值为“可训练”,使用以该训练系数为起始的逐步衰减的训练系数,对深度残差网络模型进行全参数训练;用训练集的PD-1/PD-L1病理染色图片的扩充图片再次进行全参数训练,得到经训练的深度残差网络模型。

在本发明的示例性实例中,加载已预训练好的34层深度残差网络模型,并将其最后一层全连接层(即分类层)由1000个神经元修改成2个神经元,即将其分类数由1000类修改为2类,然后利用准备好的数据开始训练。

具体地,模型训练可以分成以下操作:

A.寻找适当的训练系数。神经网络在进行反馈学习时,训练系数决定了每一次迭代神经元权值的更新幅度,选择一个适当的训练系数能增强训练效率并能有效地找到最优解(全局、局部最小值)。在训练中通过观察不同的训练系数下损失函数变化情况来找到合理的训练系数,要求其尽量小但训练效果仍然明显。

在本发明的示例性实例中,找到了理想的训练系数为0.01,逐步衰减的训练系数分别为0.01、0.001、0.0001。

B.初步训练。

设置深度残差网络模型的最后一个全连接层的权值为“可训练”,其余层的权值为“不可训练”,进行两次全部训练集数据的迭代训练,即使其遍历训练集数据两次。这样做是为了使分类层在不影响其它层权值的情况下优先训练,可以减少训练的工作量。

在本发明的示例性实例中,设置该深度残差网络模型的前33层权值为“不可训练”,只让最后一个全连接层的权值为“可训练”。

C.全参数训练。设置深度残差网络模型的全部层的权值为“可训练”,以理想训练系数为起始,3次遍历为一个循环,做3轮训练,每轮训练系数逐渐减小的关系为0.01,0.001,0.0001。

D.扩充训练,将数据扩充后产生的PD-1/PD-L1病理图片作为训练输入重复进行步骤C的全参数训练两次,得到经训练的深度残差网络模型。

S33:模型验证分步骤

加载经训练的深度残差网络模型,输入验证集数据给出预测结果,并与人工标记结果进行比较,对经训练的深度残差网络模型进行验证,最终构建出PD-1/PD-L1病理染色图片识别模型。尽管目前本领域没有特别的结果比较标准,但据信测试结果达到90%以上的正确率时,识别模型是有效的。

在本发明的示例性实例中,使用验证集的6张阳性样本图片、10张阴性样本图片验证构建好的PD-1/PD-L1病理染色图片识别模型。结果在图6中显示,可见在验证集中准确度(正确分类的图片数/图片总数)达到94.5%(15/16),敏感度(正确阳性图片数/总阳性图片数)达到83.33%(5/6,即6张阴性结果图片中有1张图片与人工判读结果不同,并且该图片存在争议),特异度达到100%(10张阴性结果图片均与人工判断结果相同)。

S4步骤:用构建好的PD-1/PD-L1病理染色图片识别模型识别待测患者的PD-1/PD-L1病理图片

构建好的PD-1/PD-L1病理染色图片识别模型即可付诸应用,可以用于协助医生识别待测患者的PD-1/PD-L1病理图片,正确、快速、稳定地判断病人体内的PD-1/PD-L1是否存在阳性表达。

应指出的是,在本发明的基于深度学习的PD-1/PD-L1病理图片识别方法中,利用了深度残差网络模型在大量图片训练学习到的特征提取能力,首先将分类层修改为本发明中需要的2元分类,冻结前面卷积层的权值,对分类层的权值做单独训练调整,然后再放开卷积层的权值训练,使得整个模型中的权值适用于解决本发明中的问题,成为一个识别PD-1/PD-L1病理图片的模型。

本领域技术人员可以理解,本发明的基于深度学习的PD-1/PD-L1病理图片识别方法的全部或部分步骤可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现本发明的方法步骤。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现本发明的方法步骤。另外,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现本发明的方法步骤。

因此,本发明还提供一种基于深度学习的PD-1/PD-L1病理图片识别装置,该装置包括以下模块:

M1:深度残差网络模型构建模块。

优选地,该深度残差网络模型构建模块包括预训练模块,用于使用大量的图片集作为预训练数据集对该深度残差网络模型进行预训练。优选地,该深度残差网络模型为34层的深度残差网络模型。

M2:经人工标记的PD-1/PD-L1免疫组织化学染色图片获取模块。

优选地,经人工标记的PD-1/PD-L1免疫组织化学染色图片的标记方法为:判断并计算肿瘤细胞数占总细胞数的百分比,该百分比大于1%标记为阳性,否则标记为阴性。通常,由有经验的医生来进行判断。

M3:PD-1/PD-L1病理染色图片识别模型构建模块,用于在该深度残差网络模型上用该经人工标记的PD-1/PD-L1免疫组织化学染色图片构建PD-1/PD-L1病理染色图片识别模型,包括以下分模块:

M31:图片处理模块,用于将该经人工标记的PD-1/PD-L1免疫组织化学染色图片进行处理,包括将图片分为训练集和验证集,其中对训练集的PD-1/PD-L1病理染色图片进行数据扩充以产生更多的图片,将图片归一化成相同的像素大小,并将图片转换成RGB数字信号读入生成numpy数组;

M32:模型训练模块,用于用该训练集对该深度残差网络模型进行训练,确定训练系数;设置该深度残差网络模型最后一个全连接层的权值为“可训练”,其余层的权值为“不可训练”,使用该训练系数对该深度残差网络模型进行初步训练;设置该深度残差网络模型的全部层的权值为“可训练”,使用以该训练系数为起始的逐步衰减的训练系数,对该深度残差网络模型进行全参数训练;用该训练集的PD-1/PD-L1病理染色图片的扩充图片再次进行全参数训练,得到经训练的深度残差网络模型;

M33:模型验证模块,用于用该验证集对该经训练的深度残差网络模型进行验证,最终构建出该PD-1/PD-L1病理染色图片识别模型。

M4:图片识别模块,用于用该PD-1/PD-L1病理染色图片识别模型识别待测患者的PD-1/PD-L1病理图片。

另外,本发明还提供一种计算机设备,该计算机设备包括存储器、处理器和存储在该存储器中并可在该处理器中运行的计算机程序,其中该计算机程序用于执行本发明的基于深度学习的PD-1/PD-L1病理图片识别方法。

此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质存储有用于执行根据本发明的基于深度学习的PD-1/PD-L1病理图片识别方法的计算机程序。

本发明的基于深度学习的PD-1/PD-L1病理图片识别方法以及用于执行该方法的装置、计算机设备和计算机程序,可以在临床上应用于识别患者的PD-1/PD-L1病理图片,正确、快速、稳定地判断病人体内的PD-1/PD-L1是否存在阳性表达,可以使医生从传统上耗时耗力的人工识别图片的工作中解脱出来,避免人工识别所带来的结果带有主观性和不稳定的问题。

以上应用了具体实例对本发明进行了阐述,只是用于帮助理解本发明,并不用以限制本发明。本发明所属技术领域的技术人员依据本发明的构思,还可以做出若干简单推演、变形或替换。这些推演、变形或替换方案也落入本发明的权利要求范围内。

相关技术
  • 一种基于深度学习的PD-1/PD-L1病理图片识别方法和装置
  • 一种基于深度学习的证件图片识别方法、装置及设备
技术分类

06120112836473