掌桥专利:专业的专利平台
掌桥专利
首页

用于评估器官组织学数据的方法和相关设备

文献发布时间:2023-06-19 19:28:50


用于评估器官组织学数据的方法和相关设备

技术领域

本发明涉及用于评估受试者器官的至少一条组织学信息的方法。本发明还涉及进行用于评估的方法的步骤的方法,所述方法选自用于预测受试者处于罹患疾病的风险的方法、用于诊断疾病的方法、鉴定用于预防和/或治疗疾病的治疗性靶标的方法、用于鉴定疾病的生物标志物的方法、用于筛选可用作药物的化合物的方法以及用于监测参加临床试验的患者的方法。本发明还涉及这些方法中涉及的计算机程序产品和计算机可读介质。

背景技术

器官移植目前被认为是作为被低估但在全球范围内增加的负担的终末期肾病(ESRD)患者的治疗选择。事实上,慢性肾病(CKD)影响全世界8.50亿人(相比之下,糖尿病、癌症和HIV/AIDS分别影响全世界4.22亿人、4200万人和3700万人)。尽管在免疫抑制方案取得了进展,每年仍有成千上万的同种异体移植物失败,这在死亡率、发病率和社会成本方面对患者造成直接影响。最近已经表明,肾脏同种异体移植物的丧失现在代表ESRD的重要原因。

为了预测这种问题,已知在移植时进行零日活检以获得组织学信息。临床医生使用在一些移植程序中实施的供体的组织学评价来判断供体器官的质量,并且有时排除供体中潜在疾病的可能性。

供体器官活检样品的另一个优点依赖于提供有价值的基线的事实,从该基线可以比较肾同种异体移植物的后续活检的结果,并且还可以主张治疗策略。

零日活检还用于区分移植后为移植后传送或获得的供体的组织学病变。此外,零日活检用于优化适当的分配过程。

但是,活检是侵入性、耗时且昂贵的过程,并且需要手术、医疗和病理资源。

发明概述

因此,需要用于获得受试者器官的组织学信息条的方法,其限制活检的侵入性特征。

总之,本发明涉及在医学背景中使用的人工智能领域。组织活检是广泛用于获得特别用于诊断的组织学信息的侵入性方法。因此,本发明人已经进行了研究以限制这种侵入性特征。

最近,该问题在器官短缺的情况下变得更具挑战性。这是由于来自老年供体、心脏死亡后供体和具有重大临床危险因素的供体的肾脏移植增加。这些易损器官可能在移植时携带动脉硬化、萎缩性纤维化、动脉透明变性和肾小球硬化病变,如果在移植后观察到的话,由于它们的非特异性,它们可能错误地归因于药物毒性、感染性疾病或同种免疫应答。

为此,提出了用于预测组织活检结果的方法,其在不进行活检的情况下提供准确的结果。

为此,说明书描述了用于评估受试者的器官(特别是来自供体的移植物)的至少一条组织学信息的方法,所述方法是计算机实现的并且所述方法包括提供与所述受试者相关的参数,并且对于所述至少一条组织学信息的每一条,将预测函数应用于所提供的受试者数据以获得所评估的组织学信息条,当组织学信息条是数值时,所评估的组织学信息条是器官的数值,或者当组织学信息条属于不同预定义类别中的预定义类别时,所评估的组织学信息条是属于器官的不同预定义类别的概率,并且每个预测函数对所考虑的组织学信息条具有特异性并且通过使用人工智能技术来获得。

利用这种方法,可以以快速和容易的方式获得组织学信息条。

实际上,该方法不需要任何活检,并且因此不需要侵入性或手术行为。

此外,对于监护病房,只有在进行评估方法的末端中输入数据。因此,只涉及很少的资源。特别地,在用于评估的方法中不涉及实验室。

换言之,此用于评估的方法为临床医生提供了虚拟活检工具以指导诊断、治疗和移植后的即时患者管理,以及将额外的术后问题最小化。

根据此用于评估的方法的有利但非强制性的进一步方面,用于评估的方法可以结合以下特征中的一个或若干个,任何技术上可允许的组合进行:

-对于所述至少一条组织学信息的每一条,人工智能技术包括:准备由元素形成的数据集的阶段,每个元素将所评估的组织学信息条与受试者参数相关联;训练多个模型的阶段,以获得经训练的模型;以及获得预测函数的阶段,包括基于性能标准从所述多个经训练的模型中选择模型,以获得所选择的模型,以及获得作为所选择的模型的聚集函数的预测函数。

-器官是肾,组织学信息条是肾小球硬化的值,并且预定义类别是动脉硬化的阶段、小动脉透明变性的阶段和间质纤维化/肾小管萎缩的阶段,预定义类别优选是同种异体移植病理学的国际Banff分类的类别。

-器官是心脏,组织学信息条是急性细胞排斥的阶段、抗体介导的排斥的阶段,预定义类别优选是国际心肺移植协会的类别或同种异体移植病理学的国际Banff分类的类别。

-器官是肺,组织学信息条是急性细胞排斥的阶段、抗体介导的排斥的阶段,预定义类别优选是国际心肺移植协会的类别或同种异体移植病理学的国际Banff分类的类别。

-所提供的受试者参数包括从由并存病组成的列表中选择的至少一条信息,所述并存病例如是对从以下问题中选择的问题的二元响应:供体活着还是死亡,并且如果死亡,死因是由于循环系统疾病还是由于脑血管病,供体是否患有高血压,供体是否患有糖尿病,供体是否患有丙肝病毒;临床数据,临床数据是例如选自供体年龄、供体性别、供体种族和供体体重指数的数据;和生物学数据,生物学数据是例如选自供体蛋白尿率和肌酸酐率的数据。

-准备由元素形成的数据集的阶段包括进行至少一个准备过程,所述准备过程是选自第一过程、第二过程和第三过程的准备技术,所述第一过程包括收集初始元素,并且通过使用填补技术来完成所述初始元素,所述填补技术包括使用随机森林技术,所述第二过程包括将所述数据集分成训练集和测试集,并且所述第三过程包括准备阶段,所述准备阶段包括受试者参数的标准化,尤其是通过计算受试者参数与同一受试者参数的平均值之间的差与所述同一受试者参数的标准偏差之间的比。

-当所述组织学信息条属于不同预定义类别中的预定义类别,并且所述不同预定义类别大于或等于4时,所述初始训练数据集包括针对所考虑的组织学信息条的每个预定义类别的相应数目的元素,所述准备阶段包括迭代以下操作:将所述训练数据集中存在的具有优于至少一个其他数目的第一数目的元素随机替换为所述训练数据集中存在的具有次于所述第一数目的元素,直到所获得的训练数据集中针对每个预定义类别的元素的数目相同。

-训练阶段包括在错误预测两个最高类别的情况下的罚分和/或,其中每个模型包括用于控制训练过程的超参数和包括超参数调整的训练阶段。

-训练阶段包括在数据集中创建异质性(heterogeneities)。

-创建异质性包括使用重复的k倍交叉验证或自举。

-模型选自下组:线性模型、非线性模型和深度学习模型,所述线性模型例如是惩罚多项式回归或线性判别分析,所述非线性模型例如是径向支持向量机,整体模型,所述整体模型例如选自下组:随机森林、梯度提升机、极端梯度提升树和朴素贝叶斯,以及深度学习模型,所述深度学习模型例如是神经网络或模型平均神经网络。

-所述人工技术包括评估阶段,所述评估阶段包括进行至少一个评估过程,所述评估过程是选自第一过程、第二过程、第三技术、第四技术和第五技术的评估过程,所述第一过程包括当所述组织学信息条属于不同预定义类别中的预定义类别时应用类别的未加权成对判别性的多AUC,所述第二过程包括针对作为数值的每个组织学信息条计算所述组织学信息条的预测值与测量值之间的平均绝对误差,所述第三技术包括使用稳定性测试和/或耐久性测试,所述第四技术包括随机森林算法,以及所述第五技术包括使用自举技术。

-聚集函数选自下组:简单平均、加权平均、多数表决、加权表决和整体叠加。

本说明书还描述了选自下组的方法:

用于预测受试者处于罹患疾病的风险的方法,所述用于预测的方法包括至少以下步骤:

-进行如前所述的用于评估至少一条组织学信息的方法的步骤,其中所述提供步骤通过接收关于处于罹患疾病的风险的受试者的参数来实现,以获得所评估的组织学信息条,和

-基于所评估的组织学信息条预测所述受试者处于罹患疾病的风险,

用于诊断受试者的疾病的方法,所述用于诊断的方法包括至少以下步骤:

-进行如前所述的用于评估至少一条组织学信息的方法的步骤,其中所述提供步骤通过接收关于受试者的参数来实现,以获得评估的组织学信息条,和

-基于所评估的组织学信息条来诊断所述疾病,

鉴定用于预防和/或治疗疾病的治疗性靶标的方法,所述方法包括至少以下步骤:

-进行用于评估第一受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,其中所述第一受试者罹患所述疾病,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,

-进行用于评估第二受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,其中所述第二受试者未罹患所述疾病,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,和

-基于所评估的第一和第二条组织学信息的比较来选择治疗性靶标,

-用于鉴定疾病的生物标志物的方法,所述生物标志物是所述疾病的诊断生物标志物、所述疾病的易感性生物标志物、所述疾病的预后性生物标志物或响应于所述疾病的治疗的预测性生物标志物,所述方法包括至少以下步骤:

-进行用于评估第一受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,其中所述第一受试者罹患所述疾病,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,

-进行用于评估第二受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,其中所述第二受试者未罹患所述疾病,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,和

-基于所评估的第一和第二条组织学信息的比较来选择生物标志物靶标,以及

-用于筛选用作药物的化合物的方法,所述化合物对用于预防和/或治疗疾病的已知治疗性靶标具有作用,所述方法包括至少以下步骤:

-进行用于评估第一受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,其中所述第一受试者罹患所述疾病并且已接受所述化合物,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,

-进行用于评估第二受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,其中所述第二受试者罹患所述疾病并且未接受所述化合物,并且所述评估方法如前所述,其中所述提供步骤通过接收关于所述受试者的参数来实现,和

-基于所评估的第一和第二条组织学信息的比较来选择生物标志物靶标,以及

-用于监测参加临床试验的患者的方法,以通过进行用于评估所述患者的器官的至少一条组织学信息的方法的步骤来提供对进行临床试验的疗法的治疗功效的定量测量,所述评估方法如前所述,其中所述提供步骤通过接收关于受试者的参数来实现。

本说明书还涉及包括计算机程序指令的计算机程序产品,所述计算机程序指令可加载到数据处理单元中,并且适于在由所述数据处理单元运行时使得执行如前所述的方法。

本说明书还描述了包括计算机程序指令的计算机可读介质,所述计算机程序指令在由数据处理单元执行时使得执行如前所述的方法。

附图简要说明

基于以下描述将更好地理解本发明,所述描述与附图一致并且作为说明性实施例给出,而不限制本发明的目的。在附图中:

-图1是适于进行用于评估的方法的系统的示意图,

-图2是用于评估的方法的实例的功能视图,

-图3是阐明在图2的用于评估的方法中使用特定人工智能技术进行的流程图,和

-图4是图3所示的人工智能技术的实例的步骤的示意图。

发明详述

系统描述

图1示出了系统20和计算机程序产品30。计算机程序产品30和系统20之间的交互使得能够进行用于评估受试者器官的至少一条组织学信息的方法,如将在后面描述。这种用于评估的方法在说明书的其余部分中称为“评估方法”。

该评估方法是计算机实现的方法。

系统20是台式计算机。在变体中,系统20是机架式计算机、膝上型计算机、平板计算机、PDA或智能电话。

在具体实施方案中,系统20适于实时操作和/或是嵌入式系统,特别是在诸如飞机的交通工具中。

在图1的情况下,系统20包括计算器32、用户接口34和通信设备36。

计算器32是适于操纵和/或转换由计算器32的寄存器中的电子或物理量表示的数据和/或对应于寄存器或其他类型的显示设备、传输设备或存储设备的存储器中的物理数据的其他类似数据的存储器的电子电路。

作为具体实例,计算器32包括单芯或多芯处理器(诸如CPU、GPU、微控制器和DSP)、可编程逻辑电路(诸如ASIC、FPGA、PLD和PLA)、状态机、选通逻辑和分立硬件组件。

计算器32包括适于处理数据(特别是通过进行计算)的数据处理单元38、适于存储数据的存储器40和适于读取计算机可读介质的读取器42。

用户接口34包括输入设备44和输出设备46。

输入设备44是使系统20的用户能够向系统20输入信息或命令的设备。

在图1中,输入设备44是键盘。或者,输入设备44是指点设备(例如鼠标、触摸板和数字面板)、语音识别设备、眼睛跟踪器或触觉设备(运动手势分析)。

输出设备46是图形用户接口,它是适于向系统20的用户提供信息的显示单元。

在图1中,输出设备46是用于输出的可视呈现的显示屏。在其他实施方案中,输出设备是打印机、增强和/或虚拟显示单元、扬声器或用于输出的可听呈现的另一声音生成设备、产生振动和/或气味的单元或适于产生电信号的单元。

在特定实施方案中,输入设备44和输出设备46是形成人机接口(例如交互式屏幕)的同一组件。

通信设备36允许系统20的组件之间的单向或双向通信。例如,通信设备36是总线通信系统或输入/输出接口。

在一些实施方案中,通信设备36的存在使得系统20的组件彼此远离。

计算机程序产品30包括计算机可读介质48。

计算机可读介质48是可由计算器32的读取器42读取的有形设备。

值得注意的是,计算机可读介质48本身不是瞬态信号,如无线电波或其它自由传播的电磁波,如光脉冲或电信号。

这种计算机可读存储介质48例如是电子存储装置、磁存储装置、光存储装置、电磁存储装置、半导体存储装置或其任意组合。

作为更具体实例的非穷举性列表,计算机可读存储介质48是机械编码的设备,例如凹槽中的穿孔卡或凸起结构、磁盘、硬盘、ROM、RAM、EROM、EEPROM、磁光盘、SRAM、CD-ROM、DVD、记忆棒、软盘、闪存、SSD或PC卡(如PCMCIA)。

计算机程序存储在计算机可读存储介质48中。计算机程序包括一个或多个存储的程序指令序列。

这样的程序指令当由数据处理单元38运行时,引起将在下文描述的任何方法的步骤的执行。

例如,程序指令的形式是源代码形式、计算机可执行形式或源代码和计算机可执行形式之间的任何中间形式,如通过解释器、汇编器、编译器、链接器或定位器对源代码进行转换而得到的形式。在变体中,程序指令是微代码、固件指令、状态设置数据、用于集成电路的配置数据(例如VHDL)或目标代码。

程序指令以一种或多种语言的任意组合来编写,例如面向对象的编程语言(FORTRAN,C

或者,程序指令通过网络从外部源下载,特别是对于应用的情况。在这种情况下,计算机程序产品包括其上存储有程序指令的计算机可读数据载体或其上编码有程序指令的数据载体信号。

在每种情况下,计算机程序产品30包括指令,其可加载到数据处理单元38中,并且适于在由数据处理单元38运行时使得执行下文描述的任何方法的步骤。根据这些实施方案,该执行完全或部分地在作为单个计算机的系统20上实现,或者在若干计算机之间的分布式系统中实现(特别是经由云计算)。

系统操作

现在参照进行评估方法的实例来描述系统20的操作,所述评估方法是用于评估受试者肾脏的若干条组织学信息的方法,所述肾脏是来自供体的移植物。

术语“供体”是指提供待移植到受体中的器官和/或组织植入物或移植物的受试者。

这意味着,在本段中给出的这种情况下,术语“受试者”表示接受从供体获得的器官和/或组织植入物或移植物的受体。

在该具体实例中,受试者是人。

更一般地,受试者是活受试者,特别是动物。

例如,受试者是哺乳动物,并且更具体地是啮齿动物,如小鼠。

如图2示意性所示,评估方法是通过应用一个或多个函数52将关于受试者的参数50(命名为受试者参数50)与若干组织学信息条54相关联的方法。在该图2中,受试者参数50均由矩形表示,组织学信息条54均由菱形表示,并且若干函数52中的一个均由圆形表示。

换言之,评估方法包括提供步骤和应用步骤。

在提供步骤中,提供受试者参数50。

例如,用户在输入设备44中输入数据。

或者,系统20特别地从远程服务器接收参数。

在本实例中,所提供的受试者参数包括并存病56、临床数据58和生物数据60。

根据定义,并存病是与原发性病症共发生的一种或多种另外的病症的存在。

在本实例中,并存病56是对若干问题的二元响应。问题如下:

·供体活着还是死亡(图2中第62项),

·如果供体死亡,死因是否为循环系统疾病,如心脏病(图2中第64项),

·如果供体死亡,死因是否为脑血管原因(图2中第66项),

·供体是否患有高血压(图2中第68项),

·供体是否患有糖尿病(图2中第70项),

·供体是否患有蛋白尿(图2中第72项),和

·供体是否患有丙肝病毒(图2中第74项)。

在变体或补充中,所提供的受试者参数50包括受试者的并存病,特别是选自先前列表中第62-74项的并存病。

术语“蛋白尿”是指受试者的尿中存在过量蛋白的病症。在人受试者中,蛋白尿通常通过尿分析诊断。临床上,蛋白尿表示为尿蛋白/肌酸酐的比率(g/g肌酸酐),并且所述比率通常为0-0.3。当这种比率超出该范围时,认为受试者罹患蛋白尿。

在所描述的实例中,临床数据58是:

·供体年龄(图2中第76项),

·供体性别(图2中第78项),和

·供体的体重指数(图2中第80项)。体重指数是供体的体重(千克)除以身高(米)的平方。

作为说明,生物数据60是以毫克(mg)/分升(dL)为单位的肌酸酐速率。血液中肌酸酐的正常水平在成年男性中为约0.7-1.2毫克(mg)/分升(dL),并且在成年女性中为0.5-1.0毫克/分升。

根据定义,组织学信息是涉及生物组织研究的数据/信息。

在本实例中,组织学信息条54是同种异体移植组织学信息条。

在该具体实例中,根据作为报告实体器官移植活检的国际共识分类的Banff分类评估组织学信息条54。Banff病变评分确实评估了肾移植活检的不同区室中组织病理学变化的存在和程度,主要但不排他地集中于在排异中观察到的诊断特征。

在当前所示的情况下,组织学信息条52是四条信息,它们是:

·肾小球硬化的百分比的值,

·动脉硬化的阶段,

·小动脉透明变性的阶段,

·间质纤维化的阶段,和

·肾小管萎缩的阶段。

在这种情况下,这些阶段是同种异体肾移植病理学预定义类别的Banff分类的类别。

更具体地,肾小球硬化是肾中的肾小球硬化。它是描述肾脏的微小血管,肾小球,从血液中过滤尿素的肾脏中的功能单位的瘢痕形成的通用术语。根据定义,肾小球硬化的值是通过将硬化的肾小球数除以活检中发现的肾小球数获得的百分比。该值由图2中的G项表示。

通过Banff病变评分cv评价动脉硬化。该评分反映了受影响最严重的动脉中动脉内膜增厚的程度。根据以下四个阶段评价评分:

-CV0:无慢性血管改变;

-CV1:纤维内膜增厚导致管腔面积缩小高达25%;

-CV2:纤维内膜增厚导致管腔面积缩小26-50%,和

-CV3:纤维内膜增厚导致管腔面积缩小超过50%。

通过Banff病变评分ah评价小动脉透明变性。该评分评价小动脉透明变性的程度。根据以下四个阶段评价评分:

-阶段0:无PAS(PAS)-阳性透明小动脉增厚;

-阶段1:至少1条小动脉轻度至中度PAS-阳性透明增厚;

-阶段2:大于1条小动脉中中度至重度PAS-阳性透明增厚,和

-阶段3:许多小动脉重度PAS-阳性透明增厚。

通过Banff病变评分ci评价间质纤维化。该评分评价皮质纤维化的程度。根据以下四个阶段评价评分:

-ci0:高达5%的皮质面积出现间质纤维化;

-ci1:6-25%皮质面积出现间质纤维化(轻度间质纤维化);

-ci2:26-50%皮质面积出现间质纤维化(中度间质性纤维化),和

-ci3:大于50%皮质面积出现间质纤维化(重度间质纤维化)。

通过Banff病变评分ct评价间质纤维化。该评分评价通常与受间质纤维化影响的面积紧密相关的皮质肾小管萎缩程度。根据以下四个阶段评价评分:

-ct0:无肾小管萎缩;

-ct1:涉及高达25%皮质小管面积的肾小管萎缩;

-ct2:涉及26-50%皮质小管面积的肾小管萎缩,和

-ct3:涉及大于50%皮质小管面积的肾小管萎缩。

如图2所示,每个组织学信息条54具有一个功能。这意味着每个功能对于一条组织学信息54是特异性的。

换言之,在当前情况下,存在五个函数F1、F2、F3、F4和F5。第一函数F1预测肾小球硬化的值(G),第二函数F2预测动脉硬化的阶段(cv),第三函数F3预测小动脉透明变性的阶段(ah),第四函数F4预测间质纤维化的阶段(ci),以及第五函数F5预测肾小管萎缩的阶段(ct)。

每个预测函数F1、F2、F3、F4或F5将作为输入提供的受试者参数50与作为函数F1、F2、F3、F4或F5适于预测的组织学信息条54的输出相关联。由此预测的组织学信息条54是通过评估方法获得的所评估的组织学信息条54中的至少一个。

如图2所示,每个预测函数F1、F2、F3、F4或F5应用于部分或每个受试者参数50。

作为说明,第一预测函数F1应用于每个受试者参数50(见虚线),而第四预测函数F4仅应用于三个受试者参数60、72和80(见实线)。

通过使用人工智能技术获得每个预测函数F1、F2、F3、F4或F5。

人工智能技术在于基于数据建立模型(也称为算法)。

特别地,人工智能技术通常意味着学习该模型。因此,使用术语“机器学习”来指定基于数据由机器学习模型的事实。

根据这种情况,机器学习技术意味着使用选自监督学习、无监督学习、半监督学习、强化学习、自学习、特征学习、稀疏字典学习、异常检测学习、机器人学习和关联规则学习的学习。

特别地,在本实例中,机器学习技术是监督学习技术、半监督学习技术或强化学习技术。

在人工智能技术中使用的模型可以选自各种模型/算法,如用于分类、聚类、回归和降维的计算模型和算法,如神经网络、遗传算法、支持向量机、k均值、核回归和判别分析。

更一般地,人工智能技术可以意味着使用以下要素中的一个或若干个:求和、比率和回归运算符,如系数或指数、生物标志物值变换和归一化(包括但不限于基于临床参数的那些归一化方案,如临床数据58、性别、年龄或种族)、规则和指南、统计分类模型和神经网络、结构和语法统计分类算法,以及利用模式识别特征的风险指数构造方法,包括已建立的技术,如互相关、主成分分析(PCA)、因子旋转、逻辑回归(LogReg)、线性判别分析(LDA)、特征基因线性判别分析(ELDA)、支持向量机(SVM)、随机森林(RF)、递归分割树(RPART)、以及其它相关的决策树分类技术、缩小重心(SC)、StepAIC、k最近邻、提升(boosting)、决策树、神经网络、贝叶斯网络、支持向量机和隐马尔可夫模型等。

可替代地或补充地,人工智能技术可以意味着使用以下要素中的一个或若干个:平均单依赖性估计器(AODE)、人工神经网络(例如,反向传播)、贝叶斯统计(例如,朴素贝叶斯分类器、贝叶斯网络、贝叶斯知识库)、基于案例的推理、决策树、归纳逻辑编程、高斯过程回归、数据处理群组方法(GMDH)、学习自动机、学习向量量化、最小消息长度(决策树、决策图等)、拉兹学习、基于实例的学习最近邻算法、模拟建模、概率近似正确学习(PAC)、递减规则(Ripple down rules)、知识获取方法、符号机器学习算法、子符号机器学习算法、支持向量机、随机森林、分类器集合、引导聚合(bagging)、提升(boosting)、回归分析、信息模糊网络(IFN)、统计分类、AODE、线性分类器(例如,Fisher线性判别式、逻辑回归、朴素贝叶斯分类器、感知器和支持向量机)、二次分类器、k最近邻、提升、决策树(例如,C4.5、随机森林)、贝叶斯网络和隐马尔可夫模型。

可选地或补充地,人工智能技术可以意味着使用以下要素中的一个或若干个:人工神经网络、数据聚类、期望最大化算法、自组织映射、径向基函数网络、矢量量化、生成地形图、信息瓶颈方法和IBSEAD、规则学习算法(如Apriori算法、Eclat算法和FP-生长算法)、层次聚类(如单链聚类和概念聚类)、分区聚类(如K均值算法和Fuzzy聚类)。

可选地或补充地,人工智能技术使用强化学习算法。强化学习算法的实例包括但不限于时间差分学习、Q学习和学习自动机。

可选地或补充地,人工智能技术使用数据预处理。

更具体地,该模型选自线性模型、非线性模型、整体模型和深度学习模型。

线性模型是使用输入和输出之间的线性关系的模型。

在当前情况下,线性模型是惩罚多项式回归或线性判别分析。

非线性模型是使用输入和输出之间的非线性关系的模型。

对于图2的情况,线性模型是径向支持向量机。

径向支持向量机是能够搜索高维决策边界以分离类别并最大化裕度的分类器。

整体模型是聚集多个模型以减少损失的模型。

在当前情况下,整体模型是若干模型的聚集,并且特别是随机森林(这种算法聚集并存的多个树以减少损失)、梯度提升机(这种算法对应于通过使用损失函数中的梯度来减少损失的顺序和加合性决策树)、极端梯度提升树(这是比梯度提升更高效、灵活和规则化的算法)、朴素贝叶斯(它是非常简单和高效的概率分类器。朴素贝叶斯朴素地(强烈地)假设所有特征是独立的)的聚集。

深度学习模型是使用多个层从原始输入中逐步提取更高级特征的模型。

对于图2的情况,深度学习模型是模型平均神经网络。

像随机森林一样,模型平均神经网络创建多个神经网络以将它们平均为一个。

因此,图2的评估方法能够评估若干条组织学信息。

就唯一的要求是提供受试者参数50而言,评估方法是快速的。

此外,这种提供可以容易地并且特别地通过使用存储在医疗中心的数据库中的医疗文件包来实现,其中使用了评估方法。

此外,评估方法能够避免进行活检的所有缺点,因为没有进行活检。

应当注意,通过使用人工智能技术,评估方法能够获得对组织学信息条的可靠和准确的预测(换言之,评估)。

为了提高这种准确性,可以考虑实行在以下章节中描述的特定人工智能技术。

特定人工智能技术的描述

图3是示出对函数F1、F2、F3、F4和F5中的一个函数进行特定人工智能技术的流程图。

作为一个具体的实例,图3对应于动脉硬化阶段的评估的函数F2的实例,该实例容易地适用于其它函数F1、F2、F3或F5。

这种方法由类似于系统20的系统来进行。

在图3的情况下,人工智能技术包括四个阶段,即准备阶段P1、训练阶段P2、获得阶段P3和评估阶段P4。

在准备阶段P1期间,形成数据集。

数据集包括若干元素,其中每个元素将所评估的组织学信息条54与受试者参数50相关联。换言之,数据集是为许多受试者(例如大于100个,优选地大于1000个)给出特定受试者参数50和动脉硬化阶段的数据的集合。

在所述的特定实例中,准备阶段P1包括填补步骤、分割步骤、上采样步骤和标准化步骤。

在填补步骤期间,收集初始元素。

然后,通过使用填补技术完成初始元素。

在统计中,填补是用替换值替换缺失数据的过程。

填补包括使用随机森林技术来选择将用于丢失数据的元素。

在分割步骤期间,在填补步骤结束时获得的数据集被分割成训练集和测试集。

例如,在填补步骤结束时获得的数据集的3/4元素被认为是初始训练集,其它元素被认为是测试集。

或者,在分裂步骤中可以使用70/30或80/20的比率。

在上采样步骤期间,对初始训练集进行上采样。

这意味着修改初始训练集,使得训练集的每个阶段的元素数目相同。

实际上,初始训练集在阶段变高时包括越来越少的元素,因为较高的阶段是较不可能的。

对于所示的情况,假设初始训练集的初始重新划分是用于阶段0的2000个元素,用于阶段1的2000个元素,用于阶段2的1000个元素和用于阶段3的300个元素,上采样步骤的目的是获得修改的训练集,其中阶段中元素的最高数目(这里为2000)对于每个阶段是相同的。因此,获得了具有8000个元素的修改的训练集,其中每个阶段具有2000个元素。

为此,上采样步骤包括增加元素的数目和迭代替换操作。

通过从初始数据集中随机选择元素来增加数据集的元素数目,直到数据集的元素数目等于阶段数(这里为4)乘以最高类别数的元素数目(这里为2000)。

然后,迭代替换操作。

替换操作在于,用数目次于第一数目的训练数据集中存在的元素随机替换第一数目优于至少一个其它数目的训练数据集中存在的元素。

例如,这里阶段1的元素被随机选择的阶段3的元素替换。

迭代替换操作,直到所获得的训练数据集中每个阶段的元素数量相同。

或者,通过添加在初始训练数据集中表示不足的阶段中随机选择的元素来进行上采样步骤。

在标准化步骤期间,至少一些受试者参数50被标准化。

换言之,进行标准化步骤,使得定量受试者参数50在能够促进训练阶段P2的类似范围内。

定量参数的实例是年龄、肌酸酐速率或体重指数。

例如,待标准化的受试者参数50的值由受试者参数50的当前值与数据集中的所述受试者参数50的值的平均值之间的差与数据集中的所述受试者参数50的标准偏差的比率来替换。

在当前情况下,标准化步骤既应用于训练数据集又应用于测试数据集,但是可选地,可以仅应用于训练数据集。

或者,准备阶段P1包括不进行全部对应于制备程序的所有先前引用的步骤。

在其它实施方案中,准备阶段P1的步骤以不同的顺序进行,例如标准化步骤是进行的第一步骤。

在任何情况下,在准备阶段P1结束时,获得适当的训练数据集和适当的测试数据集。

在训练阶段P2期间,训练多个模型。

训练阶段P2是无监督训练。

在本实例中,训练阶段包括训练步骤、创建步骤和调整步骤。

在训练步骤期间,基于适当的训练数据集和适当的测试数据集来训练模型。

在误预测动脉硬化的两个最高阶段的情况下,通过罚分来进行这种训练步骤。

这意味着用于训练模型的误差函数考虑到当预测应该是阶段2或3时的预测误差比当预测应该是阶段0或1时的预测误差更严重。

这使得能够获得训练模型,在此情况下,其必须通过进行创建步骤和调整步骤来改进训练模型。

在其它实施方案中,在该步骤获得的训练模型是在训练阶段P2结束时获得的训练模型。

在创建步骤期间,在数据集中创建异质性。

例如,在当前实例中,重复k倍交叉验证。

例如,用新的训练过程随机重复三次10倍交叉验证,在此期间调整模型的超参数。

这种创建步骤使得过拟合和可能的采样偏差的机会最小化。

可选地或补充地,创建步骤包括使用自举。

在调整步骤期间,调整适于控制训练过程的模型的超参数。

这种也被称为超参数优化的过程找到超参数的元组,其产生最小化给定独立数据上的预定义损失函数的最优模型。目标函数取超参数的元组并返回相关的损失。

在当前情况下,通过使用在创建步骤结束时获得的数据来实现超参数调整。

在训练阶段P2结束时,获得多个训练模型。

在获得阶段P3期间,获得预测函数F2。

获得阶段P3包括选择步骤和获得步骤。

在选择步骤期间,基于性能标准选择多个训练模型中的若干模型。

性能标准是能够对预测的组织学信息条和真实的组织学信息条之间的距离进行数值评估的度量。

对于数值,计算组织学信息条的预测值和测量值之间的平均绝对误差。

对于硬化肾小球的百分比尤其如此(参见图2中G项)。

对于各阶段的估计,可以通过Hand和Till公式使用类别的未加权成对判别性的多类别AUC,其为:

其中:

-AUC

-C是类别数目(对于函数F2为4),

–AUC(c

在所示情况下,当AUC

图4表示具体应用实例的结果。

预定阈值被固定为截止值0.70。

图4给出了8种模型的性能。

第一模型M1是随机森林,第二模型M2是有序随机森林,第三模型M3是极端梯度提升树,第四模型M4是模型平均网络,第五模型M5是线性判别分析,第六模型M6是多项式回归,第七模型M7是最大不确定度线性判别分析,以及第八模型M8是k最近邻。

似乎只有前五个M1至M5提供高于预定阈值0.70的性能。

因此,在该具体实例中,所选择的模型是前五个模型M1至M5。

在选择步骤结束时,由此获得几个选择的模型。

在获得步骤期间,获得预测函数F2。

预测函数F2是所选模型的聚集函数。

换言之,预测函数F2是所选择的模型的元分类器,或者预测函数F2可以被解释为将多个模型组合成一个超级学习者。

例如,聚集功能是多数表决。

因此,在本实例中,预测函数F2是作为模型M1至M5的前五个模型的多数表决。

根据变体,聚集函数是简单平均、加权平均、加权表决或整体堆叠。

在这样的上下文中,整体堆叠对应于对多类别分类变量和数值变量应用不同的函数,特别是使用算术平均值(多类别分类变量)对概率分类器的结果进行简单平均以及对预测结果进行线性回归以最小化平均绝对误差(数值变量)。

在获得步骤结束时,获得预测函数F2。

在评估阶段P4期间,评估预测函数F2,并且更具体地,评估其性能。

评估阶段P4可以通过使用先前的性能标准来进行。

这是图4中的情况,其中预测函数F2的总AUC等于0.74。

可以注意到,预测函数F2的性能好于每个模型的最佳性能。

就预测函数F2取每个模型的最佳结果而言,这并不令人惊讶。特别地,当一个模型错误时,如果其他模型正确,则预测函数F2的预测正确,导致更好的性能。

可选或补充地,评估阶段P4包括使用稳健性测试和/或耐久性测试。

例如,测试数据集上的人工创建的顺序错误被用于评估模型的性能如何被顺序地降低。

根据另一变型或补充,评估阶段P4包括使用随机森林算法。这种算法用于检查特征重要性以预测组织学信息。

可选或补充地,评估阶段P4包括使用自举技术。这种自举技术用于生成预测上的置信区间。

评估方法的其它实施方案

本评估方法可以以许多不同的方式实现。下文给出一些实例。

评估方法可以包括附加步骤,例如输出预测的组织学信息条。

输出可以是雷达图、值的枚举等。

优选地,输出显示在系统20的输出设备46上。

例如,在提供步骤,仅提供特定的受试者参数50,例如并存病56、临床数据58或生物数据60中的一个或两个。

作为另一个实例,提供了更多的受试者参数50,例如受试者的种族或肾小球滤过率。

术语“肾小球滤过率”或“GFR”是指每单位时间从肾(肾脏)肾小球毛细血管过滤到Bowman囊中的流体体积。GFR用于评估受试者的肾功能。

例如,这种肾小球滤过率是估计的GFR。术语“估计的GFR”或“eGFR”是指肾小球滤过率或GFR的估计值,使用由Modification of Diet in Renal Disease Study Groupdescribed in Levey A S,Bosch J P,Lewis J B,Greene T,Rogers N,Roth D,“A moreaccurate method to estimate glomerular filtration rate from serum creatinine:a new prediction equation.Modification of Diet in Renal Disease Study Group”Ann.Intern.Med.130(6):461-70(1999)开发的肾病饮食改良(MDRD)方程计算,其内容通过引用并入本文。典型地,eGFR的测量单位是mL/min/1,73m2。典型地,eGFR为0-120mL/min/1,73m2。

所评估的组织学信息条可以是先前显示的组织学信息条中的一个或几个。

优选地,一条组织学信息包括至少三个组织学病变的阶段。

还可以对所评估的组织学信息条进行不同的评估。

例如,可以考虑评估间质纤维化/肾小管萎缩而不是评估ci和ct值。

间质纤维化/肾小管萎缩(IFTA)通过Banff病变评分i-IFTA评估。该评分评价瘢痕皮质中的炎症程度。按以下不同阶段评估评分:

-阶段0(i-IFTA0):无炎症或瘢痕皮质实质小于10%;

-阶段1(i-IFTA1):10%-25%的瘢痕皮质实质有炎症;

-阶段2(i-IFTA2):26%-50%的瘢痕皮质实质有炎症,和

-阶段3(i-IFTA3):大于50%的瘢痕皮质实质有炎症。

还可以考虑不按照阶段而是通过数值评价分数。对于IFTA,可以输出炎症百分比而不确定阶段。

可以评估其它组织学信息条,如微循环炎症、间质性炎症和微管炎以及移植肾小球病。

微循环炎症(对应于肾小球炎和管周毛细血管炎的组合)由Banff病变评分g(肾小球炎的评分)+Banff病变评分ptc(管周毛细血管炎的评分)的相加产生。

Banff病变评分g评价肾小球内炎症的程度。肾小球炎是微血管炎症的一种形式,并且是抗体介导的排异中活性和抗体与组织相互作用的特征。评分评估如下:

-g0:无肾小球炎;

-g1:小于25%的肾小球中的节段性或全身性肾小球炎;

-g2:25-75%的肾小球中的节段性或全身性肾小球炎,和

-g3:大于75%的肾小球中的节段性或全身性肾小球炎。

Banff病变评分ptc评价管周毛细血管(PTC)内的炎症程度。与肾小球炎一起,管周毛细血管炎构成微血管炎症,作为活动抗体介导的排异反应或慢性活动抗体介导的排异反应的特征。评分评估如下:

-ptc0:最大白细胞数<3;

-ptc1:≥10%的皮质PTC中至少有1个白细胞,其中最严重受累的PTC中有3-4个白细胞;

-ptc2:≥10%的皮质PTC中至少有1个白细胞,其中最严重受累的PTC中有5-10个白细胞,和

-ptc3:≥10%的皮质PTC中至少有1个白细胞,其中最严重受累的PTC中>10个白细胞。

间质性炎症和肾小管炎由Banff病变评分i(间质性炎症评分)+Banff病变评分t(肾小管炎评分)的相加产生。

Banff病变评分i评估皮质的无瘢痕区域中的炎症程度(“间质性炎症”),其通常是急性T细胞介导的排异的标志物。评分评估如下:

-i0:无炎症或少于10%的无瘢痕皮质实质;

-i1:10-25%的无瘢痕皮质实质中的炎症;

-i2:26-50%的无瘢痕皮质实质中的炎症,和

-i3:大于50%的无瘢痕皮质实质中的炎症。

Banff病变评分t评价皮质小管上皮内的炎症程度(“小管炎”)。肾小管上皮基底外侧中单核细胞的存在是肾移植中急性T细胞介导的排异的明确病变之一。评分评估如下:

-t0:肾小管中无单核细胞或仅有单个肾小管炎灶;

-t1:具有1-4个单核细胞/管状横截面(或10个管状细胞)的病灶;

-t2:具有5-10个单核细胞/管状横截面(或10个管状细胞)的病灶,和

-t3:具有>10个单核细胞/管状横截面的病灶或存在≥2个伴有i2/i3炎症和其他t2的管状基底膜破坏区域。

通过Banff cg评分评价移植肾小球病(cg)。该评分基于最严重受影响的肾小球中肾小球基底膜(GBM)双轮廓或多层的存在和程度。评分评估如下:

-cg0:光学显微镜(LM)或电子显微镜(EM)显示无GBM双轮廓;

-cg1a:LM显示无GBM双轮廓,但EM显示GBM双轮廓(不完整的或圆周的)在至少3个肾小球毛细血管中,伴有相关的内皮肿胀和/或内皮下透电子加宽;

-cg1b:LM显示最受影响的非硬化肾小球中1-25%毛细血管袢的GBM双轮廓;如果EM可用,推荐EM确认;

-cg2:最受影响的肾小球中影响26-50%外围毛细管袢的双轮廓,和

-cg3:最受影响的肾小球中影响大于50%外围毛细管袢的双轮廓。

当考虑到在移植的情况下不仅对活检进行组织学信息条54的评估这一事实时,这更是如此。活检也用于其他上下文,如肾病诊断或肾癌。

还涉及其它组织学信息条54,因为这种评估方法可以有利地用于其它医疗行为,如涂片、穿刺液或肾切除。

此外,评估方法在另一器官上进行。

例如,移植物是心脏或肺或肝,而不考虑移植物是肾。

在这种情况下,可以根据所考虑的器官来考虑其它组织学信息条54。

值得注意的是,如果器官是心脏,组织学信息条54是急性细胞排异的阶段,抗体介导的排异的阶段,预定的分类优选是国际心肺移植协会的分类或同种异体移植病理学的国际Banff分类。

作为另一个实例,如果是肺,组织学信息条54是急性细胞排异的阶段,抗体介导的排异的阶段,预定的分类优选是国际心肺移植协会的分类或同种异体移植病理学的国际Banff分类。

此外,由于这种评估方法可用于其它器官,这种评估方法可有利地用于其它医疗行为,如心内膜心肌或经支气管或肺或肝活检、涂片、穿刺液以及肺或肝切除术。

每个先前的实施方案共享共同的特征,根据该共同的特征,用于评估的方法是用于评估受试者的器官(特别是来自供体的移植物)的至少一条组织学信息54的方法,该方法是计算机实现的并且该方法包括提供关于受试者的参数50,并且对于至少一条组织学信息的每一条,对所提供的受试者数据应用预测函数52以获得所评估的组织学信息条。当组织学信息条54是数值时,所评估的组织学信息条54是器官的数值,或者当组织学信息条54属于不同预定义类别中的预定义类别时,所评估的组织学信息条54是属于器官的不同预定义类别的概率。此外,每个预测函数52对于所考虑的组织学信息条具有特异性,并且通过使用人工智能技术来获得。

在每种情况下,这种评估方法能够利用非侵入性技术获得准确的组织学信息条。

此外,这种方法易于实施,因为这种方法可以通过输入通常已知的或可以以非侵入性方式测量的受试者参数50来进行。这种输入动作以及进行该方法可以通过使用在每个护理单元中通常可用的系统20来实现。

在系统20不具有用于应用预测功能的必要计算能力的情况下,可以通过与远程服务器交互来进行计算。

在这些情况的每一种中,在护理单元中不需要额外的硬件资源。

此外,由于没有进行侵入性动作,所以进行侵入性动作的资源被保存并且可以被分配给其它任务。

这意味着评估方法节省了护理单元的资源,同时提供了与侵入性行为(例如活检)相同的信息。

应用

这种评估方法的优点使得该方法适用于与疾病有关的许多应用。

根据上下文并且根据先前提及的实例,此类疾病可以是肾病或心脏病。

疾病的其它实例是急性细胞排异、抗体介导的排异、原始疾病的复发(淀粉样变性,特别是糖尿病)和多瘤病毒肾病。

移植物损失、移植物排异、移植物抗宿主疾病、狭窄、血栓形成、急性肾小管肾炎、慢性移植肾病、肾衰竭、动脉粥样硬化、动脉高血压、冠状动脉疾病是这类疾病的其它实例。

在每种应用中,在使用评估方法的应用的疾病和应用评估方法的器官之间存在联系。换言之,这种疾病是与该器官相关的疾病或病症。

因此,可以认为在用于预测受试者处于罹患疾病的风险的方法中使用评估方法。

术语“风险”涉及事件将在特定时间段内发生的概率,并且可以指受试者的“绝对”风险或“相对”风险。绝对风险可以参考相关时间队列的实际观察后测量,或参考从相关时间段所遵循的统计有效历史队列中得出的指数值来测量。相对风险是指受试者的绝对风险与低风险队列的绝对风险或平均群体风险相比的比率,其可根据如何评估临床风险因素而变化。对于给定的测试结果,也通常使用比值比,即阳性事件与阴性事件的比例(比值根据公式p/(1-p),其中p是事件的概率,并且(1-p)是无事件的概率)。

所述用于预测的方法包括至少以下步骤:对所述受试者进行所述评估方法的步骤,以获得所评估的组织学信息条,以及基于所评估的组织学信息条来预测所述受试者处于罹患所述疾病的风险中。

或者,可以考虑用于诊断疾病的方法,其中用于诊断的方法包括至少以下步骤:进行评估方法的步骤,以获得所评估的组织学信息条,以及基于所评估的组织学信息条诊断疾病。

所述评估方法还可有利地用于鉴定用于预防和/或治疗疾病的治疗性靶标的方法中,所述方法至少包括以下步骤:进行用于评估第一受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,所述第一受试者是罹患所述疾病的受试者;进行用于评估第二受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,所述第二受试者是未罹患所述疾病的受试者,以及基于所评估的第一和第二条组织学信息的比较来选择治疗性靶标。

或者,可以考虑用于鉴定疾病的生物标志物的方法,所述生物标志物是疾病的诊断生物标志物、疾病的易感性生物标志物、疾病的预后性生物标志物或响应于疾病的治疗的预测性生物标志物,所述方法至少包括以下步骤:进行用于评估第一受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,所述第一受试者是罹患疾病的受试者;进行用于评估第二受试者的器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,所述第二受试者是未罹患疾病的受试者,并且基于所评估的第一和第二条组织学信息的比较选择生物标志物靶标。

评估方法还可有利地用于筛选可用作药物的化合物的方法中,该化合物对已知的用于预防和/或治疗疾病的治疗性靶标具有作用,所述方法至少包括以下步骤:实施用于评价第一受试者器官的至少一条组织学信息的方法的步骤,以获得所评估的第一条组织学信息,所述第一受试者是罹患所述疾病并已接受所述化合物的受试者;实施用于评价第二受试者器官的至少一条组织学信息的方法的步骤,以获得所评估的第二条组织学信息,所述第二受试者是罹患所述疾病并且未接受所述化合物的受试者,并且基于所评估的第一和第二条组织学信息的比较来选择生物标志物靶标。

评估方法在用于监测参加临床试验的患者的方法中也是有利的,以通过对所述患者进行评估方法的步骤来提供对进行临床试验的疗法的治疗功效的定量测量。

更一般地,评估方法可以有利地用于使用组织学信息条的任何环境中,并且甚至更有利地用于这条组织学信息仅可以以侵入性方式获得的情况中。

此外,本领域技术人员可以考虑评估方法的前述实施方案的特征的任何组合,以在特征技术上兼容时获得新的实施方案。

具体实施方式

实验部分

本部分致力于申请人进行的研究,其显示了本发明的优点。

上下文中的研究

本研究之前的证据

在医学中,通常进行组织活检以确定诊断,指导治疗和预后评估。在肾移植中,零日活检被用作肾同种异体移植物的基线状态,以更好地对在随后的同种异体移植物活检中发现的病变进行情境化并指导决策过程。但是,活检仍然是一种动员人力资源的侵入性和昂贵的过程,从而延迟了移植过程。

申请人已经从2000年1月至2021年1月使用术语(“无创”或“非侵入性”)、“活检”、“预测”和“机器学习”在没有语言限制的情况下检索了PubMed和MEDLINE。本次检索发现164项研究。删除12项预测单一疾病诊断(例如癌症)的研究后,124项研究使用组织学图像,并且28项研究与组学诊断相关。没有发表使用非侵入性参数评估器官病变的存在和严重程度的虚拟活检的研究。

该声明通过欧洲专利局(EPO)对本专利申请要求优先权的申请进行的欧洲检索的结果被证实,其是:

-Kyung don YOO等人的文章,标题为“A Machine Learning Approach UsingSurvival Statistics to Predict Graft Survival in Kidney TransplantRecipients:A Multicenter Cohort Study”,Scientific Reports,第7卷,第1期;

-Derek A DUBAY等人的文章,标题为“Development and future deployment ofa 5 years allograft survival model for kidney transplantation”,Nephrology,第24卷,第8期;

-Irina SCHEFFNER等人的文章,标题为“Patient Survival After KidneyTransplantation:Important Role of Graft-sustaining Factors as Determined byPredictive Modeling Using Random Survival Forest Analysis”,Transplantation,第104卷,第5期;

-Vijaya B.KOLACHALAMA等人的文章,标题为“Association of PathologicalFibrosis With Renal Survival Using Deep Neural Networks”,Kidney InternationalReports,第3卷,第2期,和

-Qiongjing YUAN等人的文章,标题为“Role of Artificial Intelligence inKidney Disease”,International Journal of Medical Science,第7卷,第7期。

此外,这些文献都没有建议使用非侵入性参数产生评估器官病变的存在和严重程度的虚拟活检。

本研究的附加值

本研究通过使用来自全球17个中心的合格数据集开发并确认了第一个医学虚拟活检系统。申请人通常使用评估的临床和生物学参数来预测和分级与组织纤维化、动脉硬化、动脉透明变性和肾小球硬化症相关的特定组织学病变。申请人使用多种机器学习算法来实现对所得到的虚拟活检系统的稳健且准确的判别和校准,并且示出了申请人在多种临床情形中的结果的普遍性。

所有可用证据的含义

该研究证明了无创虚拟活检系统的性能,该系统在日常移植实践中可行且易于实现,并且为移植患者管理的增强决策过程开辟了新途径。为了在常规临床实践中实现该系统,申请人已经建立了使临床医生能够可视化虚拟活检结果的在线即用型应用。

引言

在医学上,活检已经成为建立恶性、良性肿瘤的诊断以及表征炎性疾病和其它病理过程的标准测试,从而指导治疗管理。

在移植医学中,自从Barry等人以及Hamburger在巴黎的第一项开创性工作以来已经进行了器官的活检,成为诊断同种异体移植物排异和损害同种异体移植物的其它各种病理过程的黄金标准。也称为“零日活检”的供体的组织学评价也已经在若干移植程序中实施,以判断供体器官的质量,并且有时排除供体中潜在疾病的可能性。此外,零日活检提供了有价值的基线,从该基线可以比较肾同种异体移植物的后续活检的结果,并且还可以主张治疗策略。

尽管它们具有潜在的有用性,但是在许多移植中心仍然没有进行零日活检,并且仅在特定的情况下发生,因为它仍然是侵入性、耗时且昂贵的过程,其需要组织手术、医疗、病理和技术资源。此外,在当前世界范围内随着来自年长供体、循环死亡后的捐赠和具有显著临床风险因素的供体的移植的增加,评估器官质量变得更加具有挑战性。这些易损器官在移植时可能携带动脉硬化、纤维化、玻璃样变和肾小球硬化病灶。如果在移植后活检中显示,而不是在零日活检中观察到,由于它们的非特异性这些组织学病变可能错误地归因于钙调磷酸酶抑制剂毒性、感染性疾病或同种免疫应答,这对决策和患者管理具有显著影响。

为了规避这些限制,申请人设计了一种研究来开发和验证虚拟活检系统,该系统使用常规收集的供体参数来预测肾脏零日活检结果。由于机器学习已经证明了其在许多医学专业中的临床相关性和优于逻辑回归的性能,申请人将其分析基于使用大且合格的国际供体队列的机器学习方法以及传统统计方法,所述国际供体队列经历供体参数的常规和方案化收集以及使用国际Banff同种异体移植组织病理学分类的标准的零日活检评估。

本申请人的最终目的是为临床医生提供虚拟活检系统,以指导诊断、治疗和移植后的即时患者管理,并最小化仅使用标准供体参数进行零日活检的额外风险和成本。

方法

研究设计和群体

该群体在于2000年1月1日至2019年12月31日募集的用于肾移植的活供体或死亡供体,其在肾移植前进行肾活检。该研究涉及来自欧洲、北美和澳大利亚7个国家的17个机构。总共评估了14,080个肾活检。根据Banff国际分类要求,排除标准为活检不足(n=1,088,7.7%)。最终分析总共包括12,992例肾脏同种异体活检。

将所有数据匿名,从各中心收集临床数据并输入巴黎移植组数据库(法国数据保护管理局(CNIL)登记号:363505)。2020年1月1日,从数据库访问数据。研究方案经巴黎移植组的机构审查委员会批准(https://www.paristransplantgroup.org)。在移植时,所有活体供体均给予书面知情同意书。移植时,前瞻性输入巴黎移植组中心(Necker医院、SaintLouis医院、Toulouse医院)的所有数据;使用结构化方案以确保研究中心之间的协调。为确保数据准确性,已发送数据进行年度审核。作为标准临床程序的一部分,汇编了来自欧洲、北美和澳大利亚中心的其它数据集,根据当地和国家监管标准将其输入中心的数据库中,并匿名提交给巴黎移植组。

肾活检组织学评估和方案

在根据标准实践由外科医生使用16号针装置或直刀片从供体取出器官后进行零日活检。立即将组织固定在醇-福尔马林-乙酸溶液中,随后包埋在石蜡中或立即冷冻。将活检切片(4μm)用高碘酸-Schiff、Masson三色、苏木精和曙红染色。使用国际Banff评分,19名普通病理学家或经培训的肾脏病理学家使用以下标准对移植物活检病变进行分级:肾小球数量、动脉硬化、动脉透明变性、间质纤维化和肾小管萎缩以及硬化肾小球的百分比。表6中详细描述了这些病变的Banff分级方案。

总结其他参与中心活检实践和程序的详细表格如表7所示。

目标结果

目标结果是根据同种异体移植物病理学的国际Banff分类的活检结果,其对所有肾隔室使用经确认的半定量序数分级方案,包括:i)由最严重受影响的动脉中的动脉内膜增厚定义的动脉硬化(Banff“cv”评分),ii)由高碘酸-Schiff(PAS)-阳性小动脉透明增厚定义的小动脉透明变性(Banff“ah”评分),和iii)用皮质纤维化(Banff“ci”评分)和皮质肾小管萎缩(Banff“ct”评分)的程度计算的间质纤维化和肾小管萎缩(Banff“IFTA”评分)。最后,硬化肾小球的连续百分比定义为受整体硬化影响的肾小球总数的百分比(Banff“肾小球硬化”评分)。在表6中详细给出了Banff分级方案。

肾活检候选预测因子

共检查了11种肾零日组织学病变的候选预测因子,包括供体年龄、性别、类型(活供体或死亡供体)、供体脑血管死亡原因、循环死亡后供体(DCD)、供体高血压病史、糖尿病、丙肝病毒(HCV)状态、体重指数(BMI)、捐献时血清肌酐和供体蛋白尿状态。

统计分析

基线特征的描述性分析

对于连续变量,使用平均值和标准偏差(SD)。我们使用Student t检验、方差分析(ANOVA)(或酌情Mann-Whitne检验和Kruskal-Wallis)或卡方检验(或酌情Fisher精确检验)比较各组之间的平均值和比例。

数据集分割

将数据集随机分成训练集(75%)和测试集(25%),用于预测四个零日组织学病变评分(cv、ah、IFTA,为顺序变量和肾小球硬化症,为连续的)。根据每个组织学病变评分对随机划分进行分层,使得训练集和测试集能够共享来自它们的几乎相等平衡的信息。为了将病变评分中的数据不平衡(其具有比严重/较高等级更轻度/较低等级)最小化,我们通过从轻度/较低等级重新采样随机值来应用上采样方法。这些数据集准备和预处理步骤采用caret R软件包完成。训练和测试集的基线特征总结于表8中。

基于机器学习的虚拟活检系统的开发

为了开发虚拟活检系统,根据6个机器学习模型计算每个零日组织学病变评分的概率:随机森林(RF)、模型平均神经网络(avNNet)、梯度提升机(GBM)、极端梯度提升树(XGBoost)、线性判别分析(LDA)和朴素贝叶斯(NB)。为了与机器学习模型进行比较,还进行了传统的多项式逻辑回归(MNOM)。为了避免过度拟合,当调整模型时,通过稳健的10倍交叉验证来优化超参数的组合。此外,交叉验证过程重复三次以最小化采样偏差。然后,通过平均由每个模型产生的概率来聚集机器学习分类模型(基本模型),以减少偏差并改进预测性能(整体模型)。对于连续的零日组织学病变,肾小球硬化症的百分比,使用回归模型(基础模型)的线性回归创建整体模型以增强性能,其中3次重复10倍交叉验证。申请人禁止进行MNOM、LDA和NB来预测肾小球硬化症病变,因为它们专门设计用于预测分类变量(分类)。

机器学习预测性能

为了评估用于连续的肾小球硬化症的机器学习模型的判别性能,我们使用平均绝对误差(MAE)。对于顺序的零日组织学病变评分、动脉硬化(cv)、小动脉透明变性(ah)和间质性纤维化和肾小管萎缩(IFTA),我们使用通过Hand和Till公式的组织学病变评分的未加权成对判别力的多曲线下面积(multi-AUC)。用混淆矩阵检查模型校准。此外,为了测试预测性能的稳健性,我们在测试集上引入人工随机误差,然后逐渐增加误差的数量,并检验我们的整体模型的预测性能如何受到影响。

丢失数据的多重填补

对于具有至少一个目标预测因子缺失数据元素的活检,使用missForest R软件包进行随机森林填补算法。对于多次填补,最大迭代次数设置为10次。

用随机森林算法计算缺失值,该算法在missForest R包中实现。用于填补算法的供体参数和活检发现是i)年龄、ii)性别、iii)供体类型(活的或死亡的供体)、iv)脑血管死亡原因、v)循环死亡后的供体(DCD)、vi)高血压史、vii)糖尿病、viii)丙肝病毒(HCV)状态、ix)体重指数(BMI)、x)由血清肌酸酐定义的肾功能、xi)蛋白尿状态、xii)动脉硬化(Banffcv评分)、xiii)小动脉透明变性(Banff ah评分)、xiv)间质纤维化和肾小管萎缩(BanffIFTA评分)、xv)硬化肾小球百分比(Banff肾小球硬化评分)。最大迭代次数设置为10次。

填补过程的细节和结果如表9所示。

软件

使用STATA(版本15,数据分析和统计软件)和R(版本3.5.1,R Foundation forStatistical Computing)进行描述性分析和机器学习分析。

结果

队列特征

从2000年1月1日至2019年12月31日,17个参与的移植中心总共包括12,992个零日活检,其中5,905个活检(45.45%)来自10个欧洲中心,6,663个活检(51.29%)来自6个北美中心,并且424个活检(3.26%)来自澳大利亚中心。供体平均年龄为49.75±15.13岁。6,082例(46.85%)为女性,并且9449例(72.73%)为死亡供体。平均血清肌酐为1.07±0.74mg/dl。表1中详细列出了欧洲、北美和澳大利亚队列的基线供体特征和比较。

关于群体的更多细节,欧洲中心包括法国巴黎的Necker医院(n=1218),法国巴黎的Saint-Louis医院(n=856),法国托鲁奥斯的托鲁奥斯医院(n=522),法国Kremlin Bicêtre的Bicêtre医院(n=575),比利时勒芬大学医院(n=915),比利时利格大学医院(n=130),克罗地亚萨格勒布萨格勒布大学医院中心(n=566),西班牙巴塞罗那的Clínic iProvincial de Barcelona医院(n=486),西班牙巴塞罗那的Vall d’Hebrón医院(n=454)和西班牙巴塞罗那的Bellvitge大学医院(n=183)。北美中心包括Rochester,MN的Mayo诊所(n=2922),Phoenix,AZ的Mayo诊所(n=92),美国纽约州纽约市哥伦比亚大学医学中心(n=871),加拿大温哥华的英属哥伦比亚大学(n=465),加拿大埃德蒙顿的阿尔伯塔大学(n=1226)和用于器官共享的联合网络器官(UNOS,n=1087)。澳大利亚中心包括澳大利亚阿德莱德皇家阿德莱德医院(n=424)。

按照国家和中心划分的供体的基线特征也在表3、4.1和4.2中给出。

肾活检结果

表1描述了按欧洲、北美和澳大利亚队列分层的零日肾活检结果。肾小球硬化的平均百分比为7.67%±10.87(死亡供体中为8.39%±11.28)。Banff评分0、1、2和3的动脉硬化(cv)病变评分分布分别为52.32%、29.76%、16.05%和1.87%。评分0、1、2和3的小动脉透明变性(ah)病变评分分布分别为61.57%、26.93%、9.58%和1.91%。最后,评分0、1、2和3的间质纤维化和肾小管萎缩(IFTA)病变评分分布分别为60.19%、31.29%、8.00%和0.52%。大多数中度或重度(评分2或3)病变来自死亡供体(见表5)。

使用机器学习的虚拟活检系统开发

将数据集随机分为训练集(75%)和测试集(25%),用于预测四个零日组织学病变评分。训练集和测试集之间的比较如表8、8.1、8.2、8.3和8.4所示。

针对包括动脉硬化(cv)、小动脉透明变性(ah)、间质性纤维化和肾小管萎缩(IFTA)和肾小球硬化症的活检病变评分产生多个机器学习模型,并且使用以下11个预测因子评估训练集中的供体特征:年龄、性别、供体类型(活供体或死亡供体)、脑血管死亡后供体、循环死亡后供体、高血压病史、糖尿病、HCV状态、BMI、血清肌酐和蛋白尿状态。

然后,生成将若干机器学习模型组合在一起以改进性能的整体模型。我们选择了对顺序的动脉硬化(cv)、小动脉透明变性(ah)和间质性纤维化和肾小管萎缩(IFTA)零日病变评分的评分概率法进行平均的整体模型,以及在肾小球硬化症百分比的交叉验证期间作为虚拟活检系统的最佳表现模型。

预测模型性能

整体模型在测试集中获得了多个AUC:对于动脉硬化(cv)、小动脉透明变性(ah)和间质纤维化和肾小管萎缩(IFTA)分别为0.738、0.817、0.788(表2)。随机森林模型在肾小球硬化病变的交叉验证过程中表现最佳,其中测试组中平均绝对误差(MAE)为4.766。表2总结了所有生成模型的性能。对于所有顺序病变评分,整体模型是最佳表现模型。对于肾小球硬化病变,XGBoost模型实现了最佳判别,其中测试集中MAE为4.703。校准在表10、10.1和10.2中显示为混淆矩阵。

供体参数对病变评分预测的相对重要性

在每个训练集上检查整体模型中使用的11个供体参数S的重要性。预测活检病变的三个最重要参数为:动脉硬化(cv)和小动脉透明变性(ah)的年龄、血清肌酐和体重指数(BMI),以及间质性纤维化和肾小管萎缩(IFTA)和肾小球硬化症的年龄、肌酐和高血压病史。

为临床医生构建虚拟活检在线应用程序

申请人构建了随时可用的在线应用程序,为临床医生提供对我们的虚拟零日活检系统的开放访问。该应用程序允许临床医生输入单个患者的数据,例如基本人口统计、既往病史、并存病、临床参数、生物参数(包括肾功能)和给定供体的蛋白尿水平,以获得i)属于每个零日组织学病变评分的相应概率,ii)用雷达图的相应可视化。

灵敏度分析

进行了各种灵敏度分析,以进一步提高我们结果的稳健性和模型的普遍性。

虚拟活检系统在不同亚群和临床场景中的确认

在测试集中的不同亚群和临床场景中证实了虚拟活检系统的稳健性,包括:i)洲、ii)供体类型(活供体或死供体)、iii)种族(非裔美国人或非非裔美国人供体)和iv)活检类型(植入前或再灌注后零日活检)(见表11)。

机器学习模型与传统多项逻辑回归模型的性能比较

将机器学习模型的性能与多项逻辑回归进行比较,并且证实机器学习模型,尤其是基于树的模型(例如随机森林),优于经典的多项逻辑回归模型(表2)。

额外分析以确认结果的稳健性

通过在组织学病变评分上产生人为误差以观察我们整体模型的任何剧烈变化,在测试集上评估虚拟活检系统的稳健性。申请人证实,结果测量的增量生成误差(平均每步骤分别为7.64%,6.87%,7.22%)伴随着分类器性能的急剧和恒定的降低。

讨论

在来自17个全球中心的肾移植活检的大型国际队列研究中,我们得出并验证了使用无创和常规收集的供体参数来预测组织学病变的新型虚拟活检系统。利用集成的机器学习方法开发了虚拟活检系统,以最大化预测性能。总之,它在不同区域和临床情境中显示出良好的判别、校准、稳健性和普遍性。特别地,虚拟活检系统不仅预测病变的存在(二元分类),而且预测肾同种异体移植物的光谱(多类分类),这促进了更完整的临床解释。

在过去十年中,使用来自患有并存病的老年供体的肾脏扩大了肾脏池,提出了对捐献的肾脏的病理学检查是否可以帮助更好地表征器官质量或驱动器官分配的低效的问题。此外,许多中心不鼓励进行零日活检,因为它仍然是一种侵入性和耗时的过程,可能增加冷缺血时间。

申请人相信虚拟活检系统具有许多潜在的含义:

首先,该虚拟活检系统可以帮助医生评估和情境化可以从供体继承的移植后病变;这可以通过评估慢性病变是由免疫抑制毒性还是由供体获得来加强精确的医学和患者监测。

其次,通过不仅使用基线特征而且使用肾供体的慢性病变来帮助改进移植时患者的随机化以避免选择偏差,这对于临床试验可能是有吸引力的。此外,新治疗的功效通常基于方案活检,其中可以发现慢性病变,如纤维化和动脉硬化。因为抗体介导的排异或免疫抑制毒性可以诱导那些病变,所以知道它们的起源-它们是从供体获得的还是从治疗失效的结果获得的-对于避免结果的误解和潜在有用治疗的丧失是至关重要的。

第三,尽管计算能力的快速改进和巨大的数字化医疗历史记录已经导致许多研究人员尝试使用机器学习的综合方法来仔细研究未知的医学领域,但是对于保健专业人员来说,在现实生活中仍然难以接近这些工具。因此,我们生成的支持临床医生增强适用性的易用在线应用程序是本跨学科研究的基本方面。

最后,利用机器学习算法的能力,使用常规可访问的供体参数来预测活检结果的虚拟活检系统的思想可以容易地在其它医学领域中交叉利用,具有预测特定病变以增强对患者预后的解释的可比需求。

局限性

本研究有若干局限性。首先,在我们的数据集中,正常的零日组织学病变、动脉硬化(cv)、小动脉透明变性(ah)和间质纤维化和肾小管萎缩(IFTA)是不平衡的。虽然这在现实生活中是常见的,但结果是,与代表最少的类别(较高的组织学损伤评分)相比,模型在正确预测代表最多的类别(较低的组织学损伤评分)方面具有更强的能力。为了尽可能地避免这种情况,申请人使用了上采样方法,其随机地重新采样次要类别,以放大预测次要类别的能力,以均衡主要和次要病变类别之间的平衡。此外,上采样方法使得交叉验证过拟合,尽管这仅可忽略地影响测试集上的最终判别。最后,申请人的整体模型是复杂的并且可能需要几十个小时来再现。但是,在线应用提供虚拟活检的实时评估。

结论

总之,申请人首次提出了基于机器学习的虚拟肾同种异体移植活检系统,其在移植时使用容易获得的供体参数。虚拟活检系统证明了17个地理上不同的中心和许多临床场景的准确性能和稳健性。该系统可以为临床医生提供对零日活检结果的可靠估计,这可以降低侵入性和耗时过程的成本,并且有助于指导进一步的活检解释和患者管理。

附录

在附录中,详述了之前引用的不同表格。

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

表5:按供体类型划分的群体队列的基线供体特征

表6:肾零日组织学病变评分总结(国际Banff分类分级方案)

/>

/>

表8:训练集和测试集基线特征

表8.1:动脉硬化(cv)零日组织学病变

缩写:BMI:体重指数。HCV:丙肝病毒。

当试纸(dipstick)大于或等于1或尿蛋白与肌酸酐之比(UPCR,g/g)大于或等于0.5g/g时,蛋白尿值为阳性。

表8.2:小动脉透明变性(ah)零日组织学病变

缩写:BMI:体重指数。HCV:丙肝病毒。

当试纸(dipstick)大于或等于1或尿蛋白与肌酸酐之比(UPCR,g/g)大于或等于0.5g/g时,蛋白尿值为阳性。

表8.3:间质纤维化和肾小管萎缩(IFTA)零日组织学病变

缩写:BMI:体重指数。HCV:丙肝病毒。

当试纸(dipstick)大于或等于1或尿蛋白与肌酸酐之比(UPCR,g/g)大于或等于0.5g/g时,蛋白尿值为阳性。

表8.4:肾小球硬化零日组织学病变

缩写:BMI:体重指数。HCV:丙肝病毒。

当试纸(dipstick)大于或等于1或尿蛋白与肌酸酐之比(UPCR,g/g)大于或等于0.5g/g时,蛋白尿值为阳性。

表9:填补比较前后群体队列的基线供体特征

/>

缩写:BMI:体重指数。HCV:丙肝病毒。

当试纸(dipstick)大于或等于1或尿蛋白与肌酸酐之比(UPCR,g/g)大于或等于0.5g/g时,蛋白尿值为阳性。

表10:虚拟活检系统的校准混淆矩阵

用混淆矩阵测量模型校准性能,因为零日病变评分包括多类评分。

表10.1:动脉硬化(cv活检病变评分)测试集上的混淆矩阵

表10.2:小动脉透明变性(ah活检病变评分)测试集上的混淆矩阵

表10.3:间质纤维化和肾小管萎缩(IFTA活检病变评分)测试集上的混淆矩阵

表11:虚拟活检系统在不同亚群和临床场景中的确认

*使用多AUC测量性能

使用MAE测量性能。

去除缺失种族值。

缩写:曲线下面积(AUC,越高越好),平均绝对误差(MAE,越低越好)。

所有亚群从测试集中分层。

技术分类

06120115928775