掌桥专利:专业的专利平台
掌桥专利
首页

基于机器学习的医学数据检查器

文献发布时间:2023-06-19 18:35:48


基于机器学习的医学数据检查器

相关专利申请的交叉引用

本申请要求 2020 年 6 月 24 日提交的美国临时专利申请第 63/043,691 号的优先权权益,出于所有目的通过引用将其并入。

背景技术

医疗服务提供者每天为不同的受试者(例如,患者)创建大量的医学数据。每个受试者的医学数据可以包括多模态医学数据。例如,对于癌症患者,多模态医学数据可以包括受试者的生平数据、受试者的组织样本的医学图像、组织样本的分析信息、受试者的突变状态等。多模态医学数据可以存储在一个或多个数据库中。临床医生可以从数据库中获取受试者的多模态医学数据,基于医学数据进行诊断并为受试者确定治疗计划以及治疗的预后。例如,基于肿瘤大小,临床医生可以确定受试者所处的癌症的阶段,并决定受试者应该接受的治疗形式(例如,化学疗法、放射疗法或手术)以延长受试者的存活期。此外,临床医生可以在确定治疗时考虑受试者的突变状态。例如,对于某些类型的疗法,一些携带某些基因中的突变的受试者可能比不携带这些突变的受试者更有反应,这可以帮助临床医生决定受试者的治疗方法。

多模态医学数据通常从多个数据源汇集而来,并由不同的医疗服务提供者准备。例如,医学图像可以由医学成像部门准备,而生平数据可以由接收部门准备。这种安排可能容易出错。例如,可能将身份识别错误引入到多模态医学数据,在这种情况下,特定患者的部分或全部医学数据被换成另一患者的医学数据。身份识别错误的一个示例是样本出处复杂化(也称为错误归属),其中一名患者的一条数据已经被换成了另一患者的数据。识别错误可能发生在医疗过程的任何阶段——在分析前阶段、在分析阶段以及在分析后阶段。例如,当一名患者的组织样本(或其图像)已经与被换成了另一患者的组织样本(或其图像)时,可能会出现身份识别错误。

如果为患者做出的临床决策(例如,诊断决策或治疗决策)是基于另一患者的医学数据,则未检测到的身份识别错误可能会严重影响临床护理。因此,需要验证或检查大量的医学数据的有效方法,以检测和标示身份识别错误。

发明内容

本文公开了用于自动验证受试者(例如,患者)的多模态医学数据的技术。在提供给医学应用程序之前,可以使用所公开技术来验证多模态医学数据。例如,多模态医学数据可以是受试者的数据并且可以包括样本载玻片的输入医学图像,该样本载玻片可以由从受试者移除的组织样本制备。多模态医学数据还可以包括医学数据的其他模态,诸如组织样本的分析数据。分析数据可以包括例如肿瘤的部位/位置、组织样本的类型(例如,活检或切除)以及受试者的突变状态。多模态医学数据还可以包括受试者的生平数据。可以在医学数据在医学应用程序上可访问之前验证受试者的多模态医学数据,以确保向该医学应用程序的用户(例如,临床医生)提供经验证在不同模态之间一致的多模态医学数据。

在一些示例中,该技术包括使用一个或多个机器学习模型并基于多模态医学数据的输入医学图像来预测输入医学图像的生物学属性。生物学属性可以与类型相关联,并且对于每个生物学属性类型可以有一系列生物学属性,从这些生物学属性可以针对输入医学图像预测生物学属性。例如,生物学属性的类型可以包括从中提取组织的器官的类型,并且该器官类型的一系列生物学属性可以包括例如脑、乳腺、支气管及肺或肾。生物学属性的类型还可以包括在图像中被观察的组织样本的提取方法的类型,提取方法类型的一系列生物学属性可以包括例如活检或切除。进一步地,生物学属性的类型还可以包括蛋白质表达的类型,并且蛋白质表达类型的一系列生物学属性可以包括例如表皮生长因子受体 (EGFR)蛋白、KRAS 蛋白或肿瘤蛋白 p53。生物学属性的类型还可以包括其他信息,诸如样本中的肿瘤细胞的类型。

另外,输入医学图像可以包括图块集,每个图块包括像素块。在一些示例中,可以基于使用一个或多个机器学习模型针对每个图块执行图块级预测,随后聚合图块级预测,来针对输入医学图像进行对生物学属性的载玻片级预测。在一些示例中,还可以基于将输入医学图像的载玻片级表示输入到一个或多个机器学习模型来进行载玻片级预测。在一些示例中,载玻片级表示可以例如基于以下生成:生成图块的图块级表示以及基于比较图块级表示与参考图块级,将输入医学图像的图块分配到参考医学图像的参考图块集群。可以将图块级表示生成为嵌入向量。

该技术进一步包括确定输入医学图像的经预测的生物学属性与医学数据的其他模态之间的一致性;以及输出对多模态医学数据是否包括潜在一致性的指示,该指示可以指示由例如生平数据中列出的不正确姓名、组织样本被换成另一受试者的组织样本或分析数据被换成另一受试者的分析数据引起的误身份识别错误。可以在医学应用程序中输出指示以警示该医学应用程序的用户多模态医学数据包含潜在的不一致,并且在用户可以基于该多模态医学数据做出临床决策之前可能需要进一步调查。在一些示例中,输入医学图像的载玻片级表示可用于对相似医学图像和与医学图像相关联的受试者的其他医学数据(例如,诊断、治疗史等)执行相似性搜索,以促进对输入医学图像的主题的临床决策。

以下详细描述了本公开的这些和其他示例。例如,其他实施方案涉及与本文描述的方法相关联的系统、装置和计算机可读介质。

参考以下具体实施方式和附图,可以更好地理解所公开技术的性质和优点。

附图说明

参考附图给出详细说明。

图 1A 和图 1B 示出了涉及多模态医学数据的临床过程的示例。

图 2A 和图 2B 根据本公开的某些方面,示出了可以在图 1A 和图 1B 的示例性临床过程中使用的医学数据检查器系统的示例。

图 3A、图 3B 和图 3C 根据本公开的某些方面,示出了图 2A 和图 2B 的医学数据检查器系统的示例性操作。

图 4A 和图 4B 根据本公开的某些方面,示出了图 2A 和图 2B 的医学数据检查器系统的示例性组件。

图 5 根据本公开的某些方面,示出了图 2A 至图 4B 的医学数据检查器系统的示例性训练操作。

图 6 根据本公开的某些方面,示出了的图 2A 和图 2B 的医学数据检查器系统的示例性组件。

图 7A、图 7B 和图 7C 根据本公开的某些方面,示出了图 2A 和图 2B 的医学数据检查器系统的示例性组件以及这些组件的操作。

图 8A、图 8B 和图 8C 根据本公开的某些方面,示出了图 2A 和图 2B 的医学数据检查器系统的示例性组件以及这些组件的操作。

图 9 根据本公开的某些方面,示出了图 2A 和图 2B 的医学数据检查器系统的示例性组件。

图 10 根据本公开的某些方面,示出了图 6 至图 9 的医学数据检查器系统组件的性能的示例。

如图 11A 和图 11B 根据本公开的某些方面,示出了验证多模态医学数据的方法。

图 12A 和图 12B 根据本公开的某些方面,示出了相似性搜索系统及其操作的示例。

图 13A 和图 13B 根据本公开的某些方面,示出了执行对诊断的预测的方法。

图 14 根据本公开的某些方面,示出了执行对医学图像的生物学属性的预测的方法。

图 15 示出了可用于实现本文所公开的技术的示例性计算机系统。

具体实施方式

本文公开了用于多模态医学数据的自动验证的技术。受试者的多模态医学数据可以包括受试者的多个类别的医学数据,诸如医学图像、诊断结果、生平等。在提供给医学应用程序之前,可以使用所公开技术来验证多模态医学数据。验证的目的是确保医学数据的不同模态之间的一致性。例如,如果医学数据的一种模态指示特定的癌症类型(例如,肺癌),则可以执行验证以确定医学图像中包括的组织样本(呈样本载玻片的形式)是否与该癌症类型(例如,肺组织,而不是肝组织)一致。可以在医学数据在医学应用程序(诸如肿瘤学工作流程应用程序和主持肿瘤讨论会的多学科团队协作应用程序)上可访问之前验证多模态医学数据,以确保向医学应用程序的用户(例如,临床医生)提供经验证在不同模态之间一致的多模态医学数据。

在一些示例中,该技术包括从一个或多个数据库接收受试者(例如,患者)的多模态医学数据。数据库可以包括例如 EMR(电子病历)系统、PACS(图片存档及通信系统)、数字病理学 (DP) 系统、LIS(实验室信息系统)以及 RIS(放射学信息系统)。多模态医学数据可以是患有(或疑似患有)癌症的受试者的数据,并且可以包括样本载玻片(该样本载玻片可来自从受试者移除的组织样本)的医学图像。多模态医学数据还可以包括其他模态,诸如组织样本的分析数据。分析数据可以包括例如肿瘤的部位/位置、组织样本的类型(例如,活检、切除)或受试者的突变状态。多模态医学数据还可以包括受试者的生平信息。可以从不同的数据库接收多模态医学数据的不同模态。

该技术可以进一步包括通过使用一个或多个机器学习模型并基于输入医学图像来生成对针对输入医学图像的生物学属性的预测。生物学属性可以与类型相关联,并且对于每个生物学属性类型可以有一系列生物学属性,从这些生物学属性可以针对输入医学图像预测生物学属性。例如,生物学属性的类型可以包括从中提取组织的器官的类型,并且该器官类型的一系列生物学属性可以包括例如脑、乳腺、支气管及肺或肾。生物学属性的类型还可以包括成像的组织样本的提取方法的类型,提取方法类型的一系列生物学属性可以包括例如活检或切除。进一步地,生物学属性的类型还可以包括蛋白质表达的类型,并且蛋白质表达类型的一系列生物学属性可以包括例如表皮生长因子受体 (EGFR) 蛋白、KRAS 蛋白或肿瘤蛋白 p53。还可以预测其他类型的生物学属性,诸如受试者的人口统计信息(例如,年龄、性别等)和临床信息(例如,吸烟状况)以及杂项信息(例如,样本提取方法)等。

然后可以使用经预测的生物学属性来检查输入医学图像与医学数据的其他模态之间的一致性。例如,如果预测输入医学图像的组织样本是肺组织,则可以确定关于医学数据的其他模态是否与经预测的生物学属性一致,诸如蛋白质表达是否与肺癌一致,受试者表现出的症状是否与肺癌一致等。如果检测到不一致,则可以在医学应用程序中输出对潜在的误身份识别错误的指示(例如,生平数据中列出的不正确姓名、组织样本被换成另一患者的组织样本或分析数据被换成另一患者的那些数据)以警示医学应用程序的用户多模态医学数据包含潜在的不一致。

提出了用机器学习模型生成预测的各种技术。在一些示例中,可以用机器学习模型来处理输入医学图像以执行预测,该机器学习模型包括人工神经网络;包括卷积神经网络 (CNN),其包括用以执行卷积运算的层和配置为分类器的全连接层。具体而言,输入医学图像可以包括图块集,其中每个图块包括像素块。CNN 可以在输入医学图像的图块和内核之间执行卷积运算,以针对每个图块生成卷积输出。基于图块的卷积输出,全连接层可以针对每个图块计算图块级预测输出。图块级预测输出可以包括例如该图块被分类成多个候选生物学属性中的一个的可能性。例如,在待预测的生物学属性为输入医学图像中的组织样本的源器官的情况下,该多个候选生物学属性可以包括多个候选源器官,并且候选源器官中的一个将被选为组织样本的源器官。

在一些示例中,可以基于聚合图块级预测输出来进行对针对输入医学图像的生物学属性的载玻片级预测。在一些示例中,聚合可以基于投票机制。具体而言,可以对具有特定图块级预测输出的图块进行计数,并且可以获得不同图块级预测输出的图块计数。可以基于具有最大图块计数的图块级预测输出进行载玻片级预测。例如,如果与大多数图块相关联的图块级预测输出指示源器官是肺,则可以做出以下样载玻片级预测:输入医学图像的本载玻片的源器官是来自肺。在一些示例中,可以为每个图块分配缩放因子或权重(例如,在 0 和 1 之间),并且每个图块级预测输出的图块计数可以基于具有该图块级预测输出的图块的缩放因子的和。图块的缩放因子可以反映例如对图块的图块级预测的置信水平或者对图块的图块级预测的相关程度。置信水平可以基于图块具有如图块级预测输出所指示的特定生物学属性的可能性,较高的可能性导致较高的置信水平,反之亦然。另外,相关程度可以基于例如医学图像内的图块的位置,或者图块与可以识别源器官的组织/肿瘤细胞的预期位置的距离。通过这种安排,可以减少不太相关的或产生低置信度图块级预测的某些图块的影响,这可以提高投票机制生成准确的载玻片级预测的可能性。

还提出了训练 CNN 的技术。在一个示例中,可以基于弱监督训练操作来训练CNN。作为训练操作的一部分,CNN 可以接收训练医学图像作为输入。在一些示例中,训练医学图像的每个图块可以与标记相关联。通过训练操作,可以调整内核的系数,以最大化训练医学图像的每个图块的图块级预测输出与图块的标记之间的匹配。在一些示例中,每个训练医学图像与指示医学图像的生物学属性(例如,特定的器官类型、特定的组织样本提取方法或特定的蛋白质表达)的标记相关联。另外,不同的训练医学图像集(每个集与不同类型的标记(例如,器官类型、提取方法、蛋白质表达、性别等)相关联)可用于训练 CNN 的不同的权重集以预测不同类型的生物学属性。例如,与关于不同组织类型的标记相关联的训练医学图像集可用于训练 CNN 以预测组织的类型,而与关于不同疾病类型的标记相关联的另一训练医学图像集可用于预测训练 CNN 以预测疾病的类型。训练可以是多实例学习(MIL) 的一部分,其中将弱标记应用于整个实例包,其中每个图块为一个实例。通过训练操作,可以调整内核的系数,以最大化医学图像的标记与由 CNN 为医学图像生成的载玻片级预测之间的匹配。通过弱监督训练操作,可以在图像级而不是在图块级执行训练医学图像的标记。这种安排可以减少标记医学图像所涉及的工作量,这反过来使得可获得大量经标记的医学图像以改善 CNN 的训练。为执行对生物学属性的预测,然后可以检索与待预测的特定类型的生物学属性相关联的 CNN 的权重集,并且可以将该权重集与输入医学图像的图块的像素数据组合以执行预测。

在一些示例中,可以基于将输入医学图像的载玻片级表示输入到机器学习模型以生成预测来进行对针对输入医学图像的生物学属性的载玻片级预测。载玻片级表示可以包括多维向量,其中每个维度表示一个特征;并且载玻片级表示可以包括表示输入医学图像签名的特征值集,而该签名可用于预测输入医学图像的生物学属性(例如,源器官、提取方法或蛋白质表达)。在一些示例中,载玻片级表示可以包括相同样本载玻片的在不同放大率下获得的多个医学图像的特征值。通过这种布置,载玻片级表示中可以包括样本载玻片(来自较高放大率的第一医学图像)的高分辨率特征,以及样本载玻片(来自较低放大率的第二医学图像,该第二医学图像可以是与第一图像不同的图像或者可以是与第一医学图像相同但放大级不同的图像)的更多特征,使得载玻片级表示可以提供样本载玻片的各种特征(例如,细胞结构)的更完整且详细的表示。

可以将特征值集输入到机器学习模型以生成对生物学属性的载玻片级预测。在一些示例中,机器学习模型可以包括梯度提升决策树,每个决策树配置为基于载玻片级表示的特征的不同子集生成预测决策,并且载玻片级预测可以基于例如大多数决策树的预测决策来进行。

在一些示例中,可以基于针对输入医学图像的每个图块生成的图块级表示来生成载玻片级表示。在一些示例中,图块级表示可以包括基于将图块的像素输入到全连接神经网络中而生成的嵌入。嵌入可以是多维向量。嵌入可以提供离散分类变量到嵌入空间中连续数字向量的映射。离散分类变量可以表示例如图块的特征的不存在或存在。通过映射,具有与离散分类变量的数量相比降低的维数的向量可用于表示图块。另外,映射可以由深度神经网络执行,可以使用监督技术训练该深度神经网络以针对图块生成嵌入向量,使得具有相同生物学属性的图块由嵌入向量表示,这些嵌入向量在嵌入空间中比那些具有不同生物学属性的图块更接近。在一些示例中,使用无监督技术训练的机器学习模型还可以用于生成嵌入向量。如此,每个图块都可以由嵌入向量表示,该嵌入向量强调区别不同生物学属性的图块的相关特征,并且弱化图块之间共有的特征或与待预测的生物学属性无关的特征。

在一些示例中,可以基于以下来生成载玻片级表示:比较针对输入医学图像的图块生成的图块级表示(“输入图块级表示”)与来自多个参考医学图像的多个参考图块集群的参考图块级表示。对于特定生物学属性类型,参考医学图像可以具有不同的生物学属性(例如,不同的源器官、不同的提取方法和不同的蛋白质表达)。具体而言,可以使用相同的训练过的全连接神经网络从参考医学图像的图块生成可包括嵌入向量的参考图块级表示。可以基于各种集群算法(诸如 k 均值集群)将参考图块级表示集群成多个集群。每个集群可以代表载玻片级表示中的一个特征/维度。载玻片级表示中的特征的特征值可以基于输入医学图像中代表该特征的集群中的许多图块。在一些示例中,特征值可以基于表示集群中的图块数量与输入医学图像的图块总数量之间的比率的分数或小数。如此,载玻片级表示可以表示由输入块级表示所表示的图块在该多个参考图块集群中的分布。该分布可以输入到机器学习模型(例如,梯度提升决策树)以生成对针对输入医学图像的生物学属性的载玻片级预测。

在一些示例中,输入医学图像的载玻片级表示还可以用于支持其他应用程序。在一些示例中,载玻片级表示可用于对与输入医学图像相似的医学图像执行相似性搜索。被搜索的医学图像可以包括用于生成参考图块级表示集群的参考医学图像,这些集群反过来用于生成输入医学图像的载玻片级表示(如上所述)以及其他医学图像。这些医学图像及其载玻片级表示可以存储在数据库中。医学图像还可以与数据库中受试者的医学数据(例如,诊断结果和治疗史)相关联。可以基于找到与输入医学图像的载玻片级表示的向量具有最短距离(例如,欧几里德距离)的载玻片级表示的向量来执行相似性搜索,以检索具有与输入医学图像相似的载玻片级表示的医学图像,以及与该医学图像相关联的医学数据。

从相似性搜索获得的医学图像和医学数据可以支持各种应用程序。例如,基于以下事实,医学图像的生物学属性可用于验证输入医学图像的经预测的生物学属性:这些医学图像的载玻片级表示与彼此相似并且图像可能具有相同的生物学属性。又例如,这些医学图像的受试者的多模态医学数据(诸如治疗史)还可以提供用于支持对输入医学图像的受试者的临床决策的有用信息。

在一些示例中,载玻片级表示还可以用于训练机器学习模型(例如,决策树)以执行对受试者的诊断的预测。诊断可包括例如肿瘤的类型(例如,脑肿瘤、肝肿瘤等)。经预测的诊断支持各种应用程序(诸如受试者的治疗的临床决策)以验证包括在受试者的多模态医学数据中的受试者的诊断等。

使用表示整体输入医学图像的载玻片级表示来预测输入医学图像的生物学属性可以进一步提高预测的准确性。如上所述,对每个单独的图块执行图块级预测并且然后聚合图块级预测以生成载玻片级预测可以通过使用弱监督训练操作训练的机器学习模型来执行。但是这种训练操作可能导致不太准确的预测,因为每个医学图像都与弱标记相关联,这会在预测与标记之间不匹配的情况下降低机器学习模型的参数的调整速率。另外,弱标记可用于说明组织中可能存在的不同类型的细胞,并且不同器官的组织可能具有相同类型的细胞和在不同器官之间区别不同的不同类型的细胞(例如,肿瘤细胞),这可能导致相同医学图像的图块被预测为具有不同的生物学属性。

另一方面,可以使用参考医学图像的载玻片级表示来训练机器学习模型(例如,梯度提升决策树)。另外,由于参考医学图像的载玻片级表示是基于参考图块集群中的图块的分布,该分布表示输入医学图像的图块级表示与参考医学图像的参考图块级表示之间的关系;并且每个图块级表示可以包括嵌入向量,该向量强调区别不同生物学属性的图块的相关特征并弱化图块之间的共同特征或与待预测的生物学属性无关的特征,因此载玻片级表示可以包含整个医学图像的更完整和更相关的信息,该信息可用于区别不同生物学属性的医学图像。因而,每个载玻片级表示可以与标记相关联,并且与图像与弱标记相关联的情况相比,在预测和标记不匹配的情况下机器学习模型的参数的调整速率可以增加。这可以提高机器学习模型针对输入医学图像预测正确的生物学属性的可能性。

所公开技术实现了多模态医学数据的自动验证,以及医学数据中的潜在不一致的标示。这可以降低临床医生由于未检测到的身份识别错误而基于另一患者的医学数据为患者做出临床决策的可能性。另外,使用载玻片级表示的相似性搜索还可以支持各种应用,诸如验证输入医学图像的经预测的生物学属性以及获得有用的信息(诸如可能与该受试者具有相似的医疗状况的其他受试者的治疗史和诊断)以支持对该受试者的临床决策。所有这些都可以提高护理质量。

I. 涉及多模态医学数据的示例性临床过程

图 1A 和图 1B 示出了涉及多模态医学数据的临床过程 100 的示例。如图 1A所示,多模态医学数据 102 是受试者 X 的。如图 1A 所示,多模态医学数据 102 可以包括生平数据 104、医学图像 106、分析数据 108 等。生平数据 104 可以包括患者的各种个人信息,诸如姓名、性别、年龄、种族等。医学图像 106 可以包括患者的组织样本的图像,该组织样本已经被染色以揭示各种信息。例如,在组织样本被苏木精和伊红 (H&E) 染色的情况下,医学图像 106 可以揭示可能包括肿瘤的组织样本的细胞结构。另外,在用免疫染色处理组织样本的情况下,医学图像 106 可以揭示组织样本中某种(些)蛋白的存在/不存在,这可以指示某种类型的基因突变。分析数据 108 可以透露与医学图像 106 相关的各种信息,诸如其提取方法(例如,活检与切除)、医学图像 106 中表示的肿瘤的部位/位置(例如,肺、脑、乳腺、卵巢或肾)以及医学图像 106 中揭示的基因突变的状态。程序历史110 可以指示受试者 X 接受的医疗程序(包括组织样本的提取中涉及的程序)的历史。例如,在受试者 X 接受手术切除程序以移除包括肿瘤的组织样本的情况下,切除程序可以被包括为受试者 X 的治疗史的一部分。

多模态医学数据 102 通常由多个数据源汇集而来并且由不同的医疗服务提供者准备。例如,生平数据 104 可以由患者接收部门准备,医学图像 106 可以由医学成像部门准备,而分析数据 108 可以由组织学部门的分析员准备。这些部门中的每一个都可以有其自己的数据库来存储数据。例如,生平数据库 120 可以存储生平数据,图像数据库 122 可以存储医学图像,而分析数据库 124 可以存储图像分析数据。数据库 120、122 和 124 可以包括例如 EMR(电子病历)系统、PACS(图片存档及通信系统)、数字病理学 (DP) 系统、LIS(实验室信息系统)以及 RIS(放射学信息系统)。

从数据库 120、122 和 124,可以为患者检索生平数据 104、医学图像 106 和分析数据 108,并将这些汇集成多模态医学数据 102,然后将该多模态医学数据提供给医学应用程序 130,诸如肿瘤学工作流程应用程序和主持肿瘤讨论会的多学科团队协作应用程序。如图 1A 所示,医学应用程序 130 可以向肿瘤讨论会的参与者(包括临床医生)展示生平数据 104、医学图像 106 和分析数据 108。基于这些数据,临床医生可以确定受试者 X的诊断 126 和治疗 128。例如,基于医学图像 106 和分析数据 108,临床医生可以确定癌症的类型(例如,乳腺癌、脑癌、卵巢癌)、肿瘤的大小和患者所处的癌症阶段作为诊断 126的一部分。临床医生还可以基于诊断 126 确定患者应该接受的治疗 128(例如,化学疗法、放射疗法、外科手术)以延长患者的存活期。此外,临床医生可以在确定治疗时考虑患者的突变状态,该突变状态可以是分析数据 108 的一部分。例如,如果受试者 X 患有乳腺癌并携带 BRCA1 和 BRCA2 基因中的突变,则临床医生可以确定受试者 X 可能对诱导化学疗法和放射疗法具有更高的反应率,并且因而将诱导化学疗法和放射疗法包括在对受试者 X的治疗 128 中。

由不同方收集医学数据的不同模态随后将这些数据汇集成多模态医学数据 102的过程可能容易出错。例如,可能将身份识别错误引入到多模态医学数据,在这种情况下,特定患者的部分或全部医学数据被换成另一患者的医学数据。图 1B 示出了身份识别错误的示例性来源。在图 1B 中,可能会发生样本出处复杂化(也称为错误归属),其中一名患者的组织样本(或其图像)已经被换成另一患者的组织样本(或其图像)。错误归属可能发生在从收集组织样本到将样本图像汇集成多模态医学数据 102 的任何阶段。例如,组织样本可以在收集样本的实验室和/或在拍摄样本图像的成像部门被交换。另外,组织样本的医学图像也可能被交换。进一步地,分析数据也可能被交换。请注意,误身份识别错误的检测可以在不同级的数据(诸如元数据)完成,但也可以在原始数据本身上完成。由于误身份识别错误的来源很多,元数据可能不属于正确的医学数据。

由于这些身份识别错误,多模态医学数据 102 可能包括不属于受试者 X 的医学数据(诸如医学图像 106 和分析数据 108)。在图 1B 中,受试者 X 的医学图像 106 给被换成受试者 Y 的医学数据 132 (该医学数据进一步包括受试者 Y 的生平数据 134 和图像分析数据 138)的医学图像 136。身份识别错误还可能引起多模态医学数据 102 之间的不一致。例如,男性患者的多模态医学数据可能具有显示卵巢癌肿瘤的图像。又例如,患者的多模态医学数据可能包括显示脑组织的图像,但分析数据指示该患者患有肺癌。

如果为患者做出的临床决策(例如,诊断决策或治疗决策)是基于另一患者的医学数据,则未检测到的身份识别错误可能损害临床护理。例如,由于身份识别错误,临床医生可能会在患者实际上患有脑癌时,生成指示受试者 X 患有肺癌的不正确诊断 126。此外,临床医生可以基于不正确诊断 126 为受试者 X 确定不正确治疗 128。因而,受试者 X 没有接受他/她需要的针对脑癌的治疗,反而接受了可能以其他方式伤害受试者 X 的不必要治疗。

II. 示例性医学数据检查器系统

图 2A和图 2B 示出了可以解决上述问题中的至少一些的示例性医学数据检查器系统 200。医学数据检查器系统 200 可以接收多模态医学数据(诸如包括医学图像 106、生平数据 104 和分析数据 108 的多模态医学数据 102),并且可以确定医学数据的不同模态之间的一致性。如果检测到不一致,医学数据检查器系统 200 可以输出检测到的不一致和不一致的来源的指示 202,否则医学数据检查器系统 200 可以输出没有检测到不一致的指示 204。在一些示例中,医学数据检查器系统 200 可以是医学应用程序 130 的一部分,以警示该应用程序的用户应用程序中呈现的多模态医学数据包含潜在的不一致并且在用户可以基于多模态医学数据 102 做出临床决策之前,可能需要进一步的调查。

参考图 2A,医学数据检查器系统 200 包括基于机器学习 (ML) 的预测模块 210和一致性确定模块 212。预测模块 210 可以包括一个或多个机器学习模型,该一个或多个机器学习模型可接收样本载玻片的医学图像 106(该载玻片可从从受试者移除的组织样本制备)并生成生物学属性的预测 214。生物学属性可以包括例如从中提取组织的器官的类型(例如,脑、肺、乳腺或肾)、组织的提取方法(例如,活检或切除)或蛋白质表达。医学图像106 可以包括图块集,其中每个图块包括像素块。如下所述,在一些示例中,预测模块 210可以使用机器学习模型对医学图像 106 的每个图块执行生物学属性的图块级预测,并且然后基于聚合图块级预测生成对针对医学图像 106 的生物学属性的载玻片级预测。在一些示例中,预测模块 210 还可以使用第一机器学习模型生成医学图像 106 的载玻片级表示,并将该载玻片级表示输入到第二机器学习模型以生成对针对医学图像 106 的生物学属性的载玻片级预测。

预测模块 210 可以配置为从医学图像 106 针对不同类型的生物学属性生成预测 214。预测 214 然后可以提供给一致性确定模块 212 以对照医学数据的其他模态进行检查,从而检测不一致。图 2B 示出了生物学属性 230 的类型的示例和可以由预测模块210 预测的每种生物学属性类型的一系列生物学属性。特定类型的经预测的生物学属性可以由一致性确定模块 212 对照医学数据的其他模态检查。如图 2B 所示,可以训练预测模块 210 基于医学图像 106 以预测生物学属性的类型,包括源器官 232、提取方法 234、蛋白质表达 236 等。

具体而言,源器官 232 可以指示从中提取组织样本(制备为样本载玻片并在医学图像 106 中成像)的器官类型。可以从医学图像 106 预测的一系列器官类型可以包括例如脑、支气管及肺、乳腺、卵巢、软组织、肝胆管、胰腺、前列腺或甲状腺。预测可以基于从医学图像 106 检测不同器官特有的细胞结构的图像特征,诸如肺的杯状肺泡细胞、脑的神经元细胞或心脏的心肌细胞。可以对照数据的其他模态(诸如分析数据 108 的肿瘤部位 242和生平数据 104 的性别 244)检查对源器官 232 的预测,以检测潜在的不一致。例如,如果对源器官 232 的预测指示不同于肿瘤部位 242 和/或与患者的性别 244 不一致的器官的类型,则一致性确定模块 212 可以指示检测到肿瘤部位信息和/或性别信息的潜在不一致。

此外,提取方法 234 可以指示在提取组织样品中涉及的程序。一系列提取方法可以包括活检程序、切除程序等。活检程序通常涉及用针集中移除少量的组织,而切除程序涉及手术移除相对大量的组织。常见的针取活检程序可包括例如细针抽吸和芯针活检。空心针活检组织通常具有与从切除获得的组织不同的形状(例如,圆形形状)。另外,由于集中移除程序,活检组织通常比切除组织具有更大百分比的肿瘤细胞。因此,对医学图像 106 中捕获的组织样本是通过活检程序还是通过切除程序获得的预测可以基于分析该图像以确定例如组织的形状和样本中肿瘤细胞的百分比。可以对照例如程序历史 110 检查预测以检测潜在的不一致。例如,如果提取方法 234 的预测指示组织是使用切除获得的,但程序历史 110 指示用户尚未经受任何手术程序,并且该用户最近已经经受空心针活检,则一致性确定模块 212 可以指示检测到程序历史 110 中的潜在不一致。

进一步地,蛋白质表达 236 可以指示指示基因突变的某些蛋白的存在。可以基于分析组织样本的图像来预测蛋白质表达 236,该组织样本已经经过免疫染色以识别组织细胞中的蛋白。免疫染色的一个例子是免疫组织化学 (IHC),其利用抗体与抗原特异性结合的原理来选择性地识别组织样本的细胞中的蛋白质。可以从图像中预测的一系列蛋白质表达 236 可以包括例如表皮生长因子受体 (EGFR) 蛋白、KRAS 蛋白、肿瘤蛋白 p53、PD-L1或 HER2。可以分析经预测的蛋白质表达以确定是否存在基因突变。可以对照例如可以是分析数据 108 的一部分的突变状态 246 来检查预测。如果预测指示患者存在特定类型的基因突变(例如,EGFR 突变、KRAS 突变、TP53 突变、PD-L1 表达增加或 HER2 突变)但该基因突变类型未在突变状态 246 中列出,则一致性确定模块 212 可以指示检测到突变状态246 中的潜在不一致。

除了源器官 232、提取 234 和蛋白质表达 236 之外,预测模块 210 还可以预测其他类型的信息。例如,预测模块 210 可以预测生物学属性,诸如受试者的人口统计信息(例如,年龄、性别等);临床信息,诸如受试者的习惯(例如,吸烟状况)、受试者的疾病状态、肿瘤类型等。例如,可以从医学图像中检测出指示老化和吸烟的细胞特征,并基于细胞特征预测受试者的年龄和吸烟状况。预测可以包括实数(例如,46.6 岁)、整数或范畴(例如,31至 35 岁之间)。又例如,还可以基于样本载玻片的源器官类型来预测受试者的性别。应当理解,经预测的生物学属性/临床信息可以呈现任何形式,包括实数、二进制输出、范畴等。

图 3A、图 3B 和图 3C 示出了预测模块 210 的预测操作的示例。参考图 3A,医学图像 300 的像素可以划分成图块,诸如图块 302 和 304。每个图块可以包括医学图像300 的像素块。在一个示例中,图块可以包括 224 x 224 像素。可以在医学图像 300 和内核 310 之间执行卷积运算。内核 310 可以表示待从医学图像 106 中检测的图像特征的模式,诸如某种类型的器官的细胞、某种类型的提取方法和蛋白质表达的特征。内核 310可以包括权重数组,该权重数组包括权重 w

参考图 3A,可以执行卷积运算,其中可以将内核 310 叠加在图块集(诸如图块集312,其包括图块 302 和 304 以及其他图块)上。可以基于将内核的权重与图块集内的对应像素相乘并对乘积求和,针对图块 302 计算卷积输出。针对图块集的卷积输出可以表示例如图块集的像素与目标图像特征之间的相关性。卷积输出可以计算如下:

在等式 1 中,W1 表示内核 310 的权重,p 表示像素值,而 c 表示卷积输出。指数 e 和 f 表示卷积输出张量中卷积输出 c 的坐标。另外,指数 r 和 s 可以定义由用于卷积运算的内核 310 的权重叠加的像素的坐标。可以基于由内核叠加的像素值的数组来计算卷积输出。内核可以移位到另一像素值集上,其中每个集以距离 D 分开。然后可以针对图块(诸如图 3A 中的图块 302)计算包括多个卷积输出 c 的卷积输出张量。

从图块集计算出的卷积输出张量可以由分类器进一步处理,以生成对针对图块的生物学属性的图块级预测,如下所示:

在等式 2 中,卷积输出张量的每个卷积输出可以与另一权重 W2 相乘,对乘积求和,并且该和可以由激活函数 f 处理以生成图块级预测输出。权重 W2 可以定义每个卷积输出 c 对图块的图块级预测的贡献。在图3A 中,可以针对图块 302 计算图块级预测输出322。激活函数的目的是将非线性引入到预测输出中,以模拟对于是否激活神经元的决策。激活函数的示例可以包括 ReLU、S 型函数和 softmax 函数。来自等式 2 的预测输出可以表示例如图块具有某种生物学属性(诸如特定源器官 232、特定提取方法 234 或特定蛋白质表达 236)的可能性。在一些示例中,还可以使用等式 2 以及使用不同的权重 W2 针对图块计算多个预测输出,每个预测输出针对一种候选生物学属性。例如,在进行对源器官的预测的情况下,可以针对图块计算图块具有脑、乳腺、支气管及肺、肾脏、卵巢、软组织等源器官(如图 2B 所列)的可能性。

参考图 3B,可以对另一图块集 314 执行另一卷积运算以针对图块 304 计算卷积输出和图块级预测输出 324,并且可以重复该过程直到针对医学图像的所有图块生成图块级预测 300。可以获得图块级预测输出的数组 330,该数组可以表示例如医学图像 300的图块集中具有特定生物学属性的图块的可能性分布。

可以聚合从医学图像 300 生成的图块级预测输出以针对医学图像 300 生成载玻片级预测。在一些示例中,聚合可以基于投票机制。具体而言,可以对具有特定图块级预测输出的图块进行计数,并且可以获得不同图块级预测输出的图块计数。可以基于具有最大图块计数的图块级预测输出进行载玻片级预测。

图 3C 示出了基于投票机制聚合图块级预测输出的示例。如图 3C 所示,从数组330 可以确定医学图像 300 的图块组 334 和 336 比起被分类为肺的一部分,具有更高的可能性被分类为乳腺的一部分。因而,图块组 324 和 326 可以被分类为乳腺的一部分。另外,可以确定医学图像 300 的其余图块比起被分类为乳腺的一部分具有更高的可能性被分类为肺的一部分,并且因而可以被分类为肺的一部分。

可以基于具有特定图块级预测输出的图块来针对医学图像 300 进行生物学属性的载玻片级预测(诸如图 2A 的预测 214),并且可以获得不同图块级预测输出的图块计数。可以基于具有最大图块计数的图块级预测输出进行载玻片级预测。例如,参考表 340,可以确定 20 个图块具有作为乳腺的一部分的图块级预测输出,而 100 个图块具有作为肺的一部分的图块级预测输出。请注意,表 340 中的图块数量仅供用于说明目的。基于被分类为肺的一部分的图块的数量 (100) 远远超过被分类为乳腺的一部分的图块(包括图块组 334 和 346)的数量 (20),然后可以做出医学图像 300 是肺的组织样本的预测。

又例如,每个图块可以与权重/缩放因子 (0-1) 相关联。图块的缩放因子可以反映例如对图块的图块级预测的置信水平或者对图块的图块级预测的相关程度。置信水平可以基于例如选择的候选生物学属性的可能性与未为图块选择的其他候选生物学属性的可能性之间的差异。较大的差异可以表示较高的置信水平,而较小的差异可以表示较小的置信水平。另外,相关程度可以基于例如医学图像内的图块或者图块与可以识别源器官的组织/肿瘤细胞的预期位置的距离。通过这种安排,可以减少不太相关的或产生低置信度图块级预测的某些图块的影响,这可以提高投票机制生成准确的载玻片级预测的可能性。

例如,在图 3C 中,例如由于图块组 334 和 336 处于乳腺癌细胞的预期位置,图块组 334 和 336 的图块级预测输出可以与更大的权重相关联,并且因此在预测载玻片样本的源器官更相关。由于图块组中的组织样本来自乳腺的高可能性,图块组 334 和 336的图块级预测输出还可以与高置信水平相关联。参考表 350,可以获得每个图块级预测输出的图块的缩放因子/权重的和而不是将每个图块计数为一个。因而,在考虑缩放因子时,被分类为乳腺一部分的图块的总计数可能变得高于被分类为肺的一部分的图块的总计数。因而可以做出以下预测:医学图像 300 是乳腺的组织样本。

图 4A 和图 4B 示出了可以是预测模型 210 的一部分的卷积神经网络 (CNN)400 的示例。图 4A示出了 CNN 400 的简化版本。如图 4A 所示,CNN 400 至少包括输入层402、中间层 404 和输出层 406。输入层 402 和中间层 404 可以一起执行卷积运算以生成卷积输出。另外,中间层 406 和输出层 406 可以一起执行分类操作以计算图块被分类成候选生物学属性中的每一个的可能性作为图块的图块级预测输出。

具体而言,输入层 402 可以包括输入节点集,诸如输入节点 402a、402b、402c、402d、402e 和 402f。输入层 402 的每个输入节点可以被分配从诸如医学图像 106 的医学图像接收像素值(例如,p

此外,中间层 404 可以包括包括中间节点 404a、404b 和 404c 的中间节点集。每个中间节点可以从与图 3A 的内核 310 重叠的输入节点组接收缩放的像素值。每个中间节点可以对缩放的像素值求和以根据等式 1 生成卷积输出。例如,中间节点 404a 可以基于缩放的像素值 p

每个中间节点可以用权重数组 [W2] 中定义的权重集来缩放卷积输出。权重数组[W2] 可以定义卷积输出对图块级预测的贡献,并且可以是待预测的生物学属性类型所特有的。输出层 406 包括包括例如节点 406a 和 406b 的节点。每个节点可以输出图块被分类为具有特定候选生物学属性的可能性。输出层 406 的节点数量可以由图块可被分类为具有的候选生物学属性的数量给出。例如,在图块待被分类成十个源器官中的一个的情况下,输出层 406 可以具有十个节点。输出层 406 的每个节点可以从中间层 406 的每个节点接收缩放的卷积输出,对缩放的卷积输出求和,并用激活函数处理该和以生成图块具有特定生物学属性的可能性。例如,节点 406a 可以输出图块被分类成肺的可能性,而节点406b 可以输出图块被分类成乳腺的可能性。

图 4B 示出了 CNN 400 的附加细节。如图 4B 所示,CNN 400 可以包括四个主要操作:(1) 卷积;(2) 非线性激活函数(例如,ReLU 或 softmax);(3) 池化或次级采样;以及 (4) 分类。

如图 4B 所示,医学图像 300 可以由第一卷积网络 420 使用第一权重数组集(例如,图 4B 中的[Wstart])来处理。作为卷积运算的一部分,医学图像 300 的像素块可以与第一权重数组相乘以生成和。然后每个和由非线性激活函数(例如,修正线性单元(ReLU) 和 softmax)处理以生成卷积输出,并且卷积输出可以形成第一输出张量 422。第一权重数组可用于例如从医学图像 300 提取某些基本特征(例如,边缘),并且第一输出张量 422 可将基本特征的分布表示为基本特征图。输出张量(或特征图)422 可以被传递到池化层 430,其中第一输出张量 422 可以被池化层 430 次级采样或下采样以生成第二输出张量 432。

第二输出张量 432 可以由第二卷积网络 440 使用第二权重数组(例如,图 4A中的[W1])来处理,该第二卷积网络可以包括图 4A 的输入层 402 和中间层 404。第二权重数组可用于例如识别针对特定生物学属性类型(诸如来自第二输出张量 432 的器官的类型)的特征的模式。作为卷积运算的一部分,矩阵 414 的像素块可以与第二权重数组相乘以生成和。然后每个和由非线性激活函数(例如,ReLU 和 softmax)处理以生成卷积输出,并且卷积输出可以形成第三输出张量 442。来自第二卷积网络 440 的第三输出张量442(或特征图)可以表示表示器官的类型的特征的分布。第三输出张量 442 可以被传递到池化层 450 以被次级采样或下采样以生成第四输出张量 452。

第四输出张量 452 然后可以传递穿过完全连接的网络 460 以执行分类操作,该完全连接的网络可以包括多层感知器 (MLP),诸如图 4A 的中间层 404 和输出层 406。分类输出可以包括例如图块被分类成肺或乳腺中的一个的可能性,如图 4A 所述。全连接层460 还可以将第四输出张量 452 与第三权重数组(标记为 [W2])相乘以生成和,该第三权重数组可以与特定生物学属性类型相关联;并且该和还可以由激活函数(例如,ReLU 或softmax)处理以生成图 3C 所示的图块级预测输出的数组 330。然后从数组 330,可以基于具有最大图块计数的图块级预测输出来进行载玻片级预测。

可以基于监督训练操作来训练预测模型 210 的各种参数,包括图 4B 所示的CNN 400 的权重 W1、W2 和 W3。图 5 示出了可以由训练模块 501 执行的训练操作 500的示例。作为训练操作 500 的一部分,包括 CNN 400 的预测模块 210 可以接收训练医学图像 502 的集作为输入。训练医学图像 502 可以与特定生物学属性类型的不同生物学属性(例如,不同的源器官、不同的提取方法或不同的蛋白类型)相关联。每个训练医学图像可以与指示训练医学图像的生物学属性的标记 504 相关联。通过训练操作,可以调整权重以最大化对与训练医学图像相关联的特征的目标预测与由预测模块 210 针对训练医学图像输出的经预测的生物学属性之间的匹配。此外,训练医学图像 502 的多个集(其中每个集与不同类型的标记(例如,器官类型、提取方法、蛋白质表达、性别等)相关联)可用于训练CNN 400 的不同的权重集以预测不同类型的生物学属性。

可以使用各种技术来执行监督训练操作。在一些示例中,训练医学图像的每个图块可以与指示图块的生物学属性(例如,在图块中成像的组织的源器官、组织的提取方法或蛋白质表达)的图块级标记 540 相关联。训练模块 510 可以执行损失函数,该损失函数测量每个图块的标记与图块级预测(例如,经预测有最高可能性的生物学属性)之间的差异。训练模块 510 可以调整权重以减少/最小化对训练医学图像的图块的图块级预测与图块的标记之间的差异。

在一些示例中,可以基于交叉熵损失函数来训练 CNN 400。交叉熵通常是指对给定随机变量或事件集的两个可能性分布之间的差异的度量。熵可以指从可能性分布传输随机选择的事件所需的位数,而交叉熵计算与另一分布相比,从一个分布表示或传输平均事件所需的位数。可以使用来自目标分布 P 和目标分布的近似 Q 的事件的可能性来计算 P和 Q 之间的交叉熵,如下:

在等式 3 中,P(x) 是事件 x 在 P 中的可能性,而 Q(x) 是事件 x 在 Q 中的可能性。

交叉熵可用作损失函数以优化机器学习模型(诸如作为分类器运行的 CNN 400)。如上所述,CNN 400 可以针对每个图块计算每个候选图块级预测输出的可能性。可以基于训练数据中每个候选图块级预测输出的预期可能性(例如,基于在图块中被观察的样本的已知源器官的分布)以及 CNN 400 基于等式 3 针对每个候选图块级预测输出而输出的经预测的可能性,针对该图块确定交叉熵损失函数。训练操作 500 的目的可以是最小化等式3 的交叉熵损失函数。

在一些示例中,监督训练操作可以是多实例学习 (MIL) 的一部分,其中弱载玻片级标记被应用于训练医学图像的实例包,其中训练医学图像的每个图块都是实例。每个医学图像可以与载玻片级标记 504 相关联,并且训练模块 510 可以调整权重以减少/最小化训练医学图像的载玻片级预测与训练医学图像的弱标记之间的差异。通过弱监督训练操作,可以在图像级而不是在图块/像素级执行训练医学图像的标记。这种安排可以减少标记医学图像所涉及的工作量,这反过来使得可获得大量经标记的医学图像以改善 CNN 400的训练。同时,通过弱监督训练操作,可以以比基于图块级预测和图块标记之间的差异的权重调整更低的速率(例如,更低的损失梯度)来执行基于载玻片级预测和训练医学图像的弱标记之间的差异的权重调整。可执行弱监督以说明这一事实:组织中可能存在不同类型的细胞,并且不同器官的组织可能具有相同类型的细胞和在不同器官之间区别不同的不同类型的细胞(例如,肿瘤细胞),这可能导致相同医学图像的图块被预测为具有不同的生物学属性。

以下表 1 显示了对医学图像的图块级预测和载玻片级预测的生物学属性预测准确性和 F

表 1。

如表 1 所示,从有较低放大率 (5x) 的图像预测生物学属性的准确性通常高于从有较高放大率 (20x) 的图像。这可能是因为通过较低放大率,可以在医学图像中观察到更大面积的组织样本,这可以提供样本载玻片的更完整信息并且提高预测的准确性。此外,载玻片级预测通常高于图块级预测。这是因为每个图块只包含非常小的一片组织样本,而医学图像的许多图块可能不包括用以确定具体生物学属性的相关信息,或者可能产生导致错误的属性预测的干扰信息。但是由于基于多数投票的图块级预测的聚合,可以去除这种干扰信息并且不太可能导致错误的载玻片级预测结果。例如,假设要通过从两个候选源器官类型中选择来进行对源器官的预测。即使只有 51% 的图块具有正确的图块级预测结果,尽管来自剩余 49% 的不正确图块级预测结果的干扰,基于图块级预测的大多数 (51%) 的载玻片级预测将是正确的。由于多数投票方案能够去除来自不正确的图块级预测结果的干扰,因此载玻片级预测结果通常比图块级预测结果更准确。

图 6 示出了预测模块 210 的预测操作的另一示例。如图 6 所示,可以从医学图像 300 生成载玻片级表示 600。载玻片级表示 600 可以包括多维向量,其中每个维度表示特征,并且载玻片级表示可以包括特征值集,这些特征值代表整个医学图像 300 的某些图像特征,这些图像特征可以用于预测医学图像的特定生物学属性类型(例如,源器官、提取方法或蛋白质表达)的生物学属性。在一些示例中,载玻片级表示 600 可以包括在相同样本载玻片的在不同放大率获得的多个医学图像的特征值。通过这种布置,载玻片级表示中可以包括来自较高放大率的第一医学图像的样本载玻片的高分辨率特征,以及来自较低放大率的第二医学图像的样本载玻片的更多特征,使得载玻片级表示可以提供样本载玻片的各种特征(例如,细胞结构)的更完整且详细的表示。

如下所述,可以基于医学图像 300 的图块的图块级表示来生成载玻片级表示600。图块级表示可以包括嵌入向量,该嵌入向量强调区别不同生物学属性的图块的相关特征,并且弱化图块之间共有的特征或与待预测的生物学属性无关的特征。载玻片级表示600 可以输入到机器学习模型 602(该机器学习模型可以配置为分类器)以生成医学图像300 的生物学属性(例如,源器官、提取方法和蛋白质表达)的载玻片级预测 604。生成载玻片级表示 600 以及机器学习模型 602 的组件可以是图 2A 的预测模块 210 的一部分。

图 7A、图 7B 和图 7C 示出了用以生成载玻片级表示的示例性技术。如图 7A 所示,可以使用图块级表示生成模块 702、载玻片级表示生成模块 704 和参考载玻片级表示集群数据库 706(所有这些可以是预测模块 210 的一部分)从医学图像 300 生成载玻片级表示 600。医学图像 300 可以包括图块(诸如图块 710a、710b 和 710n)的集,其中每个图块包括像素数据的块。每个图块的像素数据可以被输入到图块级表示生成模块 702,该模块可以针对每个图块生成图块级表示。例如,图块级表示(在图 7A 中标记为“tile_rep”)712a 是从图块 710a 生成的,图块级表示 712b 是从图块 710b 生成的,而图块级表示 712n 是从图块 710n 生成的。

图块级表示 712 可以被输入到载玻片级表示生成模块 704,该模块可以将图块级表示 712 与来自参考图块级表示集群数据库 706 的参考图块级表示的集群进行比较。可以使用图块级表示生成模块 702 从参考医学图像的图块生成参考图块级表示。参考医学图像可以与特定生物学属性类型的不同生物学属性(例如,不同的源器官、不同的提取方法和不同的蛋白质类型)相关联。然后可以基于图块级表示 712 与表示参考图块的集群的参考图块级表示之间的比较来确定参考图块的集群中的医学图像 300 的图块的分布。

载玻片级表示 600 的特征值集,由 F0、F1、……表示。在图 7A 中,Fm 可以表示医学图像 300 的图块在参考图块的集群(由参考图块级表示的集群表示)中的分布。载玻片级表示 600 的每个特征(例如,F0、F1 和 Fm 中的一者)可以表示参考图块级表示的集群,并且该特征的值可以表示该集群中具有嵌入向量的医学图像 300 的图块的计数。载玻片级表示 600 的特征值集然后可以用作医学图像 300 的特征并且可以被输入到机器学习模型 602 以生成图 6 的载玻片级预测 604。

在一些示例中,多个医学图像的图块(每个医学图像是在不同放大率下捕获的相同样本载玻片的图像)可以由图块级表示生成模块 702 和载玻片表示生成模块 704 处理以生成载玻片级表示 600 的特征。在这样的示例中,图块级表示生成模块 702 可以具有不同的参数集(例如,不同的权重集),每个参数集用于处理特定放大率的医学图像的图块。图块级表示生成模块 702 然后可以基于医学图像的放大率来选择参数集。此外,载玻片级表示集群数据库 706 可以针对不同的放大率存储不同的参考图块级表示的集群集,并且选择参考图块级表示的特定集群集以确定针对特定放大率的医学图像的图块的分布。然后可以针对样本载玻片的不同放大率的多个图像,确定图块的多个分布,并且可以确定表示该多个分布的多个向量。然后可以基于连接该多个向量来生成载玻片级表示 600。

图 7B 和图 7C 示出了图块级表示的生成的示例。如图 7B 中所示,医学图像300 的图块(诸如图块 710a)的像素数据可以被输入到图块级表示模块 702 以生成图块级表示 712a,该图块级表示可以包括多维嵌入向量。如图 7B 中所示,该多维嵌入向量可以包括向量值集 t

在一些示例中,嵌入向量可以提供离散分类变量到由例如图 7B 的维度 d

在一些示例中,图块级表示生成模块 702 可以包括深度神经网络,其可以经训练以生成嵌入向量,该嵌入向量捕获可以区分不同生物学属性的图块的图块信息。图 7C 示出了深度神经网络 750 的示例。如图 7C 中所示,深度神经网络 750 可以包括输入层752、隐藏层 754 和输出层 756。输入层 752 包括多个节点,诸如节点 752a、752b 和752n。隐藏层 754 包括多个节点,诸如节点 754a、754b 和 754m。输出层 756 包括诸如节点对 756a、756b 和 756c 的节点。输出层 756 的每个节点对可以对应于图 7B 的嵌入空间 720 中的维度,该嵌入空间在此示例中可以具有三个维度。输入层 752、隐藏层 754 和输出层 756 可以形成完全连接的网络,其中隐藏层 754 的每个节点连接到输入层 752的每个节点,输出层 756 的每个节点连接到隐藏层 754 的每个节点。

输入层 752 的每个节点可以接收图块的像素值(例如,pi

在等式 4 中,WE1

隐藏层 754 的每个节点还实现非线性激活函数,诸如 ReLU 或 softmax,其定义给定中间和的节点的输出。激活函数可以模拟生物学神经网络的决策制定。

隐藏层 354 的每个节点与第二权重集相关联。例如,节点 754a 与编码器权重集[WX2

输出层 356 的每个节点可以对应于嵌入空间中的维度。输出层 356 的每个节点可以从隐藏层 354 接收缩放中间值并且基于例如对缩放中间值求和来计算针对嵌入向量的维度的值。例如,节点 756a 可以生成向量值 s

可以使用有监督训练技术、使用类似于图 5 的训练操作 500 的训练操作来训练权重 [WX1] 和 [WX2]。作为有监督训练的一部分,标有目标嵌入向量的图块可以用于训练深度神经网络 750。在某些示例中,自监督训练技术可以用于训练机器学习模型以生成嵌入向量。可以针对不同类型的生物学属性训练不同的权重 [WX1] 和 [WX2] 集。通过此类安排,由深度神经网络 750 生成的嵌入向量可以强调区分特定生物学属性类型的不同生物学属性的图块之间的相关特征,并且弱化图块之间的共同特征或与待预测的生物学属性的类型无关的特征。

除了深度神经网络 750 之外,其他网络拓扑结构,诸如图 4A 的 CNN 400(例如,输入层 402 和中间层 404)或残差神经网络 (ResNET),也可以经训练以生成针对图块的嵌入向量。此外,使用自监督学习技术训练的机器学习模型也可以用于生成针对图块的嵌入向量。

为了生成针对输入医学图像的载玻片级表示(例如,图 6 的载玻片级表示 600),可以将输入医学图像的图块级表示与来自参考图块级表示集群数据库 706 的参考图块级表示的集群进行比较。可以使用图块级表示生成模块 702 从参考医学图像的图块作为嵌入向量生成参考图块级表示。具有相同权重 [WX1] 和 [WX2] 集的相同深度神经网络模型可以用于从参考医学图像生成参考图块级表示的嵌入向量,以及从输入医学图像生成图块级表示的嵌入向量。然后可以将参考图块级表示的嵌入向量集群成集群。

图 8A 示出了生成参考图块级表示的操作的示例。如图 8A 所示,参考医学图像802、804、806 和 808 的图块,每个可以与特定生物学属性类型的不同生物学属性相关联(例如,不同的源器官、不同的提取方法或不同的蛋白质表达),可以被输入到图块级表示生成模块 702 以生成针对每个参考医学图像的参考图块表示集。在图 8A 的示例中,每个参考医学图像可以具有四个图块。图块级表示生成模块 702 可以针对参考医学图像 802 的图块生成参考图块表示集 812、针对参考医学图像 804 的图块生成参考图块表示集 814、针对参考医学图像 806 的图块生成参考图块表示集 816,以及针对参考医学图像 808 的图块生成参考图块表示集 818。每个参考图块表示可以包括多维嵌入向量。在如图 8A 中所示的示例中,每个图块表示可包括具有在 d0 维度和 d1 维度中定义的向量值的二维向量。

可以将参考图块表示集 812、814、816 和 818 输入到集群模块 820,该集群模块可以将参考图块表示的嵌入向量集群成集群。集群模块 820 可以使用诸如 k 均值集群的各种集群算法来对参考图块表示进行集群。K 均值集群旨在将嵌入向量划分为 k 个集群,目标是最小化集群成每个集群的嵌入向量之间的方差。也可以使用其他集群技术。

在图 8A 的示例中,参考图块表示 812、814 和 816 的嵌入向量可以被集群成四个集群 822、824、826 和 828。在每个集群中,每个符号表示图块,其图块表示在集群中。例如,集群 822 可以包括来自参考图像 802 的一个图块和来自参考图像 808 的两个图块。集群 824 可以包括来自参考图像 802 的两个图块、来自参考图像 806 的一个图块,以及来自参考图像 808 的一个图块。集群 826 可以包括来自参考图像 804、806 和 808 中的每一者的一个图块。进一步地,集群 828 可以包括来自参考图像 802 的一个图块、来自参考图像 804 的三个图块,以及来自参考图像 806 的两个图块。

在集群模块 820 的集群操作完成后,集群的信息可以存储在图块级表示集群数据库 706 中。例如,参考图 8B,表 830 可以为每个集群列出集群的质心和集群的半径的向量值,该向量值可以存储在数据库中。在图 8B 的表 830 中,集群 A 可以指代集群 822并且可以具有由沿维度 d

图块级表示的集群可以用于提供不同生物学属性的图像的载玻片级表示。具体来说,图块级表示的不同集群可以表示不同生物学属性图像中的区别特征,而同一集群内的图块级表示可以表示这些图像中的共同特征。参考图块的集群中图块的分布可以表示特定图像的区别特征和共同特征的分布。考虑到不同生物学属性的不同图像可以具有区别特征和共同特征的不同分布,参考图块的集群中图像的图块的分布可以用作表示该图像的特征。

因此,载玻片级表示可以由载玻片级表示生成模块 704 基于集群的信息针对每个参考图像来生成。表 840 分别示出了针对参考图像 802、804、806 和 808 的载玻片级表示 842、844、846 和 848 的示例。载玻片级表示可以是多维向量。参考表 840,每个集群(例如,集群 A、B、C 或 D 中的一者)可以表示载玻片级表示中的特征/维度,并且载玻片级表示中的特征的特征值可以是基于表示特征的集群中的参考图像的图块的数量或集群中参考医学图像的图块的数量与参考医学图像的图块的总数量之间的比率。如此,载玻片级表示可以表示由输入块级表示所表示的图块在该多个参考图块集群中的分布。

例如,载玻片级表示 842 可以包括向量 [1/4,2/4,0/4,1/4],该向量指示参考图像 802 具有参考图像的四个图块:集群 A 中的一个图块、集群 B 中的两个图块、集群 C中没有图块,以及集群 D 中的一个图块。此外,载玻片级表示 844 可以包括向量 [0/4,0/4,1/4,3/4],该向量指示参考图像 804 在集群 A 和集群 B 中没有图块,在集群 C 中具有一个图块,以及在集群 D 中具有三个图块。进一步地,参考图像 806 可以由向量 [0/4,1/4,1/4,2/4] 表示,该向量指示参考图像 806 在集群 A 中没有图块,在集群 B 和集群C 中的每一者中具有一个图块,以及在集群 D 中具有两个图块。参考图像 808 可以由向量 [2/4,1/4,1/4,0/4] 表示,该向量指示参考图像 808 在集群 A 中具有两个图块,在集群 B 和集群 C 中的每一者中具有一个图块,以及在集群 D 中没有图块。

可以基于对输入医学图像的图块级表示与参考图块级表示的集群进行比较,并且确定输入医学图像的图块在集群中的分布来生成输入医学图像的载玻片级表示。该比较可以由载玻片级表示生成模块 704 基于表 830 来执行。具体来说,载玻片级表示生成模块704 可以确定输入医学图像的每个图块的图块级表示的嵌入向量与每个集群的质心之间的距离,并且将该距离与该集群的半径进行比较以确定该图块是否在该集群中。参考图8C,对于具有四个图块的输入图像 850,基于将输入图像 850 的图块的图块级表示与参考图块级表示的集群进行比较,载玻片级表示生成模块 704 可以确定输入图像 850 具有集群 A 中的两个图块、集群 B 和集群 C 中没有图块,以及集群 D 中的两个图块,并且生成包括向量 [2/4,0/4,0/4,2/4] 的载玻片级表示 852。

参考图像 802 至 808 的载玻片级表示 842、844、846 和 848,如图 8B 的表840 所示,可以用于训练图 6 的机器学习模型 602,以执行从输入图像的载玻片级表示(诸如图 8C 的载玻片级表示 852)的对生物学属性的预测。使用载玻片级表示来训练机器学习模型以预测输入医学图像的生物学属性可以进一步提高预测的准确性。具体来说,每个载玻片级表示都可以表示整个图像,而不是图像的图块。用于训练机器学习模型 602 的参考图像可以用与图像相关联的生物学属性来标记,并且机器学习模型 602 的参数可以相比较于生物学属性为弱标签的情况,基于标签与载玻片级预测输出之间的不匹配,而以更高的速率进行调整,如图 5 中。相比较于弱监督训练方案(其中训练图像的标签是弱标签,以考虑组织中可能存在的不同类型的细胞,以及不同器官的组织可能具有相同类型的细胞或细胞结构),使用参考图像的载玻片级表示和标签来训练机器学习模型 602 可以提高由机器学习模型 602 的预测的准确性。

此外,基于图 8A 和图 8B 中描述的技术生成的载玻片级表示可以包括用于区分不同生物学属性的图像的相关信息,并且可以用作医学图像的特征。具体来说,每个图块级表示可以包括一个嵌入向量,该嵌入向量强调区分不同生物学属性的图块之间的相关特征,并弱化图块之间共同的特征或与待预测的生物学属性无关的特征。此外,如以上所述,参考图块集群中图块的分布可以表示特定图像的区别特征和共同特征的分布。考虑到不同生物学属性的不同图像可以具有区别特征和共同特征的不同分布,参考图块的集群中图像的图块的分布可以用作表示该图像的特征。所有这些都可以进一步提高由使用载玻片级表示训练的机器学习模型 602 的预测的准确性。

可以使用载玻片级表示来训练各种类型的机器学习模型 602 以预测输入医学图像的生物学属性。一个示例是作为分类器训练的深度神经网络,诸如 CNN 400 和深度神经网络 750。另一个示例是决策树,诸如随机森林,可以使用梯度提升技术对其进行训练。图9 示出了可以用于实现机器学习模型 602 的随机森林模型 900 的示例。如图 9 所示,随机森林模型 900 可以接收向量 901 [s

每个决策树都可以被分配来处理载玻片级表示的向量元素的不同子集。例如,决策树 902 可以被分配和训练来处理向量元素 {s

随机森林模型中的每个决策树都可以在训练过程中使用参考载玻片级表示集以及从中生成参考载玻片级表示的参考医学图像集的已知生物学属性来生成。此外,训练过程可以确定参考载玻片级表示的向量元素的子集、决策树的每个父节点处的分类标准以及每个终端节点处的可能性值。具体来说,训练过程可以从将参考载玻片级表示的向量元素的子集随机分配给决策树的根节点开始,并且向量元素的不同子集可以分配给不同决策树的根节点。可以重复生成树的过程,直到达到可以由训练过程的超参数定义的决策树的目标数量。此外,在装袋过程中,可以将决策树的根节点分配给参考载玻片级表示的随机样品集以执行训练。

作为训练过程的一部分,可以基于分配给根节点的参考载玻片级表示的随机样品集,在递归节点分割过程中将根节点(以及之后的每个父节点)分割为子节点。在节点分割过程中,分配来处理参考载玻片级表示集的节点可以分割成两个子节点,每个子节点基于针对向量元素的子集的阈值被分配来处理参考载玻片级表示的子集,其中向量元素的子集以及它们的阈值经选择以例如使两种不同生物学属性的参考载玻片级表示的数量方面的差异最大化。例如,在训练过程中参考决策树 902,可以确定通过将分配给决策树 902 的参考载玻片级表示的随机样品基于向量元素 s

然后可以在子节点上重复该过程以生成额外的子节点,直到例如在特定子节点中达到死亡/非存活患者的阈值最小数量,然后该子节点可以成为终端节点。例如,在分类到终端节点 908、910 和 912 中的参考载玻片级表示之间,分类为非肺组织的参考载玻片级表示的数量达到阈值最小数量,因此根分割操作停止于那些节点。在这些终端节点中的每一个处输出的可能性值可以由被分类为肺组织的参考载玻片级表示占分配给决策树的随机参考载玻片级表示集的总数量的百分比来表示。

图 10 示出了经训练为使用载玻片级表示来执行生物学属性预测的机器学习模型 602 与相比较于基于聚合图块级预测的生物学属性预测的性能的示例。在图 10 中,图表 1000 和 1010 是机器学习模型 602 在基于从图块级表示生成的载玻片级表示对生物学属性进行预测方面的性能,该图块级表示是使用利用有监督学习技术训练的机器学习模型,诸如深度神经网络 750 生成的。此外,图表 1020 示出了机器学习模型 602 在基于从图块级表示生成的载玻片级表示对生物学属性进行预测方面的性能,该图块级表示是使用利用自监督学习技术训练的机器学习模型生成的。

参考图 10,图表 1000 包括 F

此外,图表 1010 包括 F

进一步地,图表 1020 包括 F

如图表 1000、1010 和 1020 中所示,F

在一些示例中,输入医学图像的载玻片级表示还可以用于对与输入医学图像相似的医学图像执行相似性搜索。被搜索的医学图像可以具有与由预测模块 210 输出的输入医学图像的预测生物学属性相同的生物学属性。图 11A 示出了医学图像搜索系统 1100的示例,其可以是图 2A 的医学数据检查器系统 200 的外部的一部分。如图 11A 所示,医学图像搜索系统 1100 可以包括医学图像数据库 1102 和相似搜索模块 1104。医学图像数据库 1102 可以存储样本载玻片的医学图像集(例如,医学图像 A、B 和 C)。每个医学图像都与从中提取组织样本的受试者的载玻片表示(例如,载玻片级表示 A、B 和 C)、一个或多个生物学属性(例如,生物学属性 A、B 和 C)以及医学数据(例如,医学数据 A、B 和 C)相关联。在一些示例中,医学数据可以是医学图像的元数据的一部分。

具体来说,医学图像数据库 1102 中的医学图像集可以包括用于生成参考图块级表示的集群的参考医学图像,这些集群表示反过来用于生成输入医学图像的载玻片级表示,如以上所述。此外,医学数据可以包括例如受试者的诊断结果或受试者的治疗史。可以使用图块级表示生成模块 702 从医学图像生成医学图像数据库 1102 中的载玻片级表示。此外,医学图像的一个或多个生物学属性可以包括候选生物学属性,预测模块 210 将从该候选生物学属性对输入医学图像进行预测。在一些示例中,每个医学图像可以与生物学属性类型的生物学属性相关联,而在一些其他示例中,每个医学图像可以与不同生物学属性类型的多个生物学属性相关联。

相似性搜索模块 1104 可以接收输入医学图像的输入载玻片级表示 1110 作为输入,并且在医学图像数据库 1102 中执行相似性搜索,以寻找与输入载玻片级表示 1110相似的一个或多个载玻片级表示。输入载玻片级表示 1110 可以由载玻片级表示生成模块704 生成。相似性搜索可以基于例如提交针对具有从输入载玻片级表示 1110 的向量最短距离(例如,欧几里得距离)的载玻片级表示的向量的查询。相似性搜索可以配置为查找例如 N 个最接近的载玻片级表示。

相似性搜索模块 1104 可以输出与 n 个最接近的载玻片级表示相关联的数据,诸如医学图像 1112、医学数据 1114 以及一个或多个生物学属性 1116。例如,如果相似性搜索模块 1104 确定载玻片级表示 A 最接近输入载玻片级表示 1110,在数据库 1102 中的其他所有载玻片级表示之间,相似性搜索模块 1104 可以检索医学图像 A(作为医学图像 1112)、医学数据 A(作为医学数据 1114),以及一个或多个生物学属性 A(作为生物学属性 1116)。在一些示例中,相似性搜索模块 1104 还可以接收预测的生物学属性 1118,其可以由机器学习模型 602 从输入载玻片级表示 1110 生成。相似性搜索模块 1104 可以验证检索到的医学图像具有与预测的生物学属性 1118 匹配的生物学属性。例如,如果预测的生物学属性 1118 指示输入载玻片级表示 1110 是针对从肺获得的样本载玻片,则相似性搜索模块 1104 可以验证检索到的医学图像 A 的生物学属性 A 也指示从肺获得的样本载玻片。

由相似性搜索模块 1104 检索到的医学图像 1112 和医学数据 1114 可以支持各种应用程序。例如,由相似性搜索模块 1104 检索到的生物学属性 1116 可以用于基于输入医学图像的载玻片级表示彼此相似并且图像可能具有匹配的生物学属性的事实,来验证输入医学图像的预测生物学属性 1118。作为另一个示例,多模态医学数据,诸如检索到的医学图像的受试者的治疗史和诊断结果,也可以提供有用的信息用于支持输入医学图像的受试者的临床决策。例如,如果检索到的医学图像 1112 的受试者被诊断出患有某种类型的癌症,如医学数据 1114 中所示,则可以对输入载玻片级表示 1110 的受试者进行类似的诊断。

图 11B 示出了相似性搜索模块 1104 的性能的示例。图表 1120 绘制了查询的最接近的载玻片级表示的数量 (N) 与命中率之间的关系的曲线图 1122。命中率可以指从与 N 个最接近的载玻片级表示相关联的 N 个医学图像中正确检索到的、具有与跟输入载玻片级表示 1110 相关联的医学图像相同的生物学属性(例如,相同的源器官、相同的提取方法、相同的蛋白质表达等)的医学图像的数量之间的比率。此外,图表 1130 绘制了查询的最接近载玻片级表示的数量 (N) 与正确检索的医学图像的数量之间的关系的曲线图1132。在两个图表中都可以看出,随着查询的最接近载玻片级表示的数量增加,更有可能包含与输入医学图像具有相同生物学属性的医学图像,这可以导致更高的命中率。随着查询的最接近载玻片级表示的数量 (N) 进一步增加,命中率可能会达到稳定期,因为获取的不具有正确属性的医学图像的数量也可能增加。

在一些示例中,载玻片级表示还可以用于训练机器学习模型(例如,决策树)以执行对受试者的诊断的预测。图 12A 示出了诊断预测模块 1200 及其操作的示例。诊断预测模块 1200 可以包括机器学习模型,诸如随机森林模型 900,其使用载玻片级表示进行训练以基于样本载玻片的特征生成针对不同候选诊断的可能性值,并且与最高可能性相关联的诊断预测 1202 可以由诊断预测模块 1200 输出。诊断可包括例如肿瘤的类型(例如,脑肿瘤、肝肿瘤等)。经预测的诊断支持各种应用程序(诸如受试者的治疗的临床决策)以验证包括在受试者的多模态医学数据中的受试者的诊断等。

图 12B 示出了诊断预测模块 1200 的性能的示例。如图 12B 所示的诊断预测用于在低级别胶质瘤 (LGB) 与多形性胶质母细胞瘤 (GBM) 之间进行分类。在图 12B 中,图表 1210 示出了诊断预测模块 1200 在基于从图块级表示生成的载玻片级表示进行诊断预测方面的性能,该图块级表示是使用利用有监督学习技术训练的机器学习模型,诸如深度神经网络 750 生成的。此外,图表 1220 示出了诊断预测模块 1200 在基于从图块级表示生成的载玻片级表示进行诊断预测方面的性能,该图块级表示是使用利用无监督学习技术训练的机器学习模型生成的。图块级表示是从以 20x 放大率获得的脑样本载玻片的医学图像生成的。在这两个图表中,绘制了相对于集群的数量 K 的 F

III. 方法

图 13A 和图 13B 示出了验证多模态医学数据的示例性方法 1300 的流程图。方法 1300 可以由例如图 2A 和图 2B 的医学数据检查器系统 200 来实现。多模态医学数据可以属于癌症患者,并且可以在提供给例如为患者主持肿瘤讨论会的医学协作应用程序之前进行验证。

在步骤 1302 中,医学数据检查器系统 200 可以访问受试者的多模态医学数据,该多模态医学数据包括样本载玻片的医学图像,其中样本载玻片中的样本是从受试者收集的。可以从一个或多个数据库,包括例如 EMR(电子病历)系统、PACS(图片存档和通信系统)、数字病理学 (DP) 系统、LIS(实验室信息系统)和 RIS(放射学信息系统)访问多模态医学数据。多模态医学数据可以是癌症患者的数据,可以包括组织样本的医学图像以及医学数据的其他模态,诸如患者的生平信息以及组织样本的分析数据。分析数据可以包括例如肿瘤的部位/位置、组织样本的类型(例如,活检、切除)以及患者的突变状态。可以从不同的数据库接收多模态医学数据的不同模态。

参考图 2A,多模态医学数据 102 可以包括生平数据 104、医学图像 106、分析数据 108 等。生平数据 104 可以包括患者的各种个人信息,诸如姓名、性别、年龄和种族。医学图像 106 可以包括已经被染色以揭示各种信息的患者的组织样本的图像。例如,在组织样本被苏木精和伊红 (H&E) 染色的情况下,医学图像 106 可以揭示可能包括肿瘤的组织样本的细胞结构。另外,在用免疫染色处理组织样本的情况下,医学图像 106 可以揭示组织样本中某种(些)蛋白的存在/不存在,这可以指示某种类型的基因突变。分析数据 108可以是与医学图像 106 相关的各种信息,诸如其提取方法(例如,活检与切除)、医学图像106 中表示的肿瘤(例如,肺、脑、乳腺、卵巢或肾)的部位/位置,以及医学图像 106 中显示的基因突变状态。程序历史 110 可以指示患者接受的医疗程序的历史,包括涉及组织样本的提取的程序。例如,在患者接受手术切除程序以移除包括肿瘤的组织样本的情况下,切除程序可以被包括为患者的治疗史的一部分。

在步骤 1304 中,医学数据检查器系统 200 可以基于医学图像生成与医学图像的生物学属性有关的预测。生物学属性可以与类型相关联,并且对于每个生物学属性类型可以有一系列生物学属性,从这些生物学属性可以针对输入医学图像预测生物学属性。例如,参考图 2B,生物学属性的类型可以包括从中提取组织的器官类型,并且该器官类型的一系列生物学属性可以包括例如脑、乳腺、支气管及肺或肾。生物学属性的类型还可以包括在图像中被观察的组织样本的提取方法的类型,提取方法类型的一系列生物学属性可以包括例如活检或切除。进一步地,生物学属性的类型还可以包括蛋白质表达的类型,并且蛋白质表达类型的一系列生物学属性可以包括例如表皮生长因子受体 (EGFR) 蛋白、KRAS 蛋白或肿瘤蛋白 p53。生物学属性的类型还可以包括样本中的肿瘤细胞的类型。

在一些示例中,如图 3A 至图 5 所示,包括卷积神经网络 (CNN) 的机器学习模型,其可以包括执行卷积运算的卷积层和配置为分类器的全连接层,可以用于处理输入医学图像以执行预测。返回参考图 3A,输入医学图像可以包括图块集,每个图块包括像素块。

图 12B 示出了步骤 1304 的子步骤的示例。在子步骤 1312 中,医学数据检查器系统 200 可以将输入医学图像的图块集中的每个图块输入到机器学习模型(诸如 CNN400)中,以针对每个图块生成对特征的图块级预测。具体来说,参考图 3A 至图 4B,CNN 可以在输入医学图像的图块与内核之间执行卷积运算,以生成针对每个图块的卷积输出。基于图块的卷积输出,全连接层可以针对每个图块计算图块级预测输出。图块级预测输出可以包括例如该图块被分类成多个候选生物学属性中的一个的可能性。例如,在待预测的生物学属性为输入医学图像中的组织样本的源器官的情况下,该多个候选生物学属性可以包括多个候选源器官,并且候选源器官中的一个将被选为组织样本的源器官。

此外,在子步骤 1314 中,医学数据检查器系统 200 可以基于聚合对多个图块的图块级预测来生成对针对输入医学图像的生物学属性的载玻片级预测。在一些示例中,聚合可以基于投票机制。具体来说,如图 3C 所描述,可以对具有特定图块级预测输出的图块进行计数,并且可以获得针对不同图块级预测输出的图块计数。可以基于具有最大图块计数的图块级预测输出进行载玻片级预测。例如,如果与大多数图块相关联的图块级预测输出指示源器官是肺,则可以做出以下样载玻片级预测:输入医学图像的本载玻片的源器官是来自肺。在一些示例中,可以为每个图块分配缩放因子或权重(例如,在 0 和 1 之间),并且每个图块级预测输出的图块计数可以基于具有该图块级预测输出的图块的缩放因子的和。图块的缩放因子可以反映例如对图块的图块级预测的置信水平以及对图块的图块级预测的相关程度。置信水平可以基于图块具有如图块级预测输出所指示的特定生物学属性的可能性,较高的可能性导致较高的置信水平,反之亦然。另外,相关程度可以基于例如医学图像内的图块或者图块与可以识别源器官的组织/肿瘤细胞的预期位置的距离。

在步骤 1306 中,医学数据检查器系统 200 可以确定输入医学图像的生物学属性与医学数据的其他模态之间的一致性程度。例如,可以关于预测的器官类型是否与医学数据中指示的肿瘤部位/位置一致,预测的提取方法是否与医学图像中显示的组织样本(例如,活检与切除样品)一致,预测的突变状态是否与医学数据中指示的突变状态一致等进行确定。

在步骤 1308 中,医学数据检查器系统 200 可以基于一致性程度输出对多模态医学数据是否包含不一致性的指示。具体来说,如果检测到不一致性,则可以在医学应用程序中输出对潜在误身份识别错误的指示(例如,生平数据中列出的不正确姓名,组织样本被换成另一名患者的,或分析数据被换成另一名患者的分析数据)以警告医学应用程序的用户(例如,协作应用程序,诸如肿瘤讨论会应用程序)多模态医学数据包含潜在的不一致性。

图 14 示出了执行对医学图像的生物学属性的预测的示例性方法 1400 的流程图的示例。生物学属性可以包括例如从中提取组织的器官的类型、提取方法的类型、蛋白质表达的类型、样本中肿瘤细胞的类型等。方法 1400 可以由系统包括例如图 2A 和图 2B的医学数据检查器系统 200 来实现,该医学数据检查器系统可以包括图 6 的机器学习模型 602、图块级表示生成模块 702 以及载玻片级表示生成模块 704。方法 1400 也可以由图 11A 的相似性搜索模块 1104 实现。在一些示例中,方法 1400 的一部分可以是图 12A的步骤 1204 的一部分。

在步骤 1402 中,系统可以访问样本载玻片的医学图像,其中该样本载玻片中的样本是从受试者收集的,该医学图像是受试者的多模态医学数据的一部分。如以上所述,可以从一个或多个数据库,包括例如 EMR(电子病历)系统、PACS(图片存档和通信系统)、数字病理学 (DP) 系统、LIS(实验室信息系统)和 RIS(放射学信息系统)访问多模态医学数据。多模态医学数据可以是癌症患者的数据,可以包括组织样本的医学图像以及医学数据的其他模态,诸如患者的生平信息以及组织样本的分析数据。分析数据可以包括例如肿瘤的部位/位置、组织样本的类型(例如,活检、切除)以及患者的突变状态。可以从不同的数据库接收多模态医学数据的不同模态。

在步骤 1404 中,系统可以定义图块集,其中该图块集中的每个图块包括医学图像的不同部分。每个图块可以包括像素块。

在步骤 1406 中,系统可以针对图块集中的每个图块生成图块的图块级表示。

具体来说,可以使用第一机器学习模型来生成图块级表示,该模型可以是图块级表示生成模块 702 的一部分并且可以包括例如深度神经网络 750。图块级表示可以包括基于将图块的像素输入到全连接神经网络中而生成的嵌入。嵌入可以是多维向量,其强调区分不同生物学属性的图块的相关特征,并且弱化图块之间共同的特征或与待预测的生物学属性无关的特征。深度神经网络 750 可以经训练以生成针对图块的嵌入向量,使得具有相同生物学属性的图块由在嵌入空间中比具有不同生物学属性的那些块更接近的嵌入向量表示。训练可以基于例如有监督的训练技术、无监督的训练技术等。如此,每个图块都可以由嵌入向量表示,该嵌入向量强调区别不同生物学属性的图块的相关特征,并且弱化图块之间共同的特征或与待预测的生物学属性无关的特征。

在步骤 1408 中,系统可以基于图块的图块级表示,针对图块集中的每个图块,将图块分配给集群集中的特定集群。

具体来说,参见图 8A,可以使用深度神经网络 750 从相同生物学属性类型的不同生物学属性的参考医学图像的图块中生成可以包括嵌入向量的参考图块级表示。可以基于各种集群算法(诸如 k 均值集群)将参考图块级表示集群成多个集群。在集群模块 820的集群操作完成后,集群的信息可以存储在图块级表示集群数据库 706 中。例如,参考图8B,表 830 可以针对每个集群列出集群的质心和集群的半径的向量值,该向量值可以存储在数据库中。载玻片级表示生成模块 704 然后可以从图块级表示集群数据库 706 获得表830。

分配可以基于多个输入图块级表示与参考图块级表示的集群之间的关系。该分配可以由载玻片级表示生成模块 704 基于表 830 来执行。具体来说,载玻片级表示生成模块 704 可以确定输入医学图像的每个图块的图块级表示的嵌入向量与每个集群的质心之间的距离,并且将该距离与该集群的半径进行比较以确定该图块是否在该集群中。

在步骤 1410 中,系统可以基于图块分配确定跨集群集的集群分配的分布。在步骤 1412 中,系统然后可以基于分布生成医学图像的载玻片级表示。

具体来说,参考图 8C,载玻片级表示生成模块 704 可以确定集群中输入医学图像的图块的分布。然后可以生成包括多维向量的载玻片级表示生成,其中向量的每个维度可以由图块级表示的集群中的集群表示,并且向量的每个维度的值可以基于表示维度的集群中输入医学图像的图块的数量。在一些示例中,维度的值可以基于分数或小数,其表示集群中的图块的数量与输入医学图像的图块的总数量之间的比率。

在一些示例中,载玻片级表示可以基于图块的不同集群中的图块的多个分布来生成,其中每个图块分布基于来自同一样本载玻片的特定放大率的医学图像的图块。

在步骤 1414 中,系统可以基于载玻片级表示生成与医学图像有关的预测。

在一些示例中,作为图 13 的步骤 1304 的一部分,对第二机器学习模型进行载玻片级表示以生成对针对输入医学图像的生物学属性的载玻片级预测。在一些示例中,第二机器学习模型可以包括梯度提升决策树,诸如图 9 的随机森林模型 900。

在一些示例中,参考图 11A,医学图像的载玻片级表示也可以用于对与输入医学图像相似的医学图像执行相似性搜索。被搜索的医学图像可以包括用于生成参考图块级表示集群的参考医学图像,这些集群反过来用于生成输入医学图像的载玻片级表示(如上所述)以及其他医学图像。这些医学图像及其载玻片级表示可以存储在数据库中。医学图像还可以与数据库中受试者的医学数据(例如,诊断结果和治疗史)相关联。可以基于找到与输入医学图像的载玻片级表示的向量在一定距离(例如,欧几里得距离)内的载玻片级表示的向量来执行相似性搜索,以检索具有与输入医学图像相似的载玻片级表示的医学图像,以及与该医学图像相关联的医学数据。

从相似性搜索获得的医学图像和医学数据可以支持各种应用程序。例如,基于以下事实,医学图像的生物学属性可用于验证输入医学图像的经预测的生物学属性:这些医学图像的载玻片级表示与彼此相似并且图像可能具有相同的生物学属性。又例如,这些医学图像的受试者的多模态医学数据(诸如治疗史)还可以提供用于支持对输入医学图像的受试者的临床决策的有用信息。在一些示例中,参考图 12A,载玻片级表示可用于执行诊断预测(例如,肿瘤的严重性、肿瘤的类型等),该诊断预测可用于例如验证医学数据的其他模态,用于指导治疗决策等。

IV. 计算机系统

本文提到的任何计算机系统都可以利用任何合适数量的子系统。在计算机系统10 中,此类子系统的示例在图 15 中示出,其可以实现医学数据检查系统 200。在一些实施例中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的部件。在其他实施例中,计算机系统可以包括多个计算机设备,每个均是带有内部组件的子系统。计算机系统可以包括台式计算机和膝上型计算机、平板电脑、移动电话和其他移动装置。在一些实施方案中,云基础设施(例如,Amazon Web Services)、图形处理单元(GPU)等可用于实现所公开的技术。

图 15 所示的子系统经由系统总线 75 互连。示出附加子系统,诸如打印机74、键盘78、存储装置79、监视器76(其与显示适配器82联接)等。耦合至I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域已知的任何数量的装置,诸如输入/输出(I/O)端口77(例如,USB、FireWire

计算机系统可以包括多个相同组件或子系统,例如通过外部接口 81 或通过内部接口连接在一起。在某些实施例中,计算机系统、子系统或设备可以通过网络来通信。在这种情况下,一台计算机可以视为客户端,另一台计算机可以视为服务器,其中每一台计算机均可以视为同一计算机系统的一部分。客户端和服务器可以各自包括多个系统、子系统或组件。

实施例的各方面可以使用硬件(例如,专用集成电路或现场可编程门阵列的应用程序)和/或使用具有通常可编程处理器的计算机软件,以控制逻辑的形式,以模块化或集成方式来实施。如本文所用,处理器包括单核处理器、在同一集成芯片上的多核处理器、或在单个电路板上或联网的多个处理单元。基于本文提供的公开内容和启示,本领域普通技术人员将知道并理解使用硬件以及硬件和软件的组合实现本发明实施例的其他方式和/或方法。

可使用任何合适的计算机语言,诸如,例如,Java、C、C++、C#、Objective-C、Swift,或脚本语言,诸如 Perl 或 Python,使用例如传统技术或面向对象技术,将本申请中描述的任何软件组件或功能实现为由处理器执行的软件代码。软件代码可以作为一系列指令或命令存储在计算机可读介质上,以进行存储和/或传输。合适的非暂时性计算机可读介质可以包括随机存取存储器 (RAM)、只读存储器 (ROM)、磁性介质(诸如硬盘驱动器或软盘)、光学介质(诸如光盘 (CD) 或 DVD(数字通用磁盘)、闪存等)。该计算机可读介质可以是此类存储或传输设备的任何组合。

也可使用载波信号对此类程序进行编码和传输,该载波信号适合于经由符合包括互联网在内的各种协议的有线网络、光学网络和/或无线网络进行传输。如此,计算机可读介质可以使用经此类程序编码的数据信号来创建。以程序代码编码的计算机可读介质可以与兼容设备一起打包,或者与其他设备分开提供(例如通过互联网下载)。任何此类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD 或整个计算机系统)上或内部并且可以存在于系统或网络内的不同计算机产品上或内部。计算机系统可以包括监测器、打印机或其他合适的显示器,用于向用户提供本文提到的任何结果。

本文所述的任何方法都可用包括一个或多个处理器的计算机系统完全或部分地执行,该计算机系统可被配置成执行步骤。因此,实施方案可以针对被配置成执行本文描述的任何方法的步骤的计算机系统,可能具有执行相应步骤或相应步骤组的不同组件。尽管以编号的步骤呈现,但是本文的方法的步骤可以同时或以不同顺序执行。此外,部分步骤可以与其他方法中的部分步骤一起使用。另外,全部或部分步骤可以任选。另外,任何方法的任何步骤都可以用模块、单元、电路或用于执行这些步骤的其他装置来执行。

在不脱离本发明实施例的精神和范围的情况下,可以以任何合适的方式组合特定实施例的具体细节。然而,本发明的其他实施例可以针对与每一个单独方面有关的特定实施例,或者这些单独方面的特定组合。

为了说明和描述的目的,已经给出了本发明的示例性实施例的以上描述。并不旨在穷举本发明或将本发明限制为所描述的精确形式,并且根据以上教导,许多修改和变化是可能的。

除非特别指出是相反情况,否则对“一个”、“一种”或“该”的引用旨在表示“一个或多个”。除非特别指出是相反情况,否则“或”的使用旨在表示“包含或”,而不是“排除或”。提及“第一”部件并不一定要求提供第二部件。此外,除非明确说明,否则对“第一”或“第二”部件的引用并不是将所引用的部件限于特定位置。

本文提及的所有专利、专利申请、出版物和说明书全文出于所有目的以引用方式并入本文。没有一项被认为是现有技术。

技术分类

06120115628500