掌桥专利:专业的专利平台
掌桥专利
首页

抗原检测方法、装置、电子设备以及存储介质

文献发布时间:2023-06-19 11:45:49


抗原检测方法、装置、电子设备以及存储介质

技术领域

本公开涉及数据处理的技术领域,具体而言,涉及一种抗原检测方法、装置、电子设备以及存储介质。

背景技术

针对恶性肿瘤的免疫疗法,糖蛋白CD8 alpha链存在于细胞毒性T淋巴细胞上,因此,糖蛋白CD8的检测有助于介导免疫系统内的细胞间相互作用。CD8检测是指对细胞表面的CD8抗原进行标记并计数的方法。

在现有的检测技术中,通常需要采用特定抗体试剂盒,将带有标记的抗体其与细胞表面的抗原结合,从而使细胞带有荧光。经流式细胞仪激光的激发,荧光素PE可以产生荧光,从而被相应通道探测器所检测。通过收集细胞产生的荧光信号,可以获取CD8抗原的表达分布、表达强度等相关信息。然而,该检测流程对实验原材料、实验设备、检测人员技能要求较高,且检测的周期较长,成本较高。

发明内容

本公开实施例至少提供一种抗原检测方法、装置、电子设备以及存储介质。

第一方面,本公开实施例提供了一种抗原检测方法,包括:获取待预测患者的患者特征数据和已知患者的患者特征数据,其中,所述患者特征数据用于表征相对应患者的基因特征数据和/或临床特征数据;根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度;基于所述相似度,确定所述待预测患者的目标抗原的表达量,其中,所述目标抗原为与所述疾病相关联的抗原。

上述实施方式中,通过根据待预测患者的患者特征数据和已知患者的患者特征数据来确定相似度,进而,根据该相似度和待预测患者的患者特征数据确定待遇测患者的目标抗原的表达量,可以为目标抗原的表达量提供解释性依据,从而提高目标抗原的表达量的预测精度,并实现自动化对目标抗原的表达量进行预测,从而进一步提高目标抗原的表达量的预测效率。

一种可选的实施方式中,所述根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度,包括:对所述待预测患者的患者特征数据进行特征提取,得到第一关联特征,其中,所述第一关联特征用于表示所述待预测患者体内每个细胞表面所包含的目标抗原的表达量;对所述已知患者的患者特征数据进行特征提取,得到第二关联特征,其中,所述第二关联特征用于表示所述已知患者体内每个细胞表面所包含的目标抗原的表达量;根据所述第一关联特征和所述第二关联特征,确定所述相似度。

上述实施方式中,通过对患者特征数据进行特征提取,得到关联特征,能够过滤掉患者特征数据中的无关的特征,使得计算出相似度与目标抗原的表达量有关联,从而进一步提高了目标抗原的表达量的预测精度。

一种可选的实施方式中,所述根据所述待预测患者的第一关联特征和所述已知患者的第二关联特征,确定所述相似度,包括:通过目标相似性算法,对所述第一关联特征和所述第二关联特征进行相似性计算,得到所述相似度。

上述实施方式中,由于第一关联特征中过滤了待预测患者的患者特征数据的无用数据,以及第二关联特征中过滤了已知患者的患者特征数据中的无用数据。因此,在对第一关联特征和第二关联特征进行相似度计算时,可以得到与目标抗原的表达量有关联关系的相似度,从而提高了目标抗原的表达量的预测精度。

一种可选的实施方式中,所述相似度的数据格式包括虚拟图,所述虚拟图包括:用于表征待预测患者的第一虚拟节点、用于表征已知患者的第二虚拟节点、第一虚拟节点和第二虚拟节点之间的关联关系,所述关联关系用于表征所述待预测患者和所述已知患者所患疾病之间的相似度。

上述实施方式中,通过构建用于表征待遇测患者和已知患者相似度的虚拟图,可以减少电子设备内存的消耗,从而进一步提高数据处理的效率。

一种可选的实施方式中,所述相似度的数据格式为用于表征该相似度的虚拟图;所述基于所述相似度,确定所述待预测患者的目标抗原的表达量,包括:利用目标图神经网络对所述待预测患者的患者特征数据和所述虚拟图进行处理,确定所述待预测患者的所述目标抗原的表达量。

上述实施方式中,通过目标图神经网络对虚拟图和待预测患者的患者特征数据进行处理的方式,可以实现自动化的确定目标抗原的表达量,从而简化了目标抗原的表达量的确定过程,提高了目标抗原的表达量的预测效率和预测准确率。

一种可选的实施方式中,所述方法还包括:构建训练样本集,其中,所述训练样本集中的每个训练样本包含:每个已知患者的患者特征数据、用于表征已知患者所患疾病之间相似度的目标虚拟图、每个已知患者所对应的目标抗原的实际表达量;根据所述训练样本集对原始图神经网络进行训练,得到所述目标图神经网络。

一种可选的实施方式中,所述构建训练样本集,包括:获取已知患者的患者特征数据,并提取所述已知患者的患者特征数据的目标关联特征,所述目标关联特征用于表示所述待预测患者体内每个细胞表面所包含的目标抗原的表达量;基于所述目标关联特征确定目标虚拟图,其中,所述目标虚拟图用于表征所述已知患者所患疾病之间的相似程度;根据所述目标虚拟图、所述目标关联特征和每个已知患者所对应的标签数据,构建所述训练样本集,其中,所述标签数据用于表征与每个训练样本对应的已知患者的体内每个细胞表面所包含的CD8a的实际表达量。

上述实施方式中,通过上述处理方法可以构建自动化的对待预测患者的目标抗原的表达量进行预测的网络模型,相较于传统方法,本实施方式中的训练方法训练得到的目标图神经网络能够减少了用户使用经验的依赖,且预测结果更加高效和稳定,而且减少了目标抗原的表达量的检测价格。

一种可选的实施方式中,所述目标抗原为CD8a抗原。

一种可选的实施方式中,所述患者特征数据包括以下至少之一:基因组数据、转录组数据、表观基因组数据、临床数据。

第二方面,本公开实施例还提供一种抗原检测装置,包括:获取模块,用于获取待预测患者的患者特征数据和已知患者的患者特征数据,其中,所述患者特征数据用于表征相对应患者的基因特征数据和/或临床特征数据;第一确定模块,用于根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度;第二确定模块,用于基于所述相似度,确定所述待预测患者的目标抗原的表达量,其中,所述目标抗原为与所述疾病相关联的抗原。

第三方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的抗原检测方法、装置、电子设备以及存储介质,采用通过根据待预测患者的患者特征数据和已知患者的患者特征数据来确定相似度,进而,根据该相似度和待预测患者的患者特征数据确定待遇测患者的目标抗原的表达量,可以为目标抗原的表达量提供解释性依据,与现有技术中的通过收集细胞产生的荧光信号,获取CD8抗原的表达分布、表达强度等相关信息相比,其提高了目标抗原的表达量的预测精度,并实现自动化对目标抗原的表达量进行预测,从而进一步提高目标抗原的表达量的预测效率。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种抗原检测方法的流程图;

图2示出了本公开实施例所提供的抗原检测方法中,对待预测患者的目标抗原进行预测的具体预测的流程图;

图3示出了本公开实施例所提供的一种抗原检测装置的示意图;

图4示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现,在现有的检测技术中,通常需要采用特定抗体试剂盒,将带有标记的抗体其与细胞表面的抗原结合,从而使细胞带有荧光。经流式细胞仪激光的激发,荧光素PE可以产生荧光,从而被相应通道探测器所检测。通过收集细胞产生的荧光信号,可以获取CD8抗原的表达分布、表达强度等相关信息。然而,该检测流程对实验原材料、实验设备、检测人员技能要求较高,且检测的周期较长,成本较高。

基于上述研究,本公开提供了一种抗原检测方法、装置、电子设备以及存储介质,通过根据待预测患者的患者特征数据和已知患者的患者特征数据来确定相似度,进而,根据该相似度和待预测患者的患者特征数据确定待遇测患者的目标抗原的表达量,可以为目标抗原的表达量提供解释性依据,从而提高目标抗原的表达量的预测精度,并实现自动化对目标抗原的表达量进行预测,从而进一步提高目标抗原的表达量的预测效率。

为便于对本实施例进行理解,首先对本公开实施例所公开的一种抗原检测方法进行详细介绍,本公开实施例所提供的抗原检测方法的执行主体一般为具有一定计算能力的电子设备。

实施例一

参见图1所示,为本公开实施例提供的一种抗原检测方法的流程图,所述方法包括步骤S101~S105,其中:

S101:获取待预测患者的患者特征数据和已知患者的患者特征数据,其中,所述患者特征数据用于表征相对应患者的基因特征数据和/或临床特征数据。

在本公开实施例中,基因特征数据包括以下至少之一:基因组数据、转录组数据、表观基因组数据。临床特征数据包含待预测患者的患者属性特征和/或待预测患者的相关检查结果。

这里,患者属性特征可以包含以下至少之一:年龄、性别、患病时间等特征。相关检查结果可以包含以下至少之一:图片形式的检查结果、文字形式的检查结果、图片形式的检查结果的文字描述。

S103:根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定待预测患者和已知患者所患疾病之间的相似度。

在本公开实施例中,已知患者可以理解为已知所患疾病类型的患者,或者,已知体内每个细胞所包含目标抗原的表达量的患者。

S105:基于所述相似度,确定所述待预测患者的目标抗原的表达量,其中,所述目标抗原为与所述疾病相关联的抗原。

这里,目标抗原可以理解为指定疾病相关联的抗原。比如,针对恶性肿瘤来说,目标抗原可以理解为与某种恶性肿瘤相关的抗原,比如,通过抗原的表达量可以识别恶性肿瘤的病灶位置。

在一个可选的实施方式中,目标抗原可以为CD8a抗原,本公开所提供的方法除了可以应用到CD8a抗原的检测过程中,还可以应用到其他抗原的检测过程中,本公开对目标抗原的种类不作具体限定。

通过上述描述可知,在现有的技术方案中,通常需要采用特定抗体试剂盒,将带有标记的抗体其与细胞表面的抗原结合,从而使细胞带有荧光。经流式细胞仪激光的激发,荧光素PE可以产生荧光,从而被相应通道探测器所检测。通过收集细胞产生的荧光信号,可以获取CD8a抗原的表达分布、表达强度等相关信息。然而,该检测流程对实验原材料、实验设备、检测人员技能要求较高,且检测的周期较长,成本较高。

基于此,在本公开实施例中,通过根据待预测患者的患者特征数据和已知患者的患者特征数据来确定相似度,进而,根据该相似度和待预测患者的患者特征数据确定待遇测患者的目标抗原的表达量,可以为目标抗原的表达量提供解释性依据,提高了目标抗原的表达量的预测精度,并实现自动化对目标抗原的表达量进行预测,从而进一步提高目标抗原的表达量的预测效率。

针对上述步骤S103,根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度,具体包括如下内容:

步骤S1031、对所述待预测患者的患者特征数据进行特征提取,得到所述待预测患者的关联特征,得到第一关联特征,其中,所述第一关联特征用于表示所述待预测患者体内每个细胞表面所包含的目标抗原的表达量。

步骤S1032、对所述已知患者的患者特征数据进行特征提取,得到第二关联特征,其中,所述第二关联特征用于表示所述已知患者体内每个细胞表面所包含的目标抗原的表达量。

步骤S1033、根据所述待预测患者的第一关联特征和第二关联特征,确定所述相似度。

在本公开实施例中,可以通过训练好的深度学习模型对待预测患者的患者特征数据进行特征提取,得到第一关联特征。同时,还可以通过该深度学习模型对已知患者的患者特征数据进行提取,得到第二关联特征。

这里,深度学习模型可以选择为多层感知机模型、循环神经网络模型,卷积神经网络模型中任意一种模型。除此之外,深度学习模型还可以为其他能够替代上述三种网络模型的其他网络模型,本公开对该深度学习模型的类型不作具体限定,以能够实现对患者特征数据进行特征提取为准。

在对患者特征数据进行特征提取之前,可以对待预测患者和已知患者的患者特征数据进行预处理,并将预处理后的患者特征数据输入到深度学习模型中进行特征提取,分别得到第一关联特征和第二关联特征。

这里,深度网络模型在对患者特征数据进行特征提取之后,可以滤除患者特征数据中与该深度网络模型的预测任务无关联的特征,从而得到与该深度网络模型的预测任务相关联的特征,即第一关联特征和第二关联特征。

通过上述描述可知,患者特征数据可以包含相应患者的基因特征数据,例如,待预测患者的患者特征数据可以包含该待预测患者的基因特征数据;已知患者的患者特征数据可以包含该已知患者的基因特征数据。

在此情况下,第一关联特征可以理解为待预测患者的基因特征数据中能够表征目标抗原的表达量的至少一个基因的特征描述信息,比如,该基因的名称、类型、功能等描述信息。第二关联特征可以理解为已知患者的基因特征数据中能够表征目标抗原的表达量的至少一个基因的特征描述信息,比如,该基因的名称、类型、功能等描述信息。

在一种可能的实施方式中,对上述患者特征数据(包括待预测患者的患者特征数据和已知患者的患者特征数据)进行预处理的过程可以描述如下:

确定患者特征数据的数据类型,其中,该数据类型可以为离散型数据和/或连续型数据。

针对离散型的患者特征数据,可以通过文本特征编码方式对该离散型的患者特征数据进行编码,例如,文本特征编码方式可以为one-hot(独热编码)、helmet等任意一种可以用于实现离散型数据编码的文本特征编码方式。除此之外,还可以选择其他类型的文本特征编码方式,本公开对此不作具体限定。

若患者特征数据中还包含连续型数据,则可以将编码后的离散型的患者特征数据和连续型的患者特征数据进行拼接,并将拼接后得到的患者特征数据通过数据格式处理方法进行格式处理,得到深度神经网络能够识别的格式,其中,该数据格式处理方法可以包含:数据归一化、格式标准化等一种或多种方法。

这里,针对待预测患者的患者特征数据和已知患者的患者特征数据均可以采用上述所描述的预处理方式进行预处理,此处不再展开分别描述。

在确定出待预测患者的第一关联特征,以及已知患者的第二关联特征之后,就可以计算第二关联特征和第一关联特征之间的相似度。

这里,已知患者的数量可以为多个,此时,可以计算待预测患者的第一关联特征和每个已知患者的第二关联特征之间的相似度。

这里,若已知患者的数量为多个,则可以对多个已知患者进行分类,得到至少一个患者分类组。具体地,可以根据已知患者所患疾病的疾病类型、已知患者所患疾病的病灶位置、已知患者所患疾病的时间等信息对多个已知患者进行分类,得到至少一个患者分类组。

针对每个患者分类组,均可以为其设置对应的分类标签,比如,可以为:疾病类型、病灶位置、患病时间等标签。

此时,可以计算待预测患者的第一关联特征和每个患者分类组中各个已知患者的第二关联特征之间的相似度;并根据确定出的该相似度确定待预测患者与该患者分类组的相似度。

例如,患者分类组中包含3个已知患者,分别为已知患者A1、已知患者A2和已知患者A3。此时,可以计算待预测患者与3个已知患者之间的相似度,得到相似度B1、B2和B3。然后,对相似度B1、B2和B3进行求平均计算,得到平均值C,并将该平均值C确定为待预测患者与该患者分类组的相似度。

在上述实施例中,在已知患者的数量较多时,通过上述处理方法,可以简化数据计算流程,加快数据处理速度,节省数据处理的时间。

需要说明的是,在本公开实施例中,已知患者的第二关联特征可以为预先通过深度神经网络模型提取到的特征,还可以为在计算相似度时,通过深度网络模型对已知患者的患者特征数据进行提取之后得到的特征。本公开对第二关联特征的获取方式不作具体限定,以能够实现为准。

通过上述描述可知,通过对患者特征数据进行特征提取,得到关联特征,能够过滤掉患者特征数据中的无关的特征,使得计算出相似度与目标抗原的表达量有关联,从而进一步提高了目标抗原的表达量的预测精度。

针对上述步骤S1032,根据所述待预测患者的第一关联特征和所述已知患者的第二关联特征,确定所述相似度,具体包括如下过程:通过目标相似性算法,对所述第一关联特征和所述第二关联特征进行相似性计算,得到所述相似度。

具体地,可以通过目标相似性算法对第一关联特征和第二关联特征进行相似性运算,得到待预测患者的第一关联特征和已知患者的第二关联特征之间的相似度。

这里,目标相似性算法可以为余弦相似度、注意力模型、相关系数等任意一种算法。除此之外,还可以选择其他的相似性算法,本公开对此不做具体限定。

需要说明的是,在选择目标相似性算法时,可以根据不同电子设备的中央处理器(即CPU)的算力水平以及对于运算结果精确度要求而进行适应性选择。

通过上述描述可知,由于第一关联特征中过滤了待预测患者的患者特征数据的无用数据,以及第二关联特征中过滤了已知患者的患者特征数据中的无用数据。因此,在对第一关联特征和第二关联特征进行相似度计算时,可以得到与目标抗原的表达量有关联关系的相似度,从而提高了目标抗原的表达量的预测精度。

在一个可能的实施方式中,上述相似度的数据格式包括虚拟图,该虚拟图包括:用于表征待预测患者的第一虚拟节点、用于表征已知患者的第二虚拟节点、第一虚拟节点和第二虚拟节点之间的关联关系,所述关联关系用于表征所述待预测患者和所述已知患者所患疾病之间的相似度。

具体地,上述相似度的数据格式可以为虚拟图形式的数据。其中,该虚拟图可以通过邻接矩阵,和/或,邻接表(例如,正或者逆邻接表)等方式进行表示。

这里,根据不同相似度的运算需求,上述虚拟图的数据结构可以表达为不同形式,例如,若该相似度中的数据内容较多,使用邻接矩阵的数据结构形式会占据较大的存储空间,或者,对于CPU的算力水平要求较高时,则可以采用正、逆邻接表的数据结构对上述相似度进行表达,从而提高了对目标抗原的预测精度以及运算效率。

通过上述描述可知,通过构建用于表征待遇测患者和已知患者所患疾病之间的相似度的虚拟图,可以减少电子设备内存的消耗,从而进一步提高数据处理的效率。

在相似度的数据格式为用于表征所述相似度的虚拟图的情况下,针对上述步骤S105、基于所述相似度,确定所述待预测患者的目标抗原的表达量,具体包括如下过程:

利用目标图神经网络对所述待预测患者的患者特征数据和所述虚拟图进行处理,确定所述待预测患者的所述目标抗原的表达量。

具体地,可以将待预测患者的患者特征数据和虚拟图输入到训练好的目标图神经网络中,其中,该目标图神经网络可以为图卷积网络(Graph Convolutional Network,即GCN),或者图注意力网络(Graph Attention Network,即GAT)等。该目标图神经网络对该待预测患者的患者特征数据以及虚拟图进行处理,从而得到该待预测患者的目标抗原的表达量。其中,该目标抗原的表达量可以理解为待预测患者的每个细胞表面所包含目标抗原的数量。

应理解的是,除了图卷积网络和图注意力网络之外,能够对上述待预测患者的患者特征数据以及虚拟图进行处理的目标图神经网络的方案均在本公开的保护范围内。

通过上述描述可知,通过目标图神经网络对虚拟图和待预测患者的患者特征数据进行处理的方式,可以实现自动化的确定目标抗原的表达量,从而简化了目标抗原的表达量的确定过程,提高了目标抗原的表达量的预测效率和预测准确率。

在本公开实施例中,在根据目标图神经网络对所述待预测患者的患者特征数据和所述虚拟图进行处理之前,还需要对上述目标图神经网络进行训练,具体包括如下过程:

(1)构建训练样本集,其中,所述训练样本集中的每个训练样本包含:每个已知患者的患者特征数据、用于表征已知患者所患疾病之间相似度的目标虚拟图、每个已知患者所对应的目标抗原的实际表达量。

(2)根据所述训练样本集对原始图神经网络进行训练,得到所述目标图神经网络。

在本公开实施例中,在对原始图神经网络进行训练时,首先需要构建一个用于训练该原始图神经网络的训练样本集,其中,该训练样本集包含至少一个训练样本,该至少一个训练样本包含至少一个正样本和至少一个负样本。每个训练样本包含:每个已知患者的患者特征数据、用于表征已知患者所患疾病之间相似度的目标虚拟图、该已知患者体内每个细胞表面的目标抗原的数量(也即,实际表达量)。

在确定出训练样本集之后,就可以根据训练样本集对原始图神经网络进行训练,得到目标图神经网络。在训练的过程中,可以根据原始图神经网络在虚拟图上进行特征的传播和聚合,从而根据特征的传播和聚合结果,更新每个已知患者的患者特征数据。比如,可以沿着缩小相似已知患者之间的特征距离,并增大不相似已知患者之间的特征距离的方向更新每个患者的患者特征数据。

通过上述处理方式,可以实现相似的已知患者的患者特征数据之间的特征距离越来越小,不相似的已知患者的患者特征数据之间的特征距离越来越大,从而进一步提高了目标图神经网络的处理精度。

在本公开实施例中,训练样本集中的负样本可以理解为未进行标注的训练样本,那么在通过包含正样本和负样本的训练样本集对原始图神经网络进行训练时,可以实现基于半监督学习方式对原始图神经网络进行训练,通过该处理方式,能够让原始图神经网络在少部分标注的训练样本中得到更好的训练,从而降低对数据的要求。

在本公开实施例中,在对上述目标图神经网络进行训练时,所述构建训练样本集,具体包括如下过程:

(1)获取已知患者的患者特征数据,并提取所述已知患者的患者特征数据的目标关联特征,所述目标关联特征用于表示所述待预测患者体内每个细胞表面所包含的目标抗原的表达量。

(2)基于所述目标关联特征确定目标虚拟图,其中,所述目标虚拟图用于表征所述已知患者所患疾病之间的相似程度。

(3)根据所述目标虚拟图、所述目标关联特征和每个已知患者所对应的标签数据,构建所述训练样本集,其中,所述标签数据用于表征与每个训练样本对应的已知患者的体内每个细胞表面所包含的CD8a的实际表达量。

在构建多个训练样本时,首先可以获取多个已知患者的患者特征数据;然后通过深度网络模型提取每个已知患者的高维特征(即,上述目标关联特征),其中,该高维特征可以理解为上述多个已知患者中每个已知患者的患者特征数据中能够表征目标抗原的表达量的至少一个基因的特征描述信息,比如,该基因的名称、类型、功能等描述信息。

在确定出每个已知患者的高维特征之后,可以计算各个已知患者的高维特征之间的相似度,从而根据该相似度确定用于表征所述已知患者之间所患疾病的相似程度的目标虚拟图。进而,可以根据目标虚拟图、目标关联特征和每个已知患者所对应的标签数据,构建所述训练样本集。

在本公开实施例中,如图2所示,还提供另一种抗原检测方法的流程图,该方法包括如下步骤:

步骤S1:获取待预测患者的患者特征数据;

步骤S2:对患者特征数据进行预处理;

步骤S3:通过深度学习模型提取预处理之后患者特征数据中的高维特征(即上述第一关联特征);该高维特征可以理解为待预测患者的患者特征数据中能够表征CD8a抗原的表达量的至少一个基因的特征描述信息,比如,该基因的名称、类型、功能等描述信息;

步骤S4:获取已知患者的高维特征;

步骤S5:计算待预测患者的高维特征和已知患者的高维特征之间的相似度;其中,已知患者的高维特征可以为通过上述深度学习模型对已知患者的患者特征数据进行特征提取来获取到的特征;

步骤S6:通过虚拟图生成模块根据相似度生成用于表征待检测患者和已知患者所患疾病之间的相似度的虚拟图;

步骤S7:通过目标图神经网络对虚拟图和待预测患者的高维特征进行运算处理,得到对该待检测患者的CD8a抗原的检测结果,即如图2所示的CD8a抗原的表达量。

综上,在本公开实施例中,当训练得到目标图神经网络后,输入待遇测患者的高维特征就能够对CD8a抗原的表达量进行预测,该方法大大降低了对专业医护人员的依赖。本公开技术方案能够得到和CD8a抗原的表达量相关的高维相关关系(即,高维特征之间的相似度),通过该高维相关关系能够为目标图神经网络提供部分解释性依据,从而提高目标图神经网络的预测精度。在本公开技术方案通过使用目标图神经网络模型在非图结构数据上进行预测,并在训练样本集引入其半监督学习的特征,该处理方式可以降低对数据的要求,提升模型的预测效果。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与抗原检测方法对应的抗原检测装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述抗原检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

实施例二

参照图3所示,为本公开实施例提供的一种抗原检测装置的示意图,所述装置包括:获取模块31、第一确定模块32、第二确定模块33;其中,

获取模块31,用于获取待预测患者的患者特征数据和已知患者的患者特征数据,其中,所述患者特征数据用于表征相对应患者的基因特征数据和/或临床特征数据;

第一确定模块32,用于根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度;

第二确定模块33,用于基于所述相似度,确定所述待预测患者的目标抗原的表达量,其中,所述目标抗原为与所述疾病相关联的抗原。

本公开实施例通过根据待检测患者的患者特征数据和已知患者的患者特征数据来确定相似度,进而,根据该相似度和待检测患者的患者特征数据确定待遇测患者的目标抗原的表达量,可以为目标抗原的表达量提供解释性依据,提高了目标抗原的表达量的检测精度,并实现自动化对目标抗原的表达量进行检测,从而进一步提高目标抗原的表达量的检测效率。

一种可能的实施方式中,第一确定模块32,还用于:对所述待预测患者的患者特征数据进行特征提取,得到第一关联特征,其中,所述第一关联特征用于表示所述待预测患者体内每个细胞表面所包含的目标抗原的表达量;对所述已知患者的患者特征数据进行特征提取,得到第二关联特征,其中,所述第二关联特征用于表示所述已知患者体内每个细胞表面所包含的目标抗原的表达量;根据所述第一关联特征和所述第二关联特征,确定所述相似度。

一种可能的实施方式中,第一确定模块32,还用于:通过目标相似性算法,对所述第一关联特征和所述第二关联特征进行相似性计算,得到所述相似度。

一种可能的实施方式中,第一确定模块中32,所述相似度的数据格式包括:虚拟图;其中,所述虚拟图包括:用于表征待预测患者的第一虚拟节点、用于表征已知患者的第二虚拟节点、第一虚拟节点和第二虚拟节点之间的关联关系,所述关联关系用于表征所述待预测患者和所述已知患者所患疾病之间的相似度。

一种可能的实施方式中,第一确定模块32,还用于:利用目标图神经网络对所述待检测患者的患者特征数据和所述虚拟图进行处理,确定所述待检测患者的所述目标抗原的表达量。

一种可能的实施方式中,第一确定模块32,还用于:构建训练样本集,其中,所述训练样本集中的每个训练样本包含:每个已知患者的患者特征数据、用于表征已知患者所患疾病之间相似度的目标虚拟图、每个已知患者所对应的目标抗原的实际表达量;根据所述训练样本集对原始图神经网络进行训练,得到所述目标图神经网络。

一种可能的实施方式中,第一确定模块32,还用于:获取已知患者的患者特征数据,并提取所述已知患者的患者特征数据的目标关联特征,所述目标关联特征用于表示所述待检测患者体内每个细胞表面所包含的目标抗原的表达量;基于所述目标关联特征确定目标虚拟图,其中,所述目标虚拟图用于表征所述已知患者所患疾病之间的相似程度;根据所述目标虚拟图、所述目标关联特征和每个已知患者所对应的标签数据,构建所述训练样本集,其中,所述标签数据用于表征与每个训练样本对应的已知患者的体内每个细胞表面所包含的CD8a的实际表达量。

一种可能的实施方式中,该装置中,所述目标抗原为CD8a抗原。

一种可能的实施方式中,获取模块中31,所述患者特征数据包括以下至少之一:基因组数据、转录组数据、表观基因组数据、临床数据。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

实施例三

对应于图1中的抗原检测方法,本公开实施例还提供了一种电子设备400,如图4所示,为本公开实施例提供的电子设备400结构示意图,包括:

处理器41、存储器42、和总线43;存储器42用于存储执行指令,包括内存421和外部存储器422;这里的内存421也称内存储器,用于暂时存放处理器41中的运算数据,以及与硬盘等外部存储器422交换的数据,处理器41通过内存421与外部存储器422进行数据交换,当所述电子设备400运行时,所述处理器41与所述存储器42之间通过总线43通信,使得所述处理器41执行以下指令:

获取待预测患者的患者特征数据和已知患者的患者特征数据,其中,所述患者特征数据用于表征相对应患者的基因特征数据和/或临床特征数据;

根据所述待预测患者的患者特征数据和已知患者的患者特征数据,确定所述待预测患者和所述已知患者所患疾病之间的相似度;以及

基于所述相似度,确定所述待预测患者的目标抗原的表达量,其中,所述目标抗原为与所述疾病相关联的抗原。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的抗原检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的抗原检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 抗原检测方法、装置、电子设备以及存储介质
  • 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
技术分类

06120113045296