掌桥专利:专业的专利平台
掌桥专利
首页

一种用于肿瘤溯源的数据处理方法、装置和存储介质

文献发布时间:2024-04-18 19:52:40


一种用于肿瘤溯源的数据处理方法、装置和存储介质

技术领域

本申请涉及生物信息处理的计算机技术领域,特别是涉及一种用于肿瘤溯源的数据处理方法和模型训练方法、以及装置、计算机设备、存储介质、计算机程序产品。

背景技术

针对原发灶不明转移瘤(Cancer of unknown primary,CUP),其仅凭形态学观察无法确定肿瘤的原发部位。相比其它转移瘤,CUP具有早期转移和侵袭性转移的特点。由于CUP具有较高的转移侵袭性,且没有可识别的起源部位,使得医生在选择治疗方案时会产生困扰。因此,CUP的精准治疗成为肿瘤临床领域的一个挑战。

目前,通过肿瘤基因组的分子特征进行肿瘤溯源具有一定的可行性,但也存在以下难题:一是机器学习模型对罕见癌种样本的识别能力受到限制,罕见癌种的识别准确率较低;二是为提高算法的理论准确率,会引入更多分子特征,导致检测流程繁琐,临床应用价值相对较低,在实际临床应用中解决CUP的肿瘤溯源问题的效果不佳。

发明内容

基于此,为解决上述技术问题,本申请提供一种数据处理方法和模型训练方法、以及装置、计算机设备、存储介质、计算机程序产品,能够有效提升溯源准确率,降低预测成本。

第一方面,本申请提供了一种数据处理方法,所述方法包括:

获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

在其中一个实施例中,所述将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果,包括:

将所述待处理测序数据及其对应的特征向量输入至所述第一分类模型,得到多个候选原发部位对应的第一预测概率,作为所述候选预测结果;

将所述待处理测序数据及其对应的特征向量输入至所述第二分类模型,得到参照原发部位对应的第二预测概率,作为所述参照预测结果;所述参照原发部位为任一原发部位或指定原发部位,所述多个候选原发部位包括所述参照原发部位。

在其中一个实施例中,所述根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果,包括:

根据所述第二预测概率和预设参照阈值,对所述多个候选原发部位中所述参照原发部位对应的第一预测概率进行修正,得到修正后的候选预测结果,并基于所述修正后的候选预测结果,得到所述溯源预测结果。

在其中一个实施例中,所述基于所述修正后的候选预测结果,得到所述溯源预测结果,包括:

对所述修正后的候选预测结果中各所述第一预测概率进行排序,得到预测概率排序结果;

根据所述预测概率排序结果中最大预测概率对应的候选原发部位,确定所述溯源预测结果。

在其中一个实施例中,所述根据所述预测概率排序结果中最大预测概率对应的候选原发部位,确定所述溯源预测结果,包括:

在所述最大预测概率大于或等于预设概率阈值时,将所述最大预测概率对应的候选原发部位,作为所述溯源预测结果;

或,在所述最大预测概率小于预设概率阈值时,将所述预测概率排序结果中的前两个预测概率各自对应的候选原发部位,作为所述溯源预测结果;所述预测概率排序结果按照概率值大小降序排列。

在其中一个实施例中,所述目标样本对应的原发部位至少涉及以下癌症:

肺癌、结直肠癌、胃食管癌、卵巢癌、乳腺癌、胰腺癌、子宫内膜癌、软组织肉瘤、胆管癌、肝癌、肾癌、前列腺癌、头颈部肿瘤、宫颈癌、膀胱癌、黑色素瘤、尿路上皮肿瘤、胃肠道间质瘤、甲状腺癌。

在其中一个实施例中,所述待处理测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:

同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

第二方面,本申请提供了一种模型训练方法,所述方法包括:

获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;优选地,所述预设梯度模型结构包括极限梯度提升树XGBoost;

将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

在其中一个实施例中,所述多个样本测序数据包括不同类型的样本测序数据,所述将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,包括:

针对所述训练样本数据中的每个类型,将所述类型的样本测序数据及其对应的特征向量,作为待处理数据集合;

根据所述待处理数据集合进行过采样处理,得到所述类型对应的过采样数据集合;所述待处理数据集合对应的训练样本数量小于或等于所述过采样数据集合对应的训练样本数量;

将各所述类型对应的过采样数据集合作为输入数据,分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型。

在其中一个实施例中,所述根据所述待处理数据集合进行过采样处理,得到所述类型对应的过采样数据集合,包括:

获取采样参数信息,以及获取邻接样本信息;所述采样参数信息用于确定基于过采样处理所生成的新增样本的数量,所述邻接样本信息用于表征在过采样处理生成任一新增样本时,所述任一新增样本所关联的邻接样本的数量;

按照所述采样参数信息和所述邻接样本信息,对所述待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,并将所述待处理数据集合和所述新增样本数据对应的特征向量,作为过采样数据集合。

在其中一个实施例中,所述按照所述采样参数信息和所述邻接样本信息,对所述待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,包括:

在检测到所述采样参数信息满足预设过采样条件时,以所述待处理数据集合对应的特征空间中任一已有样本点为目标样本点,按照所述邻接样本信息,确定与所述目标样本点对应的候选样本点;所述候选样本点包括多个;

在所述特征空间中,根据任一所述候选样本点与所述目标样本点之间的样本差异,生成新的合成样本点,将所述新的合成样本点对应的特征向量作为所述新增样本数据对应的特征向量;所述新的合成样本点位于所述任一所述候选样本点与所述目标样本点之间的连线上。

在其中一个实施例中,所述方法还包括:

基于训练结束的溯源预测模型,得到溯源特征集合;所述溯源特征集合包括样本预测结果中各预测类型对应的溯源关键预测特征,以及具有溯源预测性能的特征基因信息,所述样本预测结果为所述训练结束的溯源预测模型输出得到。

第三方面,本申请还提供了一种用于肿瘤溯源的数据处理装置,所述装置包括:

测序数据获取模块,用于获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

溯源预测模块,用于将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

溯源结果得到模块,用于根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

第四方面,本申请还提供了一种用于肿瘤溯源的模型训练装置,所述装置包括:

训练数据获取模块,用于获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

模型构建模块,用于基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;优选地,所述预设梯度模型结构包括极限梯度提升树XGBoost;

样本结果得到模块,用于将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

模型训练模块,用于结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的数据处理方法的步骤,和/或,如第二方面所述的模型训练方法的步骤。

第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据处理方法的步骤,和/或,如第二方面所述的模型训练方法的步骤。

第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的数据处理方法的步骤,和/或,如第二方面所述的模型训练方法的步骤。

本申请提供的数据处理方法和模型训练方法、以及装置、计算机设备、存储介质、计算机程序产品,通过获取待处理测序数据及其对应的特征向量,该待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,该目标样本为对目标对象取样获得,然后将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第二分类模型,得到参照预测结果,进而根据参照预测结果对候选预测结果进行修正,得到溯源预测结果,该溯源预测结果用于表征目标样本对应的原发部位,该原发部位为在目标对象中与目标样本具有起源关系的部位,实现了对CUP肿瘤溯源的处理优化,根据特征向量中包含的肿瘤溯源的关键预测特征,基于预训练的溯源预测模型进行处理,能够提升溯源预测准确率,在结合二次预测结果后总体预测准确率达到84.7%以上,达到了在可控成本的前提下提高了对CUP肿瘤样本进行溯源预测的准确性。

附图说明

图1为一个实施例中一种数据处理方法的流程示意图;

图2为一个实施例中一种溯源预测模型结构的示意图;

图3为一个实施例中一种模型训练方法的流程示意图;

图4a为一个实施例中一种数据预处理与模型训练流程的示意图;

图4b为一个实施例中一种过采样数据对比的示意图;

图4c为一个实施例中一种过采样处理数据插值的示意图;

图5为一个实施例中另一种数据处理方法的流程示意图;

图6为一个实施例中一种用于肿瘤溯源的数据处理装置的结构框图;

图7为一个实施例中一种用于肿瘤溯源的模型训练装置的结构框图;

图8为一个实施例中一种计算机设备的内部结构图;

图9为一个实施例中另一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据;对应的,本申请还提供有相应的用户授权入口,供用户选择授权或者选择拒绝。

在一个实施例中,如图1所示,提供了一种数据处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现,如终端可以通过网络与服务器进行通信,数据存储系统可以存储服务器需要处理的数据,数据存储系统可以集成在服务器上,也可以放在云上或其他网络服务器上。终端可以但不限于是个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:

步骤101,获取待处理测序数据及其对应的特征向量;

其中,待处理测序数据可以为采用预设测序方式对目标样本进行基因测序得到,如可以采用特定试剂盒进行检测,该特定试剂盒为包含9000个SNP位点和520个基因的panel靶向测序试剂盒。

作为一示例,目标样本可以为对目标对象取样获得的DNA片段,该目标样本的来源可以包括但不限于细胞、肿瘤组织、健康组织、血液等。

在实际应用中,可以将待检测患者作为目标对象,通过取样可以获得该目标对象的测试样本,作为目标样本,进而可以对目标样本测序后的测序结果(即待处理测序数据)进行特征提取,得到其对应的特征向量(即待处理测序数据对应的特征向量),例如,可以产生一个长度为某数值的特征向量,以作为待输入模型信息,其可以表征待检测患者测序结果的所有信息。

在一示例中,基于肿瘤克隆进化的生物学机制,肿瘤的转移与原发部位间具有密切关联的分子特征,且转移灶肿瘤的分子特征往往偏向于原发灶的特征,通过肿瘤基因组的分子特征对肿瘤溯源具有可行性和临床应用的潜力。本实施例中,基于测序结果提取得到的特征向量可以包括多个,可以将多个特征向量对应的特征向量集合作为待输入模型信息。其中,特征向量集合中具有肿瘤溯源的关键预测特征(即溯源关键预测特征),其可以包含同源重组修复缺陷(homologous recombination deficiency,HRD)、大片段迁移(large-scale state transition,LST)、端粒等位基因不平衡(telomeric allelic imbalance,TAI)和基因组杂合性缺失(loss of heterozygosity,LOH)。

例如,待处理测序数据对应的特征向量还可以包括以下任一个或多个溯源关键预测特征:Sex、HRD、LOH、TAI、LST、APC基因、CDH1基因、EGFR基因、KIT基因、KMT2D基因、KRAS基因、NRAS基因、PTEN基因、RB1基因、RNF43基因、TP53基因、VHL基因、APC_hotspot(APC基因热点变异)、EGFR_hotspot(EGFR基因热点变异)、FGFR3_hotspot(FGFR3基因热点变异)、FOXA1_hotspot(FOXA1基因热点变异)、KIT_hotspot(KIT基因热点变异)、KRAS_hotspot(KRAS基因热点变异)、PIK3CA_hotspot(PIK3CA基因热点变异)、SPOP_hotspot(SPOP基因热点变异)、VHL_hotspot(VHL基因热点变异)、BRAF_V600E(BRAF基因V600E变异)、HRAS_Q61R(HRAS基因Q61R变异)、KIT_L576P(KIT基因L576P变异)、KRAS_G12D (KRAS基因G12D变异)、APC_TRUNC (APC基因截断变异)、CDKN1A_TRUNC(CDKN1A基因截断变异)、GATA3_TRUNC(GATA3基因截断变异)、KDM6A_TRUNC(KDM6A基因截断变异)、KMT2D_TRUNC(KMT2D基因截断变异)、RB1_TRUNC(RB1基因截断变异)、VHL_TRUNC(VHL基因截断变异)、EML4_ALK_fusion(EML4-ALK基因融合变异)、TMPRSS2_ERG_fusion(TMPRSS2-ERG基因融合变异)、RB1_LGR(RB1基因大片段重排变异)、ERBB2_Amp(ERBB2基因扩增)、CN_Burden(拷贝数变异负荷)、LogSNV_Mb(每MB碱基上检测出的SNV【single nucleotide variant,单核苷酸变异】个数取log值)、LogINDEL_Mb(每MB碱基上检测出的INDEL【insertion-deletion,插入或缺失】个数取log值)和TMB(tumor mutation burden,肿瘤突变负荷);还可以包括其它溯源关键预测特征,在本实施例中不作具体限制。

步骤102,将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

其中,预训练的溯源预测模型可以为在多分类模型的基础上融合二分类模型得到的模型,即第一分类模型可以为多分类模型,第二分类模型可以为指定部位的溯源判断模型,其可以用于判定目标样本对应的原发部位是否为指定部位,该预训练的溯源预测模型对应的模型结构可以如图2所示。

例如,以第二分类模型为肺癌二分类模型为例,其可以输出样本原发部位(即目标样本对应的原发部位)是否为肺癌的概率值,即参照预测结果。

在具体实现中,可以将待处理测序数据及其对应的特征向量输入至第一分类模型,得到多个候选原发部位各自对应的第一预测概率,作为候选预测结果,以及将待处理测序数据及其对应的特征向量输入至第二分类模型,可以得到参照原发部位对应的第二预测概率,作为参照预测结果,该多个候选原发部位可以包括参照原发部位。

在一示例中,如图2所示,通过将对测序结果特征提取得到的特征向量输入多分类模型(即溯源预测模型中第一分类模型),可以得到多个0-1的概率值(即候选预测结果),各概率值可以表征针对目标样本,基于多分类模型预测出的原发部位为不同癌种对应的概率。

在又一示例中,以第二分类模型为肺癌二分类模型为例,如图2所示,通过将对测序结果特征提取得到的特征向量输入肺癌二分类模型(即溯源预测模型中第二分类模型),可以得到0-1的概率值(即参照预测结果),该概率值可以表征针对目标样本,基于肺癌二分类模型预测出的原发部位为肺癌的概率p。

步骤103,根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果。

其中,溯源预测结果可以用于表征目标样本对应的原发部位,该原发部位可以为在目标对象中与目标样本具有起源关系的部位,如针对原发灶不明转移瘤,通过取样该转移瘤的样本进行肿瘤溯源,可以确定转移瘤对应的起源部位。

在得到参照预测结果和候选预测结果后,可以根据第二预测概率和预设参照阈值,对多个候选原发部位中参照原发部位对应的第一预测概率进行修正,得到修正后的候选预测结果,进而可以基于修正后的候选预测结果,得到溯源预测结果。

具体地,以第二分类模型为肺癌二分类模型为例,可以根据肺癌二分类模型输出的判断概率值p(即参照预测结果),修正多分类预测结果(即候选预测结果)中肺癌原发部位对应的预测概率,例如,若p小于预设参照阈值x,可以将多分类预测结果中肺癌原发部位对应的预测概率修正为0。

在一个可选实施例中,可以对修正后的多分类预测结果进行排序,进而可以输出排序第一的最大概率值对应的癌种信息,作为溯源预测结果。在最大概率值小于预设概率值(如0.95)的情况下,还可以输出排序第二的概率值对应的癌种信息,并可以将输出的癌种信息作为最终预测结果输出(即溯源预测结果),如图2所示,以完成预测。

在一示例中,目标样本对应的原发部位涉及的癌症可以为肺癌(包括非小细胞肺癌和小细胞肺癌)、结直肠癌、胃食管癌、卵巢癌、乳腺癌、胰腺癌、子宫内膜癌、软组织肉瘤、胆管癌、肝癌、肾癌、前列腺癌、头颈部肿瘤、宫颈癌、膀胱癌、黑色素瘤、尿路上皮肿瘤、胃肠道间质瘤、甲状腺癌的其中一种;还可以包括其它癌种类型,在本实施例中不作具体限制。

上述数据处理方法中,通过获取待处理测序数据及其对应的特征向量,然后将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第二分类模型,得到参照预测结果,进而根据参照预测结果对候选预测结果进行修正,得到溯源预测结果,实现了对CUP肿瘤溯源的处理优化,根据特征向量中包含的肿瘤溯源的关键预测特征,基于预训练的溯源预测模型进行处理,能够提升溯源预测准确率,在结合二次预测结果后总体预测准确率达到84.7%以上,达到了在可控成本的前提下提高了对CUP肿瘤样本进行溯源预测的准确性。

在一个实施例中,所述将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果,可以包括如下步骤:

将所述待处理测序数据及其对应的特征向量输入至所述第一分类模型,得到多个候选原发部位对应的第一预测概率,作为所述候选预测结果;将所述待处理测序数据及其对应的特征向量输入至所述第二分类模型,得到参照原发部位对应的第二预测概率,作为所述参照预测结果。

其中,多个候选原发部位可以包括参照原发部位,该参照原发部位可以为任一原发部位或指定原发部位,如第二分类模型对应的指定部位,即为参照原发部位。

在实际应用中,如图2所示,通过将对测序结果特征提取得到的特征向量输入多分类模型(即第一分类模型),可以得到多个0-1的概率值(即候选预测结果),该多个0-1的概率值的和为1,各概率值可以表征针对目标样本,基于多分类模型预测出的原发部位为不同癌种对应的概率(即多个候选原发部位各自对应的第一预测概率)。

以第二分类模型为肺癌二分类模型为例,如图2所示,通过将对测序结果特征提取得到的特征向量输入肺癌二分类模型(即第二分类模型),可以得到0-1的概率值(即参照预测结果),该概率值可以表征针对目标样本,基于肺癌二分类模型预测出的原发部位为肺癌的概率p(即参照原发部位对应的第二预测概率)。

本实施例中,通过将待处理测序数据及其对应的特征向量输入至第一分类模型,得到多个候选原发部位对应的第一预测概率,作为候选预测结果,以及将待处理测序数据及其对应的特征向量输入至第二分类模型,得到参照原发部位对应的第二预测概率,作为参照预测结果,为进一步修正预测结果提供了数据支持。

在一个实施例中,所述根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果,可以包括如下步骤:

根据所述第二预测概率和预设参照阈值,对所述多个候选原发部位中所述参照原发部位对应的第一预测概率进行修正,得到修正后的候选预测结果,并基于所述修正后的候选预测结果,得到所述溯源预测结果。

在一示例中,以第二分类模型为肺癌二分类模型为例,根据肺癌二分类模型输出的判断概率值p(即第二预测概率)和预设参照阈值x,若p小于x,可以将多分类预测结果中肺癌原发部位对应的预测概率(即第一预测概率)修正为0。

在一个实施例中,所述基于所述修正后的候选预测结果,得到所述溯源预测结果,可以包括如下步骤:

对所述修正后的候选预测结果中各所述第一预测概率进行排序,得到预测概率排序结果;根据所述预测概率排序结果中最大预测概率对应的候选原发部位,确定所述溯源预测结果。

作为一示例,预测概率排序结果中各第一预测概率可以按照概率值大小降序排列。

在具体实现中,通过对修正后的多分类预测结果(即各第一预测概率)进行排序,进而可以根据预测概率排序结果中排序第一的最大概率值(即预测概率排序结果中最大预测概率)对应的癌种信息,得到溯源预测结果。

本实施例中,通过对修正后的候选预测结果中各第一预测概率进行排序,得到预测概率排序结果,进而根据预测概率排序结果中最大预测概率对应的候选原发部位,确定溯源预测结果,提升了溯源预测准确率及预测效率。

在一个实施例中,所述根据所述预测概率排序结果中最大预测概率对应的候选原发部位,确定所述溯源预测结果,可以包括如下步骤:

在所述最大预测概率大于或等于预设概率阈值时,将所述最大预测概率对应的候选原发部位,作为所述溯源预测结果;或,在所述最大预测概率小于预设概率阈值时,将所述预测概率排序结果中的前两个预测概率各自对应的候选原发部位,作为所述溯源预测结果;所述预测概率排序结果按照概率值大小降序排列。

在一示例中,通过对修正后的多分类预测结果进行排序,可以输出排序第一的最大概率值(即最大预测概率)对应的癌种信息,作为溯源预测结果;或,在最大概率值小于预设概率值(如0.95)的情况下,还可以输出排序第二的概率值对应的癌种信息,并可以将输出的癌种信息(即前两个预测概率各自对应的候选原发部位)作为最终预测结果输出。

本实施例中,通过在最大预测概率大于或等于预设概率阈值时,将最大预测概率对应的候选原发部位,作为溯源预测结果,或,在最大预测概率小于预设概率阈值时,将预测概率排序结果中的前两个预测概率各自对应的候选原发部位,作为溯源预测结果,能够灵活输出溯源预测结果。

在一个实施例中,如图3所示,提供了一种模型训练方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:

步骤301,获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;

其中,样本测序数据可以为采用预设测序方式对训练样本进行基因测序得到,如可以采用特定试剂盒进行检测,该特定试剂盒为包含9000个SNP位点和520个基因的panel靶向测序试剂盒。

其中,多个样本测序数据对应的特征向量可以至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

作为一示例,训练样本可以为对样本对象取样获得的DNA片段,该训练样本的来源可以包括但不限于细胞、肿瘤组织、健康组织、血液等。

在实际应用中,可以预先获取涵盖不同癌症类型的多个肿瘤样本(即训练样本),如常见的多种癌症:肺癌(包括非小细胞肺癌和小细胞肺癌)、结直肠癌、胃食管癌、卵巢癌、乳腺癌、胰腺癌、子宫内膜癌、软组织肉瘤、胆管癌、肝癌、肾癌、前列腺癌、头颈部肿瘤、宫颈癌、膀胱癌、黑色素瘤、尿路上皮肿瘤、胃肠道间质瘤、甲状腺癌,通过采用特定试剂盒(包含9000个SNP位点和520个基因的panel靶向测序)进行检测,可以对每个肿瘤样本对应的样本测序数据中多个分子特征进行收集,得到其对应的特征向量,如所收集特征可以集中新增HRD、LST、TAI和LOH这4个全基因组不稳定性预测指标,还可以包括其它特征,在本实施例中不作具体限制。

步骤302,基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;

其中,预设梯度模型结构可以包括极限梯度提升树XGBoost。

在具体实现中,以针对肺癌溯源为例,可以在多分类模型的基础上融合多数类肺癌样本的二分类模型M,其可以用于辅助多分类模型进行溯源判断,融合的预测模型结构可以如图2所示。优选地,可以选择极限梯度提升树XGBoost作为基础模型结构(即预设梯度模型结构),该基础结构可以分别应用在多分类模型(即待训练的第一分类模型)和肺癌二分类矫正模型(即待训练的第二分类模型)中。

在一示例中,由于二分类模型M是一个完全独立的模型,则模型M可以给予超参数选择更高的自由度,并可以灵活选取M模型的阈值x来适应总预测模型的灵敏度或特异性需求。由于肺癌患者占癌症患者的比例较高,基于在多分类模型的基础上融合肺癌二分类矫正模型M,可以通过提高肺癌样本的识别特异性有效提升总体识别的正确率。

步骤303,将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

步骤304,结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型。

在实际应用中,可以通过数据预处理,利用经Smote过采样处理的训练样本数据对待训练的溯源预测模型进行训练,可以根据极限梯度提升树XGBoost模型特性和数据特性对超参数进行筛选,以确定最佳预测模型(即预训练的溯源预测模型),数据预处理与模型训练流程可以如图4a所示。

在一示例中,模型的输入可以为Smote算法处理后的多个样本测序数据及其对应的特征向量,模型的输出可以为不同癌种对应的预测概率。针对每个训练样本,可以选择预测概率最大的癌种作为预测癌种,若模型对某一癌种的预测概率低于预设概率值(如95%),模型还可以同时输出第二个最可能的预测结果。

在又一示例中,根据试验分析,在相同灵敏度下,融合二分类模型对应的识别特异性高于单独采用多分类模型对肺癌样本进行分类时的识别特异性,即在多分类模型的基础上融合二分类模型可以提升识别特异性。针对二分类模型的阈值x,可以选取使训练集合的理论灵敏度(如99.9%)达到特定需求时对应的阈值作为阈值x,在确定阈值x后,可以通过阈值x对样本进行二分类,针对预测概率低于x的样本,不再考虑将该样本预测为肺癌的可能性,进而可以根据模型对每个癌种预测概率的最大值确定预测结果。

相较于传统方法所存在的肿瘤训练样本中各类癌种样本数量不平衡的问题,由于机器学习模型对罕见癌种样本的识别能力会因为样本量少而受到限制,且若缺乏对机器学习模型做特定引导,算法可能会为了追求全局准确率而牺牲罕见癌种的识别正确率,使得模型在罕见癌种里的表现较差。以及对有效分子特征的选取与成本控制之间的平衡问题,加入更多分子特征可以提高算法的理论准确率上限,但也意味着更高的检测成本、更加繁琐的检测流程和更低的临床有用性。

本实施例的技术方案,通过对数据预处理和预测模型的结构进行优化,以及对测量特征范围进行扩展,加入HRD、LST、TAI和LOH这4个全基因组层面对基因组不稳定状况/不稳定性的描述指标,可以有效解决因训练样本中各类癌种样本数量不平衡而导致的预测结果准确率偏低的问题,达到了提高溯源模型的准确率的目的,且确定了HRD、LST、TAI和LOH这4个全基因组不稳定性预测指标作为溯源关键因子。

上述模型训练方法中,通过获取训练样本数据,基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型,然后将训练样本数据分别输入至待训练的第一分类模型和待训练的第二分类模型,得到样本候选结果和样本参照结果,进而结合预设梯度模型结构的模型特性、样本候选结果、样本参照结果,对待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型,实现了对CUP肿瘤溯源的处理优化,能够提升溯源预测准确率,降低预测成本,达到了在可控成本的前提下对CUP肿瘤样本进行溯源预测的目的。

在一个实施例中,所述多个样本测序数据包括不同类型的样本测序数据,所述将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,可以包括如下步骤:

针对所述训练样本数据中的每个类型,将所述类型的样本测序数据及其对应的特征向量,作为待处理数据集合;根据所述待处理数据集合进行过采样处理,得到所述类型对应的过采样数据集合;将各所述类型对应的过采样数据集合作为输入数据,分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型。

作为一示例,待处理数据集合对应的训练样本数量小于或等于过采样数据集合对应的训练样本数量,如针对训练样本数量较少的癌种类型,通过数据预处理阶段进行过采样可以产生额外的训练样本,提升了总体的训练样本量。

在实际应用中,针对训练样本数据中每个癌种的样本数分布极度不平衡的问题(如下表1,10228个样本中每个癌种的样本数分布极度不平衡性,数量最多的非小细胞肺癌占总样本的54.9%,而甲状腺癌样本仅占所有样本的0.26%),如图4a所示,可以在训练样本数据输入机器学习模型进行训练之前,利用Smote过采样算法进行处理,从而能够避免因不同癌种之间样本数量不平衡问题而导致的特定癌种识别准确率下降。

表1 训练集中各癌种数量分布情况

在一示例中,如图4b所示,其可以表征Smote过采样前(图4b左侧)后(图4b右侧)肿瘤类别间不平衡情况,经过Smote过采样处理后,不仅不同癌种类别间不平衡现象得到显著改善,还可以增加总体训练样本量。

本实施例中,通过针对训练样本数据中的每个类型,将类型的样本测序数据及其对应的特征向量,作为待处理数据集合,然后根据待处理数据集合进行过采样处理,得到类型对应的过采样数据集合,进而将各类型对应的过采样数据集合作为输入数据,分别输入至待训练的第一分类模型和待训练的第二分类模型,能够解决训练样本数据中不同癌种类别间样本数量不平衡的问题。

在一个实施例中,所述根据所述待处理数据集合进行过采样处理,得到所述类型对应的过采样数据集合,可以包括如下步骤:

获取采样参数信息,以及获取邻接样本信息;按照所述采样参数信息和所述邻接样本信息,对所述待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,并将所述待处理数据集合和所述新增样本数据对应的特征向量,作为过采样数据集合。

其中,采样参数信息可以用于确定基于过采样处理所生成的新增样本的数量,如采样比例C;邻接样本信息可以用于表征在过采样处理生成任一新增样本时,任一新增样本所关联的邻接样本的数量,如邻接样本数量K。

在具体实现中,基于Smote算法,可以通过在少数类癌种样本的特征空间中进行基于k个最相似样本和随机偏移进行插值的方法(如图4c所示,其可以表征Smote算法在特征空间中基于6个最相似样本和随机偏移进行插值),以动态采样比例C(即采样参数信息)来产生额外的少数类癌种样本,并可以根据样本数量确定少数类样本的过采样程度,例如,动态采样比例C可以被定义为与少数类样本的数量呈反比,则少数类别中样本数量越少,过采样程度越高。从而不仅可以保留多数类样本的全部有效训练信息,还可以避免对少数类样本进行简单重复采样而导致的过拟合。

在一示例中,SMOTE算法为根据一类相似样本的特征生成新样本特征的方法,可以利用R语言UBL工具包中的SmoteClassif函数实现SMOTE算法过采样,如SmoteClassif通过对原数据集的处理,可以生成包含原数据集的新数据集来解决类不平衡的问题。

例如,SmoteClassif函数输入1可以为原数据集,其可以包含该原数据集中所有样本的特征向量(即待处理数据集合),如可以为一个n*m的矩阵,其中,n为样本个数,m为每个样本具有的特征数。

SmoteClassif函数输入2可以为采样比例C(即采样参数信息),其可以用于确定在原数据集的基础上生成新样本的数量。若采样比例C大于1时,可以执行过采样,如当采样比例C为2,则采样数量可以为该数据集现有数量的1倍;若采样比例C等于1,则可以不对该数据集进行过采样。

SmoteClassif函数输入3可以为邻接样本数量K(即邻接样本信息),其可以用于确定生成过采样的新增样本时,所依据的其它邻近样本的数量。

SmoteClassif函数输出可以为新样本点对应的特征向量(即新增样本数据对应的特征向量)。

本实施例中,通过获取采样参数信息,以及获取邻接样本信息,进而按照采样参数信息和邻接样本信息,对待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,并将待处理数据集合和新增样本数据对应的特征向量,作为过采样数据集合,能够有效避免训练样本数据中不同癌种类别间样本数量不平衡情况。

在一个实施例中,所述按照所述采样参数信息和所述邻接样本信息,对所述待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,可以包括如下步骤:

在检测到所述采样参数信息满足预设过采样条件时,以所述待处理数据集合对应的特征空间中任一已有样本点为目标样本点,按照所述邻接样本信息,确定与所述目标样本点对应的候选样本点;所述候选样本点包括多个;在所述特征空间中,根据任一所述候选样本点与所述目标样本点之间的样本差异,生成新的合成样本点,将所述新的合成样本点对应的特征向量作为所述新增样本数据对应的特征向量;所述新的合成样本点位于所述任一所述候选样本点与所述目标样本点之间的连线上。

在一示例中,在判定采样比例C大于1时可以执行过采样,即检测到采样参数信息满足预设过采样条件时,可以在过采样生成每个新增样本时,如图4c所示,基于SmoteClassif在特征空间中,随机选取一个已有样本点A(即目标样本点),然后可以根据欧几里得距离,在特征空间中计算出K个与随机选取样本最邻近的样本,可以在K个邻近样本(即多个候选样本点)中,随机选取1个邻近样本B(即任一候选样本点),进而在特征空间中,可以根据A、B两个样本点之间的样本差异生成新的合成样本点D,该新的合成样本点位于A、B两个样本点之间的连线上,可以将该新的合成样本点D对应的特征向量作为新样本的特征向量(即新增样本数据对应的特征向量)。

在又一示例中,SMOTE过采样方法可以基于样本的特征空间,通过对少数类样本进行插值来生成合成样本。从而可以使得少数类样本的特征空间得到扩展,有助于模型更好地探索和学习少数类的特征,能够提升模型的性能。

例如,可以采用如下步骤进行SMOTE过采样:

1、针对每个少数类样本,可以将任一少数类样本作为当前样本,通过计算该当前样本与所有其它少数类样本之间的距离,找到当前样本的K个最近邻居;

2、可以从该K个最近邻居中随机选择一个邻居样本,计算该邻居样本与当前样本的差异;

3、可以根据计算出的差异比例,生成一个新的合成样本,该新的合成样本位于邻居样本与当前样本之间的连线上。

4、通过重复上述步骤,可以生成指定数量的合成样本。

本实施例中,通过在检测到采样参数信息满足预设过采样条件时,以待处理数据集合对应的特征空间中任一已有样本点为目标样本点,按照邻接样本信息,确定与目标样本点对应的候选样本点,进而在特征空间中,根据任一候选样本点与目标样本点之间的样本差异,生成新的合成样本点,将新的合成样本点对应的特征向量作为新增样本数据对应的特征向量,可以基于已有样本之间的样本差异生成新的合成样本,实现了采用插值处理产生额外的少数类癌种样本,能够有效解决类别间样本数量不平衡问题。

在一个实施例中,还可以包括如下步骤:

基于训练结束的溯源预测模型,得到溯源特征集合;所述溯源特征集合包括样本预测结果中各预测类型对应的溯源关键预测特征,以及具有溯源预测性能的特征基因信息,所述样本预测结果为所述训练结束的溯源预测模型输出得到。

在实际应用中,针对分子特征的选取与成本控制之间的平衡问题,通过采用特定试剂盒(包含9000个SNP位点和520个基因的panel靶向测序)进行检测,可以利用癌种特异的关键热点突变和全基因组稀疏覆盖的方式,以较低的检测成本获得对肿瘤溯源关键作用的全基因组层面特征。如520基因panel靶向测序技术在设计上,不仅实现了在癌种特异的关键基因突变上的全部覆盖,且通过在全基因组层面选取了超过1万个人群SNP位点,达到了对全基因组的均匀覆盖,实现了基于HRD、LST、TAI和LOH这4个全基因组层面对基因组不稳定状况的描述指标。

在一示例中,通过对每个癌种中的关键预测因素进行统计,发现了45个对肿瘤溯源起到关键作用的预测特征,如表2所示,且上述4个全基因组不稳定状况指标在多个癌种的肿瘤溯源中均起到了关键作用。

表2,45个肿瘤溯源的关键预测特征,其中包含HRD、LST、TAI和LOH

表2-1,基本信息:

表2-2,基因变异信息

表2-3,通用指标:

表2-4,自定义指标:

/>

在又一示例中,在单基因的角度,基于训练的溯源预测模型也发现11个在不同癌种中具有溯源预测性能的特征性基因突变,如表3所示。如图4a所示,在训练完成后,对于每个癌种,模型可以输出全部溯源特征中重要性最高的特征。

表3,在不同癌种中具有溯源预测性能的特征性基因变异

本实施例中,通过基于训练结束的溯源预测模型,得到溯源特征集合,可以在训练完成后对于每个癌种,得到全部溯源特征中重要性最高的特征,有助于提升溯源预测准确率。

在一个实施例中,通过利用多个独立的应用案例验证预训练的溯源预测模型的性能,基于结果显示,优化后模型在独立验证集中达到了提高溯源预测准确率的效果,且应用案例均实现了仅利用DNA靶向测序信息而得到较好的溯源准确率,在一定程度上解决了临床上在可控成本的前提下对CUP肿瘤样本进行溯源预测的问题。

在准确率方面,从单个癌种来看,如果仅考虑首次预测结果,预测特异性超过0.8的癌种为4个,在软组织肉瘤、头颈部肿瘤中,识别特异性低于0.5,可能与软组织肉瘤和头颈部肿瘤的临床模糊分类有关。在结合二次预测结果后,所有癌种的识别灵敏度和特异性均有所提高,预测特异性超过0.8的癌种增加到7个(如表4)。从整体来看,与业界公开的可比数据相比,相较于传统方法在7791例患者中训练得到的模型(Penson A, Camacho N, etal. Development of Genome-Derived Tumor Type Prediction to Inform ClinicalCancer Care. JAMAOncology. 2020 Jan 1;6(1):84-91. doi: 10.1001/jamaoncol.2019.3985. PMID: 31725847; PMCID: PMC6865333.),在完全独立验证集中预测总体准确率达到74.1%,本实施例的技术方案对应结果为77.5%,在结合二次预测结果后总体预测准确率达到84.7%,说明其在预测水平上相对于业界先进水平具有明显的提高。

表4,模型在完全独立的验证集中的单个癌种预测性能指标

在又一示例中,通过利用模型在38例CUP患者中寻找转移灶原发现象,38例患者均为同时具有至少2个来自不同部位的癌组织取样部位。设定若模型对同一个CUP患者的两个或多个不同取样部位的溯源预测结果均相同,且该预测部位属于该患者其中一个患癌部位,则认为该患者的原发部位为该溯源预测部位;若模型对CUP患者的所有部位预测结果均为该真实取样部位,则认定该患者为两处/多处原发。按照设定规则,模型在该数据集中成功识别出17例患者的样本间的转移现象和确定的原发部位,在另外20位患者中确定为多处原发,在1例患者中无法确定原发部位。

其中,在17例确定原发部位的患者中,有5例患者的原发部位在第一次预测结果中确定,12位患者在第二次预测结果中确定。结合第一次与第二次预测结果,模型在所有患者(38/38,100%)中均确定出多处转移之间的关联性,在37(37/38, 97.4%)例患者中给出了明确的部位间原发关系,仅在1例(1/38, 2.6%)患者中,虽然能确定发生转移,但无法确定原发部位(表5)。综合以上结果,说明本申请的技术方案在CUP肿瘤溯源预测上有较好的临床应用价值和应用。

表5,38例CUP患者的取样部位与预测部位对比

/>

/>

/>

在一个实施例中,如图5所示,提供了另一种数据处理方法的流程示意图。本实施例中,该方法包括以下步骤:

在步骤501中,获取训练样本数据,基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型。在步骤502中,将训练样本数据分别输入至待训练的第一分类模型和待训练的第二分类模型,得到样本候选结果和样本参照结果,结合预设梯度模型结构的模型特性、样本候选结果、样本参照结果,对待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型。在步骤503中,获取待处理测序数据及其对应的特征向量,将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到多个候选原发部位对应的第一预测概率,作为候选预测结果。在步骤504中,将待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第二分类模型,得到参照原发部位对应的第二预测概率,作为参照预测结果。在步骤505中,根据第二预测概率和预设参照阈值,对多个候选原发部位中参照原发部位对应的第一预测概率进行修正,得到修正后的候选预测结果。在步骤506中,对修正后的候选预测结果中各第一预测概率进行排序,得到预测概率排序结果。在步骤507中,在最大预测概率大于或等于预设概率阈值时,将最大预测概率对应的候选原发部位,作为溯源预测结果;或,在最大预测概率小于预设概率阈值时,将预测概率排序结果中的前两个预测概率各自对应的候选原发部位,作为溯源预测结果。需要说明的是,上述步骤的具体限定可以参见上文对一种数据处理方法和一种模型训练方法的具体限定,在此不再赘述。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据处理方法的数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用于肿瘤溯源的数据处理装置实施例中的具体限定可以参见上文中对于数据处理方法的限定,在此不再赘述。

在一个实施例中,如图6所示,提供了一种用于肿瘤溯源的数据处理装置,包括:

测序数据获取模块601,用于获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

溯源预测模块602,用于将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

溯源结果得到模块603,用于根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

在一个实施例中,所述溯源预测模块602包括:

候选预测结果得到子模块,用于将所述待处理测序数据及其对应的特征向量输入至所述第一分类模型,得到多个候选原发部位对应的第一预测概率,作为所述候选预测结果;

参照预测结果得到子模块,用于将所述待处理测序数据及其对应的特征向量输入至所述第二分类模型,得到参照原发部位对应的第二预测概率,作为所述参照预测结果;所述参照原发部位为任一原发部位或指定原发部位,所述多个候选原发部位包括所述参照原发部位;

在一个实施例中,所述溯源结果得到模块603包括:

修正子模块,用于根据所述第二预测概率和预设参照阈值,对所述多个候选原发部位中所述参照原发部位对应的第一预测概率进行修正,得到修正后的候选预测结果,并基于所述修正后的候选预测结果,得到所述溯源预测结果。

在一个实施例中,所述修正子模块包括:

排序单元,用于对所述修正后的候选预测结果中各所述第一预测概率进行排序,得到预测概率排序结果;

溯源预测结果确定单元,用于根据所述预测概率排序结果中最大预测概率对应的候选原发部位,确定所述溯源预测结果。

在一个实施例中,所述溯源预测结果确定单元包括:

预测结果得到子单元,用于在所述最大预测概率大于或等于预设概率阈值时,将所述最大预测概率对应的候选原发部位,作为所述溯源预测结果;或,在所述最大预测概率小于预设概率阈值时,将所述预测概率排序结果中的前两个预测概率各自对应的候选原发部位,作为所述溯源预测结果;所述预测概率排序结果按照概率值大小降序排列。

在一个实施例中,所述目标样本对应的原发部位至少涉及以下癌症:

肺癌、结直肠癌、胃食管癌、卵巢癌、乳腺癌、胰腺癌、子宫内膜癌、软组织肉瘤、胆管癌、肝癌、肾癌、前列腺癌、头颈部肿瘤、宫颈癌、膀胱癌、黑色素瘤、尿路上皮肿瘤、胃肠道间质瘤、甲状腺癌。

在一个实施例中,所述待处理测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:

同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

上述用于肿瘤溯源的数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的模型训练方法的模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用于肿瘤溯源的模型训练装置实施例中的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。

在一个实施例中,如图7所示,提供了一种用于肿瘤溯源的模型训练装置,包括:

训练数据获取模块701,用于获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

模型构建模块702,用于基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;

样本结果得到模块703,用于将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

模型训练模块704,用于结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

在一个实施例中,所述多个样本测序数据包括不同类型的样本测序数据,所述样本结果得到模块703包括:

待处理数据集合确定子模块,用于针对所述训练样本数据中的每个类型,将所述类型的样本测序数据及其对应的特征向量,作为待处理数据集合;

过采样数据集合确定子模块,用于根据所述待处理数据集合进行过采样处理,得到所述类型对应的过采样数据集合;所述待处理数据集合对应的训练样本数量小于或等于所述过采样数据集合对应的训练样本数量;

输入数据得到子模块,用于将各所述类型对应的过采样数据集合作为输入数据,分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型。

在一个实施例中,所述过采样数据集合确定子模块包括:

信息获取单元,用于获取采样参数信息,以及获取邻接样本信息;所述采样参数信息用于确定基于过采样处理所生成的新增样本的数量,所述邻接样本信息用于表征在过采样处理生成任一新增样本时,所述任一新增样本所关联的邻接样本的数量;

过采样处理单元,用于按照所述采样参数信息和所述邻接样本信息,对所述待处理数据集合进行过采样处理,得到新增样本数据对应的特征向量,并将所述待处理数据集合和所述新增样本数据对应的特征向量,作为过采样数据集合。

在一个实施例中,所述过采样处理单元包括:

候选样本点得到子单元,用于在检测到所述采样参数信息满足预设过采样条件时,以所述待处理数据集合对应的特征空间中任一已有样本点为目标样本点,按照所述邻接样本信息,确定与所述目标样本点对应的候选样本点;所述候选样本点包括多个;

新增样本数据确定子单元,用于在所述特征空间中,根据任一所述候选样本点与所述目标样本点之间的样本差异,生成新的合成样本点,将所述新的合成样本点对应的特征向量作为所述新增样本数据对应的特征向量;所述新的合成样本点位于所述任一所述候选样本点与所述目标样本点之间的连线上。

在一个实施例中,所述装置还包括:

溯源特征集合得到模块,用于基于训练结束的溯源预测模型,得到溯源特征集合;所述溯源特征集合包括样本预测结果中各预测类型对应的溯源关键预测特征,以及具有溯源预测性能的特征基因信息,所述样本预测结果为所述训练结束的溯源预测模型输出得到。

上述用于肿瘤溯源的模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据处理方法。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种模型训练方法。

本领域技术人员可以理解,图8和图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的数据处理方法的步骤。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

在一个实施例中,处理器执行计算机程序时还实现上述其他实施例中的模型训练方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的数据处理方法的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;

将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的模型训练方法的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取待处理测序数据及其对应的特征向量;所述待处理测序数据为采用预设测序方式对目标样本进行基因测序得到,所述目标样本为对目标对象取样获得;

将所述待处理测序数据及其对应的特征向量输入至预训练的溯源预测模型中第一分类模型,得到候选预测结果,以及将所述待处理测序数据及其对应的特征向量输入至所述预训练的溯源预测模型中第二分类模型,得到参照预测结果;

根据所述参照预测结果对所述候选预测结果进行修正,得到溯源预测结果;所述溯源预测结果用于表征所述目标样本对应的原发部位;所述原发部位为在所述目标对象中与所述目标样本具有起源关系的部位。

在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的数据处理方法的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

获取训练样本数据;所述训练样本数据包括多个样本测序数据及其对应的特征向量;所述样本测序数据为采用所述预设测序方式对训练样本进行基因测序得到,所述训练样本为对样本对象取样获得;

基于预设梯度模型结构,构建待训练的第一分类模型和待训练的第二分类模型,得到待训练的溯源预测模型;

将所述训练样本数据分别输入至所述待训练的第一分类模型和所述待训练的第二分类模型,得到样本候选结果和样本参照结果;

结合所述预设梯度模型结构的模型特性、所述样本候选结果、所述样本参照结果,对所述待训练的溯源预测模型中模型参数进行调整,直至满足模型训练结束条件,得到预训练的溯源预测模型;

其中,所述多个样本测序数据对应的特征向量至少包括以下溯源关键预测特征中的一种或多种:同源重组修复缺陷HRD、大片段迁移LST、端粒等位基因不平衡TAI、基因组杂合性缺失LOH。

在一个实施例中,计算机程序被处理器执行时还实现上述其他实施例中的模型训练方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

技术分类

06120116335038