掌桥专利:专业的专利平台
掌桥专利
首页

肿瘤体细胞突变标签提取方法及装置

文献发布时间:2024-04-29 00:47:01


肿瘤体细胞突变标签提取方法及装置

技术领域

本申请涉及肿瘤标志物提取技术领域,尤其是涉及肿瘤体细胞突变标签提取方法及装置。

背景技术

目前液体活检肿瘤标志物检测的主要靶点是单个或多个肿瘤突变位点,而由于血液游离DNA(cfDNA)丰度低,而其中来自早期肿瘤的循环肿瘤DNA(ctDNA)丰度更低,因此需极好的富集技术和测序深度(>5000X)才能有效捕捉基因突变相关信号;并且ctDNA的丰度不仅在个体间差异大,而且在同一个体的不同时空的差异也很大,所以捕获单个或多个突变位点的假阴性率较高,这就会导致肿瘤标志物检测稳定性差的问题。

发明内容

为了有助于提高肿瘤标志物检测的稳定性,本申请提供了肿瘤体细胞突变标签提取方法及装置。

第一方面,本申请提供一种肿瘤体细胞突变标签提取方法,采用如下的技术方案:

一种肿瘤体细胞突变标签提取方法,所述方法包括:

对样本数据进行预处理,以对所述样本数据进行序列化,得到预处理后数据;

从所述预处理后数据中鉴定体细胞突变;

基于肿瘤体细胞突变标签的特征信息和所述体细胞突变确定所述肿瘤体细胞突变标签的活性,所述特征信息基于所述肿瘤体细胞突变标签与不同类型的体细胞突变之间的关系预先设置;基于所述肿瘤体细胞突变标签的活性确定所述肿瘤体细胞突变标签对应的检测结果。

通过采用上述技术方案,以肿瘤体细胞突变标签作为肿瘤标志物,通过特征信息与体细胞突变之间的匹配即可实现肿瘤体细胞突变标签的提取,用于肿瘤标志物检测,而无需依赖特定的基因突变信号,如此可以有助于减小单个或多个特定的肿瘤突变位点对检测结果的影响,进而提高肿瘤标志物检测的稳定性。

可选的,所述对所述样本数据进行预处理,包括:

对所述样本数据进行质控,质控后数据;

将所述质控后数据比对到人类参考基因组上,并对比对结果进行排序处理,得到排序后数据;对所述排序后数据中的重复序列进行处理,得到去重后数据;

对所述去重后数据进行碱基质量矫正,得到所述预处理后数据。

通过采用上述技术方案,可以通过质控、去重和碱基质量矫正对样本数据进行预处理,得到预处理后的数据,如此可以有助于减小测序过程中产生的误差对后序标签提取过程的影响,进而可以有助于提高肿瘤体细胞突变标签提取的准确性。

可选的,所述从所述预处理后数据中鉴定体细胞突变,包括:

根据预设的位点提取条件从所述预处理后数据中提取候选变异位点;

从所述候选变异位点中提取变异位点;

对所述变异位点进行标准化,得到标准变异位点;

对所述标准变异位点进行过滤得到所述体细胞突变。

通过采用上述技术方案,可以通过位点提取和过滤从预处理后数据中确定出具有价值的体细胞突变,进而可以有助于提高最终确定得到的肿瘤体细胞突变标签提取结果的准确性。

可选的,所述根据预设的位点提取条件从所述预处理后数据中提取候选变异位点,包括:

将所述预处理数据中碱基质量大于20、比对质量大于30且矫正质量大于50的位点确定为所述候选变异位点。

通过采用上述技术方案,可以有助于降低测序过程中的误差对肿瘤体细胞突变标签的影响,进而可以有助于提高肿瘤体细胞突变标签检测结果的准确性。

可选的,所述对所述标准变异位点进行过滤得到所述体细胞突变,包括:

将所述标准变异位点中位于低复杂性基因组区域中的变异和位于预设碱基数可映射唯一性得分小于1的区域中的变异滤除。

通过采用上述技术方案,可以将位于低复杂性基因组区域中的变异和位于预设碱基数可映射性得分小于1的区域的变异滤除,如此可以有助于进一步提高体细胞突变的质量。

可选的,所述对所述标准变异进行过滤得到所述体细胞突变,包括:

对所述标准变异位点进行注释;

将所述标准变异位点中已知的胚系变异或群体等位基因频率大于预设频率阈值的变异去除。

通过采用上述技术方案,有助于减小胚系变异和高频率群体等位基因对肿瘤体细胞突变标签的影响,进而可以有助于提高最终得到的肿瘤体细胞突变标签提取结果的准确性。

可选的,所述体细胞突变为标准化的单碱基体细胞突变,所述基于所述肿瘤体细胞特变标签的特征信息和所述体细胞突变确定所述肿瘤体细胞突变标签的活性,包括:

根据参考等位基因组提取所述体细胞突变对应的参考三联碱基,体细胞突变类型与三联碱基类型对应;

基于所述参考三联碱基中各个预设类型的三联碱基的数量,得到三联碱基矩阵;

基于所述特征信息和所述三联碱基矩阵确定所述肿瘤体细胞突变标签的活性。

通过采用上述技术方案,可以结合体细胞突变方式和突变位置前后的参考等位基因类型准确确定体细胞突变与特征信息之间的关系,进而可以有助于准确确定肿瘤体细胞突变标签的活性。

可选的,所述肿瘤体细胞突变标签包括至少两个,所述特征信息用特征矩阵表示,所述特征矩阵包括第一维度和第二维度,所述特征矩阵的第一维度对应不同类型的体细胞突变,所述特征矩阵的第二维度对应不同的所述肿瘤体细胞突变标签,所述基于所述特征信息和所述三联碱基矩阵确定所述肿瘤体细胞突变标签的活性,包括:

基于非负分解矩阵方法,根据所述特征矩阵从所述三联碱基矩阵中提取各个所述肿瘤体细胞突变标签的活性。

通过采用上述技术方案,可以有助于同时提取多个肿瘤体细胞突变标签,进而可以更好的辅助判断肿瘤风险,同时也可以有助于降低检测成本。

可选的,所述样本数据包括两个以上,所述三联碱基矩阵包括第一维度和第二维度,所述三联碱基矩阵的第一维度对应不同的所述预设类型,所述三联碱基矩阵的第二维度对应不同的样本数据,所述基于所述三联碱基矩阵的参考三联碱基中各个预设类型的三联碱基的数量,得到三联碱基矩阵,包括:

对于每个所述样本数据,确定所述样本数据对应的所述参考三联碱基中各个所述预设类型的三联碱基的数量;

对于每个所述预设类型,基于所述预设类型的三联碱基的数量确定所述三联碱基矩阵中所述样本数据对应的第二维度下所述预设类型对应的第一维度的数据;

所述基于所述特征信息和所述三联碱基矩阵确定所述肿瘤体细胞突变标签的活性,包括:基于非负分解矩阵方法,根据所述特征矩阵从所述三联碱基矩阵中提取各个所述样本数据对应的所述肿瘤体细胞突变标签的活性;

所述基于所述肿瘤体细胞突变标签的活性确定所述肿瘤体细胞突变标签对应的检测结果,包括:

将各个所述样本数据对应的所述肿瘤体细胞突变标签的活性进行比对分析,得到各个所述样本数据对应的检测结果。

通过采用上述技术方案,可以将不同样本数据对应的肿瘤体细胞突变标签的活性进行比对分析,得到各个样本数据对应的检测结果,如此可以有助于避免对样本数据进行单独分析时可能出现的误差,提高检测结果的准确性。

第二方面,本申请提供一种肿瘤体细胞突变标签提取装置,采用如下的技术方案:一种肿瘤体细胞突变标签提取装置,所述装置包括:预处理模块、突变鉴定模块、活性检测模块和标签提取模块;

所述预处理模块,用于对样本数据进行预处理,以对所述样本数据进行序列化,得到预处理后数据;

所述突变鉴定模块,用于从所述预处理后数据中鉴定体细胞突变;

所述活性检测模块,用于基于肿瘤体细胞突变标签的特征信息和所述体细胞突变确定所述肿瘤体细胞突变标签的活性,所述特征信息基于所述肿瘤体细胞突变与不同类型的体细胞突变之间的关系设置;

所述标签提取模块,用于基于所述肿瘤体细胞突变标签的活性确定所述肿瘤体细胞突变标签对应的检测结果。

综上所述,本申请包括以下至少一种有益技术效果:

1.通过肿瘤体细胞突变标签的特征信息与体细胞突变之间的匹配即可实现肿瘤体细胞突变标签的提取,而无需依赖特定的基因突变信号,如此可以有助于减小单个或多个特定的肿瘤突变位点对检测结果的影响,进而提高检测的稳定性。

2.由于采用肿瘤体细胞突变标签作为肿瘤标志物,而采用超低测序深度液体活检样本亦可提取到所需的肿瘤体细胞突变标签,与以单一突变液体活检(>5000X)相比,不仅检测方法简单,而且检测的费用更低,更能够用于泛肿瘤的检测。

附图说明

图1是本申请实施例提供的一种肿瘤体细胞突变标签提取方法的流程示意图;

图2是本申请实施例提供的样本数据预处理方式的流程示意图;

图3是本申请实施例提供的体细胞突变鉴定方式的流程示意图;

图4是本申请实施例提供的肿瘤体细胞突变标签活性确定方式的流程图;

图5是本申请实施例提供的另一种肿瘤体细胞突变标签提取方法的流程示意图;

图6是本申请实施例提供的一个肿瘤体细胞突变标签的活性提取实例的示意图;

图7是本申请实施例提供的一种肿瘤体细胞突变标签提取装置的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图1-7及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

本申请实施例公开一种肿瘤体细胞突变标签提取方法。参照图1,肿瘤体细胞突变标签提取方法包括以下步骤:

步骤101,对样本数据进行预处理,以对样本数据进行序列化,得到预处理后数据。

其中,样本数据是对液体活检进行测序得到的。液体活检为待分析对象的体液。具体而言,液体活检可以为血液、脑脊液、唾液等,本实施例不对液体活检的类型作限定。

在一个示例中,样本数据为超低深度液体活检测序数据,即样本数据的测序深度小于0.1X。其中,测序深度为测序得到的碱基总量(bp)与基因组(转录组或测序目标区域大小)的比值。

由于本实施例提供的肿瘤体突变标签提取方法无需检测单个或多个肿瘤突变位点,而采用超低测序深度液体活检样本亦可提取到所需的体细胞突变,因此上述示例中,采用超低测序深度液体活检样本可以有助于降低对检测所需样本的要求,从而可以缩短检测周期,降低检测成本。

在实际实现时,样本数据对应的测序深度也可以大于0.1X,比如:为1X,100X等,本实施例不对样本数据对应的测序深度作限定。

可选的,对样本数据进行预处理的方式可以包括对样本数据进行质控、排序、去重和/或碱基质量矫正等,本实施例不对样本数据预处理的方式作限定。

步骤102,从预处理后数据中鉴定体细胞突变。

其中,体细胞突变是指最终用于提取肿瘤体细胞突变标签的体细胞突变。具体而言,体细胞突变可以是从预处理后数据中的所有体细胞突变中筛选得到的,或者也可以是预处理后数据中的所有体细胞突变。

可选的,从预处理后数据中鉴定体细胞突变之后,还包括:确定体细胞突变的类型。

步骤103,基于肿瘤体细胞突变标签的特征信息和体细胞突变确定肿瘤体细胞突变标签的活性。

其中,特征信息基于肿瘤体细胞突变标签与不同类型的体细胞突变之间的关系预先设置。在一个示例中,肿瘤体细胞突变标签包括是多种类型的体细胞突变的集合,即肿瘤体细胞突变标签与多种类型的体细胞突变关联,特征信息即用于指示肿瘤体细胞突变标签与各个类型的体细胞突变之间的关联关系。在实际实现时,肿瘤体细胞突变标签可以通过公开渠道获取,比如:通过COSMIC数据库的报道和公开的论文中获取,或者也可以通过对临床样本进行分析和提取获得,本实施例不对突变标签的获取方式作限定。

在一个示例中,肿瘤体细胞突变标签的活性的取值范围为[0,1]。

可选的,基于肿瘤体细胞突变标签的特征信息和体细胞突变确定肿瘤体细胞突变标签的活性,包括:基于肿瘤体细胞突变标签的特征信息和体细胞突变对应的体细胞突变类型之间的匹配程度确定肿瘤体细胞突变标签的活性。

在一个示例中,特征信息包括肿瘤体细胞突变标签与不同体细胞突变类型之间的关联度,如此可以基于不同体细胞突变类型对应的体细胞突变的数量以及体细胞突变类型与肿瘤体细胞突变标签之间的关联度确定肿瘤体细胞突变标签的活性。比如:将体细胞突变类型对应的参考体细胞数量以及该体细胞突变类型与肿瘤体细胞突变标签之间的关联度的乘积确定为该体细胞突变类型对应的得分;将各个体细胞突变类型对应的得分之和确定为肿瘤体细胞突变标签的活性。

在另一个示例中,特征信息中指示与肿瘤体细胞突变标签存在关联的关联体细胞突变类型包括n种,所有体细胞突变中,k种关联体细胞突变类型对应的体细胞突变数量大于预设最低数量,此时可以结合k与n的比值确定该肿瘤体细胞突变标签的活性。进一步的,预设最低数量可以基于关联体细胞突变类型单独设置,即不同关联体细胞突变类型对应的预设最低数量可能存在差异。

在实际实现时,也可以基于其他方式计算肿瘤体细胞突变标签的活性,本实施例在不对确定肿瘤体细胞突变标签的活性的方式作限定。

步骤104,基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果。

可选的,基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果,包括:在肿瘤体细胞突变标签的活性大于或等于活性阈值的情况下,确定肿瘤体细胞突变标签对应的检测结果为检出;在肿瘤体细胞突变标签的活性小于活性阈值的情况下,确定肿瘤体细胞突变标签对应的检测结果为未检出。

在一个示例中,活性阈值可以根据实际需要预先设置。进一步的,活性阈值可以根据实际需要进行调整。

需要补充说明的是,在肿瘤体细胞突变标签的活性的计算方式不同的情况下,活性阈值可能存在差异。

可选的,在确定肿瘤体细胞突变标签对应的检测结果为检出的情况下,检测结果还可以包括肿瘤体细胞突变标签的活性,如此可以有助于进行肿瘤辅助诊断。

发明人在研究过程中对本实施例提供的方法进行了如下试验:从5万例超低深度测序(<0.1X)的样本,筛选获得从未诊断为肿瘤,且无现病史、既往史、过敏史的健康样本:12,566例;以及未来1-2年内诊断为恶性肿瘤的样本:71例。从这些样本中,采用本实施例提供的方法提取了肿瘤体细胞突变标签,并且有3种肿瘤体细胞突变标签的活性在恶性肿瘤样本中显著高于健康样本,因此可以用于辅助判断肿瘤风险。

本申请实施例一种肿瘤体细胞突变标签提取方法的实施原理为:对样本数据进行预处理,以对样本数据进行序列化,得到预处理后数据;从预处理后数据中鉴定体细胞突变;基于肿瘤体细胞突变标签的特征信息和体细胞突变确定肿瘤体细胞突变标签的活性,特征信息基于肿瘤体细胞突变标签与不同类型的体细胞突变之间的关系预先设置;基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果。上述技术方案中,由于以肿瘤体细胞突变标签作为肿瘤标志物,而特征信息是基于肿瘤体细胞突变标签与不同类型的体细胞突变之间的关系设置的,因此通过特征信息与体细胞突变之间的匹配即可实现肿瘤体细胞突变标签的提取,而无需依赖特定的基因突变信号,如此可以有助于减小单个或多个特定的肿瘤突变位点对检测结果的影响,进而提高检测的稳定性。

同时,由于肿瘤体细胞突变标签具有肿瘤特异性,因此通过肿瘤体细胞突变标签的活性可以辅助判断肿瘤风险。

同时,由于采用肿瘤体细胞突变标签作为肿瘤标志物,而采用超低测序深度液体活检样本亦可提取到所需的肿瘤体细胞突变标签,与以单一突变液体活检(>5000X)相比,不仅检测方法简单,而且检测的费用更低,更能够用于泛肿瘤的检测。

另外,由于提取过程中无需依赖特定的基因突变信号,如此可以降低提取过程中对ctDNA丰富度以及测序深度的要求,从而可以有助于减小不同情况下ctDNA丰富度的差异对突变位点检测稳定性的影响,进而可以有助于提高检测稳定性。

在一些实施方式中,参考图2,步骤101,对样本数据进行预处理,包括以下步骤:

步骤201,对样本数据进行质控,质控后数据。

可选的,对样本数据进行质控,包括:去除测序接头、删除低质量碱基(比如:删除质量值Q小于20的碱基)和/或去除较短序列(比如:去除长度小于35bp的序列)。

在一个实例中,通过质控软件(比如:fastp)对样本数据进行质控。

通过对样本数据进行质控可以去除样本数据中的数据,进而可以有助于避免低质量数据对后续标签提取过程的影响,同时也可以降低后续提取过程中的计算量。

步骤202,将质控后数据比对到人类参考基因组上,并对比对结果进行排序处理,得到排序后数据。

可选的,将质控后数据比对到人类参考基因组上,并对比对结果进行排序处理,得到排序后数据,包括:使用比对工具将质控后数据比对到人类参考基因组上,并使用比对结果处理工具对比对结果排序处理,得到排序后数据。如此可以有助于对样本数据进行进一步处理。

在一个实例中,人类参考基于组选用hg38。在实际实现时,也可以选用hg19、hg18等。

在一个实例中,比对工具选用bwa或bwa-mem2等。

在一个实例中,比对结果处理工具选用sambamba或samtools等,此时使用比对结果处理工具对比对结果排序处理,包括:使用比对结果处理工具中的sort命令对比对结果进行排序。进一步的,在比对结果为sam格式的情况下,需要先使用比对结果处理工具中的view命令将比对结果由sam格式转换为bam格式,然后再对比对结果进行排序。

步骤203,对排序后数据中的重复序列进行处理,得到去重后数据。

可选的,对排序后数据中的重复序列进行处理,得到去重后数据,包括:使用比对结果处理工具删除排序后数据中的重复序列,得到去重后数据。

在一个实例中,比对结果处理工具选用sambamba或samtools等,此时使用比对结果处理工具删除排序后数据中的重复序列,包括:使用比对结果处理工具中的markdup命令对排序后数据进行处理,得到去重后数据。

在实际实现时,也可以通过其他方式去除排序后数据中的重复序列,比如:使用picard MarkDuplicates对排序后数据进行处理,在此不做限定。

步骤204,对去重后数据进行碱基质量矫正,得到预处理后数据。

在一个示例中,对去重后数据进行碱基质量矫正,得到预处理后数据,包括:使用矫正工具对去重后数据中的基因序列(read)的碱基质量(base quality,BQ)进行矫正,得到预处理后数据。

其中,碱基质量是测序设备在输出的,用于评估基因序列可靠性,但由测序设备存在系统性误差,直接使用碱基质量值用于检测时,可能带来误差,因此需要校正。

在一个示例中,预处理后数据包括碱基质量、比对质量(mapping quality,MQ)和/或矫正比对质量(adjusted mapping quality),其中比对质量和矫正比对质量在碱基质量矫正的过程中获取的,如此可以有助于结合碱基质量、比对质量和矫正比对质量对基因序列的可靠性进行判断。

在一个实例中,使用GATK BaseRecalibrator与ApplyBQSR进行碱基质量矫正。具体而言,首先使用BaseRecalibrator工具基于去重后数据和一组已知变量构建协变量模型,从而生成重新校准文件;然后再使用ApplyBQSR工具根据模型调整数据中的基本质量得分,从而生成一个新的BAM文件。

上述实施方式中,由于可以通过质控、去重和碱基质量矫正对样本数据进行预处理,得到预处理后的数据,如此可以有助于减小测序过程中产生的误差对后序标签提取过程的影响,进而可以有助于提高肿瘤体细胞突变标签提取的准确性,同时也可以有助于减小后续标签提取过程中的计算量,提高提取效率。

在一些实施方式中,参考图3,步骤102,从预处理后数据中鉴定体细胞突变具体包括以下步骤:

步骤301,根据预设的位点提取条件从预处理后数据中提取候选变异位点。

可选的,提取条件基于碱基质量(base quality,BQ)、比对质量(mappingquality,MQ)和/或矫正比对质量(adjusted mapping quality)设置。

在一个示例中,根据预设的位点提取条件从预处理后数据中提取候选变异位点,包括:将预处理数据中碱基质量大于20、比对质量大于30且矫正质量大于50的位点确定为候选变异位点。如此可以有助于降低测序过程中的误差对肿瘤体细胞突变标签的影响,进而可以有助于提高肿瘤体细胞突变标签检测结果的准确性。

在一个实例中,预处理后的数据为bam格式,相应的,使用bcftools mpileup工具根据预设的位点提取条件从预处理后数据中提取候选变异位点。

步骤302,从候选变异位点中提取变异位点。

在一个实例中,使用bcftools call工具提取从候选变异位点中提取所有变异位点。在实际实现时,也可以使用mutect2/varScan2等工具提取变异位点,本实施例不对变异位点的提取方式作限定。

步骤303,对变异位点进行标准化,得到标准变异位点。

其中,对变异位点进行标准化又称为对变异位点进行归一化,其作用是将变异位点进行左对齐,如此可以有助于后续体细胞突变标签的提取。

在一个实例中,实用bcftools norm工具对所有变异位点进行标准化。

步骤304,对标准变异位点进行过滤得到体细胞突变。

在一个示例中,对标准变异进行过滤得到体细胞突变,包括:将标准变异位点中位于低复杂性基因组区域中的变异和/或位于预设碱基数可映射唯一性得分小于1的区域中的变异滤除。

其中,低复杂性基因组区域是指在基因组中由重复的简单序列组成的区域。这些区域通常由短的核苷酸序列重复组成,可能包括单核苷酸重复(如AAAAA...)或短串联重复(如CACACACA...)。低复杂性区域在基因组中有多种形式,包括:单一核苷酸重复(单体重复)、短串联重复(微卫星)和中等长度串联重复(小卫星)等。

在一个实例中,将位于35-kmer的低复杂性基因组区域中的变异滤除,低复杂性基于区域基于um35-hs37d5.bed.gz设置。

在一个实例中,预设碱基数为35bp。

在实际实现时,可以使用bedtools等工具将标准变异位点中位于低复杂性基因组区域中的变异和位于预设碱基数可映射唯一性得分小于1的区域中的变异滤除。

上述示例中,由于可以将位于低复杂性基因组区域中的变异和位于预设碱基数可映射性得分小于1的区域的变异滤除,如此可以有助于进一步提高体细胞突变的质量,进而可以有助于提高最终得到的肿瘤体细胞突变标签提取结果的准确性。

在另一个示例中,对标准变异进行过滤得到体细胞突变,包括:对标准变异位点进行注释;将标准变异位点中已知的胚系变异或群体等位基因频率大于预设频率阈值的变异去除。

其中,预设频率阈值可以根据实际需要设置。在一个实例中,预设频率阈值为0.01。

在一个实例中,应用软件annovar和vep对所有标准变异位点进行注释。

在一个实例中,已知的配置变异基于公开的数据确定,比如:基于dbSNP(SingleNucleotide Polymorphism Database,NCBI中专门用于存储物种SNP位点信息的数据库)、gnomAD(基因组聚合数据库)、ChinaMAP(中国代谢分析项目)数据确定。

上述技术方案中,由于可以对标准变异位点进行注释,如此可以根据注释将已知的胚系变异和群体等位基因频率大于频率阈值的变异去除,如此可以有助于减小胚系变异和高频率群体等位基因对肿瘤体细胞突变标签的影响,进而可以有助于提高最终得到的肿瘤体细胞突变标签提取结果的准确性。

在实际实现时,也可以基于其他方式对标准变异位点进行过滤,本实施例不对标准变异位点的过滤方式作限定。

上述实施方式中,由于可以根据预设的位点提取条件从预处理后数据中提取候选变异位点,然后从候选变异位点中提取变异位点,再对变异位点进行标准化,得到标准变异位点,最后对标准变异位点进行过滤得到体细胞突变,如此可以有助于从预处理后数据中确定出具有价值的体细胞突变,进而可以有助于提高最终确定得到的肿瘤体细胞突变标签提取结果的准确性。

在一些实施方式中,体细胞突变为标准化的单碱基体细胞突变,参考图4,步骤103,基于肿瘤体细胞突变标签的特征信息和体细胞突变确定肿瘤体细胞突变标签的活性,包括以下步骤:

步骤401,根据参考等位基因组提取体细胞突变对应的参考三联碱基。

其中,参考等位基因组预先设置。在一个示例中,参考等位基因组选用人类参考基因组hg38。

本实施例中,体细胞突变类型与三联碱基类型对应。具体而言,对于一个体细胞突变,定义染色体(chromosome)为c;基因组上的位置(Position)为p;参考等位基因(Refreence allele)为r[A,T,G,C];变异等基因(Alternate allele)为a[A,T,G,C],根据碱基互补原则,r>a共有6种类型:C>A,C>T,C>G,T>A,T>C,T>G;坐标c:p-1的参考等位基因为s[A,T,G,C],坐标c:p+1的参考等位基因为x[A,T,G,C],那么三联碱基为s[r>a]x,共有464=96种类型。

在一个实例中,G[C>T]C即表明基于由GCC突变为GTC。

可选的,根据参考等位基因组提取体细胞突变对应的参考三联碱基之前,还包括:从体细胞突变中筛选出参考等位基因深度(reference alleledepth,RD)和突变等位基因深度(alternate alleledepth,AD)大于0的体细胞突变,以根据参考等位基因组提取筛选后的体细胞突变对应的参考三联碱基。

步骤402,基于参考三联碱基中各个预设类型的三联碱基的数量,得到三联碱基矩阵。

在一个示例中,预设类型包括所有三联碱基的类型,即包括完整的96种三联碱基的类型,此时三联碱基矩阵中分别记录有96种三联碱基类型中每种类型对应的参考三联碱基的数量。

在实际实现时,预设类型也可以是从所有三联碱基类型中选取的部分类型,此时预设类型可以基于肿瘤体细胞突变标签的特征信息确定的,即预设类型为与肿瘤体细胞突变标签的特征信息相关的体细胞突变类型对应的三联碱基类型,如此可以有助于降低三联碱基矩阵的复杂度。

在一个示例中,三联碱基矩阵包括第一维度,三联碱基矩阵的第一维度对应不同的预设类型。在一个实例中,第一维度为列,则三联碱基矩阵的不同列对应不同预设类型。

步骤403,基于特征信息和三联碱基矩阵确定肿瘤体细胞突变标签的活性。

由于体细胞突变类型与三联碱基类型对应,而特征信息是基于肿瘤体细胞突变标签与不同类型的体细胞突变之间的关系设置的,因此可以将特征信息与三联碱基矩阵进行比对。

可选的,特征信息用特征矩阵表示。在一个示例中,特征矩阵的第一维度对应不同类型的体细胞突变。在一个实例中,第一维度为列,则三联碱基矩阵的不同列对应不同体细胞突变类型。

在一个示例中,基于特征信息和三联碱基矩阵确定肿瘤体细胞突变标签的活性,包括:基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取肿瘤体细胞突变标签的活性。在实际实现时,上述非负分解矩阵方法可以通过deconstructSigs软件实现。

在一个实例中,基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取肿瘤体细胞突变标签的活性,通过下式表示:

V=H×W

其中,V为三联碱基矩阵,三联碱基矩阵的不同列对应不同类型的三联碱基;H为特征矩阵,特征矩阵的不同列对应不同类型的体细胞突变,且特征矩阵中每一列对应的体细胞突变对应的三联碱基与三联碱基矩阵中与该列对应的列对应的三联碱基相同;W为贡献度。

上述实施方式中,由于可以基于体细胞突变对应的参考三联碱基构建三联碱基矩阵,而体细胞突变类型与三联碱基类型对应,因此可以基于特征信息和三联碱基矩阵确定肿瘤体细胞突变标签的活性,如此可以结合体细胞突变方式和突变位置前后的参考等位基因类型准确确定体细胞突变与特征信息之间的关系,进而可以有助于准确确定肿瘤体细胞突变标签的活性。

在一些实施方式中,肿瘤体细胞突变标签包括至少两个,特征信息用特征矩阵表示,特征矩阵包括第一维度和第二维度,特征矩阵的第一维度对应不同类型的体细胞突变,特征矩阵的第二维度对应不同的肿瘤体细胞突变标签,基于特征信息和三联碱基矩阵确定肿瘤体细胞突变标签的活性,包括:基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取各个肿瘤体细胞突变标签的活性。

在一个实例中,第一维度为列,第二维度为行,此时特征矩阵的不同列对应不同类型的体细胞突变,特征矩阵的不同行对应不同的肿瘤体细胞突变标签。

上述实施方式中,可以同时计算不同的肿瘤体细胞突变标签的活性,如此可以有助于同时提取多个肿瘤体细胞突变标签,进而可以更好的辅助判断肿瘤风险,同时也可以有助于降低检测成本。

基于上述实施方式,进一步的,步骤104,基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果,包括:从各个肿瘤体细胞突变标签中确定背景标签;结合背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到检测结果。

其中,背景标签可以是基于各个肿瘤体细胞突变标签的活性确定的,比如:从活性大于0的肿瘤体细胞突变标签中随机确定背景标签,或者也可以是预先指定的,本实施例不对背景标签的确定方式作限定。

在一个实例中,倾向分数通过下式计算:

其中,MP

由于通过上述计算方式计算得到的背景标签的倾向分数恒为0,如此在实际计算的过程中仅需计算背景标签以外的肿瘤体细胞突变标签的倾向分数。

在一个示例中,结合背景标签的活性计算肿瘤体细胞突变标签的倾向分数,包括:基于最小活性阈值对各个肿瘤体细胞突变标签的活性进行处理,结合背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到检测结果。如此可以有助于提高最终计算得到的倾向分数的参考价值。

其中,最小活性阈值预先设置。在一个示例中,最小活性阈值为0.001。

在一个实例中,基于最小活性阈值对各个肿瘤体细胞突变标签的活性进行处理,包括:将活性小于最小活性阈值的肿瘤体细胞突变标签的活性确定为0。在实际实现时,仅需基于最小活性阈值对背景标签之外的肿瘤体细胞突变标签的活性进行调整。

在另一个示例中,结合背景标签的活性计算肿瘤体细胞突变标签的倾向分数,包括:对于各个候选最小活性阈值,基于该候选最小活性阈值对各个肿瘤体细胞突变标签的活性进行处理,结合背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到该候选最小活性阈值下倾向分数的分布情况;将各个候选最小活性阈值对应的倾向分数分布中,最符合正态分布的倾向分数分布对应的候选最小活性阈值确定为最佳最小活性阈值,并将各个肿瘤体细胞突变标签在最佳最小活性阈值下的倾向分数确定为检测结果。如此可以使得检测结果中各个肿瘤体细胞突变标签的倾向分数尽可能符合正态分布,从而可以有助于提高倾向分数的准确性。

在一个实例中,候选最小活性阈值t[110

在一个实例中,使用Quantile-Quantile图(分位数-分位数图,以下简称Q-Q图)分析倾向分数的分布情况,在倾向分数对应的Q-Q图沿对角线分布的情况下,则倾向分数符合正态分布。

上述实施方式中,由于可以结合从各个肿瘤体细胞突变标签中确定出的背景标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到检测结果,从而使得倾向分数具有鲁棒性好,正态分布便于统计的特点,进而可以便于基于检测结果进行肿瘤辅助诊断。

在一些实施方式中,样本数据包括两个以上,三联碱基矩阵包括第一维度和第二维度,三联碱基矩阵的第一维度对应不同的预设类型,三联碱基矩阵的第二维度对应不同的样本数据,参考图5,步骤402,基于三联碱基矩阵的参考三联碱基中各个预设类型的三联碱基的数量,得到三联碱基矩阵,包括以下步骤:

步骤501,对于每个样本数据,确定样本数据对应的参考三联碱基中各个预设类型的三联碱基的数量。

在一个示例中,不同的样本数据是对不同的液体活检进行测序得到的,不同的液体活检可以是对不同的待分析对象采集的,或者可以是对同一待分析对象在不同时间采集的,即样本数据可能来源于同一待分析对象或者也可以来源于不同待分析对象。

步骤502,对于每个预设类型,基于预设类型的三联碱基的数量确定三联碱基矩阵中样本数据对应的第二维度下预设类型对应的第一维度的数据。

在一个示例中,第一维度为列,第二维度为行,三联碱基矩阵为96列N行的二维矩阵,其中N为样本数据的数量。

相应的,步骤403,基于特征信息和三联碱基矩阵确定肿瘤体细胞突变标签的活性,包括:

步骤503,基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取各个样本数据对应的肿瘤体细胞突变标签的活性。

在一个示例中,肿瘤体细胞突变标签包括至少两个,特征信息用特征矩阵表示,特征矩阵包括第一维度和第二维度,特征矩阵的第一维度对应不同类型的体细胞突变,特征矩阵的第二维度对应不同的肿瘤体细胞突变标签,基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取各个样本数据对应的肿瘤体细胞突变标签的活性,包括:基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取各个样本数据对应的各个肿瘤体细胞突变标签的活性。

在一个实例中,基于非负分解矩阵方法,根据特征矩阵从三联碱基矩阵中提取各个样本数据对应的各个肿瘤体细胞突变标签的活性,参见图6,图6中V为N个样本数据对应的参考三联碱基组成的三联碱基矩阵,H为K个肿瘤体突变标签的特征信息组成的特征矩阵,W即为计算得到的不同样本数据中各个肿瘤体细胞突变标签的活性。

相应的,步骤104,基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果,包括以下步骤:

步骤504,将各个样本数据对应的肿瘤体细胞突变标签的活性进行比对分析,得到各个样本数据对应的检测结果。

在一个示例中,肿瘤体细胞突变标签包括至少两个,此时,将各个样本数据对应的肿瘤体细胞突变标签检测结果进行比对分析,包括:结合肿瘤体细胞突变标签在各个样本数据中的活性从各个肿瘤体细胞突变标签中确定背景标签;对于每个样本数据,结合样本数据中背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到样本数据对应的检测结果。

可选的,结合肿瘤体细胞突变标签在各个样本数据中的活性从各个肿瘤体细胞突变标签中确定背景标签,包括:将在各个样本数据中的活性均大于预设参考值的肿瘤体细胞突变标签作为背景标签。在一个实例中,预设参考值为0。

可选的,对于每个样本数据,结合样本数据中背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到样本数据对应的检测结果,包括:在各个候选最小活性阈值的条件下,对于每个样本数据中,基于该候选最小活性阈值对该样本数据中各个肿瘤体细胞突变标签的活性进行处理,并结合背景标签的活性和各个肿瘤体细胞突变标签的活性计算各个肿瘤体细胞突变标签的倾向分数,得到该样本数据在该候选最小活性阈值下倾向分数的分布情况;基于候选最小活性阈值下各个样本数据的倾向分数分布,将各个样本数据的倾向分数分布均满足正态分布(比如:各个样本数据的倾向分数对应的Q-Q图均沿对角线分布)的候选最小活性阈值确定为最佳最小活性阈值;并将样本数据中各个肿瘤体细胞突变标签在最佳最小活性阈值下的倾向分数确定为样本数据对应的检测结果。如此可以有助于结合不同的样本数据对应的肿瘤体细胞突变标签的活性分析得到最佳最小活性阈值,从而可以有助于提高倾向分数计算的准确性,进而可以准确提取肿瘤体细胞突变标签。

其中,倾向分数的具体计算方式参见上述实施方式,本实施例在此不再赘述。

在实际实现时,不同样本数据对应的最佳活性阈值也可以单独确定,具体确定方式参见上述实施方式,本实施例在此不再赘述。

上述实施方式中,由于在样本数据包括两个以上的情况下,可以同时计算分别计算各个样本数据对应的肿瘤体细胞突变标签的活性,并将各个样本数据对应的肿瘤体细胞突变标签的活性进行比对分析,得到各个样本数据对应的检测结果,如此可以有助于避免对样本数据进行单独分析时可能出现的误差,提高检测结果的准确性,同时也可以有助于提高检测效率。

本实施例还提供一种肿瘤体细胞突变标签提取装置。参考图7,肿瘤体细胞突变标签提取装置包括:预处理模块610、突变鉴定模块620、活性检测模块630和标签提取模块640。

预处理模块610,用于对样本数据进行预处理,以对样本数据进行序列化,得到预处理后数据。

突变鉴定模块620,用于从预处理后数据中鉴定体细胞突变。

活性检测模块630,用于基于肿瘤体细胞突变标签的特征信息和体细胞突变确定肿瘤体细胞突变标签的活性,特征信息基于肿瘤体细胞突变与不同类型的体细胞突变之间的关系预先设置。

标签提取模块640,用于基于肿瘤体细胞突变标签的活性确定肿瘤体细胞突变标签对应的检测结果。

相关细节参考上述方法部分的实施例。

需要说明的是:上述实施例中提供的肿瘤体细胞突变标签提取装置在进行肿瘤体细胞突变标签提取时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将肿瘤体细胞突变标签提取装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的肿瘤体细胞突变标签提取装置与肿瘤体细胞突变标签提取方法实施例属于同一构思,其具体实现过程详见方法部分的实施例,这里不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。

以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 电子标签AP装置、电子标签系统及更新电子标签的方法
  • 一种神经网络模型训练方法及装置、文本标签确定方法及装置
  • 电子标签控制方法、装置、控制主机和电子标签系统
  • 肿瘤体细胞突变标签倾向分数计算方法及装置
  • 肿瘤体细胞突变位点检测方法及其装置
技术分类

06120116592012