掌桥专利:专业的专利平台
掌桥专利
首页

一种确定肿瘤细胞外转移的方法及装置

文献发布时间:2023-06-19 19:28:50


一种确定肿瘤细胞外转移的方法及装置

技术领域

本发明涉及生物技术领域,具体为一种确定肿瘤细胞外转移的方法及装置。

背景技术

肺癌是全世界所有癌症中最常见的死亡原因。肺癌的两种主要类型是小细胞肺癌和非小细胞肺癌。总体生存率取决于肺癌的分期,晚期肺癌患者一般预后较差。有证据表明,肿瘤转移反映了肺癌的相对晚期,超过70%的患者死亡是由肿瘤转移引起的。

据报道,肺癌肿瘤细胞的外转移(以下简称“外转移”)会急剧增加肺癌患者的死亡风险,其主要指的是单个或多个远端转移同时存在,和/或肿瘤转移单独或同时存在于非纵隔/肺门淋巴结的单个或多个颈部淋巴结,腹部淋巴结,锁骨上淋巴结等,以及前述转移与纵隔/肺门淋巴结转移和/或同侧或对侧支气管周围转移同时存在。研究表明,非小细胞肺癌IB期患者的5年总生存率为68%,而IVA-IVB期患者的5年总生存率低于10%。

目前,肺癌肿瘤细胞的外转移检测一般采用影像学、穿刺或者手术标本的病理学诊断依据,比如侵袭胸膜、心包等的积液的细胞学检查作为辅助判断,但这些检测方式成本高昂、费时较长、准确率不高,并且会对患者造成一定的侵入性风险。因此,本领域需要一种快速确定肿瘤细胞是否出现外转移的方法及装置。

发明内容

本发明旨在提供一种确定肿瘤细胞外转移的方法及装置,其能够解决上述技术问题。

根据本发明的一个方面,提供了一种确定肿瘤细胞外转移的方法,包括:将多名患者的体征参数集划分成为训练集和验证集,其中该体征参数集包括定量参数和变量参数;对于预先确定的多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到多个赤池信息准则(Akaike information criterion,简称为AIC)值,其中每个该参数组合均包括一个或多个该定量参数和/或一个或多个该变量参数;筛选该多个AIC值中的最小值对应的该参数组合作为最优参数组合;以及使用该最优参数组合,确定肿瘤细胞的外转移。

优选地,在将该多名患者的该体征参数集划分成为该训练集和该验证集之前,该方法还包括:对该定量参数和该变量参数进行分箱处理,得到该定量参数和该变量参数的分箱结果;对该分箱结果进行统计推断,得到最优分箱结果;对该最优分箱结果进行证据权重(Weight of Evidence,简称WOE)变换,得到该体征参数集。

优选地,对于预先确定的该多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到该多个AIC值,包括:基于逐步回归法对该训练集和该验证集进行训练和验证;根据第一公式AIC

优选地,逐步回归法包括:公式

其中Y为确定肿瘤细胞是否外转移的因变量,β

优选地,该影响因素I包括:该影响因素I的初始值为1,该自变量个数i=1,2,…,n;当该自变量个数i为1时,该影响因素I的值为1;当该自变量个数i为n时,该影响因素I的值为1+0.1*n。

优选地,逐步回归法包括:公式

其中Y为确定肿瘤细胞是否外转移的因变量,β

优选地,该影响因素I包括:该影响因素I的初始值为2,该自变量个数i=1,2,…,n;当该自变量个数i为1时,该影响因素I的值为2;当该自变量个数i为n时,该影响因素I的值为2-0.1*n。

优选地,逐步回归法包括:公式

Y=β

优选地,使用该最优参数组合,确定肿瘤细胞的外转移,包括:基于该最优参数组合构建评测模型;设置该评测模型的基准评分为3分;基于该基准评分确定肿瘤细胞的外转移。

根据本发明的另一个方面,还提供了一种确定肿瘤细胞外转移的装置,该装置包括:划分模块,用于将多名患者的体征参数集划分成为训练集和验证集,其中该体征参数集包括定量参数和变量参数;训练及验证模块,用于对于预先确定的多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到多个AIC值,其中每个该参数组合均包括一个或多个该定量参数和/或一个或多个该变量参数;筛选模块,用于筛选该多个AIC值中的最小值对应的该参数组合作为最优参数组合;以及确定模块,用于使用所述最优参数组合,确定肿瘤细胞的外转移。

本发明将多名患者的多种体征参数集分为训练集和验证集,然后基于参数组合对训练集和验证集进行训练和验证,根据AIC值得到最优参数组合,能够快速地确定肿瘤细胞是否发生外转移。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图一为根据本发明实施例的确定肿瘤细胞外转移的方法的流程图;

图二为根据本发明实施例的肺癌患者评分统计的示意图;以及

图三为根据本发明实施例的确定肺癌肿瘤细胞外转移的装置的结构框图。

具体实施方式

本发明实施例针对医学上确定肺癌肿瘤细胞是否出现外转移提出了一种深度学习方法。与相关技术中采用的影像学、穿刺、手术标本等确定方式不同,本发明实施例不需要使用复杂的医学手段进行确定,本发明实施例将多名肺癌患者的多种体征参数集分为训练集和验证集,然后对训练集和验证集进行训练和验证,基于AIC值得到最优参数组合,确定肺癌患者的肺癌肿瘤细胞是否发生外转移。与复杂且成本高昂的传统技术相比,本发明实施例仅需采集肺癌患者的体征参数即可确定肺癌肿瘤细胞是否出现外转移,进一步缩短了检测时间。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明实施例提供了一种确定肺癌肿瘤细胞的外转移的方法。图一是根据本发明实施例的确定肿瘤细胞外转移的方法的流程图。如图一所示,包括如下的步骤S102至步骤S108。

步骤102,将多名肺癌患者的体征参数集划分成为训练集和验证集,其中该体征参数集包括定量参数和变量参数。

步骤104,对于预先确定的多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到多个AIC值,其中每个该参数组合均包括一个或多个该定量参数和/或一个或多个该变量参数。

步骤106,将该多个AIC值中的最小值对应的该参数组合作为最优参数组合。

步骤108,使用该最优参数组合,确定肺癌患者的肺癌肿瘤细胞的外转移。

相关技术中,肺癌肿瘤外转移的检测一般采用影像学、穿刺或者手术标本等方式,这些检测方式成本高昂、费时较长、准确率不高、并且会对患者造成一定的侵入性风险。本发明实施例中,不需要采用侵入性操作,而仅需将采集好的多名肺癌患者的多种体征参数集分为训练集和验证集,然后基于参数组合对训练集和验证集进行训练和验证,根据AIC值得到最优参数组合,即可快速地确定肺癌患者的肺癌肿瘤细胞是否发生外转移。

根据本发明的实施例,在将该多名肺癌患者的该体征参数集划分成为该训练集和该验证集之前,该方法还包括:对该定量参数和该变量参数进行分箱处理,得到该定量参数和该变量参数的分箱结果;对该分箱结果进行统计推断,得到最优分箱结果;对该最优分箱结果进行WOE变换,得到该体征参数集。

本实施例详细描述了定量参数和变量参数转换为体征参数集的过程。该过程的特点至少包括以下三点。第一,针对定量参数和变量参数,采用有监督分箱算法,该算法可以确定分箱和/或定量参数、变量参数连续区间的最佳拆分点。第二,在不同转移模式下,对不同观测指标的不同分箱结果进行统计推断,以此得到最优分箱结果。第三,针对体征参数集的确定,采用WOE变换从而确认每个定量、变量的重要程度,这种方法操作简便。

根据本发明的实施例,对于预先确定的该多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到该多个AIC值,包括:基于逐步回归法对该训练集和该验证集进行训练和验证;根据第一公式AIC

本实施例详细描述了AIC值的计算方法,用于得到最优参数组合。该计算方法的特点至少包括以下三点。第一,基于逐步回归法,得到训练和验证结果。第二,针对AIC

根据本发明的实施例,基于该逐步回归算法对该训练集和该验证集进行训练和验证,包括:根据公式

构建第一回归模型,其中,Y为确定肺癌肿瘤细胞是否外转移的因变量,β

本实施例详细描述了基于逐步回归算法中的第一回归模型对该训练集和该验证集进行训练和验证的方法。该方法的特点至少包括以下两点。第一,根据逐步回归算法构建第一回归模型,每引入一个定量或变量后要查看是否使得模型发生显著性变化,如果发生了显著性变化则引入模型中,反之则不引入,直至所有定量或变量都进行了考虑。第二,针对每个定量或变量设置影响因素,由于每个后引入的定量或变量对整个模型的影响逐渐递减,因此逐步增大后引入的定量或变量的影响因素,使得第一回归模型更加准确。

根据本发明的实施例,基于该逐步回归算法,对该训练集和该验证集进行训练和验证,包括:根据公式

构建第二回归模型,其中,Y为确定肺癌肿瘤细胞是否外转移的因变量,β

本实施例详细描述了基于逐步回归算法中的第二回归模型对该训练集和该验证集进行训练和验证的方法。该方法的特点至少包括以下两点。第一,根据逐步回归算法构建第二回归模型,将所有定量和变量放入模型,然后尝试将某一定量或变量进行剔除,查看剔除后对整个模型是否有显著性变化,如果无显著性变化则剔除,反之则保留,直到留下所有对模型有显著性变化的定量或变量。第二,针对每个定量或变量设置影响因素,由于每个后剔除的定量或变量对整个模型的影响逐渐增大,因此逐步减小后引入的定量或变量的影响因素,使得第二回归模型更加准确。

根据本发明的实施例,基于该逐步回归算法,对该训练集和该验证集进行训练和验证,包括:根据公式

Y=β

构建第三回归模型,其中,Y为确定肺癌肿瘤细胞是否外转移的因变量,β

本实施例详细描述了基于逐步回归算法中的第三回归模型对该训练集和该验证集进行训练和验证的方法。该方法的特点至少包括以下两点。第一,根据逐步回归算法构建第三回归模型,当引入一个定量或变量后,首先查看这个定量或变量是否使得模型发生显著性变化,若发生显著性变化,再对模型进行学生检验,当原来引入定量或变量由于后面加入的定量或变量的引入而不再显著变化时,则剔除此定量或变量,确保每次引入新的定量或变量之前模型中只包含显著性定量或变量,直到没有显著和非显著的定量或变量引入模型。第二,针对每个定量或变量设置影响因素,由于每个后引入的定量或变量对整个模型的影响逐渐递减,因此逐步增大后引入的定量或变量的影响因素,使得第三回归模型更加准确。

根据本发明的实施例,使用该最优参数组合,确定肺癌患者的肺癌肿瘤细胞的外转移,包括:基于该最优参数组合构建评测模型;设置该评测模型的基准评分为3分;基于该基准评分确定肺癌患者的肺癌肿瘤细胞是否出现外转移。

在本实施例中,剔除无关的定量或变量,评测模型仅需要根据最优参数组合来设置,使该评测模型更加精简、高效。

根据本发明的实施例,还提供了一种确定肺癌肿瘤细胞外转移的装置,该装置包括:划分模块,用于将多名肺癌患者的体征参数集划分成为训练集和验证集,其中该体征参数集包括定量参数和变量参数;训练及验证模块,用于对于预先确定的多个参数组合,分别使用该训练集和该验证集进行训练和验证,得到多个AIC值,其中每个该参数组合均包括一个或多个该定量参数和/或一个或多个该变量参数;筛选模块,用于筛选该多个AIC值中的最小值对应的该参数组合作为最优参数组合;以及确定模块,用于使用所述最优参数组合,确定肺癌肿瘤细胞的外转移。

本实施例详细描述了确定肺癌肿瘤细胞外转移的装置,该装置主要包括划分模块、训练及验证模块、筛选模块以及确定模块。本装置不需要采用侵入性操作,仅需将多名肺癌患者的多个体征参数集划分成为多个训练集和多个验证集,然后基于多个参数组合对训练集进行训练及验证,继而根据AIC值得到最优参数组合,即可确定肺癌肿瘤细胞的外转移。

下面将结合实例对本发明实施例的实现过程进行详细描述。同时,本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

下表是患者初次被诊断为肺癌患者时采集定量参数和变量参数表。

其中,定量设定为年龄、肿瘤大小以及血清肿瘤标志物基线表达水平,变量设定为血清肿瘤标志物(CEA,CA125,CA153,CA199,CA724,CYFRA,NSE)。

需要进一步说明的是,血清肿瘤标志物(CEA,CA125,CA153,CA199,CA724,CYFRA,NSE)正常参考值均在全自动电化学发光免疫分析系统上进行测定。

本实施例采用决策树最优分箱对体征参数集进行分箱处理,决策树最优分箱算法使用决策树来确定分箱或参数区间的最佳拆分点,定量参数的分箱由该算法确定具体的分箱模式。不同观测指标的不同分箱结果在不同转移模式的比较采用卡方检验、优势比、置信区间等方法予以检验,得到最优分箱结果。

根据最优分箱的结果,对体征参数集进行WOE变换,并且通过计算每个定量和变量的信息价值,以确定定量和变量在区分肺癌外转移类型强弱。

将体征参数集按照7:3随机分割为训练集和验证集并构建了6个的参数组合,分别为:包括性别、年龄、肿瘤大小以及7项血清肿瘤标志物(CEA,CA125,CA153,CA199,CA724,CYFRA,NSE)的第一参数组合;包括性别、年龄以及7项血清肿瘤标志物(CEA,CA125,CA153,CA199,CA724,CYFRA,NSE)的第二参数组合;包括7项血清肿瘤标志物(CEA,CA125,CA153,CA199,CA724,CYFRA,NSE)的第三参数组合;包括2项血清肿瘤标志物(CEA和CA125)的第四参数组合;包括1项血清肿瘤标志物(CEA)的第五参数组合;包括1项血清肿瘤标志物(CA125)的第六参数组合。

将上述6个参数组合,均带入以下三个回归模型

第一回归模型:

第二回归模型:

第三回归模型:Y=β

根据上述公式,可以得到十八个回归结果。其中,Y为确定肺癌肿瘤细胞是否外转移的因变量,β

根据回归结果,对定量参数和变量参数进行显著性变化观测和/或学生检验,保留对参数组合影响较大的定量或变量,反之则剔除。

同时,对6个参数组合在训练集以及测试集上进行接收者操作特征曲线(receiveroperating characteristic curve,简称为ROC)分析,用于验证上述回归模型的科学性。

6个参数组合在训练集中的数值依次分别为0.873(95%CI[0.810-0.936])、0.864(95%CI[0.794-0.934])、0.843(95%CI[0.769-0.917])、0.813(95%CI[0.729-0.896])、0.748(95%CI[0.656-0.839])和0.720(95%CI[0.628-0.811])。

6个参数组合在验证集中的数值依次分别为0.832(95%CI[0.755-0.909])、0.815(95%CI[0.730-0.900])、0.795(95%CI[0.703-0.888])、0.810(95%CI[0.730-0.890])、0.770(95%CI[0.669-0.872])和0.681(95%CI[0.565-0.797])。

根据上述结果可知,前述参数组合在训练集和验证集中的假定值均大于0.05,分别为0.423、0.383、0.431、0.966、0.745以及0.607,除基于单独CA125的参数组合之外,其它参数组合在训练集和测试集中ROC值大于0.75,均有较为良好的性能。

由于每个参数组合在训练集和测试集中的表现均为良好,因此需要引入AIC值,选择最优参数组合。

将上述6个参数组合的回归结果分别代入第一公式

AIC

其中,每个参数组合均有3个回归结果。因此,每个参数组合均可以计算得到3个AIC

将每个参数组合的3个AIC

得到每个参数组合的AIC值,选择AIC值最小的参数组合作为最优参数组合。

其中,i表示该AIC值的序数,K表示该定量参数和该变量参数的个数,L表示似然函数,θ表示该定量参数和该变量参数的数值,x表示确定该参数组合后肺癌肿瘤细胞是否外转移的结果,P表示概率,X表示该参数组合,R

本实施例中,由于每个参数组合具有3个AIC

下表为基于最优参数组合的评分卡模型。

本实施例构建了基于最优参数组合的是否出现胸膜腔外转移的评分卡,在评分卡模型中,基准分为3分,整体来看,随着纳入最优参数组合的肿瘤标志物CEA、CA125以及CA724的逐步升高,患者的评分越低,其中CEA超过6ng/mL以后,以及CA125超过90U/mL以后,患者评分明显降低。同时患者随着年龄的增加以及肿瘤大小的增加也导致评分降低。

图二为根据本发明实施例的肺癌患者评分统计的示意图,可见,胸膜腔外转移患者的得分主要集中在3分以下,同时,在3分以下的范围中,仅有极少数的胸膜腔内转移。

综上所述,本发明仅需将采集好的多名患者的多种体征参数集分为训练集和验证集,然后对训练集和验证集进行训练和验证,基于AIC值得到最优参数组合,即可快速地确定肿瘤细胞是否发生外转移。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

技术分类

06120115921704