掌桥专利:专业的专利平台
掌桥专利
首页

药物敏感预测模型的训练方法、预测方法及相关装置

文献发布时间:2023-06-19 10:27:30


药物敏感预测模型的训练方法、预测方法及相关装置

技术领域

本申请涉及数据处理领域,特别涉及一种药物敏感预测模型的训练方法、预测方法及相关装置。

背景技术

肿瘤是一类复杂的异质性疾病,如即使相同病理类型的肿瘤患者对抗肿瘤药物反应迥异。因此肿瘤科学成为了精准医疗的重要领域之一,精准用药能达到更好的治疗效果并减少副作用的产生。实施肿瘤精准医疗的途径之一是在动物体内移植肿瘤,然后把药物作用于动物体内,观察药物对动物体内肿瘤生长的影响而确定疗效。该方法费用高、耗时长而且成功率低。面对这些挑战,人类癌症细胞系为筛选治疗癌症的候选药物提供了新的载体。目前用细胞系培养技术培养出的癌症细胞系能够近似的模拟癌症细胞在癌症病人体内的生长环境,癌症细胞系和癌症病人体内癌症细胞的各组学水平具有极大的相似性。因此通过分析癌症细胞系分子数据预测药物反应,能够预测药物在病人体内的反应。

但是,如何基于癌症细胞系分子数据预测药物反应,成为问题。

发明内容

为解决上述技术问题,本申请实施例提供一种药物敏感预测模型的训练方法、预测方法及相关装置,以达到提高待使用代谢物特征的有效性,保证对预测模型训练的有效性的目的,技术方案如下:

一种药物敏感预测模型的训练方法,包括:

获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50;

对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别;

对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程;

每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集;

对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数;

对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数;

对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征;

利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

所述将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集,包括:

利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个代谢物特征进行归一化,得到归一化后的代谢物特征;

所述x表示所述代谢物特征在所述细胞系中的含量,min_x为所述代谢物特征在多个所述细胞系中的含量的最小值,max_x为所述代谢物特征在多个所述细胞系中的含量的最大值;

将所述训练细胞系的归一化后的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

所述利用所述待使用代谢物特征,及所述待使用代谢物特征的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练,之后:

从多个所述细胞系中抽样出第二设定个数的细胞系,作为测试细胞系,分别利用所述待训练癌症细胞系药物敏感预测模型对各个所述测试细胞系进行多次预测,得到预测结果;

对各个所述预测结果进行评估,得到评估结果;

基于多个所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

所述对各个所述预测结果进行评估,得到评估结果之前,还包括:

基于每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系是否存在异常细胞系;

若存在,则剔除多个所述训练细胞系中的异常细胞系,将剔除所述异常细胞系后的细胞系作为训练细胞系,并返回执行所述对每个所述训练细胞系,执行多次重要特征筛选过程的步骤;

若不存在,则对各个所述预测结果进行评估,得到评估结果;

基于所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

所述基于所述药物反应参数IC50,确定药物应答类别,包括:

将多个所述细胞系中所述药物反应参数IC50相同的细胞系划分为一组,得到细胞系组,并统计每个所述细胞系组中细胞系的个数;

在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50,其中,小于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和,与大于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和的差值在设定阈值范围内;

将所述目标药物反应参数IC50作为预设药物反应参数IC50阈值;

判断所述药物反应参数IC50是否大于预设药物反应参数IC50阈值;

若是,则确定药物应答类别为不敏感;

若否,则确定药物应答类别为敏感。

一种药物敏感预测方法,包括:

获取待处理细胞系的代谢物特征;

调用癌症细胞系药物敏感预测模型,对所述待处理细胞系的代谢物特征进行处理,以获得药物应答类别;

所述癌症细胞系药物敏感预测模型为基于上述任意一项所述的药物敏感预测模型的训练方法训练得到的。

一种药物敏感预测模型的训练装置,包括:

获取模块,用于获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50;

第一确定模块,用于对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别;

重要特征筛选模块,用于对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程;

每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集;

统计模块,用于对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数;

第二确定模块,用于对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数;

第三确定模块,用于对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征;

训练模块,用于利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

所述重要特征筛选模块,具体用于:利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个代谢物特征进行归一化,得到归一化后的代谢物特征;

所述x表示所述代谢物特征在所述细胞系中的含量,min_x为所述代谢物特征在多个所述细胞系中的含量的最小值,max_x为所述代谢物特征在多个所述细胞系中的含量的最大值;

将所述训练细胞系的归一化后的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

所述装置还包括:

测试模块,用于对各个所述预测结果进行评估,得到评估结果;

基于多个所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

所述测试模块,还用于:

在对各个所述预测结果进行评估,得到评估结果之前,基于每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系中是否存在异常细胞系;

若存在,则剔除多个所述训练细胞系中的异常细胞系,将剔除所述异常细胞系后的细胞系作为训练细胞系,并返回执行所述对每个所述训练细胞系,执行多次重要特征筛选过程的步骤;

若不存在,则对各个所述预测结果进行评估,得到评估结果;

基于所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

所述第一确定模块,具体用于:

将多个所述细胞系中所述药物反应参数IC50相同的细胞系划分为一组,得到细胞系组,并统计每个所述细胞系组中细胞系的个数;

在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50,其中,小于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和,与大于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和的差值在设定阈值范围内;

将所述目标药物反应参数IC50作为预设药物反应参数IC50阈值;

判断所述药物反应参数IC50是否大于预设药物反应参数IC50阈值;

若是,则确定药物应答类别为不敏感;

若否,则确定药物应答类别为敏感。

一种药物敏感预测装置,包括:

获取模块,用于获取待处理细胞系的代谢物特征;

调用模块,用于调用癌症细胞系药物敏感预测模型,对所述待处理细胞系的代谢物特征进行处理,以获得药物应答类别;

所述癌症细胞系药物敏感预测模型为基于权利要求1-5任意一项所述的药物敏感预测模型的训练方法训练得到的。

与现有技术相比,本申请的有益效果为:

在本申请中,通过从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程,得到重要特征集,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数,基于被选中次数,选择出待使用代谢物特征,保证待使用代谢物特征是重要性更高且被使用的次数更多,提高待使用代谢物特征的有效性,在此基础上,保证对预测模型训练的有效性,进而用训练好的癌症细胞系药物敏感预测模型对细胞系所对应的代谢物特征进行预测,能提高预测的准确性。

并且,由于细胞系所对应的代谢物特征是细胞内各种生物学过程的终产物,是生物体对遗传、病理生理和环境刺激的最终反应,因此利用细胞系所对应的代谢物特征对癌症细胞系药物敏感预测模型进行训练,能提高癌症细胞系药物敏感预测模型训练的精度,保证训练好的癌症细胞系药物敏感预测模型进行预测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请提供的一种药物敏感预测模型的训练方法实施例1的流程图;

图2是本申请提供的一种药物敏感预测模型的训练方法实施例1的流程图;

图3是本申请提供的一种药物敏感预测模型的训练方法实施例1的流程图;

图4是本申请提供的一种药物敏感预测方法的流程图;

图5是本申请提供的一种药物敏感预测模型的训练装置的逻辑结构示意图;

图6是本申请提供的一种药物敏感预测装置的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

目前,现有的药物敏感性研究工作大多集中在基因组,且临床应用的生物标记物主要是单个基因或少数基因,例如用于治疗肺癌的吉非替尼药物的敏感预测就是通过EGFR突变。但是,一些肿瘤的病因并非仅仅由于单个主效癌基因,比如近一半的患者BRAF(V600E)突变阳性,但对BRAF抑制剂无效。另外,很多药物目前临床上仍然无用于个体化医疗的生物标记物使用。所以目前迫切需要研发可以被用来更好地预测癌症患者对药物反应(敏感性或抗药性)的新方法和新技术。基于该背景,发明人发现,代谢物是细胞内各种生物学过程的终产物,是生物体对遗传、病理生理和环境刺激的最终反应,对上游各种生命信息包括基因组、转录组和蛋白组的起到了信号收集和放大器的作用。代谢组是最接近生物表型的一种组学,将其作为药物应答的标记物具有其他组学不具备的优势。因此,发明人基于代谢物特征,提出一种药物敏感预测模型的训练方法。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示的,为本申请提供的一种药物敏感预测模型的训练方法实施例1的流程图,该方法包括以下步骤:

步骤S11、获取多个细胞系中每个细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50。

本实施例中,可以从CCLE数据库中获取多个细胞系中每个细胞系的代谢物特征及每个细胞系的药物反应参数IC50。例如,若需要获取75个细胞系的数据,则从CCLE数据库中获取75个细胞系中每个细胞系的代谢物特征,及75个细胞系中每个细胞系的药物反应参数IC50。

其中,代谢物特征可以理解为:代谢物的定量值。药物反应参数IC50,可以理解为:药物反应达到绝对抑制50%的药物浓度。

步骤S12、对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别。

本实施例中,对每个所述细胞系,可以基于现有技术中特定的药物反应参数阈值,来确定药物应答类别。具体地,比较药物反应参数IC50和现有技术中特定的药物反应参数阈值,若药物反应参数IC50大于现有技术中特定的药物反应参数阈值,则确定药物应答类别为不敏感;若药物反应参数IC50小于现有技术中特定的药物反应参数阈值,则确定药物应答类别为敏感。

但是,基于现有技术中特定的药物反应参数阈值进行药物应答类别确定,准确性不高。因此,本实施例中,提供了另外一种确定药物应答类别的方法,具体可以包括:

S121、将多个所述细胞系中所述药物反应参数IC50相同的细胞系划分为一组,得到细胞系组,并统计每个所述细胞系组中细胞系的个数。

例如,若从CCLE数据库中获取到75个细胞系的代谢物特征及药物反应参数IC50,且75个细胞系中,细胞系a1-a20的药物反应参数IC50均为1,细胞系a21-a36的药物反应参数IC50均为2,细胞系a37-a50的药物反应参数IC50均为3,细胞系a51-a75的药物反应参数IC50均为4,则将细胞系a1-a20划分为一组,作为细胞系组1;将细胞系a21-a36划分为一组,作为细胞系组2;将细胞系a37-a50划分为一组,作为细胞系组3;将细胞系a51-a75划分为一组,作为细胞系组4。

S122、在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50,其中,不大于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和,与大于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和的差值在设定阈值范围内。

现举例对在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50进行说明,例如,仍以步骤S121中介绍的划分细胞系为例,在得到细胞系组1、细胞系组2、细胞系组3和细胞系组4之后,可以确定细胞系组1的药物反应参数IC50为1,细胞系组2的药物反应参数IC50为2,细胞系组3的药物反应参数IC50为3,细胞系组4的药物反应参数IC50为4,则可以确定不大于为2的药物反应参数IC50的细胞系组包括细胞系组1和2,且细胞系组1和2的细胞系的个数之和为36,大于为2的药物反应参数IC50的细胞系组包括细胞系组3和4,且细胞系3和4的细胞系的个数之和为39,39与36的差值为3,在设定阈值范围1-10内,则可以确定细胞系组2的药物反应参数IC50为目标药物反应参数IC50。

S123、将所述目标药物反应参数IC50作为预设药物反应参数IC50阈值。

S124、判断所述药物反应参数IC50是否大于预设药物反应参数IC50阈值。

药物反应参数IC50越大,说明对药物越不敏感;反之,说明对药物越敏感。

若是,步骤S125;若否,则执行步骤S126。

S125、确定药物应答类别为不敏感。

S126、确定药物应答类别为敏感。

本实施例中,由于将多个所述细胞系中所述药物反应参数IC50阈值相同一侧的细胞系划分为一组,得到细胞系组,并统计每个所述细胞系组中细胞系的个数,在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50,将所述目标药物反应参数IC50作为预设药物反应参数IC50阈值,使预设药物反应参数IC50阈值两侧的细胞系的个数尽可能平衡,因此,基于该预设药物反应参数IC50阈值对药物应答类别进行分类,保证药物敏感和不敏感的细胞系的数量的平衡性,保证训练数据的可靠性。

步骤S13、对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程,每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

本实施例中,可以构建多个不同的癌症细胞系药物敏感预测模型。

多个不同的癌症细胞系药物敏感预测模型,可以包括:基于ExtraTreesClassifier算法的癌症细胞系药物敏感预测模型、基于GaussianProcessClassifier算法的癌症细胞系药物敏感预测模型、基于NuSVC算法的癌症细胞系药物敏感预测模型、基于RidgeClassifierCV算法的癌症细胞系药物敏感预测模型、基于GaussianNB算法的癌症细胞系药物敏感预测模型、基于RandomForestClassifier算法的癌症细胞系药物敏感预测模型及基于XGBClassifier算法的癌症细胞系药物敏感预测模型中的至少任意两种。

本实施例中,可以基于改进的bootstrap抽样算法,从多个所述细胞系中抽样出第一设定个数的细胞系。具体地,采用无放回的抽样方式,从多个所述细胞系中抽样,得到第一设定个数的细胞系,且抽样出的各个细胞系是不同的。例如,从75个细胞系中先抽样一个细胞系,再从剩余的74个细胞系中抽样一个细胞系,…,从剩余的(75-i)个细胞系中抽样一个细胞系,直至抽样出第一设定个数的细胞系。

其中,第一设定个数小于多个所述细胞系的总个数。

采用无放回的抽样方式,能保证抽样得到的细胞系是不重复的,以此提高训练数据的多样性。

癌症细胞系药物敏感预测模型可以理解为:用于预测对药物是否敏感的一种机器学习模型。癌症细胞系药物敏感预测模型可以对代谢物特征的重要性进行评估,得到代谢物特征的重要性指标值。代谢物特征的重要性指标值用于表征代谢物特征在预测过程中的重要性。代谢物特征的重要性指标值越高,该特征对预测结果的影响越大。

所述重要特征集包括:对所述训练细胞系的代谢物特征的重要性指标值进行从大到小排序,排序结果中第一个至第n个重要性指标值对应的特征组成的集合,所述n小于所述训练细胞系的代谢物特征的总数。

本实施例中,将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集,可以包括:

S131、利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个代谢物特征进行归一化,得到归一化后的代谢物特征。

所述x表示所述代谢物特征在所述细胞系中的含量,min_x为所述代谢物特征在多个所述细胞系中的含量的最小值,max_x为所述代谢物特征在多个所述细胞系中的含量的最大值。

S132、将所述训练细胞系的归一化后的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

本实施例中,利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个代谢物特征进行归一化,得到归一化后的代谢物特征,可以提高运算速度,提高癌症细胞系药物敏感预测模型输出重要特征集的效率。

本实施例中,将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集,也可以包括:

S133、对所述训练细胞系的代谢物特征进行质控及清洗,得到预处理后代谢物特征,利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个预处理后代谢物特征进行归一化,得到归一化后的代谢物特征。

所述x表示所述代谢物特征在所述细胞系中的含量,min_x为所述代谢物特征在多个所述细胞系中的含量的最小值,max_x为所述代谢物特征在多个所述细胞系中的含量的最大值。

S132、将所述训练细胞系的归一化后的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

本实施例中,通过对代谢物特征进行质控及清洗,使代谢物特征更可靠,提高归一化的效率及训练数据的可靠性。

步骤S14、对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数。

现举例对对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数进行说明,例如,细胞系共80个,抽出其中的60个细胞系作为训练集。然后从训练集即60个细胞系中用不放回的bootstrap算法抽出50个细胞系,共抽100次。(1)分别采用5种不同REFCV的算法对抽出的细胞系进行模型训练,筛选特征。(2)共进行100轮。(3)分别统计五种算法的100轮循环中每个代谢物特征被选中的次数。

步骤S15、对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数。

仍以步骤S14中的举例,对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数进行说明,例如,若训练细胞系b1的代谢物特征c1的被选中次数y1大于被选中次数y2,则将被选中次数y1作为训练细胞系b1的代谢物特征c1的目标次数;若训练细胞系b2的代谢物特征c2的被选中次数y3小于被选中次数y4,则将被选中次数y4作为训练细胞系b2的代谢物特征c2的目标次数;若训练细胞系b3的代谢物特征c3的被选中次数y5大于被选中次数y6,则将被选中次数y5作为训练细胞系b3的代谢物特征c3目标次数;若训练细胞系b4的代谢物特征c4的被选中次数y7小于被选中次数y8,则将被选中次数y8作为训练细胞系b4的代谢物特征c4的目标次数;若训练细胞系b5的代谢物特征c5的被选中次数y9小于被选中次数y10,则将被选中次数y10作为训练细胞系b5的代谢物特征c5的目标次数。

步骤S16、对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征。

步骤S17、利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

待训练癌症细胞系药物敏感预测模型可以为步骤S13中构建的多个癌症细胞系药物敏感预测模型中的其中一个。当然,待训练癌症细胞系药物敏感预测模型也可以为:步骤S13中构建的多个癌症细胞系药物敏感预测模型中多个模型组合得到的模型。

在待训练癌症细胞系药物敏感预测模型为步骤S13中构建的多个癌症细胞系药物敏感预测模型中多个模型组合得到的模型的情况下,采用待训练癌症细胞系药物敏感预测模型进行预测时,可以利用待训练癌症细胞系药物敏感预测模型中的各个预测模型对目标数据进行预测,得到多个预测结果,然后用投票的方式,决定最终预测结果。例如,待训练癌症细胞系药物敏感模型中包括7个预测模型,7个预测模型对目标数据进行预测,得到的7个预测结果分别为敏感、敏感、不敏感、敏感、敏感、不敏感、不敏感,则敏感的个数多于不敏感的个数,确定最终预测结果为敏感。

在本申请中,通过从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程,得到重要特征集,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数,基于被选中次数,选择出待使用代谢物特征,保证待使用代谢物特征是重要性更高且被使用的次数更多,提高待使用代谢物特征的有效性,在此基础上,保证对预测模型训练的有效性,进而用训练好的癌症细胞系药物敏感预测模型对细胞系所对应的代谢物特征进行预测,能提高预测的准确性。

并且,由于细胞系所对应的代谢物特征是细胞内各种生物学过程的终产物,是生物体对遗传、病理生理和环境刺激的最终反应,因此利用细胞系所对应的代谢物特征对癌症细胞系药物敏感预测模型进行训练,能提高癌症细胞系药物敏感预测模型训练的精度,保证训练好的癌症细胞系药物敏感预测模型进行预测的准确性。

作为本申请另一可选实施例,参照图2,为本申请提供的一种药物敏感预测模型的训练方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的药物敏感预测模型的训练方法的扩展方案,如图2所示,该方法可以包括但并不局限于以下步骤:

步骤S21、获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50。

步骤S22、对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别。

步骤S23、对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程。

每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

步骤S24、对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数。

步骤S25、对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数。

步骤S26、对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征。

步骤S27、利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

步骤S21-S27的详细过程可以参见步骤S11-S17的相关介绍,在此不再赘述。

步骤S28、从多个所述细胞系中抽样出第二设定个数的细胞系,作为测试细胞系,分别利用所述待训练癌症细胞系药物敏感预测模型对各个所述测试细胞系的每个代谢物特征进行多次预测,得到预测结果。

从多个所述细胞系中抽样出第二设定个数的细胞系的详细过程可以参见步骤S23中从多个所述细胞系中抽样出第一设定个数的细胞系的相关介绍,在此不再赘述。

步骤S29、对各个所述预测结果进行评估,得到评估结果。

对各个所述预测结果进行评估,得到评估结果,可以包括:比较预测结果与测试细胞系的代谢物特征标记的药物应答类别是否一致,得到比较结果,将比较结果作为评估结果。

步骤S210、基于多个所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求。

基于多个所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求,可以包括:

统计多个所述评估结果中,表征预测正确的评估结果的个数是否达到设定个数。

若达到设定个数,说明待训练癌症细胞系药物敏感预测模型满足设定要求。

其中,若评估结果为预测结果与测试细胞系的代谢物特征标记的药物应答类别一致,则表征待训练癌症细胞系药物敏感预测模型预测正确。

若满足,则执行步骤S211;若不满足,则返回执行步骤S21。

步骤S211、结束训练。

本实施例中,通过测试细胞系,对待训练癌症细胞系药物敏感预测模型进行评估,在不满足设定要求时,继续对待训练癌症细胞系药物敏感预测模型进行训练,提高训练的精度,保证训练结束的待训练癌症细胞系药物敏感预测模型预测的准确性。

作为本申请另一可选实施例,参照图3,为本申请提供的一种药物敏感预测模型的训练方法实施例3的流程示意图,本实施例主要是对上述实施例2描述的药物敏感预测模型的训练方法的扩展方案,如图3所示,该方法可以包括但并不局限于以下步骤:

步骤S31、获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50。

步骤S32、对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别。

步骤S33、对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程。

每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

步骤S34、对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数。

步骤S35、对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数。

步骤S36、对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征。

步骤S37、利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

步骤S38、从多个所述细胞系中抽样出第二设定个数的细胞系,作为测试细胞系,分别利用所述待训练癌症细胞系药物敏感预测模型对各个所述测试细胞系的每个代谢物特征进行多次预测,得到预测结果。

步骤S31-S38的详细过程可以参见实施例2中步骤S21-S28的相关介绍,在此不再赘述。

步骤S39、基于每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系中是否存在异常细胞系。

基于每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系中是否存在异常细胞系,可以理解为:

判断每个所述代谢物特征的多个所述预测结果中,是否存在设定个数的预测错误的预测结果;

若存在,则说明该细胞系为异常细胞系。

预测结果若与该代谢物特征标记的药物应答类别不一致,则说明预测错误。

若存在,则执行步骤S310;若不存在,则执行步骤S311。

步骤S310、剔除多个所述训练细胞系中的异常细胞系,将剔除所述异常细胞系后的细胞系作为训练细胞系,并返回执行所述对每个所述训练细胞系,执行多次重要特征筛选过程的步骤。

步骤S311、对各个所述预测结果进行评估,得到评估结果;

步骤S312、基于所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求。

若满足,则执行步骤S313;若不满足,则返回执行步骤S31。

步骤S313、结束训练。

本实施例中,基于每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系的代谢物特征中是否存在异常代谢物特征,若存在,则剔除多个所述训练细胞系中的异常代谢物特征,使训练数据更加准确,提高对待训练癌症细胞系药物敏感预测模型训练的精度。

在本申请的另一个实施例中,提供一种药物敏感预测方法,请参见图4,该方法包括:

步骤S41、获取待处理细胞系的代谢物特征。

步骤S42、调用癌症细胞系药物敏感预测模型,对所述待处理细胞系的代谢物特征进行处理,以获得药物应答类别。

所述癌症细胞系药物敏感预测模型为基于实施例1-3中任意一个实施例所介绍的药物敏感预测模型的训练方法训练得到的。

本实施例中,利用采用前述各个实施例所介绍的药物敏感预测模型的训练方法训练得到的模型进行预测,可以提高预测的准确性,提高预测结果的准确性。

接下来对本申请提供的药物敏感预测模型的训练装置进行介绍,下文介绍的药物敏感预测模型的训练装置与上文介绍的药物敏感预测模型的训练方法可相互对应参照。

请参见图5,药物敏感预测模型的训练装置包括:获取模块100、第一确定模块200、重要特征筛选模块300、统计模块400、第二确定模块500、第三确定模块600和训练模块700。

获取模块100,用于获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50;

第一确定模块200,用于对每个所述细胞系,基于所述药物反应参数IC50,确定药物应答类别;

重要特征筛选模块300,用于对构建的每个癌症细胞系药物敏感预测模型,从多个所述细胞系中抽样出第一设定个数的细胞系,作为训练细胞系,对每个所述训练细胞系,执行多次重要特征筛选过程;

每次所述重要特征筛选过程,包括:将所述训练细胞系的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集;

统计模块400,用于对每个所述训练细胞系的每个代谢物特征,统计所述代谢物特征在每个所述癌症细胞系药物敏感预测模型多次输出的重要特征集中出现的次数,作为被选中次数;

第二确定模块500,用于对每个所述训练细胞系的每个所述代谢物特征,将所述代谢物特征的多个所述被选中次数中的最大值作为目标次数;

第三确定模块600,用于对多个所述目标次数进行从大到小排序,得到目标排序结果,将所述目标排序结果中第一个至第m个目标次数对应的代谢物特征,作为待使用代谢物特征;

训练模块700,用于利用所述待使用代谢物特征,及所述待使用代谢物特征所属细胞系的药物应答类别对待训练癌症细胞系药物敏感预测模型进行训练。

本实施例中,所述重要特征筛选模块300,具体可以用于:利用归一化关系式(x-min_x)/(max_x-min_x),将所述训练细胞系的每个代谢物特征进行归一化,得到归一化后的代谢物特征;

所述x表示所述代谢物特征在所述细胞系中的含量,min_x为所述代谢物特征在多个所述细胞系中的含量的最小值,max_x为所述代谢物特征在多个所述细胞系中的含量的最大值;

将所述训练细胞系的归一化后的代谢物特征输入到所述癌症细胞系药物敏感预测模型,得到所述癌症细胞系药物敏感预测模型输出的重要特征集。

本实施例中,药物敏感预测模型的训练装置还可以包括:

测试模块,用于对各个所述预测结果进行评估,得到评估结果;

基于多个所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

本实施例中,所述测试模块,还可以用于:

在对各个所述预测结果进行评估,得到评估结果之前,基于每个所述测试细胞系中每个所述代谢物特征的多个所述预测结果,判断多个所述训练细胞系中是否存在异常细胞系;

若存在,则剔除多个所述训练细胞系中的异常细胞系,将剔除所述异常细胞系后的细胞系作为训练细胞系,并返回执行所述对每个所述训练细胞系,执行多次重要特征筛选过程的步骤;

若不存在,则对各个所述预测结果进行评估,得到评估结果;

基于所述评估结果,判断所述待训练癌症细胞系药物敏感预测模型是否满足设定要求;

若满足,结束训练;

若不满足,则返回执行所述获取多个细胞系中每个所述细胞系的代谢物特征及每个所述细胞系的药物反应参数IC50的步骤。

本实施例中,所述第一确定模块200,具体可以用于:

将多个所述细胞系中所述药物反应参数IC50相同的细胞系划分为一组,得到细胞系组,并统计每个所述细胞系组中细胞系的个数;

在多个所述细胞系组的药物反应参数IC50中查找目标药物反应参数IC50,其中,小于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和,与大于所述目标药物反应参数IC50的药物反应参数IC50所属细胞系组中细胞系的个数之和的差值在设定阈值范围内;

将所述目标药物反应参数IC50作为预设药物反应参数IC50阈值;

判断所述药物反应参数IC50是否大于预设药物反应参数IC50阈值;

若是,则确定药物应答类别为不敏感;

若否,则确定药物应答类别为敏感。

在本申请的另一个实施例中,提供一种药物敏感预测装置,请参见图6,药物敏感预测装置包括:获取模块800和调用模块900。

获取模块,用于获取待处理细胞系的代谢物特征;

调用模块,用于调用癌症细胞系药物敏感预测模型,对所述待处理细胞系的代谢物特征进行处理,以获得药物应答类别;

所述癌症细胞系药物敏感预测模型为基于实施例1-3任意一个实施例所介绍的药物敏感预测模型的训练方法训练得到的。

需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种药物敏感预测模型的训练方法、预测方法及相关装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 药物敏感预测模型的训练方法、预测方法及相关装置
  • 一种销量预测模型的训练方法、销量预测方法及相关装置
技术分类

06120112551865