掌桥专利:专业的专利平台
掌桥专利
首页

一种基于PUS家族基因的肝细胞癌预后评分系统及其应用

文献发布时间:2023-06-19 16:06:26



技术领域

本发明属于肿瘤学技术领域,具体涉及一种基于PUS家族基因的肝细胞癌预后评分系统及其应用。

背景技术

肝癌是全球发病率第六位的恶性肿瘤,同时也是全球排名第四位的癌症致死病因。原发性肝癌的85%-95%是肝细胞癌(Hepatocellular carcinoma,HCC),由于起病隐匿加之早期诊断措施不够完善,80%的HCC患者确诊时已经处于中晚期,因而丧失了手术机会。HCC中晚期患者的死亡率高达80%,中位生存期不足1年,5年生存率不足20%。手术技术、放化疗技术、靶向治疗药物及免疫治疗技术近年来取得了进展,这些进展给中晚期HCC患者带来了新希望,但不可否认的是目前中晚期HCC的疗效仍然是让人失望的。

预后评估是HCC患者治疗的关键步骤。医学界提出了好几种分期系统,包括巴塞罗那临床肝癌(BCLC)系统、TNM分期系统、日本综合分期系统等。这些分期系统在临床使用上都有其局限性。为了更准确的预测肝癌患者预后(生存),除了考虑患者的肝功能、肿瘤分期和身体状况,还必须同时考虑患者的分子生物学特征,基于分子生物学特征的新型预后评估系统将有助于HCC患者的个体化治疗和精准医疗。

假尿嘧啶是对rRNA、snRNA和tRNA上的重要RNA修饰,对于RNA的加工、翻译以及剪切具有重要的调控功能。假尿嘧啶修饰在恶性肿瘤的发生发展中扮演重要角色。假尿嘧啶化修饰的过程是由假尿嘧啶合成酶 (pseudouridine synthases,PUS)进行催化,让尿嘧啶核苷酸(U)的化学结构发生改变,形成假尿嘧啶核苷。因此PUS家族的相关基因在恶性肿瘤的诊断、监测和疗效评估应用中具有指导意义。

目前尚不清楚肝癌中PUS相关基因的变化特征及临床意义,也尚无相关基于PUS家族基因的技术和试剂盒等产品对肝癌患者进行诊断和预后评估。因此,创建一种基于PUS家族基因的肝细胞癌预后评分系统,具有重要的临床上应用价值。

发明内容

针对现有技术存在的不足,本发明的目的在于提供一种基于PUS家族基因的肝细胞癌预后评分系统及其应用。发明人基于多个肝癌患者的数据队列及其 mRNA表达数据,利用大数据挖掘筛选出5个HCC相关的PUS家族基因,利用这5个PUS家族基因,在人工智能算法(随机森林算法)的基础上,创建了一种命名为“PUS-score”的积分系统,所述积分系统能够有效用于HCC患者预后的评估,在临床上具有一定的特异性和敏感性,具有重要的应用价值。

为达到此发明目的,本发明采用以下技术方案:

第一方面,本发明提供一种基于PUS家族基因的肝细胞癌预后评分系统,所述基于PUS家族基因的肝细胞癌预后评分系统的输入变量包括所述PUS家族基因在数据集中的表达状态系数(Expression)、基尼系数(Importance)和整合风险系数(Integrated HR);

所述表达状态系数根据PUS家族基因的mRNA表达水平与平均测值的大小关系确定。

本发明中,基于COX生存分析和随机森林模型的结果,利用关键的5个 HCC相关性PUS家族基因的mRNA表达值构建了肝细胞癌预后评分系统PUS- score,PUS-score将5个HCC相关性PUS家族基因的重要性与HCC患者的预后及临床特征相联系,在不同HCC数据集中,PUS-score不同的患者存在显著的总体生存率差异,PUS-score越高其总体生存率越低,所述肝细胞癌预后评分系统PUS-score能够有效用于HCC患者预后的评估,在临床上具有一定的特异性和敏感性。

优选地,所述PUS家族基因包括PUS1、PUS3、PUS7、PUS7L和 RPUSD2。

优选地,所述数据集包括肝细胞癌队列基因表达综合数据库、肝细胞癌基因组图谱、国际癌症基因组联盟日本肝癌数据和CNHPP。

优选地,所述肝细胞癌队列基因表达综合数据库包括GSE14520、 GSE22058、GSE25097、GSE36376、GSE45436、GSE54236、GSE63898、 GSE64041、GSE76427、GSE102079、GSE104310、GSE107170、GSE11819、 GSE14323、GSE15654、GSE17548、GSE17856、GSE19665、GSE22405、 GSE29721、GSE31370、GSE33006、GSE33294、GSE36411、GSE38226、 GSE39791、GSE41160、GSE41804、GSE45050、GSE45267、GSE46408、 GSE51401、GSE54238、GSE55048、GSE56545、GSE57555、GSE57957、 GSE62232、GSE63863、GSE65484、GSE65485、GSE67764、GSE69164、 GSE7473、GSE77314、GSE84402、GSE84598、GSE87630、GSE89377、 GSE94660、GSE95698或GSE98383中任意一种或至少两种的组合。

在本发明中从Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/) 数据库获取52个HCC队列的mRNA的数据(肝细胞癌队列基因表达综合数据库);从theCancer Genome Atlas Liver Hepatocellular Carcinoma(TCGA-LIHC) data collection(https://www.cancer.gov/about-nci/organization/ccg/research /structural-genomics/tcga)、International Cancer Genome Consortium (https://dcc.icgc.org/)和CNHPP Data Portal(cnhpp.ncpsb.org.cn)获取TCGA-LIHC (肝细胞癌基因组图谱)、ICGC-LIRI-JP(国际癌症基因组联盟日本肝癌数据)和CNHPP的HCC队列的RNA表达数据。

优选地,所述数据集包括GSE14520、肝细胞癌基因组图谱和国际癌症基因组联盟日本肝癌数据。

优选地,所述PUS家族基因在数据集中的表达状态系数为0或1,所述 PUS家族基因的mRNA表达水平大于平均测值,所述表达状态系数记为1;否则记为0。

优选地,所述基尼系数代表所述PUS家族基因作为用于评估肝细胞癌患者预后的重要系数,所述基尼系数由随机森林算法确定;所述PUS1的基尼系数为9.12,所述PUS3的基尼系数为8.63,所述PUS7的基尼系数为7.56,所述 PUS7L的基尼系数为7.26,所述RPUSD2的基系数为6.58。

本发明中,利用随机森林算法对5个HCC相关的PUS家族基因用于评估 HCC患者预后的重要性进行分析。使用R统计软件(version3.6.1)和 randomForest程序包构建随机森林模型,使用肝细胞癌基因组图谱(TCGA- LIHC)数据集作为训练集,GSE14520队列为验证集。最终得到了5个PUS家族基因的评估HCC患者预后的重要系数(基尼系数)。

优选地,所述整合风险系数根据所述PUS家族基因在数据集中的基于单变量COX比例模型的风险系数进行整合确定。

优选地,所述PUS家族基因分为危险因素和保护性因素,所述PUS家族基因中PUS1、PUS7、PUS7L和RPUSD2为危险因素,所述PUS家族基因中 PUS3为保护性因素;所述PUS家族基因中危险因素的整合风险系数为1,所述PUS家族基因中保护性因素的整合风险系数为-1;所述数据集包括GSE14520、肝细胞癌基因组图谱和国际癌症基因组联盟日本肝癌数据。

本发明中,在GSE14520、肝细胞癌基因组图谱和国际癌症基因组联盟日本肝癌数据三个数据集中,分别基于5个PUS家族基因构建COX比例模型,共得到3个模型。对每个数据集中每个基因在3个模型中的风险系数进行整合,得到所述基因的Integrated HR,Integrated HR最终取两个值,1或-1,分别表示所述基因为危险因素或保护性因素。

各基因的Importance和Integrated HR参数如下所示:

优选地,所述基于PUS家族基因的肝细胞癌预后评分系统的输出变量为所述PUS家族基因的表达状态系数、基尼系数和整合风险系数的乘积之和。

优选地,所述基于PUS家族基因的肝细胞癌预后评分系统的输出变量为 PUS-score,所述PUS-score的计算公式为:

PUS-score=Expression(PUS1)×Importance(PUS1)×Integrated HR(PUS1)+Expression(PUS3)×Importance(PUS3)×Integrated HR(PUS3)+Expression(PUS7)×Importance(PUS7)×Integrated HR(PUS7)+Expression(PUS7L)×Importance(PUS7L) ×Integrated HR(PUS7L)+Expression(RPUSD2)×Importance(RPUSD2)×Integrated HR(RPUSD2);

其中,Expression代表所述基因的表达状态系数,取值为1或0;

Importance代表所述基因的基尼系数;

Integrated HR代表所述基因的整合风险系数,取值为1或-1。

第二方面,本发明提供一种肝细胞癌相关性PUS家族基因标志物组合,所述肝细胞癌相关性PUS家族基因标志物组合包括PUS1、PUS3、PUS7、 PUS7L和RPUSD2。

第三方面,本发明提供一种第二方面所述的肝细胞癌相关性PUS家族基因标志物组合的筛选方法,所述筛选方法包括:

(1)收集肝细胞癌和正常对照组织的mRNA的数据,进行标准化处理;

(2)分析肝细胞癌和正常对照组织的中PUS家族基因的表达差异,将表达倍数的绝对值>1.2倍且P值<0.05定义为存在差异表达;

(3)筛选出表达差异一致的PUS家族基因,得到肝细胞癌相关性PUS家族基因标志物组合。

第四方面,本发明提供一种肝细胞癌预后评估试剂盒,所述肝细胞癌预后评估试剂盒中包含检测第二方面所述的肝细胞癌相关性PUS家族基因标志物组合中各基因的mRNA水平或蛋白水平的试剂。

第五方面,本发明提供第一方面所述的基于PUS家族基因的肝细胞癌预后评分系统在制备肝细胞癌预后监测产品中的应用。

优选地,所述肝细胞癌预后监测产品包括肝细胞癌预后监测试剂盒和/或肝细胞癌预后监测医疗器械。

相对于现有技术,本发明具有以下有益效果:

(1)所述基于PUS家族基因的肝细胞癌预后评分系统能够有效用于HCC 患者预后的评估,在临床上具有一定的特异性和敏感性。本发明中所述的PUS- score与临床现有TNM分期结合构建的COX比例风险模型可有效预测HCC患者1、3和5年的总体生存概率。

(2)本发明筛选的HCC相关性PUS家族基因可作为新的肝细胞癌诊疗靶点,用于HCC预后的预测和评估。

附图说明

图1A是实施例1中PUS1基因在55个HCC队列中的表达特点,*表示所述基因在癌组织中的水平与正常对照组织相比,差异具有统计学显著性。

图1B是实施例1中PUS3基因在55个HCC队列中的表达特点,*表示所述基因在癌组织中的水平与正常对照组织相比,差异具有统计学显著性。

图1C是实施例1中PUS7基因在55个HCC队列中的表达特点,*表示所述基因在癌组织中的水平与正常对照组织相比,差异具有统计学显著性。

图1D是实施例1中PUS7L基因在55个HCC队列中的表达特点,*表示所述基因在癌组织中的水平与正常对照组织相比,差异具有统计学显著性。

图1E是实施例1中RPUSD2基因在55个HCC队列中的表达特点,*表示所述基因在癌组织中的水平与正常对照组织相比,差异具有统计学显著性。

图2A是测试例1中在TCGA-LIHC队列中总体生存率分析结果图。

图2B是测试例1中在GSE14520队列中总体生存率分析结果图。

图2C是测试例1中在ICGC-LIRI-JP队列中总体生存率分析结果图。

图3A是测试例2中在TCGA-LIHC队列中PUS-score用于预测HCC患者总体生存的ROC曲线。

图3B是测试例2中在GSE14520队列中PUS-score用于预测HCC患者总体生存的ROC曲线。

图3C是测试例2中在ICGC-LIRI-J队列中PUS-score用于预测HCC患者总体生存的ROC曲线。

图4是测试例3中基于PUS家族基因的肝细胞癌预后评分系统与临床现有的TNM分期结合构建的COX比例风险模型的列线图。

图5A、图5B和图5C为PUS-score联合TNM分期预测HCC患者1、3和 5年总体生存的校正曲线。

图6A、图6B和图6C为PUS-score联合TNM分期预测HCC患者1、3和和5年总体生存的临床决策曲线。

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案。本领域技术人员应该明了,所述实施例仅仅是帮助理解本发明,不应视为对本发明的具体限制。

实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。

实施例1

本实施例从Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/)数据库获取52个HCC队列的mRNA的数据(肝细胞癌队列基因表达综合数据库),上述HCC队列在肝细胞癌队列基因表达综合数据库中的访问编号为: GSE14520、GSE22058、GSE25097、GSE36376、GSE45436、GSE54236、 GSE63898、GSE64041、GSE76427、GSE102079、GSE104310、GSE107170、 GSE11819、GSE14323、GSE15654、GSE17548、GSE17856、GSE19665、 GSE22405、GSE29721、GSE31370、GSE33006、GSE33294、GSE36411、GSE38226、GSE39791、GSE41160、GSE41804、GSE45050、GSE45267、 GSE46408、GSE51401、GSE54238、GSE55048、GSE56545、GSE57555、 GSE57957、GSE62232、GSE63863、GSE65484、GSE65485、GSE67764、 GSE69164、GSE7473、GSE77314、GSE84402、GSE84598、GSE87630、 GSE89377、GSE94660、GSE95698和GSE98383。

还从the Cancer Genome Atlas Liver Hepatocellular Carcinoma(TCGA-LIHC)data collection(https://www.cancer.gov/about-nci/organization/ccg/research /structural-genomics/tcga)、International Cancer Genome Consortium (https://dcc.icgc.org/)和CNHPP Data Portal(cnhpp.ncpsb.org.cn)获取TCGA-LIHC (肝细胞癌基因组图谱)、ICGC-LIRI-JP(国际癌症基因组联盟日本肝癌数据) 和CNHPP的HCC队列的RNA表达数据。

将所有数据集的基因识别ID都转换成最新的HUGO基因符号,对mRNA 的表达数据进行log2转化标准化。共纳入55个HCC队列,包括正常对照组织 2644例、癌组织3308例。

在55个队列中分别分析正常对照组织和癌组织中所有PUS家族基因的表达差异,将表达倍数的绝对值>1.2倍且P值<0.05定义为存在差异表达。如某个PUS家族基因在45个以上的HCC队列中均为差异表达基因且表达趋势一致,则将所述基因定义为HCC相关性PUS家族基因。

按此标准共鉴定到5个PUS家族基因,分别为PUS1、PUS3、PUS7、 PUS7L和RPUSD2。PUS1、PUS3、PUS7、PUS7L和RPUSD2在HCC队列中的表达特点分别如图1A、图1B、图1C、图1D和图1E所示。PUS1、PUS3、 PUS7、PUS7L和RPUSD2在癌组织中的水平与正常对照组织中存在差异表达,这5个PUS家族基因在HCC队列中的表达趋势一致,且差异具有统计学显著性。上述实验结果证明,所述5个PUS家族基因的表达与肝细胞癌密切相关。

实施例2

本实施例构建了基于PUS家族基因的肝细胞癌预后评分系统,所述基于 PUS家族基因的肝细胞癌预后评分系统的输出变量为PUS-score,所述PUS- score的计算公式如下所示:

PUS-score=Expression(PUS1)×Importance(PUS1)×Integrated HR(PUS1)+Expression(PUS3)×Importance(PUS3)×Integrated HR(PUS3)+Expression(PUS7)×Importance(PUS7)×Integrated HR(PUS7)+Expression(PUS7L)×Importance(PUS7L) ×Integrated HR(PUS7L)+Expression(RPUSD2)×Importance(RPUSD2)×Integrated HR(RPUSD2);

其中,Expression代表所述基因的表达状态系数,取值为1或0;

Importance代表所述基因的基尼系数;

Integrated HR代表所述基因的整合风险系数,取值为1或-1。

所述Importance由随机森林算法确定,即利用随机森林算法,对5个HCC相关性PUS家族基因用于评估HCC患者预后的重要性进行分析。使用R 统计软件(version3.6.1)和randomForest程序包构建随机森林模型,使用 TCGA-LIHC数据集作为训练集,GSE14520队列为验证集。最终得到了5个 PUS家族基因评估HCC患者预后的重要系数(基尼系数)。

Integrated HR(整合风险系数)的确定:在TCGA-LIHC、GSE14520和 ICGC-LIRI-JP三个数据集中分别基于5个PUS家族基因构建COX比例模型,共得到3个模型;对每个数据集中每个基因在3个模型中的风险系数进行整合,所述PUS家族基因中PUS1、PUS7、PUS7L和RPUSD2为危险因素,所述 PUS家族基因中PUS3为保护性因素。所述PUS家族基因中危险因素的整合风险系数为1,所述PUS家族基因中保护性因素的整合风险系数为-1。

各基因的Importance和Integrated HR参数如表1所示:

表1

测试例1

所述基于PUS家族基因的肝细胞癌预后评分系统的应用。

对367例来自TCGA-LIHC的HCC患者进行PUS-score的计算并分析。将所有患者PUS-score的中位值作为截断值(cut-off值),将367例HCC患者的PUS-score分为高PUS-score组和低PUS-score组。TCGA-LIHC(n=367),其总体生存率分析结果如图2A所示,利用Kaplan-Meier生存分析发现,在 TCGA-LIHC数据集中高PUS-score组的患者总体生存情况较差。

对来自GSE14520队列的242名HCC患者和来自ICGC-LIRI-JP队列的 212名HCC患者进行PUS-score的计算,将所有患者PUS-score的中位值作为截断值(cut-off值),将PUS-score分为高PUS-score组和低PUS-score组。 GSE14520(n=242),其总体生存率分析结果如图2B所示,ICGC-LIRI-JP(n =212),其总体生存率分析结果如图2C所示,利用Kaplan-Meier生存分析发现,在GSE14520、ICGC-LIRI-JP两个数据集中高PUS-score组的患者总体生存情况均较差。

测试例2

所述基于PUS家族基因的肝细胞癌预后评分系统的临床效能检验。

使用受试工作者曲线(ROC曲线)对PUS-score预测患者预后的临床效能进行检验,结果如图3A、图3B和图3C所示,3A为在TCGA-LIHC队列中 PUS-score用于预测HCC患者总体生存的ROC曲线,1年总体生存AUC为 75.19,3年总体生存AUC为71.65,5年总体生存AUC为70.84;图3B为在 GSE14520队列中PUS-score用于预测HCC患者总体生存的ROC曲线,1年总体生存AUC为70.13,3年总体生存AUC为72.32,5年总体生存AUC为 70.04;图3C为在ICGC-LIRI-J队列中PUS-score用于预测HCC患者总体生存的ROC曲线,1年总体生存AUC为70.06,3年总体生存AUC为72.13。

分析发现在TCGA-LIHC(图3A)、GSE14520(图3B)和ICGC-LIRI-JP 队列(图3C)中PUS-score作为指标预测患者1、3和5年的总体生存具有临床上可接受的敏感性和特异性(曲线下面积AUC大于70)。

测试例3

所述基于PUS家族基因的肝细胞癌预后评分系统与临床现有TNM分期结合构建COX比例风险模型。

基于PUS家族基因的肝细胞癌预后评分系统与临床现有的TNM分期结合构建的COX比例风险模型的列线图如图4所示。两者结合使用的方法如下所示,例如某一HCC患者TNM分期为晚期(Ⅲ-Ⅳ期)对应列线图积分为30, PUS-score为15分,对应列线图积分为28分,则列线图总分为58分,在列线图总分轴58分处作垂直线与下方生存概率轴相交,可知该患者1年总体生存概率在50%左右,3年总体生存概率在20%左右,5年总体生存概率不足10%。

使用数据集GSE14520对PUS-score联合TNM分期预测HCC患者预后的准确性和临床效能进行评估。图5A、图5B和图5C为PUS-score联合TNM分期预测HCC患者1、3和5年总体生存的校正曲线,可见预测的总体生存和患者实际总体生存相似。图6A、图6B和图6C为PUS-score联合TNM分期预测 HCC患者1、3和和5年总体生存的临床决策曲线,可见使用PUS-score联合 TNM分期预测HCC患者预后具有使患者受益的潜力。图5A、图5B和图5C 以及图6A、图6B和图6C提示PUS-score联合TNM分期预测HCC患者预后具有准确性。

使用所述基于PUS家族基因的肝细胞癌预后评分系统与临床现有TNM分期结合构建的COX比例风险模型可有效预测HCC患者1、3和5年的总体生存概率。

综上,本发明所述基于PUS家族基因的肝细胞癌预后评分系统能够有效用于HCC患者预后的评估,在临床上具有一定的特异性和敏感性。本发明中所述的PUS-score与临床现有TNM分期结合构建的COX比例风险模型可有效预测HCC患者1、3和5年的总体生存概率。

申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。

技术分类

06120114706006