掌桥专利:专业的专利平台
掌桥专利
首页

乙肝诊断模型及其构建方法和乙肝诊断芯片

文献发布时间:2023-06-19 19:28:50



技术领域

本发明涉及人工智能应用技术领域,具体而言,涉及一种乙肝诊断模型及其构建方法、装置和乙肝诊断装置。

背景技术

肝癌是一种常见癌症,肝炎与肝癌关系极为密切,临床上肝癌患者常常出现急性肝炎-慢性肝炎-肝硬化-肝癌的进展病史。慢性乙型肝炎是肝硬化、肝癌发生的重要基础,小部分的乙肝患者会发生肝硬化甚至肝癌。慢性乙型肝炎还可不经过肝硬变阶段直接导致肝癌的发生。

由于已经确诊的乙肝患者肝脏代偿功能较强,病情发展的早期通常十分缓慢且症状不很明显,病情不易被患者察觉。在肝脏功能损害症状出现时往往已经耽误治疗和控制的最佳时期。对于已诊断的慢性肝炎患者,需要定期进行多项复杂的检测项目。

目前对于肝炎、肝硬化、肝癌的诊断指标绝大多数都是基于临床特征及实验室生化病理结合的方式进行。患者需要配合进行大量的相关检查,包括血液生化、影像学、肝组织活检等。即便是初期的慢性肝炎患者也需要定期或不定期的检测肝功能指标、血常规、乙肝病毒基因定量检测、甲胎蛋白检测等,并且需要医生和患者综合多种检测指标对疾病进程的定期监控。

肿瘤细胞内蛋白质的结构改变等可产生肿瘤相关性抗原(TAA),TAA可刺激免疫系统产生肿瘤相关自身免疫性抗体(AAB)。AAB可反映肿瘤的发生进展和机体免疫状况,AAB半衰期长、出现时间早在临床诊断前数月甚至数年出现在血清中,靶向TAA的AAB会随着肿瘤细胞生物学行为的改变而发生相应变化,具有检测肿瘤进展和预测预后的潜在价值。

血清乙肝表面抗原(HBsAg)、HBV DNA定量分析、乙肝e抗原(HBeAg)等免疫指标是用来诊断慢性乙肝患者的主要标准。利用自身免疫学抗体诊断肝癌通常使用酶联免疫吸附测定(ELISA),该方法可用于单一的AAB检测,单个肝癌AAB的阳性率一般较低(10%~30%)如抗P53的AAB,在AFP阳性的HCC患者阳性率83.3%,但其属于泛癌种AAB,缺乏肝癌的特异性。通过高通量蛋白质检测技术可以利用多种TAA筛选多个AAB进行组合提高肝癌检出率,建立AAB组合的诊断模型还可预测肝癌的发生。

AAB组合在HCC诊断比单个AAB灵敏度高,若以所有AAB均为阳性作为阳性检测结果的判断标准,存在灵敏度低的问题。不同的AAB组合中AAB组成差异较大,诊断性能也存在差异。有些TAA在良性疾病中已经存在。肝炎或肝硬化等前驱疾病对照,使非研究因素带来的偏倚增加,导致同一AAB在不同研究者差异较大。

目前没有单一检测方法准确追踪乙肝患者的疾病发展状况,因此,如何提供一种简单、快速的方法追踪不同时期乙肝患者是乙肝诊断的难点。

发明内容

为了解决上述问题,实现对不同时期乙肝患者的追踪诊断,本发明的第一目的在于提供一种乙肝诊断模型的构建方法,该构建方法包括:

获取不同类型乙肝患者样本的多肽芯片数据和目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ ID NO.25所示序列的肽段中的至少五条;

根据多个不同类型乙肝患者样本的多肽芯片数据、目标临床指标数据以及样本信息通过机器学习方法建立乙肝诊断模型。

本发明的一种实现方式中,样本的类型包括慢性肝炎、肝硬化以及肝癌三种类型中的至少两种。

本发明的一种实现方式中,样本为血液样本。

本发明的一种实现方式中,目标临床指标数据包括性别指标、年龄指标、感染周期指标、肝功能指标、HBV指标、肝纤维化指标、AFP指标、AFP异质体指标、自身免疫疾病指标以及糖尿病指标中的至少一种指标的数值化数据。

本发明的一种实现方式中,肝功能指标包括ALB、A/G、AST、ALT、GGT、ALP、PALB、CHE、TBIL、DBIL、IDBIL、TBA、MYO、UA中至少一种检测指标;

HBV指标包括HBsAg、Anti-HBs、HBeAg、Anti-HBe、HBcAb-IgM、Anti-HBII、HBV-DNA中的至少一种检测指标;

肝纤维化指标包括TP检测指标。

本发明的一种实现方式中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.5所示的5条肽段;或

目标差异肽段选自SEQ ID NO.1~SEQ ID NO.10所示的10条肽段;或

目标差异肽段选自SEQ ID NO.1~SEQ ID NO.15所示的15条肽段;或

目标差异肽段选自SEQ ID NO.1~SEQ ID NO.20所示的20条肽段;或

目标差异肽段选自SEQ ID NO.1~SEQ ID NO.25所示的25条肽段。

本发明的一种实现方式中,机器学习方法采用了如下任意一种算法:逻辑回归、线性判别分析、支持向量机、随机森林;

优选地,机器学习方法采用了随机森林算法。

本发明的第二目的在于提供一种用于制备乙肝诊断芯片的多肽的筛选方法,具体包括:

获取不同类型乙肝患者样本的多肽芯片数据,根据不同类型乙肝患者样本的多肽芯片数据确定包括不同类型乙肝患者之间差异肽段的多肽集合;

根据不同类型乙肝患者样本结合差异肽段的多肽芯片数据、目标临床指标数据以及样本信息建立第一机器学习模型;

根据第一机器学习模型的AUC值确定多肽集合中用于构建乙肝诊断模型的目标差异肽段。

本发明的一种实现方式中,获取不同类型乙肝患者样本的多肽芯片数据,根据不同类型乙肝患者样本的多肽芯片数据确定包括不同类型乙肝患者之间差异肽段的多肽集合具体包括:

获取不同类型乙肝患者样本的多肽芯片数据,对不同类型乙肝患者样本的多肽芯片数据进行差异分析;根据差异分析结果按照预设阈值筛选包括不同类型乙肝患者之间差异肽段的多肽集合。

本发明的一种实现方式中,获取不同类型乙肝患者样本的多肽芯片数据之前还包括:

获取不同类型乙肝患者样本的多肽芯片检测数据,对多肽芯片检测数据进行网格化处理以提取各乙肝患者样本的多肽芯片信号强度数据;

根据各乙肝患者样本的多肽芯片信号强度数据生成各乙肝患者样本的多肽芯片数据。

本发明的一种实现方式中,对多肽芯片检测数据进行网格化处理以提取各乙肝患者样本的多肽芯片信号强度数据之后还包括:

对各乙肝患者样本的多肽芯片信号强度数据进行样本质控和系统稳定性质控;

对多肽芯片信号强度数据不满足质控标准的样本或芯片重新进行检测。

本发明的一种实现方式中,样本质控包括样本信号过饱和质控、样本信号分布质控、样本网格化定位质控、样本离群值质控以及样本CV值质控中的至少一种;和/或

系统稳定性质控包括标准品相关性质控和标准品CV值质控中的至少一种。

本发明的一种实现方式中,根据各乙肝患者样本的多肽芯片信号强度数据生成各乙肝患者样本的多肽芯片数据具体包括:

根据各乙肝患者样本的多肽芯片信号强度数据进行矩阵化处理得到各乙肝患者样本的多肽芯片原始数据,对各乙肝患者样本的多肽芯片原始数据进行标准化处理得到各乙肝患者样本的多肽芯片数据。

本发明的一种实现方式中,对各乙肝患者样本的多肽芯片原始数据进行标准化处理得到各乙肝患者样本的多肽芯片数据具体包括:

将各乙肝患者样本的多肽芯片原始数据加上预设常数后进行对数转换得到各乙肝患者样本的多肽芯片转换数据;

将各乙肝患者样本的每个阵列的多肽芯片转换数据减去相应阵列多肽芯片转换数据的中位数得到各乙肝患者样本的多肽芯片数据。

本发明的一种实现方式中,目标临床指标数据包括性别指标、年龄指标、感染周期指标、肝功能指标、HBV指标、肝纤维化指标、AFP指标、AFP异质体指标、自身免疫疾病指标以及糖尿病指标中的至少一种指标的数值化数据。

本发明的一种实现方式中,肝功能指标包括ALB、A/G、AST、ALT、GGT、ALP、PALB、CHE、TBIL、DBIL、IDBIL、TBA、MYO、UA中至少一种检测指标;

HBV指标包括HBsAg、Anti-HBs、HBeAg、Anti-HBe、HBcAb-IgM、Anti-HBII、HBV-DNA中的至少一种检测指标;

肝纤维化指标包括TP检测指标。

本发明的第三目的在于提供一致乙肝诊断模型的构建方法,具体包括:

获取不同类型乙肝患者样本的目标临床指标数据,目标临床指标数据包括性别指标、年龄指标、感染周期指标、肝功能指标、HBV指标、肝纤维化指标、AFP指标、AFP异质体指标、自身免疫疾病指标以及糖尿病指标中的至少一种指标的数值化数据;根据多个不同类型乙肝患者样本的目标临床指标数据和样本信息通过机器学习方法建立乙肝诊断模型,样本信息包括样本的类型,样本的类型包括慢性肝炎、肝硬化以及肝癌三种类型中的至少两种。

本发明的一种实施方式中,肝功能指标包括ALB、A/G、AST、ALT、GGT、ALP、PALB、CHE、TBIL、DBIL、IDBIL、TBA、MYO、UA中至少一种检测指标;HBV指标包括HBsAg、Anti-HBs、HBeAg、Anti-HBe、HBcAb-IgM、Anti-HBII、HBV-DNA中的至少一种检测指标;肝纤维化指标包括TP检测指标。

本发明的一种实施方式中,机器学习方法采用了如下任意一种算法:逻辑回归、线性判别分析、支持向量机、随机森林。

本发明的一种实施方式中,机器学习方法采用了随机森林算法。

本发明的第四目的在于提供上述的构建方法构建的乙肝诊断模型。

本发明的第五目的在于提供一种乙肝诊断芯片,芯片上固定的肽段选自如SEQ IDNO.1~SEQ ID NO.25所示序列的肽段中的至少五条。

本发明的第六目的在于提供一种乙肝诊断装置,包括:

数据获取模块:用于获取待测乙肝患者样本的多肽芯片数据和/或目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ ID NO.25所示序列的肽段中的至少五条;

乙肝分期诊断模块:用于将待测乙肝患者样本目标差异肽段的特征信号数据和目标临床指标数据输入上述乙肝诊断模型,或用于将待测乙肝患者样本的目标临床指标数据输入上述乙肝诊断模型,根据乙肝诊断模型的输出确定待测乙肝患者样本的类型。

本发明的一种实现方式中,待测乙肝患者样本的类型包括慢性肝炎、肝硬化、肝癌三种样本类型中的任意一种。

本发明的第四目的在于提供一种乙肝诊断方法,该诊断方法包括:

获取待测乙肝患者样本的多肽芯片数据和/或目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ ID NO.25所示序列的肽段中的至少五条;

将待测乙肝患者样本目标差异肽段的特征信号数据和目标临床指标数据输入上述乙肝诊断模型,或将将待测乙肝患者样本目标临床指标数据输入上述乙肝诊断模型,根据乙肝诊断模型的输出确定待测乙肝患者样本的类型。

本发明还涉及一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现上述乙肝诊断方法的步骤。

本发明还涉及一种计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述乙肝诊断方法的步骤。

本发明还涉及一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求上述乙肝诊断方法的步骤。

本发明提供了一种乙肝诊断模型的构建方法,基于目标临床指标构建乙肝诊断模型,能够提高乙肝分期诊断诊断效率以及诊断的准确性。本发明提供另一种的乙肝诊断模型的构建方法,通过不同类型的乙肝患者之间的目标差异肽段结合临床指标构建乙肝诊断模型,能够进一步提高模型的诊断效率以及模型诊断的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种乙肝诊断模型构建方法的流程图;

图2为本发明提供的一种乙肝诊断装置的结构框图;

图3为本发明实施例提供的计算机设备的内部结构图;

图4为本发明实施例1中三组乙肝患者样本的差异肽段的特征信号热图,其中,图中横纵坐标均表示不同的分组情况;

图5为本发明实施例1中由25个目标差异多肽特征和29个目标临床指标特征构建的乙肝诊断模型混淆矩阵示意图,其中,图中的横坐标表示不同样本类型的预测数量,纵坐标表示不同样本类型的真实数量;

图6为本发明实施例1中由25个目标差异多肽特征和29个目标临床指标特征构建的乙肝诊断模型的ROC曲线图,其中,图中横坐标表示假正率,纵坐标表示真负率;

图7基于29个临床数据的分类模型混淆矩阵示意图,其中,图中的横坐标表示不同样本类型的预测数量,纵坐标表示不同样本类型的真实数量;

图8基于29个临床数据的分类模型ROC曲线图,其中,图中横坐标表示假正率,纵坐标表示真负率,class1表示CHB,class2表示HBC,class3表示HCC;

图9为本发明实施例1中三组乙肝患者样本的目标差异肽段的特征信号热图,其中,图中横纵坐标均表示不同的分组情况;

图10为本发明实施例1中乙肝诊断模型的目标差异肽段的特征重要性排序示意图,其中,图中横坐标表示不同序列的目标差异肽段,纵坐标表示重要性程度。

具体实施方式

现将详细地提供本发明实施方式的参考,其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上,对本领域技术人员而言,显而易见的是,可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如,作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中,来产生更进一步的实施方式。

因此,旨在本发明覆盖落入所附权利要求的范围及其等同范围中的此类修改和变化。本发明的其它对象、特征和方面公开于以下详细描述中或从中是显而易见的。本领域普通技术人员应理解本讨论仅是示例性实施方式的描述,而非意在限制本发明更广阔的方面。

多肽芯片:是一种基于衬底材料的芯片,芯片上包括预先设计数量、位置和序列的特征,一个特征是一簇序列相同的多肽,特征与特征之间的多肽序列往往是不一样的,这些特征组成一个高密度多肽阵列。

多肽芯片技术:是基于多肽芯片的检测技术,其利用多肽芯片上的种类繁多的多肽与样本的接触,然后利用图像采集技术采集多肽芯片上各个特征信号(具体可表现为携带各个特征信号的荧光图像),进而输出芯片中每个特征的信号强度,即多肽芯片检测结果数据。基于多肽芯片检测结果数据,可实现对与多肽芯片上的多肽结合的样本中的待测物的分析,样本的分析等。

多肽芯片技术可以检测病毒感染后引起的血清免疫反应。已被用于进行抗体鉴定及验证、自身免疫疾病研究、肿瘤标志物研究、过敏原研究和传染性疾病研究等。该技术与其它抗体检测技术相比,具有高稳定性以及设计的灵活性。纯化学合成的多肽分子表面自身带有保护基,多肽芯片的有效期得以大大延长。室温条件下保存超过两年的多肽芯片仍具有完全的生物学活性。多肽芯片的设计灵活,高密度、高通量,芯片上的探针蛋白可以根据实际需求设计,可同时测得上万个蛋白-多肽的生化反应。

目前尚未出现多肽芯片技术在乙肝患者分类的相关应用。

为了至少部分解决上述技术问题,如图1所示,本发明的第一方面提供了一种乙肝诊断模型的构建方法,方法包括:

S10:获取不同类型乙肝患者样本的多肽芯片数据和目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ IDNO.25所示序列的肽段中的至少五条;

具体地,乙肝患者样本的多肽芯片数据是指根据乙肝患者样本中的蛋白和多肽芯片上多种肽段结合产生的特征信号获取的数据,可以是通过扫描成像得到的TIFF图片文件构成的多肽芯片检测数据,也可以是由多肽芯片检测数据转换成数据矩阵得到的多肽芯片原始数据,还可以是由多肽芯片原始数据经过标准化处理的多肽芯片标准化数据。

可以理解的是,为了便于建模,优先获取经过标准化处理的多肽芯片数据作为多肽芯片数据以用于构建模型,多肽芯片数据可以是根据多肽芯片检测数据经矩阵转换和标准化处理以用于建模的数据,也可以是根据多肽芯片原始数据经标准化处理以获取用于建模的数据。

目标差异肽段的特征信号是指乙肝患者样本和多肽芯片上目标差异肽段结合产生的特征信号。相应地,多肽芯片数据中目标差异肽段的特征信号数据可以是扫描成像得到的TIFF图片文件中显示的特征信号,也可以是数据矩阵目标差异肽段的特征信号强度,还可以是特征信号强度经标准化处理的标准化数据,优先获取目标差异肽段经标准化处理的特征信号以用于模型构建。

一些具体实施例中,特征信号可以为荧光信号。

一些具体实施例中,样本的类型包括慢性肝炎、肝硬化、肝癌三种样本类型中的至少两种,用于实现对肝炎、肝硬化、肝癌三种样本类型中的至少两种进行分类。可以理解的是,本发明的乙肝患者是指HBV感染的患者,根据每个患者的疾病进展程度,乙肝患者可以分为慢性肝炎、肝硬化、肝癌三种类型,相应的,乙肝患者样本按照患者疾病进展分为慢性肝炎样本、肝硬化样本和肝癌样本。

一些具体实施方案中,本发明的目标差异肽段包括25条肽段中的至少5条,25条肽段的具体序列如SEQ ID NO.1~SEQ ID NO.25所示。

其中,SEQ ID NO.1:NGALYLSYASG;

SEQ ID NO.2:SLSVVLG;

SEQ ID NO.3:ALKLSLKVF;

SEQ ID NO.4:VGAFALVFG;

SEQ ID NO.5:RFVFLFLFS;

SEQ ID NO.6:VFVGVGLFG;

SEQ ID NO.7:VQVHLLFG;

SEQ ID NO.8:SALYLKVLF;

SEQ ID NO.9:SFVLSVG;

SEQ ID NO.10:ALFFHVKFD;

SEQ ID NO.11:KLFFAFVG;

SEQ ID NO.12:VRLFVLVFS;

SEQ ID NO.13:QFYLQVYFG;

SEQ ID NO.14:VFNVVLYFG;

SEQ ID NO.15:QVYFYVYFSE;

SEQ ID NO.16:LAWVLVVSG;

SEQ ID NO.17:YLGLLFWFSG;

SEQ ID NO.18:PPAFVFYARFS;

SEQ ID NO.19:YFYLYLSAQVL;

SEQ ID NO.20:NLAWYFQVSG;

SEQ ID NO.21:VFVFARFVLF;

SEQ ID NO.22:FGVAVAVFS;

SEQ ID NO.23:LYQVVLLFG;

SEQ ID NO.24:PLWQVFVVFS;

SEQ ID NO.25:NVFVVLVFS。

一些实施方案中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.5所示的5条肽段。

一些实施方案中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.10所示的10条肽段。

一些实施方案中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.15所示的15条肽段。

一些实施方案中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.20所示的20条肽段。

一些实施方案中,目标差异肽段选自SEQ ID NO.1~SEQ ID NO.25所示的25条肽段。

为了获取上述具有乙肝分期诊断价值的多肽信息,本发明的第二方面还提供了一种用于制备乙肝诊断芯片的多肽的筛选方法,包括:

S1:获取不同类型乙肝患者样本的多肽芯片数据,根据不同类型乙肝患者样本的多肽芯片数据确定包括不同类型乙肝患者之间差异肽段的多肽集合;

具体地,多肽芯片数据是指采用多肽芯片检测乙肝患者样本,将多肽芯片上多种不同肽段和样本中的蛋白特异性结合产生的特征信号经处理而获取的数据。。

差异肽段集合是指根据不同类型乙肝患者样本的多肽芯片数据进行差异分析得到的不同类型乙肝患者样本之间多肽特征信号存在显著差异的肽段集合。

第一机器学习模型为随机森林模型,将差异肽段和目标临床指标合并,采用多个不同类型乙肝患者样本与多肽芯片差异肽段结合的特征信号数据、目标临床指标数据以及样本信息训练随机森林模型,并获得差异肽段的特征重要性排序,使用RFE(递归特征消除法)方法在差异肽段中筛选使模型中三个类别的AUC均达到较高值时的肽段。

一些实施方案中,为了获取多肽芯片数据,在步骤S1中获取多个不同类型乙肝患者样本的多肽芯片数据之前还包括:

M10:获取多个不同类型乙肝患者样本的多肽芯片检测数据,对多肽芯片检测数据进行网格化处理以提取各乙肝患者样本的多肽芯片信号强度数据;

M20:根据各乙肝患者样本的多肽芯片信号强度数据生成各乙肝患者样本的多肽芯片数据。

具体地,多肽芯片检测数据是指采用多肽芯片检测乙肝患者样本,将多肽芯片上多种不同肽段和样本中的蛋白特异性结合产生特征信号,并对特征信号进行扫描成像得到的TIFF图片文件。网格化处理是指通过常规的网格化软件,比如HealthTell自带的网格化处理软件,对检测样本的TIFF图片进行网格化处理,进一步,在网格化的TIFF图片中提取出的所有肽段的原始荧光信号强度,即荧光信号值,即得到各乙肝患者样本的多肽芯片信号强度数据。

一些具体实施方案中,每个肽段的信号强度数据,即荧光信号值,其值域为0~65535。

进一步,对于每个患者的检测样本,提取所有肽段的特征信号强度后输出1个GPR5数据文件和1个图像定位预览图(corner images)文件,每个患者样本的多肽芯片原始数据即包括GPR5数据文件和图像定位预览图文件。其中,GPR5文件包含了一个患者多肽芯片检测样本的所有信息,例如阵列位置和芯片编号等,以及所有肽段的信号强度信息。

一些实施方案中,为了保证检测结果的准确性,对多肽芯片检测数据进行网格化处理以提取各乙肝患者样本的多肽芯片信号强度数据之后还包括:

M101:对各乙肝患者样本的多肽芯片信号强度数据进行样本质控和系统稳定性质控,对多肽芯片信号强度数据不满足质控标准的样本或芯片重新进行检测。

具体地,样本质控包括样本信号过饱和质控、样本信号分布质控、样本网格化定位质控、样本离群值质控以及样本CV值质控中的至少一种,以保证样本检测数据的误差在合理范围内。

其中,信号过饱和质控用于统计单样本原始荧光强度数值(FG)超出成像仪检测上限的特征(即肽段)的比例。对于单样本信号的过饱和比例大于质控标准的芯片,需调整曝光时间对该芯片重新进行扫描。

样本信号分布质控用于针对单样本对数转化后的荧光强度信号(LFG)绘制频率密度图,分别判断空白对照、标准样品和待测样品分布是否正常。样本信号分布质控标准为:针对空白对照,确认信号呈窄脉宽高峰值分布,LFG分布峰值在3以内;针对标准样品和待测血清样品,确认信号总体呈正偏态分布,且峰值远大于空白对照。若空白对照和标准品异常,则相应芯片内检测样品质控失败,需重新进行内检;若待测样品异常,则该样品需要确认样品质量,并考虑重新上样。

网格化定位质控用于对阴性对照外的每个样本进行Mask Analysis分析获得的校正差异系数和均方根(RMS),对于样本的校正差异系数和均方根均小于质控标准的情况,人工检查图像定位预览图的网格化情况,如果人工确认网格化不正确则该样本网格化定位质控不通过,需重新检测。

样本离群值质控用于对统计一张芯片(除去阴性对照的所有样本)上离群值所代表的特征所占比例≤2%的样本数量,该样本数量超过质控标准的,该芯片上所有样本需要重新进行实验。

样本CV值质控用于统计单样本内多肽信号强度的CV均值,CV均值超过质控标准的,该样本需要重新进行实验。

系统稳定性质控包括标准品相关性质控和标准品CV值质控中的至少一种,以保证检测数据的系统误差在合理范围内。

系统稳定性质控用于对该批次检测的所有的标准品(每张芯片一个标准品,即1个标准品/所有样本)的信号强度进行相关性和CV值分析,进行系统稳定性的质控。

其中,标准品相关性质控用于统计该批次检测的所有标准样品的信号强度的相关系数,对于相关性系数大于质控标准的,该批样本需要重新进行实验检测。

标准样品CV值质控用于统计该批次检测的所有标准样品的信号强度的CV值,对于CV值大于质控标准的,该批样本需要重新进行实验检测。

一些实施方案中,为了对多肽芯片原始数据进行差异分析,根据各乙肝患者样本的多肽芯片信号强度数据生成各乙肝患者样本的多肽芯片数据具体包括:

M201:根据各乙肝患者样本的多肽芯片信号强度数据进行矩阵化处理得到各乙肝患者样本的多肽芯片原始数据,对各乙肝患者样本的多肽芯片原始数据进行标准化处理得到各乙肝患者样本的多肽芯片数据;

具体地,多肽芯片原始数据是指对获取的多肽芯片信号强度数据经矩阵化处理得到的数据,多肽芯片原始数据可以存储于GPR5格式文件中,包括至少一个样本的所有多肽芯片检测信息,除了所有肽段的特征信号强度信息之外,还包括阵列位置和芯片编号等。

进一步,多肽芯片原始数据呈Log-Norm分布,标准化处理包括对数转换处理和中位数标准化处理,以获得用于进行差异分析的多肽芯片标准化数据,从而获得在不同类型乙肝患者之间差异表达的肽段。

一些具体实施方案中,对大量肝炎、肝硬化和肝癌患者样本的多肽芯片标准化数据进行差异分析,可以获得2599个差异肽段构成的多肽集合。其中,肝炎、肝硬化和肝癌患者样本总数可以为180例,每组类型患者数量大致相同,具体可以为每组大约60例。

一些具体实施方案中,对各乙肝患者样本的多肽芯片原始数据进行标准化处理得到各乙肝患者样本的多肽芯片数据具体包括:

M2011:将各乙肝患者样本的多肽芯片原始数据加上预设常数后进行对数转换得到各乙肝患者样本的多肽芯片转换数据;

M2012:将各乙肝患者样本的每个阵列的多肽芯片转换数据减去相应阵列多肽芯片转换数据的中位数得到各乙肝患者样本的多肽芯片数据。

具体地,对数转换处理包括:将多肽芯片原始数据(LG)加上常数后对其进行对数转换获得多肽芯片转换数据LFG(Log-FG),以提高转换后的多肽芯片数据的同方差性,使得转换后的多肽芯片数据的测量精度与强度大致成正比;进一步,将每个阵列(Array)的多肽信号LFG减去该阵列(Array)的全部多肽信号LFG的中位数以对LFG进行标准化处理,获得标准化后的多肽芯片数据NLFG作为多肽芯片数据。

进一步,获取不同类型乙肝患者样本的多肽芯片数据,根据不同类型乙肝患者样本的多肽芯片数据确定包括不同类型乙肝患者之间差异肽段的多肽集合具体包括:

S11:获取不同类型乙肝患者样本的多肽芯片数据,对不同类型乙肝患者样本的多肽芯片数据进行差异分析,

S12:根据差异分析结果按照预设阈值筛选包括不同类型乙肝患者之间差异肽段的多肽集合。

具体地,多肽特征信号的差异分析可以通过ANOVA检验(即F检验)进行,以筛选不同类型乙肝患者样本之间的差异肽段。筛选过程使用Bonferroni方法对pvalue进行矫正,筛选阈值设定为矫正后的FDR Top 0.5%。

进一步,对于多肽芯片数据进行差异分析后筛选样本间特征信号具有显著差异的差异肽段,差异肽段的多肽芯片数据可以直接用于结合目标临床指标构建第一机器学习模型,并用于筛选目标差异肽段。

具体地,目标临床指标数据包括性别指标、年龄指标、感染周期指标、肝功能指标、HBV指标、肝纤维化指标、AFP指标、AFP异质体指标、自身免疫疾病指标、糖尿病指标中的至少一种指标的数值化数据,用以结合目标差异肽段的特征信号数据训练第一机器学习模型以构建乙肝诊断模型。

具体地,肝功能指标包括ALB、AST等14个检测指标,HBV指标包括HBsAg、HBeAg等检测指标,目标临床指标包括共计29个检测指标。

一些具体实施方案中,肝功能指标包括ALB、A/G、AST、ALT、GGT、ALP、PALB、CHE、TBIL、DBIL、IDBIL、TBA、MYO、UA中至少一种检测指标;

HBV指标包括HBsAg、Anti-HBs、HBeAg、Anti-HBe、HBcAb-IgM、Anti-HBII、HBV-DNA中的至少一种检测指标;

肝纤维化指标包括TP检测指标。

一些具体实施方案中,在步骤S1中获取不同类型乙肝患者的目标临床指标数据之前还包括:

获取多个不同类型乙肝患者的乙肝诊断临床指标数据,根据多个不同类型乙肝患者的乙肝诊断临床指标数据以及相应的乙肝患者类型建立第二机器学习模型,根据第二机器学习模型的分类效果确定用于构建乙肝诊断模型的目标临床指标。

可以理解的是,为了便于机器学习,本发明的目标临床指标均采用数值化指标,并且剔除了与乙肝患者诊断无关的指标,以用于构建乙肝诊断模型。

具体地,第二机器学习模型使用的机器学习方法包括如下任意一种算法:逻辑回归(LR)、线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)。

一些具体实施方案中,机器学习方法采用了随机森林(RF)算法。

使用随机森林(RF)算法构建的随机森林模型是指通过随机的方式建立一个森林,森林里面由很多的决策树组成,且每一棵决策树之间没有关联,得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,分析该样本应该属于哪一类,然后分析哪一类被选择最多,就预测这个样本为哪一类。

本发明的29个目标临床指标特征单独构建的随机森林模型也具有较佳的分类效果。

S2:根据多个不同类型乙肝患者样本的多肽芯片数据、目标临床指标数据以及样本信息建立第一机器学习模型;

具体地,采用多个不同类型乙肝患者样本与差异多肽结合的多肽芯片数据、目标临床指标数据以及样本信息构建第一机器学习模型,以在差异多肽中筛选具有乙肝分期诊断效果的多肽特征。

具体地,第一机器学习模型使用的机器学习方法包括如下任意一种算法:逻辑回归(LR)、线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)。

一些具体实施方案中,机器学习方法采用了随机森林(RF)算法。

S3:根据第一机器学习模型的AUC值确定多肽集合中用于构建乙肝诊断模型的目标差异肽段。

具体地,采用递归特征消除法对差异多肽和目标临床指标构建的第一机器学习模型中使用的差异多肽特征进行优化,以获得使得乙肝分期诊断效果最好的多肽特征。

一些具体实施方案中,使用2599个差异肽段与29个临床指标建立随机森林模型并获得特征重要性排序,利用10-fold交叉验证方法得到初始特征子集的分类精度AUC,逐个删去排序最末的肽段特征并重新建模获取新的重要性排序计算相应分类精确度AUC,选取上述过程中三个类别的分类AUC均达到较高值时的剩余肽段即为目标差异肽段。进一步,根据目标差异肽段的多肽芯片标准化数据和目标临床指标数据构建乙肝诊断模型。

S20:根据多个不同类型乙肝患者样本结合目标差异肽段的多肽芯片数据、目标临床指标数据以及相应的乙肝患者类型通过机器学习方法建立乙肝诊断模型,样本信息包括样本的类型。

一些实施方案中,建立乙肝诊断模型使用的机器学习方法包括如下任意一种算法:逻辑回归(LR)、线性判别分析(LDA)、支持向量机(SVM)、随机森林(RF)。

一些具体实施方案中,机器学习方法采用了随机森林(RF)算法。

一些实施方案中,将目标差异肽段和目标临床指标进行特征合并,根据多个不同类型乙肝患者样本通过多肽芯片检测得到的目标差异肽段的多肽芯片数据和目标临床指标数据训练随机森林模型,从而构建乙肝诊断模型,实现对不同疾病进展的乙肝患者进行分类,并提高对不同类型乙肝患者分类的准确度。

可以理解的是,乙肝患者样本的多肽芯片数据可以是乙肝患者样本包含目标差异肽段特征信号的多肽芯片检测数据,也可以是乙肝患者样本包含目标差异肽段特征信号的多肽芯片原始数据,还可以是乙肝患者样本包含目标差异肽段特征信号的多肽芯片标准化数据。当乙肝患者样本的多肽芯片数据是乙肝患者样本包含目标差异肽段特征信号的多肽芯片检测数据,或者是乙肝患者样本包含目标差异肽段特征信号的多肽芯片原始数据时,可以将相应的多肽芯片数据转换多肽芯片标准化数据,以用于构建乙肝诊断模型。具体转换方法已在上文详述,具体不再赘述。

一些具体实施方案中,本发明将上述包括25条肽段的目标差异肽段用于构建乙肝诊断模型,本发明通过不同类型的乙肝患者的目标差异肽段结合临床指标构建乙肝诊断模型,排除其他与乙肝分类无关的免疫特征的干扰,对能够提高模型的诊断效率以及模型诊断的准确性。

可以理解的是,本发明创造性地将多肽芯片检测得到的目标差异肽段和无创的、易获取的目标临床指标进行结合,从而能够获得分类性能更加优异的乙肝诊断模型。

本发明的第二方面还提供了一种乙肝诊断模型的构建方法,方法包括:

获取不同类型乙肝患者样本的目标临床指标数据,目标临床指标数据包括性别指标、年龄指标、感染周期指标、肝功能指标、HBV指标、肝纤维化指标、AFP指标、AFP异质体指标、自身免疫疾病指标以及糖尿病指标中的至少一种指标的数值化数据;

根据不同类型乙肝患者样本的目标临床指标数据和样本信息通过机器学习方法建立乙肝诊断模型,样本信息包括样本的类型。

本发明的目标临床指标特征单独构建的机器学习模型也具有较佳的分类效果。

一些实施方案中,样本的类型包括慢性肝炎、肝硬化以及肝癌三种类型中的至少两种。

一些实施方案中,肝功能指标包括ALB、A/G、AST、ALT、GGT、ALP、PALB、CHE、TBIL、DBIL、IDBIL、TBA、MYO、UA中至少一种检测指标;

HBV指标包括HBsAg、Anti-HBs、HBeAg、Anti-HBe、HBcAb-IgM、Anti-HBII、HBV-DNA中的至少一种检测指标;

肝纤维化指标包括TP检测指标。

一些实施方案中,机器学习方法采用了如下任意一种算法:逻辑回归、线性判别分析、支持向量机、随机森林;

一些具体实施方案中,机器学习方法采用了随机森林算法。

因此,本发明的第三方面提供了一种上述构建方法构建的乙肝诊断模型,以提高对不同疾病进展的乙肝患者分类诊断的准确性和诊断效率。

本发明的第四方面提供了一种乙肝诊断芯片,芯片上固定的肽段选自如SEQ IDNO.1~SEQ ID NO.25所示序列的肽段中的至少五条,用以检测不同类型患者之间的目标差异肽段的特征信号,实现通过该特征信号结合上述乙肝诊断模型对不同类型患者进行诊断。

一些具体实施方案中,乙肝诊断芯片上固定的肽段选自SEQ ID NO.1~SEQ IDNO.5所示的5条肽段。

一些具体实施方案中,乙肝诊断芯片上固定的肽段选自SEQ ID NO.1~SEQ IDNO.10所示的10条肽段;或

一些具体实施方案中,乙肝诊断芯片上固定的肽段选自SEQ ID NO.1~SEQ IDNO.15所示的15条肽段。

一些具体实施方案中,乙肝诊断芯片上固定的肽段选自SEQ ID NO.1~SEQ IDNO.20所示的20条肽段。

一些具体实施方案中,乙肝诊断芯片上固定的肽段选自SEQ ID NO.1~SEQ IDNO.25所示的25条肽段。

本发明的第五方面提供了一种乙肝诊断装置,包括:

数据获取模块100:用于获取待测乙肝患者样本的多肽芯片数据和目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ ID NO.25所示序列的肽段中的至少五条;

乙肝分期诊断模块200:用于将待测乙肝患者样本目标差异肽段的特征信号数据和目标临床指标数据输入上述乙肝诊断模型,根据乙肝诊断模型的输出确定待测乙肝患者样本的类型。

一些实施方案中,待测乙肝患者样本的类型包括慢性肝炎、肝硬化、肝癌三种样本类型中的任意一种。

本发明的第六方面提供了一种乙肝诊断方法,诊断方法包括:

获取待测乙肝患者样本的多肽芯片数据和目标临床指标数据,多肽芯片数据包括目标差异肽段的特征信号数据,目标差异肽段选自如SEQ ID NO.1~SEQ ID NO.25所示序列的肽段中的至少五条;

将待测乙肝患者样本目标差异肽段的特征信号数据和目标临床指标数据输入上述乙肝诊断模型,根据乙肝诊断模型的输出确定待测乙肝患者样本的类型。

上述乙肝诊断装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一些实施方案中,提供了一种计算机设备,该计算机设备可以是服务器104,也可以是终端102,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和通信接口。当该计算机设备为终端时,还包括与系统总线连接的显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种乙肝诊断方法中的至少一种。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述乙肝诊断模型构建方法的步骤。

本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述乙肝诊断模型构建方法的步骤。

本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述乙肝诊断模型构建方法的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(DynamicRandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

下面将结合实施例对本发明的实施方案进行详细描述。

实施例1

1.实验样本信息

本实施例使用180例HBV感染患者的样本。除常规临床检查外,慢性肝炎和肝硬化患者还接受了四项肝纤维化检查以确认其病情,其中肝癌患者还接受了肝脏穿刺和相关影像学检查。如表1所示,HBV病毒感染患者中慢性肝炎57例、肝硬化63例,肝癌60例,样本相应临床指标信息如表二所示,性别,自身免疫指标和糖尿病指标均进行二值化处理,比如性别男为1,性别女为0;有自身免疫病、糖尿病处理为数值1,无自身免疫病、糖尿病处理为数值0,其他指标为平均值±方差SD。

表1

表2

2.多肽芯片产生抗体谱数据

多肽芯片数据产生的详细过程如下:

2.1实验设计

一个96孔板为一个检测单位。在实验开始前做好实验设计,根据检测样本数、设置的空白对照数和标准品数,计算需要使用的芯片数目并确定芯片编号和样本排版方式。标准品、空白对照和检测样本随机分布在所有使用的芯片上。

2.2实验流程

1)样本制备

血清或者血浆样本用1%D-甘露醇(D-mannitol)溶液,于96孔深孔板中,经两次25倍稀释,得到625倍稀释的待测样本板备用;

2)芯片的水化和组装

将芯片置于芯片水化用具中,加入超纯水没过芯片,在轨道摇床上55±5rpm/min,水化20min。然后用异丙醇喷洒芯片表面后将芯片放入离心机离心干燥。干燥好的芯片按照实验设计的位置组装成分析盒(assay cassette)。

3)样本与芯片孵育结合

将稀释好的样本按照90μL/孔加入组装好的芯片上,置于恒温振荡仪上振荡孵育1小时。

4)样本清洗

将分析盒置于洗板机进行清洗。

5)荧光二抗孵育

用0.75%的酪蛋白(Casein)溶液配制2nM的荧光二抗溶液,按40μL/每孔加入到分析盒中,置于恒温振荡仪上振荡孵育1小时。

6)二抗清洗

同步骤3)。

7)成像

将分析盒中的芯片进行拆卸、清洗、干燥后组装进成像盒(imaging cassette),放入Molecular Device公司的ImageXpress micro4成像仪进行扫描成像。最终每个检测样本得到一张TIFF图片文件,即为原始数据。

2.3数据预处理

1)使用自己编写的MIAMI pipeline分别对每个样本产生的TIFF图片进行网格化(需要说明的是,现有技术的中的网格化处理软件均可以完成对每个样本产生的TIFF图片进行网格化,比如HealthTell自带的网格化处理软件),然后提取特征(此处的特征指差异肽段集合)的荧光强度数值,输出1个GPR5数据文件和1个图像定位结果文件。其中,GPR5文件包含了一个样本的所有信息和所有特征的荧光强度信息。

2)从所有样本的GPR5数据文件中提取特征的荧光强度信息,生成原始荧光强度(FG,foreground)数据矩阵。然后对每个样本的数据分别进行对数转换得到LFG(log-transferred foreground)数据矩阵、进行中位数(median)的标准化处理获得NLFG(normalized and log-transferred foreground)数据矩阵。该步骤还会生成一个样本芯片信息文件,该文件包括了样本阵列位置、所用芯片编号等信息。

2.4质控

(1)单样本质控

1)过饱和分析

质控指标:单样本原始荧光强度数值(FG)超出成像仪检测上限的特征(即肽段)的比例。

质控标准:上述比例≤1%为合格。

质控不合格时的处理方法:调整曝光时间对该芯片重新进行扫描至该比例≤1%。

2)荧光信号分布分析

质控指标:针对单样本对数转化后的荧光强度信号(LFG)绘制频率密度图,分别判断空白对照、标准样品和待测样品分布是否正常。

质控标准:针对空白对照,确认信号呈窄脉宽高峰值分布,LFG分布峰值在3以内;针对标准样品和待测血清样品,确认信号总体呈正偏态分布,且峰值远大于空白对照。

质控不合格时的处理方法:若空白对照和标准品异常,则相应芯片内检测样品质控失败;若待测样品异常,则该样品需要确认样品质量,并考虑重新上样。

3)网格化定位准确性质控

质控指标:对阴性对照外的每个样本进行Mask Analysis分析获得的校正决定系数和均方根(RMS)。

质控标准:校正决定系数≥0.3且RMS≥0.3为合格。

质控不合格时的处理方法:人工检查图像定位结果的网格化情况,如果人工确认网格化不正确则该样本质控不通过,需重新检测。

4)离群值分析

质控指标:一张芯片(24个样本,除去阴性对照)上离群值所代表的特征所占比例≤2%的样本数量。

质控标准:上述样本数量不超过2个,则该芯片通过质控。

质控不合格时的处理方法:该芯片上所有样本需要重新进行实验。

5)质控多肽均值(coefficient of variation,CV)分析

质控指标:单样本内质控多肽信号强度的CV均值。

质控标准:上述CV均值≤1%为合格。

质控不合格时的处理方法:该样本需要重新进行实验。

(2)系统稳定性质控

对该批次检测的所有的标准品(每张芯片一个标准品,即1个标准品/24个样本)的信号强度进行相关性和CV值分析,进行系统稳定性的质控。

1)标准品相关性

质控指标:该批次检测的所有标准样品的信号强度的相关系数。

质控标准:上述相关系数≥0.8为合格。

质控不合格时的处理方法:该批样本需要重新进行实验检测。

2)标准样品CV均值

质控指标:该批次检测的所有标准样品的信号强度的CV均值。

质控标准:上述CV均值≤4%则合格。

质控不合格时的处理方法:该批样本需要重新进行实验检测。

3.筛选差异信号

a.获取原始数据FG

使用多肽芯片技术V13芯片依照以上标准流程进行样本检测,获得V13芯片126,501个肽段的信号值,称每个肽段信号值为特征,其值域为0~65535,将原始数据称为FG(foreground)并存储于GPR5格式文件中。

b.进行数据校正

从GPR5格式的数据矩阵中提取每个多肽的原始数据FG,因为原始荧光信号数据呈Log-Norm分布,所以将FG加上常数100后对其进行对数转换获得LFG(Log-FG),以提高同方差性,数据的测量精度与强度大致成正比;将每个Array的多肽信号LFG减去该Array的全部多肽的中位数,获得标准化后的数据NLFG。

c.统计检验获得差异多肽

HBV感染后人体免疫系统清除这些病毒会出现特定抗体信号的升高,随着病程的发展免疫系统产生的抗体信号也会发生相应变化。为了筛选出能够用来表征全部的三组疾病的特征多肽,使用ANOVA检验(即F检验)对全部的180个慢性肝炎、肝硬化、肝癌样本进行差异分析,筛选3组样本间显著差异的肽段。使用Bonferroni方法对pvalue进行矫正。筛选阈值设定为矫正后的FDR Top 0.5%。筛选出2599条符合要求的肽段作为特征肽段。图4为筛选后的三组患者类型的特征肽段相应heatmap图,白色表示CHB患者的特征肽段、灰色表示HBC患者的特征肽段、黑色表示HCC患者的特征肽段,将多肽及样本分别进行聚类后可知,差异肽段集合足以反映三组疾病的免疫特征。

4.筛选对建模有用的临床指标

1)临床指标筛选和预处理:为了使获得的模型更具临床使用价值,对如下临床指标的筛选:1.将无法量化的临床检查舍弃,如影像学检查结果等均为医师文字描述无法进行数值化处理;2.去掉肝纤维化四项、AFP异质体相关的临床检测指标,因为相关临床检查需要进行有创检查如穿刺活检等;3.去掉肝癌特有的检查指标cea和CA199,因其他疾病组病人一般不进行此类检查;4.去掉血糖值,血糖通常认为与乙肝疾病无关。将剩余的29个临床指标(见表2)作为建模使用的临床指标,这些指标均为数值化指标,临床容易获取,检测相对容易。

2)临床指标评估:基于29个临床指标建立分类模型,模型使用RF算法,10-fold交叉验证对模型进行训练和评估。最终该模型分类评估结果见表3。

表3

/>

5.基于差异多肽和临床指标,建立乙肝诊断模型

将上述2599个多肽与29个临床指标合并,使用RFE(递归特征消除法)方法,根据模型的AUC值筛选多肽。具体做法是先使用2599个肽段与29个临床指标建立RF模型并获得特征重要性排序并利用10-fold交叉验证方法得到初始特征子集的分类精度AUC,然后逐个删去排序最末的多肽特征并重新建模获取新的重要性排序计算相应分类精确度AUC,最终选取了上述过程中CHB、HBC、HCC三个类别的分类AUC值均达到较高值时剩余的多肽集合(25个,如表4),AUC值如图6所示,根据模型返回的特征重要性排序,在表4中各多肽的重要性按照SEQ ID NO.1~SEQ ID NO.25依次递减。

表4

该模型分类评估结果如表5所示,模型混淆矩阵如图5所示,模型ROC结果如图6所示。25个重要的多肽特征在所有样本中信号的热图结果如图9所示。

图10中左半部分表示本发明构建的乙肝诊断模型的特征中临床指标特征重要性排序,右半部分表示多肽特征重要性排序,临床指标特征和多肽特征分别进行排序,不表示临床指标重要性排在多肽前面。

Macro-average是一种简单、直接的评价多分类模型的指标,该方法将不同类别的评估指标(Precision/Recall/F1-score)加起来求平均,该方法能够平等看待每个类别给所有类别相同的权重。本实施例构建的乙肝诊断模型包含25个多肽特征及29个临床指标特征,模型中所有特征重要性排序如图8所示。与仅有临床指标作为特征的模型相比,本实施例构建的乙肝诊断模型所有分类性能指标的整体Macro-average均有所提升,尤其是准确率和f1都有提升,AUC也有提升,具体见图可知新增的25个多肽特征有利于提高模型分类效果。

表5

进一步,根据表4中多肽特征重要性排序,分别考察了重要性排序为前20、15、10、5的多肽特征,结合上述确定的29个临床指标,构建乙肝分型诊断模型,模型效果表现如表6和表7。

表6

注:表6中的数值表示CHB、HBC、HCC三个类别的相应评估参数平均值

表7

其中,top20指同时采用SEQ ID NO.1~SEQ ID NO.20的多肽信号数据与29种临床指标数据构建乙肝诊断模型;top15指同时采用SEQ ID NO.1~SEQ ID NO.15的多肽信号数据与29种临床指标构建乙肝诊断模型;top10指同时采用SEQ ID NO.1~SEQ ID NO.10的多肽信号数据与29种临床指标构建乙肝诊断模型;top5指同时采用SEQ ID NO.1~SEQ IDNO.5的多肽信号数据与29种临床指标构建乙肝诊断模型。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 一种心血管疾病诊断模型的构建方法、系统及该诊断模型
  • 无创乙肝肝硬化诊断模型的构建方法及诊断列线图的应用
  • 用于乙肝表面抗原抗体和乙肝病毒抗体的诊断试剂和诊断方法
技术分类

06120115921770