掌桥专利:专业的专利平台
掌桥专利
首页

一种基于集成学习的低密度脂蛋白的数据处理方法

文献发布时间:2023-06-19 11:32:36


一种基于集成学习的低密度脂蛋白的数据处理方法

技术领域

本发明涉及医疗技术领域,尤其涉及一种基于集成学习的低密度脂蛋白的数据处理方法。

背景技术

低密度脂蛋白是检测高脂血症很重要的指标,现有的低密度脂蛋白的测量方法多为生化检测的方法,临床离心测量仪主要是采集人体静脉血,给测试者造成疼痛的同时感染风险也较高。而现有的无创检测方法多为光谱法,该方法对实验要求较高、操作繁琐、仪器昂贵。

生物电阻抗技术是一种利用不同的生物组织和器官具有不同电特性的特点来提取人体生理、病理状况相关的生物医学信息的检测技术,通过向置于人体表面的特定形状的电极系统注入安全的交流电流或电压,检测相应部位的电阻抗值和相位变化,再根据阻抗值和相位角信息建立有关低密度脂蛋白的生物电阻抗谱,利用集成学习算法进一步处理阻抗谱信息。

发明内容

本发明的目的在于提供一种基于集成学习的低密度脂蛋白的数据处理方法,旨在解决现有技术中的机器识别高血脂症预测模型精确度、泛化能力以及鲁棒性不高的技术问题。

为实现上述目的,本发明采用的一种基于集成学习的低密度脂蛋白的数据处理方法,包括下列步骤:

选取特征向量,获得生物电阻抗谱数据集;

预处理所述生物电阻抗谱数据集,获取训练集和测试集;

基于所述训练集和所述测试集构建高脂血症预测模型。

其中,在选取特征向量,获得生物电阻抗谱数据集的过程中,选取设定频率范围内各频率点下的阻抗值和相位角作为特征向量,建立相应的生物电阻抗谱,得到与低密度脂蛋白相关并以胆固醇浓度为检测对象的生物电阻抗谱参数,引入到低密度脂蛋白的生物电阻抗谱中,作为完整的生物电阻抗谱数据集。

其中,在预处理所述生物电阻抗谱数据集的过程中,预处理的数据为所述生物电阻抗谱数据集中偏移较大的值、冗余数据以及缺失数据。

其中,所述训练集为从所述生物电阻抗谱数据集中有放回的重复随机选取样本,所述测试集为没有被选择的样本。

其中,在基于所述训练集和所述测试集构建高脂血症预测模型的过程中,所述高脂血症预测模型采用CART回归树作为基础模型,所述CART回归树使用所述训练集作为根节点的样本,并从根节点开始训练。

其中,所述高脂血症预测模型采用集成学习中的随机森林算法融合所述CART回归树,以所述CART回归树为基学习器。

本发明的一种基于集成学习的低密度脂蛋白的数据处理方法,通过对特定频率范围内的阻抗谱数据进行数据预处理得到含有多个特征变量的特征矩阵,采用集成学习中的随机森林算法融合CART回归树算法建立低密度脂蛋白预测模型,结合以胆固醇浓度为核心的生物电阻抗谱参数相关性较高的特征变量来进一步优化低密度脂蛋白预测模型,最终得到低密度脂蛋白的预测值,再通过方差、偏差以及模型的可解释度等回归模型的指标评价,解决了现有技术中的机器识别高血脂症预测模型精确度、泛化能力以及鲁棒性不高的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明的基于集成学习的低密度脂蛋白的数据处理方法的流程示意图。

图2是本发明的阻抗谱的随机森林算法流程图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

请参阅图1,本发明提出了一种基于集成学习的低密度脂蛋白的数据处理方法,包括下列步骤:

S1:选取特征向量,获得生物电阻抗谱数据集;

S2:预处理所述生物电阻抗谱数据集,获取训练集和测试集;

S3:基于所述训练集和所述测试集构建高脂血症预测模型。

可选的,在选取特征向量,获得生物电阻抗谱数据集的过程中,选取设定频率范围内各频率点下的阻抗值和相位角作为特征向量,建立相应的生物电阻抗谱,得到与低密度脂蛋白相关并以胆固醇浓度为检测对象的生物电阻抗谱参数,引入到低密度脂蛋白的生物电阻抗谱中,作为完整的生物电阻抗谱数据集。

可选的,在预处理所述生物电阻抗谱数据集的过程中,预处理的数据为所述生物电阻抗谱数据集中偏移较大的值、冗余数据以及缺失数据。

可选的,所述训练集为从所述生物电阻抗谱数据集中有放回的重复随机选取样本,所述测试集为没有被选择的样本。

可选的,在基于所述训练集和所述测试集构建高脂血症预测模型的过程中,所述高脂血症预测模型采用CART回归树作为基础模型,所述CART回归树使用所述训练集作为根节点的样本,并从根节点开始训练。

进一步可选的,所述高脂血症预测模型采用集成学习中的随机森林算法融合所述CART回归树,以所述CART回归树为基学习器。

本发明通过构建并结合多个基学习器来完成学习任务,合并用来预测最终结果,提高模型的准确性。

首先,获取设定频率范围内各频率点下的阻抗值和相位角作为特征向量,建立相应的生物电阻抗谱,由于低密度脂蛋白与胆固醇浓度在生理上以及数理统计关系中均具有很大的相关关系,因此,通过数学分析软件,得到与低密度脂蛋白相关性较高的以胆固醇浓度为检测对象的生物电阻抗谱参数,引入到低密度脂蛋白的生物电阻抗谱中,作为完整的数据集;其次,对阻抗谱进行数据预处理,尤其是对数据集中偏移较大的值、冗余数据以及缺失数据进行处理,然后为了减少过拟合、降低特征维度、提高模型的可解释性,增强模型的泛化能力,引入对数据集的特征选择,主要是基于CART树模型的特征选择算法,在学习过程中,基于树模型的特征选择算法会对各个特征进行打分,得到每个分类标准下具体的权重信息,对特征变量进一步筛选,摒弃不相关或相关性低的特征,从而提高模型的预测效率和水平。

高脂血症的预测模型以集成学习为主要核心建立,在机器学习的监督算法中,学习的目标是得到一个稳定性强且泛化能力好的模型,但通常得到是在某个方面表现很好的弱监督模型,针对这些问题,本发明采用了集成学习算法,该算法是通过某种结合策略组合多个弱监督模型以得到一个即使某一个弱分类器得到了错误的预测,其他的弱分类器也可以纠正错误的更好更全面的强监督模型,同时采用集成学习方法中的随机森林算法与CART(分类与回归树)算法相结合的方式对低密度脂蛋白的阻抗谱数据进行处理来预测低密度脂蛋白的浓度。

组成随机森林的每棵CART树都随机选择部分样本及部分特征,在一定程度避免了过拟合的产生,使得模型具有很好的抗噪能力,性能稳定,解决了只用CART算法在训练数据的过程中很容易生成复杂的树结构以及其应对过拟合的能力较弱的问题。由于各CART树之间相互独立,所以CART树的生成过程可以并行进行,大大提高了算法的时间效率。生物电阻抗谱以CART树为基学习器构建引导聚集集成,从数据集中有放回的随机采样选出一部分样本作为训练集,在训练过程中引入随机属性选择,即从阻抗谱的所有特征变量d中随机选择k(k=log2d)个属性组成属性集,然后从该属性集中选择最优的划分属性,这样会比普通决策树建立的模型泛化能力更强,重复以上两个过程m次,生成m棵CART树,形成需要的随机森林,然后通过加权平均法结合每个基学习器,从而得到最终的以低密度脂蛋白为核心建立的高脂血症预测模型。该预测模型建立后需要进行评估以判断模型的优劣,将没有被随机选取过的样本和特征变量组成测试集用于模型评估。

随着基学习器数量的增加,随机森林通常会收敛到更低的泛化误差。

而CART回归树的具体操作过程为:获取特定频率范围内的生物阻抗谱数据,提取阻抗谱的特征变量N1,N2...,Nn构成特征矩阵N,对特征矩阵N进行数据预处理,由于低密度脂蛋白的数据处理涉及的特征维度较高,且特征存在多重共线性的问题,普通的回归方法很难解决这一问题,因此引入既可以做特征选择又可以用于分类、回归的CART(分类与回归树)模型作为融合模型的基础模型。

在CART回归树中,为成功构建以分段线性函数为叶节点的回归树,需要度量出阻抗谱数据的一致性。首先按照医学诊断标准对低密度脂蛋白的生化检测值做标签,分为正常、偏低、偏高三个标签,其次选取按某一特征划分前后使得标签数据总差值最小的那个特征变量作为最佳分支特征并选取方差做差值,计算阻抗谱数据集的均值std,

以及方差var,

为找出CART树的最优分裂点,则需选取最佳分支特征,先令最优方差为无限大bestVar=inf,其次计算根据某特征变量划分数据后的总方差Var_total,即划分后左右子数据集的方差之和Var_total=VarLeft+VarRight,如果Var_total

CART树比普通的决策树做了改进,既可以处理分类问题用于预测类别,也可以处理回归问题用来预测输出结果,本发明的高脂血症预测模型采用集成学习中的随机森林算法融合CART回归树算法来建立,算法流程图如图2所示,具体的处理过程如下:

(1)将设定频率范围内各频率点下的阻抗值、相位角组成的阻抗谱以及和低密度脂蛋白相关性较高的以胆固醇浓度为检测对象的阻抗谱参数作为数据集N,从该数据集中有放回的重复随机选取样本作为训练集,没有被选择的样本作为测试集;

(2)从训练集中有放回的随机抽取阻抗谱数据作为CART树根节点的样本,从根节点开始训练,将数据集的特征向量和低密度脂蛋白的生化检测值划分为两个输入空间R1、R2,求解训练集数据的切分点w:R

(3)如果当前节点上满足节点上最少样本数以及节点上最少的信息增益,其中,信息增益I(X=x

(4)然后以此类推,继续训练其他节点,遍历所有随机选取的特征变量,直到生成所有CART树且每棵树都输出了预测值,CART回归树为

在随机森林算法中,由于每一棵CART树构成的基学习器均是随机选取部分阻抗谱数据和特征变量,导致生成的模型方差较小但偏差较大。因此,为了降低预测模型的偏差,需要设置较高的CART树的深度。为防止由于max_depth深度过大引起的过拟合以及模型过于复杂的问题,本发明采用了两种方式避免以上问题,第一种是在迭代训练过程中,执行到不能通过继续分割获取更大的信息增益为止;第二种是将max_depth设置为一个超参数,采用贝叶斯调参的方式获得最优的深度值,使用贝叶斯定理对阻抗谱数据来估计目标函数的后验分布p(y

以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

相关技术
  • 一种基于集成学习的低密度脂蛋白的数据处理方法
  • 一种基于评分差异Stacking多模型集成学习的工程安全评价方法
技术分类

06120112963697