掌桥专利:专业的专利平台
掌桥专利
首页

基于改进的哈里斯鹰优化算法的中医证型分类方法和装置

文献发布时间:2024-04-18 19:58:21


基于改进的哈里斯鹰优化算法的中医证型分类方法和装置

技术领域

本申请涉及人工智能技术领域,特别是涉及一种基于改进的哈里斯鹰优化算法的中医证型分类方法和装置。

背景技术

中医药历经数千年的发展和沉淀,在防治疾病方面发挥着不可替代的作用,尤其在内分泌疾病、心血管疾病、肿瘤、瘟疫等疾病防治中具有独特的优势。特别是在三因制宜的理论指导下,中医注重对慢性病的个性化管理,不仅能达到良好的治疗效果,还具有副作用少、能减轻医疗经济负担等优势,对治疗糖尿病及其并发症等慢性疾病来说是一个巨大的宝藏。2019年,世界卫生组织正式发布了第11版国际疾病分类(ICD-11),首次将中医药纳入全球疾病诊断标准,标志着中医药实现了与现代医学的并驾齐驱。

中医是一把利剑。然而,如何正确使用它却是一个巨大的挑战。辨证论治是中医学认识疾病和处理疾病的基本原则。其中,辨证是论治的前提和依据,也是中医药的灵魂所在。实际上,在临床中大多数医者是根据自身临床经验进行辨证论治。不可避免地是,医生学习和理解中医需要一个漫长的过程,而且在临床中很容易产生主观偏见。也正是这些原因限制了中医药更好地发展。如何快速利用专家的经验,更准确、客观、快速地进行中医证型识别是一个非常值得探索的问题。

随着人工智能技术的发展,目前已经有许多机器学习和深度学习的算法应用于证型分类中,使得传统中医与计算机辅助诊断相结合。但是现有机器学习和深度学习的算法在不同程度上面临着运算复杂、泛化能力不足等问题。

发明内容

基于此,有必要针对上述技术问题,提供一种基于改进的哈里斯鹰优化算法的中医证型分类方法和装置。

一种基于改进的哈里斯鹰优化算法的中医证型分类方法,所述方法包括:

获取目标疾病的中医证型数据集,对所述中医证型数据集进行标准化,构建训练数据集。

根据所述中医证型数据集采用遗传算法进行特征选择,得到最优特征子集。

根据所述最优特征子集建立中医证型分类模型。

采用改进的哈里斯鹰优化算法对所述中医证型分类模型的参数进行寻优。

采用所述训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型。

将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。

在其中一个实施例中,所述遗传算法的选择算子采用轮盘赌选择方法,交叉算子采用单点交叉的方式,变异算子采用二进制变异;

根据所述中医证型数据集采用遗传算法进行特征选择,得到最优特征子集,包括:

将所述中医证型数据集进行二进制编码。

根据得到的编码结果随机生成若干个个体作为初始种群。

构建适应度函数。

计算所述初始种群中的每个个体的个体适应度函数值。

根据每个个体的适应度函数值采用轮盘赌选择方法进行个体选择,对选择的个体采用单点交叉的方式进行交叉,并对交叉结果采用二进制变异算子进行变异,得到新种群,继续求解所述新种群中每个个体的个体适应度,根据适应度值进行个体选择、交叉和变异,直到满足预设终止条件为止,得到最优特征子集。

在其中一个实施例中,构建适应度函数为:

其中,f为是适应度值,acc(Classifier)为中医证型分类模型的准确度,α和β分别表示准确度所占权重和算法选择的特征子集的长度所占的权重;n代表选择的特征子集的长度,N是所述中医证型数据集中特征属性的总个数。

在其中一个实施例中,根据所述优特征子集建立中医证型分类模型为任意一种机器学习的分类器模型;所述分类器模型包括:随机森林、XGBoost模型、支持向量机和K-近邻分类器;

在其中一个实施例中,采用改进的哈里斯鹰优化算法对所述中医证型分类模型的参数进行寻优,包括:

设置种群个数、最大迭代次数以及问题空间维度;其中种群中每个个体代表所述中医证型分类模型的参数组合。

设置当前迭代次数为1。

设置所述中医证型分类模型的参数的取值范围,采用Bernoulli混沌映射和反向学习机制初始化哈里斯鹰种群。

根据训练数据集计算个体的适应度函数值。

采用非线性衰减逃逸能量更新策略计算逃逸能量,根据所述逃逸能量选择个体位置更新方式。

判断迭代次数是否达到最大迭代次数,若达到最大迭代次数,则输出最优参数组合;若未达到最大迭代次数,则计算个体适应度函数值,将当前迭代次数加1,继续进行下一轮迭代运算。

在其中一个实施例中,采用非线性衰减逃逸能量更新策略计算逃逸能量,根据所述逃逸能量选择个体位置更新方式。

采用非线性衰减逃逸能量更新策略计算逃逸能量。

当所述逃逸能量的绝对值小于1时,则采用开发阶段的个体位置更新策略进行个体位置更新。

当所述逃逸能量的绝对值大于等于1时,采用探索阶段的个体位置更新策略进行个体位置更新。

在其中一个实施例中,所述非线性衰减逃逸能量更新策略为:

其中,E为猎物的逃逸能量,E

在其中一个实施例中,开发阶段的个体位置更新策略为:

其中,

在其中一个实施例中,获取目标疾病的中医证型数据集,对所述中医证型数据集进行标准化,构建训练数据集,包括:

获取目标疾病的中医证型数据集;所述数据集包括中医症状和体征的特征以及证型分类标签。

采用Z-Score方法对所述中医证型数据集进行标准化处理,得到训练数据集。

一种基于改进的哈里斯鹰优化算法的中医证型分类装置,所述方法包括:

训练数据集确定模块,用于获取目标疾病的中医证型数据集,对所述中医证型数据集进行标准化,构建训练数据集。

特征选择模块,用于根据所述中医证型数据集采用遗传算法进行特征选择,得到最优特征子集。

中医证型分类模型建立模块,用于根据所述最优特征子集建立中医证型分类模型。

模型参数优化模块,用于采用改进的哈里斯鹰优化算法对所述中医证型分类模型的参数进行寻优。

中医证型分类模型重训练模块,用于采用所述训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型。

中医证型识别模块,用于将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。

上述基于改进的哈里斯鹰优化算法的中医证型分类方法和装置,所述方法包括:获取目标疾病的中医证型数据集,对中医证型数据集进行标准化,构建训练数据集;根据中医证型数据集采用遗传算法进行特征选择,得到最优特征子集;根据最优特征子集建立中医证型分类模型;采用改进的哈里斯鹰优化算法对中医证型分类模型的参数进行寻优;采用训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型;将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。本方法提高了中医证型分类的准确率。

附图说明

图1为一个实施例中基于改进的哈里斯鹰优化算法的中医证型分类方法的流程示意图;

图2为另一个实施例中Bernoulli混沌映射1000次观察生成的频率直方图;

图3为另一个实施例中改进的哈里斯鹰优化算法的流程示意图;

图4为一个实施例中基于改进的哈里斯鹰优化算法的中医证型分类装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在一个实施例中,如图1所示,提供了一种基于改进的哈里斯鹰优化算法的中医证型分类方法,该方法包括以下步骤:

步骤100:获取目标疾病的中医证型数据集,对中医证型数据集进行标准化,构建训练数据集。

步骤102:根据中医证型数据集采用遗传算法进行特征选择,得到最优特征子集。

具体的,遗传算法(Genetic Algorithms,GA)是受启发于自然界的遗传机制和生物进化论而形成的一种启发式搜索方法,可以在既定的空间范围内搜索到问题的最优解。

冗余和不相关特征的出现不仅仅是增加了特征向量的维数,还降低了机器学习的性能。因此,通过特征选择来剔除疾病诊断数据集中冗余的特征,可以使模型拥有更低的复杂性以及更优的分类性能。

遗传算法种每条染色体代表一个特征子集,采用二进制编码,染色体基因位上的值为1或0,代表特征列的有无。

步骤104:根据最优特征子集建立中医证型分类模型。

具体的,中医证型分类模型可以是支持向量机(SVM),也可以是随机森林或XGBoost模型等分类器模型。

步骤106:采用改进的哈里斯鹰优化算法对中医证型分类模型的参数进行寻优。

具体的,改进的哈利斯鹰优化算法是指:在整个搜索空间中,在基于Bernoulli混沌映射生成的初始化哈里斯鹰种群基础上,使用反向学习扩大搜索空间提高种群初期质量,以此来增强全局搜索能力。另外,在开发阶段引入高斯变异,对哈里斯鹰的最优位置加入符合正态分布的随机扰动,使其可以摆脱局部极值的束缚,达到全局收敛,并使用非线性衰减逃逸能量更新策略,以更好地模拟猎物逃跑时候的一个体能变化。

步骤108:采用训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型。

步骤110:将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。

上述基于改进的哈里斯鹰优化算法的中医证型分类方法中,所述方法包括:获取目标疾病的中医证型数据集,对中医证型数据集进行标准化,构建训练数据集;根据中医证型数据集采用遗传算法进行特征选择,得到最优特征子集;根据最优特征子集建立中医证型分类模型;采用改进的哈里斯鹰优化算法对中医证型分类模型的参数进行寻优;采用训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型;将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。本方法提高了中医证型分类的准确率。

在其中一个实施例中,遗传算法的选择算子采用轮盘赌选择方法,交叉算子采用单点交叉的方式,变异算子采用二进制变异;步骤102包括:将中医证型数据集进行二进制编码;根据得到的编码结果随机生成若干个个体作为初始种群;构建适应度函数;计算初始种群中的每个个体的个体适应度函数值;根据每个个体的适应度函数值采用轮盘赌选择方法进行个体选择,对选择的个体采用单点交叉的方式进行交叉,并对交叉结果采用二进制变异算子进行变异,得到新种群,继续求解新种群中每个个体的个体适应度,根据适应度值进行个体选择、交叉和变异,直到满足预设终止条件为止,得到最优特征子集。

具体的,遗传算法设计中的选择算子采用轮盘赌选择方法来实现,交叉算子采用单点交叉的方式来实现,这也是遗传算法中常用的实现方式。在变异算子设计阶段,由于是做特征选择的,所以本方法采用二进制变异,将选择的父代染色体的每一个基因位产生一个随机数同变异概率进行比较,判断基因位是否需要发生变异,将需要发生基因突变的基因位进行变异操作。

在其中一个实施例中,为使选择的最佳特征数量和分类准确度之间达到平衡,构建适应度函数为:

其中,f为是适应度值,acc(Classifier)为中医证型分类模型的准确度,α和β分别表示准确度所占权重和算法选择的特征子集的长度所占的权重,作为优选,α设置为0.9,β设置为0.1;n代表选择的特征子集的长度,N是中医证型数据集中特征属性的总个数。

在其中一个实施例中,根据优特征子集建立中医证型分类模型为任意一种机器学习的分类器模型;所述分类器模型包括:随机森林、XGBoost模型、支持向量机和K-近邻分类器。

具体的,支持向量机基于统计学理论的VC维和结构风险最小原理,旨在在样本空间中找到最优的划分超平面,以实现最优的分类效果的鲁棒性和泛化能力。具体而言,SVM在样本空间中寻找支持向量来构建划分超平面,从而实现对数据的分类,在实际应用中已被广泛采用。支持向量机算法在实验过程中通常可以获得比其他分类器更好的效果,在应对线性不可分问题的时候,可以采用带有诸如径向基核函数的支持向量机,这样可以扩大特征空间,从而解决非线性可分问题。

随机森林是一个集成算法分类器,其所有的基分类器都是决策树,然后通过装袋法(Bagging)进行集成。从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。

XGBoost算法(Adaptive Boosting)是一种有效而实用的Boosting算法,它以一种高度自适应的方式按顺序训练弱学习器。XGBoost算法的核心思想就是调整错误样本的权重,进而迭代升级。

K-近邻分类器是通过测量不同特征值之间的距离进行分类。

值得说明的是,本申请中的证型分类器模型还可以是除了上述的分类器模型外其他类型机器学习的分类器模型。

在其中一个实施例中,步骤106包括:设置种群个数、最大迭代次数以及问题空间维度;其中种群中每个个体代表中医证型分类模型的参数组合;设置当前迭代次数为1;设置中医证型分类模型的参数的取值范围,采用Bernoulli混沌映射和反向学习机制初始化哈里斯鹰种群;根据训练数据集计算个体的适应度函数值;采用非线性衰减逃逸能量更新策略计算逃逸能量,根据逃逸能量选择个体位置更新方式;判断迭代次数是否达到最大迭代次数,若达到最大迭代次数,则输出最优参数组合;若未达到最大迭代次数,则计算个体适应度函数值,将当前迭代次数加1,继续进行下一轮迭代运算。

具体的,经典哈里斯鹰优化算法(HHO)由三个阶段组成,通过多轮次的搜索和开发以此来获取最优解。第一个阶段是搜索阶段,哈里斯鹰处于寻找猎物的状态;第二个阶段是搜索与开发转换阶段,哈里斯鹰处于找到猎物的状态,可以进行探索阶段向开发阶段转换的状态;第三个阶段是开发阶段,在这个阶段,哈里斯鹰向猎物发起进攻,通过软围攻、硬围攻、渐进式快速俯冲的软围攻和渐进式快速俯冲的硬围攻四种攻击策略进行捕获。

在搜索阶段,哈里斯鹰可以通过强大的眼睛追踪和探测猎物,在HHO中,哈里斯鹰是候选解决方案,每个步骤中的最佳候选解决方案都被视为目标猎物。在这一阶段,哈里斯鹰随机栖息在某个地方,通过两种策略找到猎物:

其中,t为迭代次数,X(t)为算法迭代次数为t时哈里斯鹰个体的位置向量,X(t+1)为迭代次数为t+1时哈里斯鹰个体的位置向量,X

在搜索与开发转换阶段,HHO算法可以从探索阶段转换到开发阶段,然后根据猎物的逃逸能量在不同的开发行为之间进行切换。猎物在逃逸过程中的逃逸能量是不断减少的,为了模拟这一事实,猎物的逃逸能量可以定义为:

其中,E表示猎物的逃逸能量,t为当前迭代次数,T为最大迭代次数,E

在开发阶段,哈里斯鹰对探索阶段检测到的目标猎物进行捕获,然而,猎物经常试图逃离危险的环境,因此,不同的追逐风格在现实生活中会发生。根据猎物的逃跑行为和哈里斯鹰的追赶策略,在HHO中,提出了四种可能的策略来模拟开发阶段,四种策略根据E和r两个控制变量来决定采用哪种,E表示猎物的逃逸能量,r表示逃脱成功的概率。以下为四种开发策略的数理模型表示:

(1)软围攻策略

定义r为[0,1]之间的随机数,用于选择不同的开发策略。当0.5≤E<1且r≥0.5时,猎物仍然有足够的能量,并试图通过一些随机的误导性跳跃来逃脱,但最终无法逃脱,哈里斯鹰通过轻围攻策略使猎物疲惫,然后进行突袭。软围攻策略位置向量更新规则如下:

X(t+1)=ΔX(t)-E|JX

ΔX(t)=X

其中,ΔX(t)表示猎物位置与哈里斯鹰个体当前位置的差值,J为[0,2]之间的随机数,表示猎物在整个逃跑过程中的随机跳跃强度。

(2)硬围攻策略

当|E|<0.5且r≥0.5时,猎物精疲力尽,逃跑能量很低,硬围攻策略位置向量更新规则如下:

X(t+1)=X

(3)渐近式快速俯冲的软包围策略

当0.5≤|E|<1且r<0.5时,猎物有足够的能量成功逃脱,在突袭前仍会形成一个软包围。为了对猎物的逃跑模式和跳跃运动进行数学建模,在HHO算法中使用了莱维飞行,来模拟猎物逃跑以及哈里斯鹰围绕逃跑猎物的不规则和快速俯冲运行。采取的渐近式快速俯冲的软包围策略进行位置更新规则如下:

Y=X

Z=Y+S×LF(D)(9)

其中,D为问题维数,S为1×D随机向量,LF()是莱维飞行的数学表达式,使用如下公式计算出:

其中,μ、v是[0,1]之间的一个随机数,β是设置为1.5的默认常数。

渐近式快速俯冲的软包围策略进行位置更新的最终结果如下:

其中,Y和Z由式(8)和式(9)求得,f()为适应度函数,将Y和Z两个位置的结果同上一次产生的解进行比较并决定本次迭代后鹰群的位置。

(4)渐近式快速俯冲的硬包围策略

当|E|<0.5且r<0.5时,猎物没有足够的逃逸能量,这一策略中哈里斯鹰试图减少它们与逃跑猎物的平均位置的距离,采取渐近式快速俯冲的硬包围策略进行位置更新规则如下:

其中,Y和Z的表示如下:

Y=X

Z=Y+S×LF(D)(14)

针对种群随机初始化时,无法覆盖整个搜索空间,从而导致陷入局部最优的问题,提出基于Bernoulli混沌映射的种群初始化,增大种群个体之间的差异,以此来提高算法的全局搜索能力。Bernoulli混沌映射分布十分均匀,其映射1000次观察生成的频率直方图如图2所示。

Bernoulli映射表达式如下:

其中,X(t)为种群中的第t个粒子,λ一般取0.4。

根据解空间的上界和下界,将产生的混沌序列映射到解空间中去:

X(t)=X

其中,X

反向学习策略(Opposition-based learning,OBL)指的是在搜索空间内,基于原始解,求出其反向解,并从原始解和反向解的集合中,通过计算适应度值来确定更好的候选解以进行下一次迭代。

目前,反向学习已被用于多种优化算法的改进并取得了不错的效果。

反向学习的数学模型如下:

x=[x

x

其中,D表示数据的维度,

在整个搜索空间中,在基于Bernoulli混沌映射生成的初始化哈里斯鹰种群基础上,使用反向学习扩大搜索空间提高种群初期质量,以此来增强全局搜索能力。

在其中一个实施例中,采用非线性衰减逃逸能量更新策略计算逃逸能量,根据逃逸能量选择个体位置更新方式,包括:采用非线性衰减逃逸能量更新策略计算逃逸能量;当逃逸能量的绝对值小于1时,则采用开发阶段的个体位置更新策略进行个体位置更新;当逃逸能量的绝对值大于等于1时,采用探索阶段的个体位置更新策略进行个体位置更新。

在其中一个实施例中,非线性衰减逃逸能量更新策略为:

其中,E为猎物的逃逸能量,E0是猎物的初始能量,为[-1,1]之间的随机数,T表示最大迭代次数,t表示当前迭代次数。

具体的,在原始哈里斯鹰优化算法中,根据猎物的逃逸能量来决定算法是执行探索阶段还是开发阶段,逃逸能量E从2线性递减至0,在迭代后期E值恒小于1,只进行局部开发,没有全局探索的能力。随机性的指数衰减函数更适合模拟猎物逃跑时候的一个体能变化。

在其中一个实施例中,开发阶段的个体位置更新策略为:

其中,

具体的,高斯变异是一种优化策略,它是使用服从正态分布的随机向量作用于原始个体,以生成新的位置。

针对哈里斯鹰最优位置陷入局部最优解的问题,在哈里斯鹰优化算法(HHO)开发阶段引入高斯变异,对哈里斯鹰的最优位置加入符合正态分布的随机扰动,使其可以摆脱局部极值的束缚,达到全局收敛,加入高斯变异后的最优解位置更新策略如公式(8)所示。

改进的哈里斯鹰优化算法的流程如图3所示。

在其中一个实施例中,步骤100包括:获取目标疾病的中医证型数据集;所述数据集包括中医症状和体征的特征以及证型分类标签;采用Z-Score方法对中医证型数据集进行标准化处理,得到训练数据集。

在一个具体的实施例中,采用优化后的改进的哈里斯鹰优化算法对支持向量机的中医证型分类模型的参数进行寻优,获取最优的惩罚因子C和核参数G,提高模型的分类性能。将模型的分类准确率作为适应度评价函数。具体步骤如下:

步骤1:初始化BGOHHO相关参数:问题空间维数、种群个数、最大迭代次数,种群中每个个体代表参数组合(C,G);

步骤2:设置惩罚因子C和核参数G的取值范围,使用Bernoulli混沌映射和反向学习机制初始化种群,导入训练数据集计算个体的适应度函数值;

步骤3:计算逃逸能量E,|E|<1采用开发阶段公式更新个体位置,否则采用探索阶段位置更新公式更新个体位置;

步骤4:判断算法是否达到最大迭代次数,若达到则输出最优参数组合(C,G)。否则计算个体适应度值,进入步骤3继续进行迭代运算;

步骤5:获得最优参数组合,基于训练数据集对基于支持向量机的中医证型分类模型重新进行训练;

步骤6:使用训练好的中医证型分类模型在测试集上进行测试,根据设定的评价指标对模型的性能进行评估。

对于随机森林证型分类模型:采用优化后的改进的哈里斯鹰优化算法对随机森林证型分类模型的参数进行寻优,获取最优的树的最大深度(max_depth)和每个叶子节点需要的最少样本数(min samples leaf),提高模型的分类性能。

对于XGBoost模型,采用优化后的改进的哈里斯鹰优化算法对XGBoost模型的参数进行寻优,获取最优的弱分类器数目(n_estimators)和学习率(learning_rate),提高模型的分类性能。

应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个验证性实施例中,首先使用遗传算法对数据集进行特征选择,减少数据集中存在的冗余特征,获取模型所需要的关键特征,提升模型建立的效率,在获取最优特征子集之后,使用改进的哈里斯鹰优化算法对基于支持向量机的中医证型分类模型的惩罚因子C和核参数G进行寻优,获得最优参数组合,进一步提升模型的分类性能。

本实施例的数据集选用的糖尿病视网膜病变中医证型数据源于贵州百灵中医糖尿病医院,共有970个样本,其中气阴两虚证样本的个数是592,肝胃郁热证样本的个数是113例,胃肠湿热证样本的个数是103例,阴阳两虚证样本的个数是162例,数据集包括中医症状、体征等75个特征以及1个证型分类标签。为了避免数据集中量纲差异对实验结果的影响,在实验之前对数据集使用Z-Score方法进行标准化处理,消除量纲差异,使模型得到的结果更为稳定可靠。

本实施例中使用的系统平台为Windows10(64位)操作系统,编程语言为Python,编程软件为PyCharm。种群个数设置为10,迭代次数设置为50。通过随机生成70%的训练集,30%的测试集独立运行10次,取测试集10次运算的平均结果作为最终的实验结果,实验最后使用分类准确率、精确率、召回率和F1值对模型的分类性能进行评估。在糖尿病视网膜病变中医证型数据集上运行十次的结果如下表1所示。可以看出,10次运行结果中,模型的最优分类准确率达到了85.90%,与此同时,模型相应的精确率为86.93%,召回率为86.02%,F1值为86.13%。

表1中医证型分类模型十次运行结果

本实施例还设置了对照组实验,将既使用特征选择,又采用BGOHHO进行参数优化的融合模型(BGOHHO_GA_SVM),同只进行特征选择的分类模型(GA_SVM)和未进行特征选择和参数寻优的分类模型(原始SVM模型)进行实验结果比较分析,实验结果如表2所示,BGOHHO_GA_SVM模型获得了最佳的实验效果。从分类准确率来看,BGOHHO_GA_SVM模型的分类效果最好,平均准确率达到了85.65%;GA_SVM的分类效果排名第二,为83.97%,比BGOHHO_GA_SVM低了1.68%;原始SVM模型分类准确率最低,为82.05%,比BGOHHO_GA_SVM低了3.6%。从分类精确率来看,BGOHHO_GA_SVM同样取得了最好的效果,平均精确率达到了86.47%,与GA_SVM模型、原始SVM模型相比,分别提高了1.41%、4.13%。从分类召回率来看,BGOHHO_GA_SVM的评价效果排名第一,平均召回率为85.84%,与GA_SVM模型、原始SVM模型相比,分别提高了1.92%、4.03%。从F1值来看,BGOHHO_GA_SVM的效果也是最佳,平均F1值达到了85.88%,与GA_SVM模型、原始SVM模型相比,分别提高了1.94%、4.12%。可见通过遗传算法进行特征选择,减少数据集中存在的冗余特征,并使用最优特征子集建立模型,再基于改进后的哈里斯鹰优化算法(BGOHHO)对模型的参数进行优化后,最终模型的分类性能得到了很好的提升。

表2不同模型评价指标对比表

另外,还将BGOHHO_GA_SVM模型同PSO算法优化的融合模型(PSO_GA_SVM)、WOA优化的融合模型(WOA_GA_SVM)、GWO优化的融合模型(GWO_GA_SVM)以及未改进的HHO优化的融合模型(HHO_GA_SVM)进行了实验对比,BGOHHO_GA_SVM模型获得了最佳的实验效果。

在一个实施例中,如图4所示,提供了一种基于改进的哈里斯鹰优化算法的中医证型分类装置,包括:训练数据集确定模块、特征选择模块、中医证型分类模型建立模块、模型参数优化模块、中医证型分类模型重训练模块和中医证型识别模块,其中:

训练数据集确定模块,用于获取目标疾病的中医证型数据集,对中医证型数据集进行标准化,构建训练数据集;

特征选择模块,用于根据中医证型数据集采用遗传算法进行特征选择,得到最优特征子集;

中医证型分类模型建立模块,用于根据最优特征子集建立中医证型分类模型;

模型参数优化模块,用于采用改进的哈里斯鹰优化算法对中医证型分类模型的参数进行寻优;

中医证型分类模型重训练模块,用于采用训练数据集对参数寻优后的中医证型分类模型重新进行训练,得到训练好的中医证型分类模型;

中医证型识别模块,用于将待识别的中医四诊信息输入到训练好的中医证型分类模型中,得到中医证型识别结果。

在其中一个实施例中,遗传算法的选择算子采用轮盘赌选择方法,交叉算子采用单点交叉的方式,变异算子采用二进制变异;特征选择模块,还用于将中医证型数据集进行二进制编码;根据得到的编码结果随机生成若干个个体作为初始种群;构建适应度函数;计算初始种群中的每个个体的个体适应度函数值;根据每个个体的适应度函数值采用轮盘赌选择方法进行个体选择,对选择的个体采用单点交叉的方式进行交叉,并对交叉结果采用二进制变异算子进行变异,得到新种群,继续求解新种群中每个个体的个体适应度,根据适应度值进行个体选择、交叉和变异,直到满足预设终止条件为止,得到最优特征子集。

在其中一个实施例中,特征选择模块,还用于构建适应度函数如式(1)所示。

在其中一个实施例中,中医证型分类模型建立模块中医证型分类模型为任意一种机器学习的分类器模型;所述分类器模型包括:随机森林、XGBoost模型、支持向量机和K-近邻分类器。

在其中一个实施例中,模型参数优化模块,还用于设置种群个数、最大迭代次数以及问题空间维度;其中种群中每个个体代表中医证型分类模型的参数组合;设置当前迭代次数为1;设置中医证型分类模型的参数的取值范围,采用Bernoulli混沌映射和反向学习机制初始化哈里斯鹰种群;根据训练数据集计算个体的适应度函数值;采用非线性衰减逃逸能量更新策略计算逃逸能量,根据逃逸能量选择个体位置更新方式;判断迭代次数是否达到最大迭代次数,若达到最大迭代次数,则输出最优参数组合;若未达到最大迭代次数,则计算个体适应度函数值,将当前迭代次数加1,继续进行下一轮迭代运算。

在其中一个实施例中,模型参数优化模块,还用于采用非线性衰减逃逸能量更新策略计算逃逸能量;当逃逸能量的绝对值小于1时,则采用开发阶段的个体位置更新策略进行个体位置更新;当逃逸能量的绝对值大于等于1时,采用探索阶段的个体位置更新策略进行个体位置更新。

在其中一个实施例中,模型参数优化模块中非线性衰减逃逸能量更新策略如式(20)所示。

在其中一个实施例中,模型参数优化模块中开发阶段的个体位置更新策略如式(21)所示。

在其中一个实施例中,训练数据集确定模块,还用于获取目标疾病的中医证型数据集;所述数据集包括中医症状和体征的特征以及证型分类标签;采用Z-Score方法对中医证型数据集进行标准化处理,得到训练数据集。

关于基于改进的哈里斯鹰优化算法的中医证型分类装置的具体限定可以参见上文中对于基于改进的哈里斯鹰优化算法的中医证型分类方法的限定,在此不再赘述。上述基于改进的哈里斯鹰优化算法的中医证型分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 基于改进哈里斯鹰优化算法的光伏模型的参数识别方法
  • 基于改进哈里斯鹰优化算法的机器人平滑路径规划方法
技术分类

06120116485175