一种基于光谱聚类的中药成分分析方法及系统
文献发布时间:2023-06-19 16:06:26
技术领域
本发明涉及近红外光谱分析技术领域,尤其涉及一种基于光谱聚类的中药成分分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
近红外(NIR)光谱是一种波长范围为780nm至2526nm的电磁波,主要反映C-H、O-H和N-H振动的泛音和组合带的光谱吸收,具有快速、成本低、操作简单、无损、重现性好以及符合绿色分析化学理念等特点。近红外光谱分析方法作为一种快速分析技术,已广泛应用于制药科学、食品科学和石油化学等多个领域,在对于中药和食品等的定性鉴定、定量分析和实时在线分析方面显示出巨大的潜力。
建立有效的近红外光谱定量模型是近红外光谱技术用于中药和食品等质量监测的关键问题,为了建立近红外光谱定量模型,引入了多种建模方法,但无论采用何种建模方法,所建模型的校正样本都需要覆盖预测样本的特征信息,然而在实际应用中对于新测定的样本通常难以满足这一要求,例如由于产地、生长年份、气候条件和提取方法等的不同,所测得新样本的光谱数据和质量属性可能存在差异,甚至这种差异很大,从而导致建立的原始模型准确性下降。
有两种常见的方法可以解决由于新测定样品和原始样品之间的系统差异而导致的模型准确性损失:一种是只使用新样本重建新模型,即在新模型中不使用原始校准集样本,但这样会丢失原始模型的信息,造成在模型中的时间和精力的浪费;另一种解决方案是模型更新的方法,即使用原始校正集样本结合少量选定的新样本对原始模型进行更新以提高建模精度,由于只需要选择少量的新样本,模型更新的时间和成本比重建新模型的时间和成本要少,更适合实际应用,从大量新样本中选择具有代表性的样本是模型更新的关键问题,但现有的从大量新样本中选择代表性样本时,并未考虑新样本的光谱信息,因此选择的样本是否具有代表性很难确定,导致更新后的模型准确性依然不高。
发明内容
本公开为了解决上述问题,提出了一种基于光谱聚类的中药成分分析方法及系统,通过选择距离光谱各类别中心最近的样本为候选样本,加入原始样本集划分出的校正集中完成对原校正集的更新,对中药成分分析模型进行更新训练,使得获得的训练好的中药成分分析模型的准确性提高,具有更好的预测性能。
为实现上述目的,本公开采用如下技术方案:
第一方面,公开了一种基于光谱聚类的中药成分分析方法,包括:
获取中药的近红外光谱;
根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
第二方面,提出了一种基于光谱聚类的中药成分分析系统,包括:
数据获取模块,用于获取中药的近红外光谱;
结果获取模块,用于根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
第三方面,提出了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成一种基于光谱聚类的中药成分分析方法所述的步骤。
第四方面,提出了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成一种基于光谱聚类的中药成分分析方法所述的步骤。
与现有技术相比,本公开的有益效果为:
1、本公开在获得训练好的中药成分分析模型时,首先通过原始样本集对原始模型进行训练获得中药成分分析模型,之后从新样本集中选择距离光谱各类别中心最近的样本为候选样本,将候选样本加入原始样本集划分出的校正集中形成新校正集,通过新校正集对中药成分分析模型进行更新训练,最终获得训练好的中药成分分析模型,该最终获得的训练好的中药成分分析模型,具有更好的预测性能,提高了实际应用价值。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为实施例1公开方法的流程框图;
图2为实施例1中所有样本一的近红外光谱图;
图3为实施例1中所有样本一在第一和第二PC空间的分布图;
图4为实施例1中所有样本一采用Ward方法的聚类结果树状图;
图5为实施例1中所有样本一采用Average方法的聚类结果树状图;
图6为实施例1中不同方法所选样本在第一和第二PC空间的分布图;
图7为实施例1中所有样本二的近红外光谱图;
图8为实施例1中所有样本二在第一和第二PC空间的分布图;
图9为实施例1中所有样本二采用Ward方法的聚类结果树状图;
图10为实施例1中所有样本二采用Average方法的聚类结果树状图;
图11为实施例1中不同方法所选样本在第一和第二PC空间的分布图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
在该实施例中,公开了一种基于光谱聚类的中药成分分析方法,包括:
获取中药的近红外光谱;
根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
进一步的,选择距离各类别中心最近的样本为候选样本的具体过程为:
计算各类别的样本中心;
计算各样本到各自类别的样本中心的欧氏距离;
对计算的欧氏距离进行排序;
选择各类别中欧式距离最小的样本为候选样本。
进一步的,采用Ward方法或Average方法对新样本集进行聚类分析。
进一步的,通过原始样本集构建获得中药成分分析模型的具体过程为:
建立原始中药成分分析模型;
将原始样本集划分为校正集和验证集,对原始中药成分分析模型进行训练,获得中药成分分析模型。
进一步的,中药成分分析模型采用PLS模型、神经网络模型或支持向量机模型。
进一步的,对中药成分近红外光谱样本进行预处理,通过预处理后的中药成分近红外光谱样本构建原始样本集和新样本集。
进一步的,原始样本集和新样本集中的样本不重合。
对本实施例公开的一种基于光谱聚类的中药成分分析方法进行详细说明。
如图1所示,一种基于光谱聚类的中药成分分析方法,包括:
S1:获取中药的近红外光谱。
在具体实施时,采用光谱仪获取中药的近红外光谱。
S2:根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果。
其中,中药成分分析模型采用PLS模型、神经网络模型或支持向量机模型等。
建立原始中药成分分析模型,并对原始中药成分分析模型进行训练,获得训练好的中药成分分析模型,具体过程为:
S21:获取中药成分近红外光谱样本,该样本用于后续的模型训练。
中药成分近红外光谱样本包含采用行业标准检测方法测定的各成分指标及成分指标的参考值。
S22:对中药成分近红外光谱样本划分为原始样本集X和新样本集X
在具体实施时,可以直接将中药成分近红外光谱样本划分为原始样本集和新样本集;也可以先对中药成分近红外光谱进行预处理,将预处理后的近红外光谱进行划分,获得原始样本集和新样本集。
其中,对中药成分近红外光谱进行的预处理方式包括:平滑处理、一阶导数计算、二阶导数计算、标准化处理、基线漂移处理、标准正态变量处理、多元散射校正处理等中的任意一种或多种的组合。
S23:通过原始样本集对建立的原始中药成分分析模型进行训练,获得中药成分分析模型。
在具体实施时,将原始样本集X划分为校正集X
其中,校正集X
将原始样本集X划分为校正集X
S24:通过新样本集X
S241:将新样本集中的样本光谱进行聚类分析(HCA),根据选择的聚类结果和类别数据,将新样本分为不同的X
在具体实施时,采用Ward方法和Average方法等中的任意一种,对样本进行聚类分析。
S242:计算各类别的样本中心x
x
其中,x
S243:计算各样本x
S244:对对计算的欧氏距离进行排序;选择各类别中欧式距离最小的样本为候选样本X
S245:将所有候选样本加入原始样本集划分出的校正集中,形成新校正集,将新样本集中除候选样本外的其余样本作为测试集X
本实施例公开的一种基于光谱聚类的中药成分分析方法,通过选择距离光谱各类别中心最近的样本作为候选样本加入原始样本集划分出的校正集中,并进一步对中药成分分析模型进行更新,使训练后的中药成分分析模型对未知新样本具有更好的预测性能,更具有实际应用价值。
以市售的黄芪提取物(RAE)为实例对本实施例公开方法进行验证。
测定的样本数共有82个RAE样本,包括从5个制造商收集的9个批次,具体信息见表1。其中,S1~S6共53个样本为原始样本集X,用于建立中药成分分析模型,其余29个样本(S7~S9)被用作为新样本集X
表1 RAE样品信息表
注:10:1的浓缩比表示将10倍重量的原料浓缩为1倍重量,以此类推。A,B,C,D和E厂家均来自陕西省。
采用常用的KS方法将原始样本集划分为校正集X
以APS为例,经预处理后的所有样本光谱的主成分分析(PCA)得分图如图3所示。如图3所示,新样本的分布区域不包含在原始样本的光谱空间中,而是分成不同的簇,从呈现不同聚类的角度来看,原始样本集和新样本集之间基本上没有重叠区域,表明新样本与原始样本相比可能存在系统性差异。因此,使用中药成分分析模型直接预测新样本会导致结果不佳。
为此,首先对RAE的新样本集进行聚类分析。图4和图5展示了经Ward和Average两种方法对经预处理后新样本的聚类结果,点虚线、虚线和实线分别代表新样本分为4、5和6类,将新样本分为了不同的类别X
根据聚类的结果,分别计算出每个类别的样本中心x
表2模型更新前后对测试集样本含量预测的对比结果
注:“-”表示选择的样本数为0。
为评价本实施例公开方法的性能效果,将本实施例公开方法与常用方法如RS法、SPXY法和KS法进行比较,其中采用RS方法由于随机性,将进行十次重复采样,并取十次的平均结果与其他方法进行比较。其他三种方法均选取与本实施例公开方法选取的相同样本数量范围(3~6个)的样本加入原校正集,并通过更新模型的性能来评估所选样本的代表性,以此比较不同方法的建模性能和预测能力。有关结果见表3。
表3不同方法进行模型更新的最佳结果
由表4可知,四种选择样本的方法均能使更新后的模型更好地预测新样品中各成分的含量,说明模型更新策略是可行的,并有效地将更新后的模型应用于新样本。与原始模型相比,采用本实施例公开方法进行模型更新的预测结果与RS、SPXY和KS法相比均达到了最佳预测结果,RMSET值较低,RPD
为了进一步证明本实施例公开方法的实用性,比较了四种方法在选择最少样本数(3个样本)时进行模型更新后的结果,结果见表4。从表4看,当所选择的样品的数量最小时,CCD方法比其他三种方法更具有明显的优势。此外,经本实施例公开方法进行模型更新的RPD
表4不同方法在选择3个样本时进行模型更新的结果
再次以市售的黄芪提取物(RAE)为实例对本实施例公开方法进行验证,测定的样本数共有82个RAE样本,从5个制造商收集的9个批次,具体信息见表1。原始样本和新样本的近红外光谱由Micro-NIR 1700微型近红外光谱仪(VIAVI,美国)测得,测得的近红外光谱见图7,实线为原始样本,虚线为新样本。黄芪甲苷(AST IV)、毛蕊异黄酮葡萄糖苷(CG)和黄芪多糖(APS)作为参照成分指标。
采用常用的KS方法将原始样本集划分为校正集X
首先,对RAE的新样本集进行聚类分析。图9和图10展示了经Ward和Average两种方法对经预处理后新样品的聚类结果。点虚线、虚线和实线分别代表新样本分为4、5和6个类别,将新样本分为了不同的类别X
由于HCA将新样本根据不同的类别数划分成了不同的类别,为了选出具有类别代表性的样本,首先计算出了每个类别的样本中心x
表5模型更新前后对测试集样本含量预测的对比结果
将本实施例公开方法与经典方法如RS法、SPXY法和KS法进行比较,其中采用RS方法进行十次重复采样,取十次的平均结果并与其他方法进行比较。选取与本实施例公开方法所选相同数量范围的样本加入原始样本集划分出的校正集中形成新校正集,并通过新校正集更新模型的性能来评估所选样本的代表性,以此比较不同方法的建模性能和预测能力。有关结果见表6。。
表6不同方法进行模型更新的最佳结果
由表6可知,四种方法均能使更新后的模型更好地预测新样品中各成分的含量。与原始模型相比,除了CG成分外,采用本实施例公开方法进行模型更新后的预测结果与RS、SPXY和KS法方法相比均达到了最佳预测结果,RMSET值较低,RPD
此外,比较了四种方法在选择最少样本数(3个样本)时进行模型更新后的结果,结果见表7。从结果中可以看出,当只选择最少的样本数时,可以得到本实施例公开方法与其他三种方法相似或者更好的结果。此外,CCD更新模型的RPD
表7不同方法在选择3个样本时进行模型更新的结果
由以上两个实例可以看出,新样本确实与原始样本存在一定的系统性差异,导致样品的光谱呈现出不同的类别,中药成分分析模型无法适用。以上两个验证示例获取样本的设备不同,但均能验证本实施例采用原始校正集结合少量选取的新样本更新中药成分分析模型,选择最接近类别中心的样本作为候选样本来更新原始样本集划分出的校正集,使选择的样本具有代表性,更新后的模型预测结果均良好。此外,将本实施例公开方法与RS、SPXY和KS法进行比较,具有一定的优势。此外,本实施例公开的基于光谱聚类中心的样本选择及模型更新方法可以扩展到各个领域,更具有实际意义。
实施例2
在该实施例中,公开了一种基于光谱聚类的中药成分分析系统,包括:
数据获取模块,用于获取中药的近红外光谱;
结果获取模块,用于根据中药的近红外光谱和训练好的中药成分分析模型,获得中药成分分析结果;
其中,获取训练好的中药成分分析模型的具体过程为:获取中药成分近红外光谱样本;将中药成分近红外光谱样本划分为原始样本集和新样本集;将原始样本集划分为校正集和验证集,利用校正集和验证集构建获得中药成分分析模型;对新样本集进行聚类分析,获得不同的样本类别;选择距离各类别中心最近的样本为候选样本;将候选样本加入原始样本集划分出的校正集中形成新校正集,将新样本集中除候选样本外的其余样本作为测试集,利用新校正集和测试集对中药成分分析模型进行训练,获得训练好的中药成分分析模型。
实施例3
在该实施例中,公开了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1公开的一种基于光谱聚类的中药成分分析方法所述的步骤。
实施例4
在该实施例中,公开了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1公开的一种基于光谱聚类的中药成分分析方法所述的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
- 一种基于光谱聚类的中药成分分析方法及系统
- 一种基于主成分分析和最近邻图的密度峰值聚类方法及系统