掌桥专利:专业的专利平台
掌桥专利
首页

物质组分的识别方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:19:35


物质组分的识别方法、装置、设备及存储介质

技术领域

本发明涉及成分析技术领域,尤其涉及一种物质组分的识别方法、装置、设备及存储介质。

背景技术

光谱分析技术是物质组分分析的常用分析方法,在光谱数据中,获取其中隐藏的有用的信息用于混合物组分的识别是关键步骤,一般情况下,混合物的光谱比较复杂、谱峰重叠严重,以及不同组分之间的相互影响对混合物组分的识别提出了挑战。

现有技术对混合物组分的识别方法通常有特征峰对比法、子空间重叠法等,其中,特征峰对比法主要对比混合物和纯净物的特征峰,纯净物的特征峰能在混合物特征峰里找到,则判断混合物中存在该纯净物。现有技术通过特征峰对比法虽然能够获得混合物组分的识别结果,但是该识别结果由于缺少必要的筛选手段,导致识别精确度不高,并无法满足高精度的物质识别要求。

因此,现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于解决现有的物质组分组分识别方法识别精度不高,无法满足高精度的物质组分组分识别要求的技术问题。

本发明第一方面提供了一种物质组分的识别方法,其特征在于,所述物质组分的识别方法包括:

采集待识别物质的光谱数据;

根据待识别物质的光谱数据获取待拟合纯净物的光谱数据;

对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合;

获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;

利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。

在本发明第一方面一种可选地实施方式中,所述获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果之后,所述利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选之前包括:

由初始识别结果计算得到初始拟合光谱数据;

通过待识别物质的光谱数据减去初始拟合光谱数据计算得到初始残差。

在本发明第一方面一种可选地实施方式中,所述利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选包括:

构建组合:将初始识别结果中所有拟合系数大于零的待拟合纯净物的光谱数据作为一个组合,并复制成多个组合,之后在每个组合中各抽出一条拟合系数大于零的待拟合纯净物的光谱数据,其中,每个组合中抽出的拟合系数大于零的待拟合纯净物的光谱数据各不相同;

数据拟合:然后将每个组合中剩余的拟合系数大于零的待拟合纯净物的光谱数据分别与待识别物质的光谱数据进行非负最小二乘拟合,获得多个二次识别结果;

残差计算:由多个二次识别结果计算得到多个二次拟合光谱数据,将待识别物质的光谱数据分别减去多个二次拟合光谱数据得到多个二次残差;

P值比较:将多个二次残差分别与初始残差进行统计学F检验得到多个p值,将多个p值分别与接受域进行比较,若某个组合对应的p值位于接受域内,则假定p值位于接受域内的这个组合抽出的待拟合纯净物不属于待识别物质的组分并从初始识别结果中删除;

将初始识别结果中剩余的待拟合纯净物为待识别物质的最终识别结果。

在本发明第一方面一种可选地实施方式中,所述利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选包括:

构建组合:将初始识别结果中所有拟合系数大于零的待拟合纯净物的光谱数据作为一个组合,复制成多个组合,之后在每个组合中均抽出一条拟合系数大于零的待拟合纯净物的光谱数据,其中,每个组合中抽出的拟合系数大于零的待拟合纯净物的光谱数据各不相同;

数据拟合:然后将每个组合中剩余的拟合系数大于零的待拟合纯净物的光谱数据与待识别物质的光谱数据进行非负最小二乘拟合,获得待识别物质的多个二次识别结果;

残差计算:由多个二次识别结果计算得到多个二次拟合光谱数据,将待识别物质的光谱数据分别减去多个二次拟合光谱数据得到多个二次残差;

P值比较:将得到的多个二次残差分别与初始残差进行统计学F检验得到多个p值,如果多个p值中最大的p值在接受域内,则从初始识别结果中删除最大p值所对应的组合的那条抽出的待拟合纯净物;

判断初始识别结果中剩余的拟合系数大于零的待拟合纯净物的数量是否大于1,如果大于1,则对初始识别结果中剩余的拟合系数大于零的待拟合纯净物循环执行从构建组合开始的上述筛选步骤,直到剩余的拟合系数大于零的待拟合纯净物的数量小于等于1或者多个p值中最大的p值不在接受域内;

将最终筛选剩余的拟合系数大于零的待拟合纯净物作为待识别物质的最终识别结果。

在本发明第一方面一种可选地实施方式中,所述由初始识别结果计算得到初始拟合光谱数据包括:

获取初始识别结果中各个待拟合纯净物的拟合系数;

将每个拟合系数与对应的待拟合纯净物的光谱数据相乘;

将相乘后得到的各个结果相加得到初始拟合光谱数据。

在本发明第一方面一种可选地实施方式中,所述对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合之前包括:

使用自适应迭代加权惩罚最小二乘算法对待拟合纯净物的光谱数据进行基线校正。

在本发明第一方面一种可选地实施方式中,所述对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合之前包括:对光谱数据进行归一化和滤波处理。

在本发明第一方面一种可选地实施方式中,所述根据待识别物质的光谱数据获取待拟合纯净物的光谱数据包括:

根据待识别物质的光谱数据的特征峰从光谱数据库中获取待拟合纯净物的光谱数据。

本发明第二方面提供了一种物质组分的识别装置,所述物质组分的识别装置包括:

采集模块,用于采集待识别物质的光谱数据;

获取模块,用于根据待识别物质的光谱数据获取待拟合纯净物的光谱数据;

拟合模块,用于对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合;

初始结果模块,用于获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;

筛选模块,用于利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。

本发明第三方面提供了一种物质组分的识别设备,所述物质组分的识别设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;

所述至少一个处理器调用所述存储器中的所述指令,以使得所述物质组分的识别设备执行如上述任一项所述的物质组分的识别方法。

本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的物质组分的识别方法。

有益效果:本发明提供了一种物质组分的识别方法、装置、设备及存储介质,其中,所述物质组分的识别方法包括:采集待识别物质的光谱数据;根据待识别物质的光谱数据获取待拟合纯净物的光谱数据;对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合;获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。本发明的物质组分的识别方法由于在获取到初始识别结果之后还使用了统计学F检验方法对初始识别结果进行显著性筛选,最终识别出的物质组分更加的精确,适用于更高精度得物质组分识别场景需求。

附图说明

图1为本发明一种物质组分的识别方法的流程图;

图2为本发明一种物质组分的识别方法的一个实施例示意图;

图3为本发明一种物质组分的识别方法的另一个实施例示意图;

图4为本发明一种纯净物的光谱曲线通过基线校正前后的对比图;

图5为本发明一种物质组分的识别装置的一个实施例示意图;

图6为本发明一种物质组分的识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种物质组分的识别方法、装置、设备及存储介质。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明公开了一种物质组分的识别方法,该物质组分的识别方法采集待识别物质的光谱数据,获得待拟合纯净物的光谱数据。针对纯净物光谱,对部分纯净物进行基线校正,利用非负最小二乘法使纯净物光谱数据对待识别物质光谱数据进行拟合,获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。整个流程无需人工参与,能快速且有效地应用于物质组分识别,在一定程度上提高物质识别的准确率,具有快速且无损、实现过程简单和识别结果准确等特点。为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明第一方面提供了一种物质组分的识别方法,尤其用于混合物,在本实施例中,将识别方法用于基于光谱数据的物质组分智能识别,各实施例的步骤如下:

S100、采集待识别物质的光谱数据;

本实施例采集待识别物质的光谱数据包括,一定波段范围内的光谱数据,具体为吸光度曲线或者由其公式变形衍生的其他光谱参数,所述光谱信号是通过光谱仪采集得到;S200、根据待识别物质的光谱数据获取待拟合纯净物的光谱数据;

在该步骤中,获取待拟合纯净物的光谱数据主要对比混合物光谱数据和纯净物光谱数据的特征峰,纯净物的特征峰能在混合物特征峰里找到,则判断该纯净物可能存在混合物中;本实施例中,主要通过小波变换寻找特征峰以及峰位匹配、逆搜索等方法,从光谱数据库中检索出待识别物质中可能存在的几种待拟合纯净物的光谱数据作为待拟合纯净物的光谱数据。

S300、对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合;

利用非负最小二乘拟合待识别物质的光谱数据和待拟合纯净物的光谱数据(假设N+L条待拟合纯净物的光谱数据,包括基线校正后的N条待拟合纯净物的光谱数据以及L条空白背景数据)得到各个待拟合纯净物的光谱数据的初始拟合系数,包括采用如下非负最小二乘表达式拟合:

min||y-βH||

s.t.β

其中,y为待识别物质的光谱数据,H是待拟合纯净物的光谱数据组成的矩阵,矩阵H的每一行为一种待拟合纯净物的光谱数据,β为系数向量,||||

S400、获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;

在该步骤中,计算由初始识别结果得到的初始拟合光谱数据,计算由待识别物质的光谱数据减去初始拟合光谱数据得到初始残差。初始残差计算表达式如下:

y-βH (2)

其中,y为待识别物质的光谱数据,H是待拟合纯净物的光谱数据组成的矩阵,矩阵H的每一行为一种待拟合纯净物的光谱数据,β为系数向量。

拟合系数大于零的待拟合纯净物数据作为待识别物质的初始识别结果。设通过步骤S300,获得K条拟合系数大于零的待拟合纯净物数据。

S500、利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。

在该步骤中,包括如下可选的实施方式一:

将得到的K条拟合系数大于零的待拟合纯净物数据作为一组,复制成K组,即得到K组且每组含有K条拟合系数大于零的待拟合纯净物数据。每组抽出一条待拟合纯净物的光谱数据,且各组抽出的数据各不相同,会产生K组且每组含有K-1个拟合系数大于零的待拟合纯净物的组合,然后待识别物质的光谱数据分别与每组含有K-1条拟合系数大于零的待拟合纯净物的光谱数据进行非负最小二乘拟合,共获得K组二次拟合结果。

由K组二次拟合结果得到的K组二次拟合光谱数据,将待识别物质的光谱数据减去二次拟合光谱数据得到K个二次残差。将得到的K个二次残差分别与初始残差进行F检验,得到K个p值。如果p值在接受域,为了优化识别精度,从K条拟合系数大于零的待拟合纯净物的光谱数据中删除对应抽出的那条待拟合纯净物数据,最终保留的拟合系数大于零的待拟合纯净物的光谱数据为待识别物质的最终识别结果。

在该步骤中,包括如下可选的实施方式二:

将得到的K条拟合系数大于零的待拟合纯净物数据作为一组,复制成K组,即得到K组且每组含有K条拟合系数大于零的待拟合纯净物数据。每组抽出一条待拟合纯净物的光谱数据,且各组抽出的数据各不相同,会产生K组且每组含有K-1个拟合系数大于零的待拟合纯净物的组合,然后待识别物质的光谱数据分别与每组含有K-1条拟合系数大于零的待拟合纯净物的光谱数据进行非负最小二乘拟合,共获得K组二次拟合结果,该步骤的目的是判断拟合系数大于零的每一个待拟合纯净物是否为显著性成分。

计算二次识别结果的二次残差。具体为:由K组二次拟合结果得到的K组二次拟合光谱数据,将待识别物质的光谱数据减去二次拟合光谱数据得到K个二次残差。

从K条待拟合纯净物的光谱数据中删去最不显著性一条数据。具体为:得到的K个二次残差分别与初始残差进行F检验得到K个p值,如果K个p值中最大的p值在接受域,则该最大p值对应的抽出的那条待拟合纯净物的光谱数据为最不显著性的一条数据,删除此最不显著性数据,得到K-1个待拟合纯净物的光谱数据。继续循环上述步骤,用统计学F检验方法对剩余的K-1个待拟合纯净物的光谱数据中拟合系数大于零的待拟合纯净物进行显著性筛选。直到拟合系数大于零的待拟合纯净物的光谱数据条数为小于等于1或者最大p值不在接受域内结束循环。所有最终保留的拟合系数大于零的待拟合纯净物的光谱数据及其拟合系数为待识别物质的最终组分识别结果。

在本实施例中,接受域区间设为[0.05,1],也可以根据实际需要的检测精度,人为的设置一个域,p值在设定的域内,则证明抽出的待拟合纯净物不是显著的组分,因此也可以将抽出的待拟合纯净物从初始识别结果中删除。

在本发明执行步骤S200之后,执行步骤S300之前,使用自适应迭代加权惩罚最小二乘算法对待拟合纯净物的光谱数据进行基线校正,包括:

在本实施例中,对待拟合纯净物的光谱数据进行基线校正的目的是为了得到不包含背景数据的纯净物光谱数据,而采用自适应迭代加权惩罚最小二乘算法进行基线校正,是因为通过该方法校正后的光谱数据能够更真实的去除背景数据。

具体来说,自适应迭代加权惩罚最小二乘通过迭代的方式变化拟合基线与测量信号间的误差平方和的权重,并且利用先前拟合基线和测量信号间的差来自适应地获得误差平方和的权重,能快速灵活地估计基线。惩罚最小二乘算法是粗糙度惩罚平滑最小二乘,它用于平衡原始数据的保真度与拟合数据的粗糙度之间的关系。

假设x是分析信号矢量,z是拟合矢量,它们的长度均为m。z对x的保真度可以表示成它们之间的误差平方和:

拟合矢量z的粗糙度可以表示为:

然后通过对粗糙度加上惩罚来保证保真度和平滑度之间的平衡。可以通过以下公式得出:

Q=F+λR=||x-z||

可以通过调节λ的大小来实现保真度与平滑度的平衡。D是微分矩阵,如Dz=Δz。对上式中z求偏导置零,可得到:

(Ι+λD

上式中I为单位矩阵,D

为了构建惩罚最小二乘算法校正基线,引入了保真度的权重向量,并在与x的峰段相对应的位置将权重向量设置为零。z对x的保真度更新为:

其中,W为权重矩阵,是一个对角矩阵,w

这样,式(6)变为:

(W+λD

求解上式,可得拟合向量z:

z=(W+λD

自适应迭代重加权过程类似于加权最小二乘和迭代加权最小二乘,但是使用了不同的方法来计算权重,并通过添加一个惩罚项以控制拟合基线的平滑度。自适应迭代加权方法的每个步骤都涉及解决一个加权的最小二乘问题:

其中权重向量W使用迭代方法自适应地进行修正。开始时,给定初始值w

向量d

先前t-1迭代中的拟合值z

|d

式中d

参见图4,一种纯净物的拉曼光谱数据在通过基线校正后,可在一定程度上扣除背景干扰。

在本发明第一方面一种可选地实施方式中,所述对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合之前包括:对光谱数据进行归一化,滤波处理。所述滤波处理包括Savitzky-Golay滤波器滤波等。

在本发明第一方面一种可选的实施方式中,所述光谱数据包括红外光谱数据和拉曼光谱数据。当然,在本发明的物质组分的识别方法中,光谱数据也可以为其他的能够用于物质识别的光谱得到。所述物质可为多种微痕量毒品组成的混合物体系。

参见图5,本发明第二方面提供了一种物质组分的识别装置,所述物质组分的识别装置包括:

采集模块10,用于采集待识别物质的光谱数据;

获取模块20,用于根据待识别物质的光谱数据获取待拟合纯净物的光谱数据;

拟合模块30,用于对待识别物质的光谱数据和待拟合纯净物的光谱数据进行非负最小二乘拟合;

初始结果模块40,用于获得拟合系数大于零的待拟合纯净物并作为待识别物质的初始识别结果;

筛选模块50,用于利用统计学F检验方法对拟合系数大于零的待拟合纯净物进行显著性筛选,得到待识别物质的最终识别结果。

在本发明第二方面一种可选的实施方式中,所述筛选模块50包括:

第一计算单元,用于计算由初始识别结果得到的拟合光谱数据;

第一残差单元,用于将待识别物质的光谱数据减去拟合光谱数据得到初始残差;

第一二次拟合单元,将初始识别结果中每次抽出各不相同的一条待拟合纯净物的光谱数据,将剩余的拟合系数大于零的待拟合纯净物的光谱数据与待识别物质的光谱数据进行非负最小二乘拟合,获得待识别物质的二次识别结果;

第一比较单元,用于计算二次识别结果的二次残差,二次残差与初始残差进行F检验,得到p值。如果p值在接受域,则抽出的待拟合纯净物从初始识别结果中删除。

在本发明第二方面一种可选的实施方式中,所述筛选模块50包括:

第二计算单元,用于计算由初始识别结果得到的拟合光谱数据;

第二残差单元,用于将待识别物质的光谱数据减去拟合光谱数据得到初始残差;

第二二次拟合单元,用于从拟合系数大于零的待拟合纯净物中,每次抽出不同的一条待拟合纯净物的光谱数据,然后将剩余的拟合系数大于零的待拟合纯净物的光谱数据与待识别物质的光谱数据进行非负最小二乘拟合,获得待识别物质的二次识别结果;第二比较单元,用于计算二次识别结果的二次残差,二次残差与初始残差进行F检验,得到p值。若二次残差与初始残差的最大p值在接受域,则将抽出的待拟合纯净物从初始识别结果中删除。

在本发明第二方面一种可选的实施方式中,所述第一计算单元或所述第二计算单元包括:

获取子单元,用于获取初始识别结果中各个待拟合纯净物的拟合系数;相乘子单元,用于将每个拟合系数与对应的待拟合纯净物的光谱数据相乘;

相加子单元,用于将相乘后得到的各个结果相加得到拟合光谱数据。

在本发明第二方面一种可选的实施方式中,所述获取模块20包括:

查找单元,用于根据待识别物质的光谱数据的特征峰从光谱数据库中获取待拟合纯净物的光谱数据。

在本发明第二方面一种可选的实施方式中,所述物质组分的识别装置还包括:

校正模块,用于使用自适应迭代加权惩罚最小二乘算法对待拟合纯净物的光谱数据进行基线校正。

在本发明第二方面一种可选的实施方式中,所述光谱数据包括红外光谱数据和拉曼光谱数据。

图6是本发明实施例提供的一种物质组分的识别设备的结构示意图,该物质组分的识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器60(central processing units,CPU)(例如,一个或一个以上处理器)和存储器70,一个或一个以上存储应用程序或数据的存储介质80(例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对物质组分的识别设备中的一系列指令操作。更进一步地,处理器可以设置为与存储介质通信,在物质组分的识别设备上执行存储介质中的一系列指令操作。

物质组分的识别设备还可以包括一个或一个以上电源90,一个或一个以上有线或无线网络接口100,一个或一个以上输入输出接口110,和/或,一个或一个以上操作系统,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的物质组分的识别设备结构并不构成对物质组分的识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述的物质组分的识别方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 物质组分的识别方法、装置、设备及存储介质
  • 设备识别方法、装置及设备、存储介质
技术分类

06120113254828