一种高精度光谱测量数据优化处理方法
文献发布时间:2024-04-18 19:58:21
技术领域
本发明涉及近红外光谱分析技术领域,具体涉及一种高精度光谱测量数据优化处理方法。
背景技术
近红外光谱测量技术是一种用于测定物质的化学组分的技术,其包含有对应的波长、频率、幅值等特征,可以通过近红外光谱分析检测物体的性质。这项技术已经广泛应用于许多领域,如化学、生物、地质和天文学等。但在光谱检测时,由于会受到场景中环境的影响,如场景中温度、湿度、振动、灰尘、噪音和光谱仪性能等多方面的干扰,使得所得到的光谱测量数据的精度较低。
为了提升光谱测量数据的精度,需对光谱测量数据进行数据优化,相关技术中通过样品数据与标准数据进行比较,从而实现异常数据的分析,这种方式下,由于需要进行标准数据的获取与分析,其具体实现过程过于依赖标准数据的可靠性,导致对应的检测精度与可靠性不足,优化效果较差。
发明内容
为了解决相关技术中对光谱测量数据检测精度与可靠性不足,优化效果较差的技术问题,本发明提供一种高精度光谱测量数据优化处理方法,所采用的技术方案具体如下:
本发明提出了一种高精度光谱测量数据优化处理方法,方法包括:
周期性获取待测样本在不同时间点的光谱测量数据,确定光谱测量数据在不同维度的初始孤立树;
根据所述光谱测量数据中数据点在不同的初始孤立树中的深度信息和不同深度信息的频次,构建每个数据点的深度序列;根据任意两个数据点的深度序列、两个数据点的幅值差异和频率差异,确定两个数据点的结构相似性;
将任一数据点作为待测数据点,对待测数据点与其他所有数据点的所述结构相似性进行聚类,得到待测数据点的聚类簇,将待测数据点的频率作为待测频率,将所有数据点对应的聚类簇中包含待测频率的聚类簇作为待测聚类簇,根据所有所述待测聚类簇中的结构相似性的值确定待测频率的相似一致性程度;根据不同频率的相似一致性程度对所述光谱测量数据的频率区间进行划分,得到特征波段;
根据不同时间点的特征波段中包含的频率的差异,确定孤立树分裂频率,基于所述孤立树分裂频率在不同维度的值对所述光谱测量数据进行孤立树分析,确定异常数据点,根据所述异常数据点对光谱测量数据进行数据优化,得到优化光谱数据。
进一步地,所述根据所述光谱测量数据中数据点在不同的初始孤立树中的深度信息和不同深度信息的频次,构建每个数据点的深度序列,包括:
将所述数据点在初始孤立树中的深度值作为深度信息,将深度值和同一深度值下数据点的频次组合作为深度向量;
将所有深度值所分别对应的深度向量按照深度值由小到大的顺序进行排序,得到数据点的深度序列。
进一步地,所述根据任意两个数据点的深度序列、两个数据点的幅值差异和频率差异,确定两个数据点的结构相似性,对应的计算公式为:
;式中,/>
进一步地,所述根据所有所述待测聚类簇中的结构相似性的值确定待测频率的相似一致性程度,包括:
计算每个待测聚类簇中所有数据点的结构相似性的值的均值作为聚类簇均值;
计算所有待测聚类簇的聚类簇均值的和值,并将和值进行归一化处理得到待测频率的相似一致性程度。
进一步地,所述根据不同频率的相似一致性程度对所述光谱测量数据的频率区间进行划分,得到特征波段,包括:
将相邻且相似一致性程度大于预设一致性阈值的频率组合,得到特征波段。
进一步地,所述根据不同时间点的特征波段中包含的频率的差异,确定孤立树分裂频率,包括:
确定任一频率在所有时间点中,处于特征波段内的频次作为特征频次;
对所述特征频次进行反比例的归一化处理得到孤立系数;
在所述孤立系数大于预设孤立阈值时,将对应的频率作为孤立树分裂频率。
进一步地,所述基于所述孤立树分裂频率在不同维度的值对所述光谱测量数据进行孤立树分析,确定异常数据点,包括:
基于孤立树算法,将所述孤立树分裂频率所对应的不同维度的特征点作为分割点进行分析,将孤立树分析得到的离群点作为异常数据点。
进一步地,所述根据所述异常数据点对光谱测量数据进行数据优化,得到优化光谱数据,包括:
在光谱测量数据中删除异常数据点,将剩余的数据点组成优化光谱数据。
进一步地,所述确定光谱测量数据在不同维度的初始孤立树,包括:
基于孤立树算法,对任一时间点的光谱测量数据在任一维度下随机选择分割点并进行分析,得到光谱测量数据在不同维度的初始孤立树。
进一步地,所述对待测数据点与其他所有数据点的所述结构相似性进行聚类,得到待测数据点的聚类簇,包括:
使用k-means聚类算法对待测数据点与其他所有数据点的所述结构相似性进行聚类,得到待测数据点的聚类簇。
本发明具有如下有益效果:
本发明通过周期性获取待测样本在不同时间点的光谱测量数据,确定光谱测量数据在不同维度的初始孤立树。而后,根据数据点在不同的初始孤立树中的深度信息和频次构建深度序列,通过深度序列的构建能够准确对初始孤立树中各叶子节点的分布进行分析,进而结合深度序列、幅值差异和频率差异,确定数据点间的结构相似性,使得结构相似性能够有效表征对应数据点的相似程度。根据结构相似性进行聚类,并计算相似一致性程度;根据不同频率的相似一致性程度对光谱测量数据的频率区间进行划分,得到特征波段,由于是将相似一致性程度作为特征波段的划分依据,能够对所有时间点的光谱测量数据进行分析,从而能够根据光谱测量数据在不同时间点的变化筛选出最具有稳定特性的特征波段,保证特征波段的识别效果,便于后续根据特征波段分析孤立树分裂频率,确定异常数据点,使得异常数据点的获取能够综合多维度、多时间点的数据特征,保证异常数据点获取的可靠性与准确性,最后,根据准确性与可靠性更高的异常数据点对光谱测量数据进行数据优化,得到优化光谱数据,能够提升优化光谱数据的检测精度与可靠性。综上,本发明能够有效提升光谱测量数据的检测精度,实现高精度光谱测量数据的优化处理,提升优化光谱数据的可靠性,增强对光谱测量数据的优化效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种高精度光谱测量数据优化处理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种高精度光谱测量数据优化处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种高精度光谱测量数据优化处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种高精度光谱测量数据优化处理方法流程图,该方法包括:
S101:周期性获取待测样本在不同时间点的光谱测量数据,确定光谱测量数据在不同维度的初始孤立树。
本发明的一种具体的应用场景可以例如为:利用高精度红外光谱仪对相同的待测样本在检测周期内获得多个高精度光谱检测数据。其中,待测样本可以具体例如为水体样本、食品样本、金属样本等多种能够应用光谱仪进行检测的实体样本。
需要说明的是,在检测过程中保持检测环境状况一致,避免外界环境对高精度光谱测量数据的影响,同时,可以设置检测周期为25分钟,在25分钟内每隔30秒作为一个时间点,获取不同时间点的高精度光谱检测数据,当然,检测周期与采样频率都可以根据具体的实施场景进行设定,对此不做限制。
其中,高精度光谱检测数据,为不同时间点的不同频率按照升序排列的幅值序列,以时间为横轴,频率为纵轴,可以表示成光谱曲线图的形式,也即高精度光谱检测数据为对饮的该光谱曲线图。至此,获得多个不同时间点的相同待测样本的高精度光谱测量数据,便于后续的光谱测量数据变化特征分析,实现异常数据提取与高精度光谱测量数据优化处理。
本发明实施例中,可以确定光谱测量数据的多个不同的维度,该维度为待测样本的光谱测量数据的特征维度,例如幅值维度、频率维度等。
进一步地,在本发明的一些实施例中,确定光谱测量数据在不同维度的初始孤立树,包括:基于孤立树算法,对任一时间点的光谱测量数据在任一维度下随机选择分割点并进行分析,得到光谱测量数据在不同维度的初始孤立树。
本发明实施例以幅值维度作为具体维度进行分析,任选某一数据点作为分割点,根据分割点将所述光谱测量数据进行切割,并将所形成的两个子序列作为两个叶子结点,而后,根据叶子结点的数据量和数据分布再次进行切割,得到下一层的叶子节点,直至最底层叶子结点的数据仅有一个时停止切割,得到初始孤立树,本发明实施例中,初始孤立树的获取过程为本领域所熟知的技术,对此不作进一步赘述与限定,由于所选择的分割点为随机的分割点,进而会导致所形成的初始孤立树对于异常数据的筛选过程可靠性较低,因此,本发明通过对初始孤立树进行分析,进而选取最优的分割点,能够有效提升异常数据的筛选,进一步提升光谱测量数据优化处理的效果。对于分析和选取的过程请参见后续实施例。
S102:根据光谱测量数据中数据点在不同的初始孤立树中的深度信息和不同深度信息的频次,构建每个数据点的深度序列;根据任意两个数据点的深度序列、两个数据点的幅值差异和频率差异,确定两个数据点的结构相似性。
本发明实施例中,每一维度均可以对应一个初始孤立树,由于光谱测量数据包含多个维度,而仅根据一个维度的异常数据选取,其可靠性较低,因此,本发明结合所有维度进行总体分析。
可以理解的是,由于不同的待测样本对于其光谱的各波段的分布特征具有决定性作用,各光谱波段上的数据点和相邻数据点的相似性特征与其波段位置有关。因此本方案根据孤立树算法对数据点构建的孤立树,并分析任意两个数据点的结构相似性。
进一步地,在本发明的一些实施例中,根据光谱测量数据中数据点在不同的初始孤立树中的深度信息和不同深度信息的频次,构建每个数据点的深度序列,包括:将数据点在初始孤立树中的深度值作为深度信息,将深度值和同一深度值下数据点的频次组合作为深度向量;将所有深度值所分别对应的深度向量按照深度值由小到大的顺序进行排序,得到数据点的深度序列。
可以理解的是,初始孤立树中包含多层结构,也即包含多层的叶子节点,则本发明实施例中可以将叶子节点所处层数作为对应的深度值,本发明以叶子节点距离根节点越近则所处层数的值越小进行具体分析,则对应的深度值越大,则可以表示数据点所处叶子节点距离根节点越远,则本发明实施例中将深度值作为深度信息,同时,由于在进行孤立树分析时,叶子节点中仅包含一个数据点时,可以表示对应的该数据点被完全划分,因此,更深层的叶子节点中将不包含该数据点,也即是说,深度信息越大,则可以表示该数据点在对应维度下更正常,而为了分析数据点的相似性,则可以确定相同深度信息下所有维度中该数据点出现的频次,将深度值和同一深度值下数据点的频次组合作为数据点的深度向量。
举例而言,以数据点p为具体示例,包含的维度有频率、幅值、幅值变化率三个维度,则点p在频率维度的深度值为3,在幅值的维度中,深度值为3的叶子节点中包含数据点p,在幅值变化率的维度中,深度值为3的叶子节点中不包含数据点p,也即频次为2,则对应的深度向量为(3,2),数据点p在其他深度值下同样进行分析,而后,将深度向量按照深度值由小到大的顺序进行排序,得到对应的深度序列。
其中,结构相似性可以表征两个数据点在所有孤立树的结构分布的相似程度,由于光谱数据上的波段物理特征,其一定频率区间内的数据点对应于同一种物质,因此频率区间内的数据点的深度序列的相似性才具有实际意义。由此,两个数据点的间的深度序列越相似,频率越相似,且幅值越相似,则两个数据点的结构相似性越大。
进一步地,在本发明的一些实施例中,根据任意两个数据点的深度序列、两个数据点的幅值差异和频率差异,确定两个数据点的结构相似性,对应的计算公式为:
式中,
可以理解的是,深度序列可以作为对应数据点在所有维度下整体的分布信息,因此,本发明实施例中对任意两个数据点的深度序列的DTW距离进行计算,其中,DTW距离,是基于动态时间规整(Dynamic Time Warping,DTW)算法所计算得到的两个序列的距离,在DTW距离越小时,表示对应的两个数据点的相似性越高,则
S103:将任一数据点作为待测数据点,对待测数据点与其他所有数据点的结构相似性进行聚类,得到待测数据点的聚类簇,将待测数据点的频率作为待测频率,将所有数据点对应的聚类簇中包含待测频率的聚类簇作为待测聚类簇,根据所有待测聚类簇中的结构相似性的值确定待测频率的相似一致性程度;根据不同频率的相似一致性程度对光谱测量数据的频率区间进行划分,得到特征波段。
进一步地,在本发明的一些实施例中,对待测数据点与其他所有数据点的结构相似性进行聚类,得到待测数据点的聚类簇,包括:使用k-means聚类算法对待测数据点与其他所有数据点的结构相似性进行聚类,得到待测数据点的聚类簇。
本发明实施例中,可以使用预设k值作为聚类的质心数量,其中,预设k值可以根据实际检测经验进行设置,或者,也可以基于手肘法等方式计算得到预设k值,当然,可以理解的是,k-means聚类算法为基于距离的聚类算法,因此,使用k-means聚类算法,对待测数据点与其他所有数据点的结构相似性进行聚类,所得到的聚类簇为空间中分布较为相近的聚类簇。
可以理解的是,得到的聚类簇为以待测数据点的视角判断的相似性较高的多个频率区间,根据以不同待测数据点为视角的多个聚类结果,对任一频率的相似一致性程度进行分析,也即将待测数据点的频率作为待测频率,将所有数据点对应的聚类簇中包含待测频率的聚类簇作为待测聚类簇。
进一步地,在本发明的一些实施例中,根据所有待测聚类簇中的结构相似性的值确定待测频率的相似一致性程度,包括:计算每个待测聚类簇中所有数据点的结构相似性的值的均值作为聚类簇均值;计算所有待测聚类簇的聚类簇均值的和值,并将和值进行归一化处理得到待测频率的相似一致性程度。
本发明实施例中,可以对每个待测聚类簇进行分析,也即计算待测聚类簇中所有数据点的结构相似性的值的均值作为聚类簇均值,可以理解的是,待测聚类簇即为以不同的数据点为待测数据点,所得到的包含固定频率的聚类簇的集合,也即是说,对待测聚类簇进行分析,也即对光谱测量数据进行整体分析,所得到的相似一致性程度具有更优的表现效果。
进一步地,在本发明的一些实施例中,根据不同频率的相似一致性程度对光谱测量数据的频率区间进行划分,得到特征波段,包括:将相邻且相似一致性程度大于预设一致性阈值的频率组合,得到特征波段。
其中,相邻,即为相距最近的两个频率,本发明实施例中,可以将相似一致性程度大于预设一致性阈值的相邻频率进行组合,并遍历所有频率,得到相似一致性程度较大的特征波段。
其中,预设一致性阈值,为相似一致性程度的门限值,本发明实施例中,可以将预设一致性阈值设置为0.89,对此不做限制。
S104:根据不同时间点的特征波段中包含的频率的差异,确定孤立树分裂频率,基于孤立树分裂频率在不同维度的值对光谱测量数据进行孤立树分析,确定异常数据点,根据异常数据点对光谱测量数据进行数据优化,得到优化光谱数据。
本发明实施例中,可以根据获得的各频率上的相似一致性程度及所有的特征波段进行分析,从而实现异常数据点的获取,由于特征波段是在一个时间点获取的光谱测量数据上的频率波段,随着时间的变化其存在一定的光谱数据变化,因此应当结合多时间点的波段波动特征,对特征波段的稳定程度进行分析,从而确定每一频率的数据在对应孤立树分析处理时的优选程度,本发明以孤立系数作为对应的优选程度。
进一步地,在本发明的一些实施例中,根据不同时间点的特征波段中包含的频率的差异,确定孤立树分裂频率,包括:确定任一频率在所有时间点中,处于特征波段内的频次作为特征频次;对特征频次进行反比例的归一化处理得到孤立系数;在孤立系数大于预设孤立阈值时,将对应的频率作为孤立树分裂频率。
本发明实施例中,对每一频率进行具体分析,也即是说,将频率在所有时间点对应的特征波段中出现的频次作为特征频次,而特征频次越大,则可以表示对应的频率在所有数据点中越大众化,也即越正常,因此将该频率作为孤立树分裂的分割点,所导致的分裂效果越差,进而导致在进行孤立树分裂时的计算冗余,因此,本发明实施中对特征频次进行反比例的归一化处理得到孤立系数,孤立系数越大,表示对应的分割点的选择效果越优。
其中,预设孤立阈值,为孤立系数的门限值,本发明实施例中,预设孤立阈值可以具体例如为0.85,或者,也可以根据实际检测需求进行调整,对此不作进一步限定与赘述。从大于预设孤立阈值的频率作为孤立树分裂频率,而后,基于孤立树分裂频率进行孤立树构建和分析。
进一步地,在本发明的一些实施例中,基于孤立树分裂频率在不同维度的值对光谱测量数据进行孤立树分析,确定异常数据点,包括:基于孤立树算法,将孤立树分裂频率所对应的不同维度的特征点作为分割点进行分析,将孤立树分析得到的离群点作为异常数据点。
本发明实施例中,可以基于孤立树算法,将孤立树分裂频率所对应的不同维度的特征点作为分割点,构建孤立树,并根据孤立树的分布特征直接得到离群点,将离群点作为异常数据点。
这种情况下,避免了孤立树分割点选择到正常的数据点,从而导致整体孤立树的结构复杂、计算繁琐的问题。
进一步地,在本发明的一些实施例中,根据异常数据点对光谱测量数据进行数据优化,得到优化光谱数据,包括:在光谱测量数据中删除异常数据点,将剩余的数据点组成优化光谱数据。
本发明实施例中,在检测得到异常数据点之后,可以在光谱测量数据中删除对应的异常数据点,或者也可以根据异常数据点所处局部范围内其他数据点的特征,对异常数据点进行平滑处理,以消除异常数据点对整体光谱测量数据的影响,得到质量更优的优化光谱数据。
本发明通过周期性获取待测样本在不同时间点的光谱测量数据,确定光谱测量数据在不同维度的初始孤立树。而后,根据数据点在不同的初始孤立树中的深度信息和频次构建深度序列,通过深度序列的构建能够准确对初始孤立树中各叶子节点的分布进行分析,进而结合深度序列、幅值差异和频率差异,确定数据点间的结构相似性,使得结构相似性能够有效表征对应数据点的相似程度。根据结构相似性进行聚类,并计算相似一致性程度;根据不同频率的相似一致性程度对光谱测量数据的频率区间进行划分,得到特征波段,由于是将相似一致性程度作为特征波段的划分依据,能够对所有时间点的光谱测量数据进行分析,从而能够根据光谱测量数据在不同时间点的变化筛选出最具有稳定特性的特征波段,保证特征波段的识别效果,便于后续根据特征波段分析孤立树分裂频率,确定异常数据点,使得异常数据点的获取能够综合多维度、多时间点的数据特征,保证异常数据点获取的可靠性与准确性,最后,根据准确性与可靠性更高的异常数据点对光谱测量数据进行数据优化,得到优化光谱数据,能够提升优化光谱数据的检测精度与可靠性。综上,本发明能够有效提升光谱测量数据的检测精度,实现高精度光谱测量数据的优化处理,提升优化光谱数据的可靠性,增强对光谱测量数据的优化效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
- 一种全自动重力测试仪高精度动态数据处理方法
- 基于优化数据模型的雷达物位计高精度测量输出处理方法
- 一种光谱测量系统及多外差拍频信号探测及数据处理方法