导航：首页> 医学或兽医学；卫生学>一种基于迭代K-means算法的微结构台阶高精度表征方法

一种基于迭代K-means算法的微结构台阶高精度表征方法

文献发布时间：2023-06-19 13:45:04

技术领域

本发明涉及一种微纳米台阶高度表征方法，具体涉及一种基于迭代K-means算法的微结构台阶高精度表征方法，尤其是适用于微结构三维表面测量数据的处理与表征。

背景技术

台阶高度是指高低平面中距离边缘特定距离的垂直距离。在导体、微电子和纳米制造等领用中，台阶高度是精密光学元件、集成电路特征尺寸、石墨烯薄膜厚度、MEMS、芯片等精密结构的特征尺寸。同时，微纳米台阶也是纳米测量领域里重要的计量标准器具，广泛应用于微纳米测量仪器的标定与校准工作中。微纳米台阶高度测量与表征是当前纳米测量技术和纳米计量标准的重要课题之一，并且已经得到了世界上主要工业国家的普遍重视。

目前，台阶高度作为微纳米计量领域中的关键几何特征量，其表征评定方法研究一直是精密测量领域的热点和难题，现阶段主要常用的方法包括点对点的高度提取方法(两点法)、单边法、直方图法、ISO法、最小二乘多项式拟合等。其中，ISO评定方法应用最为广泛，在最新的GPS标准(ISO 25178-700)中，规定了基于区域的台阶高度评定方法和基于轮廓的台阶高度评定方法。

但是，随着工业过程控制以及微纳加工产品精度测量需求的增长，器件特征尺寸以及与之关联的公差不断减小的同时形状结构的复杂程度却不断增加，对具有良好的重复性、准确性和可靠性等特征的微纳米台阶高度测量及计量表征方法的需求也日趋迫切。尤其是三维测量技术的不断发展，台阶高度表征已经从传统的二维台阶高度表征向三维台阶高度表征转变。由此带来的主要问题是，微结构表面三维形貌实测数据集较大，其表面几何特征突变频繁，实测数据通常含有未测点和离群值等测量缺陷，难以用传统方法对其进行高精度表征处理。因此，针对微纳米台阶高度实测多维面型数据中存在离群值和未测点，并且数据量庞大复杂的问题，如何实现其高精度表征成为一个亟待解决的技术问题。

发明内容

为了解决三维表面测量仪器所测得数据中存在离群值和未测点以及数据量庞大复杂等问题，本发明的目的在于克服已有技术的不足，提供一种基于迭代K-means算法的微结构台阶高精度表征方法，尤其是针对各种三维测量仪器获得的面型数据，实现高精度表征。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于迭代K-means算法的微结构台阶高精度表征方法，将通过白光干涉三维测量仪获得的面型数据进行维度重构，将复杂的多维面型数据降维至二维空间后，利用基于迭代K-means聚类算法和数据映射的方法，识别并去除离群值的同时将二维数据点集中的质心距离映射为所求的台阶高度值，其特征在于，包括以下步骤：

(1)通过三维表面形貌测量仪器获得表面原始数据；

(2)对原始数据进行维度重构，获得维数一半数量的二维数据点集，若维数为奇数则减一；

(2-1)输入在所述步骤(1)中所获得的表面原始数据；

(2-2)将原始数据矩阵中的各奇数行提出组成奇数行矩阵A，将原始数据矩阵中的各偶数行提出组成偶数行行矩阵B；

(2-3)将两个分矩阵A、B的同行数据重组成二维数据集，并以其作为坐标点，绘制在坐标系中；

(2-4)保存各二维数据点集，即完成数据维度重构，得到各个二维数据集；

(3)基于迭代K-means算法的质心距离计算，并进行数据映射；

(3-1)将原始数据维度重构后获得的各个二维数据集依次输入；

(3-2)将K-means算法中的聚类中心设置为2，利用K-means算法进行一次聚类，获得两个团簇及中心点坐标；

(3-3)计算每个数据点到所属团簇的聚类中心的距离值，并计算距离的平方值和方差；

(3-4)利用莱茵达法则选择离群值，并利用一次聚类中心迭代替换离群值；

(3-5)将聚类中心迭代替换后的数据值再次利用K-means聚类运算；

(3-6)计算两聚类中心距离，并利用数据映射完成一组重组数据的台阶高度表征；

(3-7)依次处理各重构二维重组数据，直到每个二维点集合都处理完成，并将表征结果存储；

(3-8)将所得数据取平均值，作为一次台阶高度表征结果；

(4)迭代收敛设计：基于所需精度设置阈值，直到两次表征结果小于所设置阈值；

(5)台阶高度参数表征完成。

优选地，利用所述迭代K-means算法，去除三维测量仪器获得表面数据中的离群值与未测点的同时完成微结构台阶高度的表征。

优选地，所述离群值指明显远离正常值的点，未测点指未能获得台阶高度数据的点。

优选地，应用数据维度重构的方法，将通过白光干涉三维测量仪器测得的台阶高度测量数据进行降维，将复杂的多维面型数据降维至二维空间，重构为二维数据点集。

优选地，将聚类分析算法应用到台阶高度计量，利用基于K-means算法的质心距离计算及数据映射，进行台阶高度表征的同时，对表面实测数据中的离群值与未测点进行识别与处理。

优选地，所述多维面型数据指将被测件面型的微结构测量面型数据的数据集中，每一行作为一个维度来看，将其分为奇数行和偶数行数据进行重新组合重构为二维数据集，二维数据集的个数由实测数据的维度决定。

优选地，所述维度重构指将原始数据通过分为奇数行矩阵和偶数行矩阵两个分矩阵，并将两分矩阵中同一行数据重新组成二维数据集的过程。

优选地，所述数据映射指将重组后的二维数据集进行聚类运算后，将两质心距离通过算法映射为三维空间中的台阶高度值的过程。

优选地，在所述步骤(4)中，根据测量精度要求进行收敛设计，并完成最终的台阶高度参数表征。

优选地，所述收敛设计通过阈值设置迭代运算的停止条件，从而完成最终的台阶高度表征。

优选地，在所述步骤(1)中，通过三维表面形貌测量仪器获得表面原始数据为多维面型数据，其包括白光干涉测量仪、共聚焦显微镜、AFM原子力显微镜所得数据。其数据具有以下特点：

数据集庞大复杂；

多维特征相关性低；

存在离群值和未测点。

三维表面形貌仪所得测量数据量通常多达几万甚至上百万个，测量数据中通常会出现明显不符合要求的离群值和未能够获得数据的测量点，同时，相邻数据之间的相关性较低。

优选地，在步骤(2)中，所述数据维度重构是指：将所获得的多维面型数据降维，将原始测量数据重构为多个二维数据点集。

优选地，将数据维度降维至二维空间，为说明上述维度重构方案，将原始实测数据矩阵记录为S：

S＝{x

其中，S是一个m×n的矩阵，m是行数，n是列数。假设m为偶数，若为奇数则取m＝m-1，x为其中的形貌高度的组成元素；然后将原始数据矩阵S分别选取奇数行和偶数行数据，组成奇数行数据矩阵A和偶数行数据矩阵B，即

A＝{x

然后将奇数行矩阵的第i行数据与偶数行数据矩阵的第i行数据组成二维数据点矩阵p，即：

p＝{(A

优选地，所述二维重构数据集依据上述方案产生，最终二维数据集为相邻两行实测多维数据产生。

优选地，若三维表面实测数据为奇数行数据集，则舍弃最边缘一行数据，所舍弃数据可为最后一行数据也可为第一行数据。

优选地，K-means算法是一种无监督学习算法，能用来解决数据量较大的聚类问题。它的思想是已知一个包含N个样本数据的数据集，以及给定聚类数目K，首先随机选取K个样本分别作为初始划分的簇类中心，然后根据相似性度量函数采用迭代的方法，计算未划分的样本数据到每个聚类中心的聚类，并将改样本数据划分到与之最近的那个聚类中心所在的簇类中，对分配完成的每一个簇类，通过计算该簇类内所有的数据平均值不断移动聚类中心，重新划分聚类，知道类内误差平方和最小且没有变化时为止；该算法又一个特点就是每一次迭代过程中都要判断每个样本数据是否正确划分到簇类中，若不正确，重新调整；当全部数据调整完成后，再修改簇类中心，进行下一次迭代计算。如果某一次迭代过程中每个数据样本都分配到正确的簇类中，则不再调整聚类中心。聚类中心稳定不再发生变化，则标志着目标函数收敛，算法结束，最后评价聚类的结果。

优选地，为方便算法描述，定义已知一个含有a个数据的样本集合为M，即：

M＝{y

其中，y

C＝{c

其中，c

两个数据y与c

其中，y

优选地，在步骤(3)中，依次输入数据重构后的二维数据集点集，将K-means聚类算法中的K值设定为2进行聚类运算，并计算两聚类中心之间的欧式距离，即：

其中，P

优选地，将降维数据进行降噪处理，步骤为：

首先计算同一聚类簇中各数据值与其距离中心的距离L；

计算各点到聚类中心的距离均值L_average和距离的方差s；

利用3σ原则，分离出离群点，并将其用聚类中心替换迭代。

优选地，采用以下步骤进行数据映射：

a.首先，按照步骤(3)所述计算两聚类中心的欧式距离；

b.由毕达哥拉斯定理，得单次测量的二维数据点结果为：

其中u是指矩阵重构后获得的二维数据组数。

c.依次处理各组降维所得二维数据，分别得到降维后的二维数据组的台阶高度H(u)；

d.将所有重构完成的二维数据集按照上述步骤进行计算，将所有二维数据集的台阶高度处理结果取均值，得本次数据处理后的台阶高度值：

优选地，在步骤(4)中，所述离群值是指：远离正常数据的数据值。

优选地，在步骤(4)中，所述未测点是指：未能够获取数据的点。

优选地，在步骤(4)中，在一次台阶表征的基础上，再次应用步骤二和步骤三所述二维平面台阶高度表征算法，迭代替换处理离群值及未测点，计算每次迭代处理的台阶高度值。

优选地，在步骤(5)中，依据所需测量精度设置阈值，将连续两次迭代处理得到的台阶高度测量结果之差与所设置阈值进行比较，直到两次迭代的结果小于所需精度(阈值)，即假设每次测量结果为H(v)，则当H(v+1)-H(v)＜Δ时，其中Δ为设定的最小差值，H(v)即为台阶高度表征结果。

一种微结构台阶高精度表征信息分析系统，执行本发明基于迭代K-means算法的微结构台阶高精度表征方法。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明应用数据维度重构的方法将通过白光干涉三维测量仪器或者其他三维测量仪器获得的台阶高度测量数据进行降维，将复杂的多维面型数据降维至二维空间，提高数据处理效率与表征效率，从而能够进一步利用K-means算法的高鲁棒性表征台阶高度；

2.本发明将聚类分析算法应用到台阶高度计量领域，利用基于K-means算法的质心距离计算及数据映射，提高了台阶高度表征效率的同时对表面实测数据中的离群值与未测点进行识别与处理，增强了算法的准确度与鲁棒性；

3.本发明通过收敛设计与最终的参数表征，进一步增强算法的准确性与鲁棒性。由于本算法采用聚类分析处理多维数据，通过应用本算法可以实现台阶高度表征不受离群值的影响，快速准确地获得台阶高度表征值；

4.本发明方法简单易行，成本低，适合推广使用。

附图说明

图1为本发明优选实施例基于迭代K-means算法的微结构台阶高精度表征方法流程图。

图2为本发明优选实施例的维度重构方法的流程图。

图3为本发明优选实施例的基于K-means算法的数据质心距离计算及数据映射的流程图。

图4为本发明优选实施例的带有离群值的原始数据二维图。

图5为本发明优选实施例的原始数据K-means聚类图。

图6为本发明优选实施例去除离群值后的二维数据图。

图7为本发明优选实施例去除离群值后的K-means聚类结果图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，基于迭代K-means算法的微结构台阶高精度表征方法，将通过白光干涉三维测量仪获得的面型数据进行维度重构，将复杂的多维面型数据降维至二维空间后，利用基于迭代K-means聚类算法和数据映射的方法，识别并去除离群值的同时将二维数据点集中的质心距离映射为所求的台阶高度值，其特征在于，包括以下步骤：

(1)通过三维表面形貌测量仪器获得表面原始数据；

(2)对原始数据进行维度重构，获得维数一半数量的二维数据点集，若维数为奇数则减一；

(2-1)输入在所述步骤(1)中所获得的表面原始数据；

(2-2)将原始数据矩阵中的各奇数行提出组成奇数行矩阵A，将原始数据矩阵中的各偶数行提出组成偶数行行矩阵B；

(2-3)将两个分矩阵A、B的同行数据重组成二维数据集，并以其作为坐标点，绘制在坐标系中；

(2-4)保存各二维数据点集，即完成数据维度重构，得到各个二维数据集；

(3)基于迭代K-means算法的质心距离计算，并进行数据映射；

(3-1)将原始数据维度重构后获得的各个二维数据集依次输入；

(3-2)将K-means算法中的聚类中心设置为2，利用K-means算法进行一次聚类，获得两个团簇及中心点坐标；

(3-3)计算每个数据点到所属团簇的聚类中心的距离值，并计算距离的平方值和方差；

(3-4)利用莱茵达法则选择离群值，并利用一次聚类中心迭代替换离群值；

(3-5)将聚类中心迭代替换后的数据值再次利用K-means聚类运算；

(3-6)计算两聚类中心距离，并利用数据映射完成一组重组数据的台阶高度表征；

(3-7)依次处理各重构二维重组数据，直到每个二维点集合都处理完成，并将表征结果存储；

(3-8)将所得数据取平均值，作为一次台阶高度表征结果；

(4)迭代收敛设计：基于所需精度设置阈值，直到两次表征结果小于所设置阈值；

(5)台阶高度参数表征完成。

本实施例基于迭代K-means算法的微结构台阶高精度表征方法，尤其是针对各种三维测量仪器获得的面型数据，实现高精度表征。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，利用所述迭代K-means算法，去除三维测量仪器获得的三维数据中的离群值，即明显远离正常值的点与未测点，未能获得台阶高度数据的点的同时完成微结构台阶高度的表征。

在本实施例中，应用数据维度重构的方法，将通过白光干涉三维测量仪器测得的台阶高度测量数据进行降维，将复杂的多维面型数据降维至二维空间，重构为二维数据点集。

在本实施例中，将聚类分析算法应用到台阶高度计量，利用基于K-means算法的质心距离计算及数据映射，进行台阶高度表征的同时，对表面实测数据中的离群值与未测点进行识别与处理。

在本实施例中，所述多维面型数据指将被测件面型的微结构测量面型数据的数据集中，每一行作为一个维度来看，将其分为奇数行和偶数行数据进行重新组合重构为二维数据集，二维数据集的个数由实测数据的维度决定。

在本实施例中，所述维度重构指将原始数据通过分为奇数行矩阵和偶数行矩阵两个分矩阵，并将两分矩阵中同一行数据重新组成二维数据集的过程。

在本实施例中，所述数据映射指将重组后的二维数据集进行聚类运算后，将两质心距离通过算法映射为三维空间中的台阶高度值的过程。

在本实施例中，在所述步骤(4)中，对测量精度进行收敛设计，并完成最终的台阶高度参数表征。

在本实施例中，所述收敛设计通过阈值设置迭代运算的停止条件，从而完成最终的台阶高度表征。

在本实施例中，在所述步骤(1)中，通过三维表面形貌测量仪器获得表面原始数据为多维面型数据，其包括白光干涉测量仪、共聚焦显微镜、AFM原子力显微镜所得数据。

本实施例方法应用数据维度重构的方法将通过白光干涉三维测量仪器或者其他三维测量仪器获得的台阶高度测量数据进行降维，将复杂的多维面型数据降维至二维空间，提高数据处理效率与表征效率，从而能够进一步利用K-means算法的高鲁棒性表征台阶高度；本实施例将聚类分析算法应用到台阶高度计量领域，利用基于K-means算法的质心距离计算及数据映射，提高了台阶高度表征效率的同时对表面实测数据中的离群值与未测点进行识别与处理，增强了算法的准确度与鲁棒性；本实施例通过收敛设计与最终的参数表征，进一步增强算法的准确性与鲁棒性。由于本实施例算法采用聚类分析处理多维数据，通过应用本算法可以实现台阶高度表征不受离群值的影响，快速准确地获得台阶高度表征值。

实施例三：

本实施例与上述实施例基本相同，特别之处在于：

在本实施例中，基于迭代K-means算法的微结构台阶高精度表征方法，详细步骤包括以下步骤：

S1、获取原始数据：

现阶段，随着光学和图像处理能力的日益提高，应用各种光学立体成像与测量仪器获得精密光学元件面型、集成电路线宽、微机电几何形貌等精密结构的特征尺寸数据时，其结构数据十分复杂且测量数据通常存在离群值影响测量结果的准确性。其数据通常具有以下特点：

1.数据集庞大复杂；

2.多维特征相关性低；

3.存在离群值和未测点等。

S2、将各种三维表面测量仪器所获得的实测数据进行维度重构，将多维面型数据重构为多个二维数据集。对多维数据进行直接处理表征会面临维度灾难等数据处理难题，应用所述维度重构方法，可以大大提高数据的处理效率，降低数据处理的难度，并且作为台阶高度表征的预处理手段，将原始数据维度降维至二维空间。

S2-a：为清楚完整描述所述数据维度重构方案，首先将原始实测数据矩阵记录为S：

S＝{x

其中，S是一个m×n的矩阵，假设m为偶数，若为奇数则取m＝m-1。

S2-b：将原始数据矩阵S分别选取奇数行和偶数行数据，组成奇数行数据矩阵A和偶数行数据矩阵B。即

A＝{x

B＝(x

S2-c：然后将奇数行矩阵的第i行数据与偶数行数据矩阵的第i行数据组成二维数据点矩阵p，即：

p＝{(A

经过以上步骤，通过数据维度重构，将多维面型数据降维至二维空间，并将所重构的二维数据集合作为横纵坐标值绘制到坐标系中。

S2-d：二维重构数据集依据上述方案产生，采用相邻两行数据产生，提高数据处理效率的同时增强二维数据的可靠性，简化数据处理难度，提高数据处理效率和离群值的去除率，同时若实测数据为奇数，则舍弃边缘数据，进一步增强算法的可靠性。

S3、基于K-means算法的数据质心距离计算及数据映射，将数据维度重构后的数据利用基于K-means算法的质心距离计算，将台阶高度转化为二维点集的质心距离。

K-means聚类算法是一种经典的聚类算法，其本质上是基于距离相似性的度量，通过不断地迭代运算，直到其收敛到聚类中心而停止，K-means算法实施过程简单，聚类效果高效，从而在许多数据量急剧增多的领域都有着广泛的应用，比如在工业、金融、商业、科技等领域，但是目前还未发现其在表面计量领域的研究。K-means聚类算法中的K值代表所要聚类的数目，means表示各个维度数据所构成的簇类的数据均值。

本实施例选取欧式距离作为相似性和距离判断的准则，然后计算每个样本数据到每个聚类中心的距离，从而将该样本数据划分到与之最近的聚类中心所在的簇类中，通过不断迭代运算的方法，直到簇类内所有数据的平方和最小且没有变化时为止。

参阅图3，基于K-means算法的数据质心距离计算及数据映射详细步骤如下所述：

S3-a：首先获取一组维度重构后的二维数据集，应用K-means聚类算法依次处理所得的各组重构的二维数据，将其分别进行数据映射处理，依次得到每组二维数据集合经过数据映射所得的台阶高度。

为进一步详细介绍算法的实现过程，利用MATLAB软件生成矩阵大小为150×2的模拟数据S

S3-b：针对台阶高度而言，台阶高度仅有上下高低平面之差决定，所得测量面型数据具有明显的特殊性，理论上仅有上下高低平面之差决定，所得测量面型数据具有明显特殊性。因此，通过应用上述数据维度重构方法，多维面型数据降维至二维空间后，数据分布为明显的两个团簇。两个聚类团簇聚类中心应在上下高低平面数据点P

其中，P

如图5所示为利用K-means聚类的结果图，通过K-means算法进行聚类，将二维数据点集分为两个团簇，两个团簇的中心点分别为P

S3-c：计算各个点到所属团簇的聚类中心的距离，以及距离的平均值和方差，步骤为：首先计算同一聚类簇中各数据值与其剧烈中心的距离L；计算各点到聚类中心的距离均值L_average和距离的方差s；利用3σ原则，分离出离群点，为接下来的数据降噪及数据映射做准备。

S3-d：将分离出的离群值及未测点数据用其所属聚类中心替换迭代，完成原始数据的一次降噪处理，去噪完成后的结果图如图6所示，离群值明显被去除，所示区域已无离群值。

S3-e：将去掉离群值及未测点的一次降噪数据再次进行K-means聚类运算，此时的台阶高度表征值较未去噪数据更为准确。

S3-f：为减小数据误差的影响，增强算法鲁棒性，利用数据映射，将质心距离映射为台阶高度表征值，具体步骤为：

1.首先，计算两聚类中心的欧式距离；

2.由毕达哥拉斯定理，得单次测量的二维数据点结果为：

其中，

通过上述数据映射方法，将数据重构后的二维平面数据点集的质心距离映射至三维空间中的台阶高度，二维数据点集的台阶高度映射值H如图7所示。

S3-g：依次处理步骤S1中各组降维重构所得的二维数据集，分别得到降维后的二维数据组的台阶高度H(u)。

S3-h：将所有数据重构所获得的二维数据集单次计算结果取均值，得本次数据处理后的台阶高度值：

S4、利用迭代K-means聚类算法，去除离群值与未测点，提高测量精度，增强算法的稳定性和鲁棒性，在一次台阶表征的基础上，循环应用S2和S3所述步骤，获取每次处理得到的台阶高度表征值，依据所需测量精度设置阈值，直到两次台阶高度测量结果满足精度要求，即假设每次测量结果为H(v),则当H(v+1)-H(v)＜Δ时；其中Δ为设定的最小差值，H(v)即为台阶高度表征结果。

S5、获得最终台阶高度表征结果，将多维面型原始数据进行降维重组后，在台阶高度表征领域引入了聚类算法，提高了台阶高度表征效率的同时对表面实测数据中的离群值进行识别与处理，增强了算法的准确度与鲁棒性。

基于上述描述和分析，本实施例将聚类分析引入表面计量领域，提高台阶高度表征效率的同时对表面实测数据中的离群值进行识别与处理，使得台阶高度表征能够不受离群值和未测点的影响，快速准确地获得台阶高度表征值。

上述实施例基于迭代K-means算法的微结构台阶高精度表征方法，其步骤包括：首先，将通过白光干涉获得的台阶高度测量数据进行维度重构，将复杂的多维面型数据降维至二维空间；基于K-means聚类算法和数据映射，识别与去除离群值的同时将二维数据点集中的质心距离映射为所求台阶高度值；最后，通过迭代收敛设计，进一步提高算法表征结果的准确度和鲁棒性，完成台阶高度参数表征。上述实施例将聚类分析算法应用到台阶高度计量领域，利用基于K-means算法的质心距离计算及数据映射，提高了台阶高度表征效率的同时对表面实测数据中的离群值与未测点进行识别与处理，通过应用本算法可以实现台阶高度表征不受离群值的影响，快速准确地获得台阶高度表征值。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王陈;孟宪昱;常林;于瀛洁;周文静;
专利申请人：上海大学;