导航：首页> 计算；推算；计数>一种高通量全自动材料快速评价分析软件数据处理方法

一种高通量全自动材料快速评价分析软件数据处理方法

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及数字数据处理技术领域，具体涉及一种高通量全自动材料快速评价分析软件数据处理方法。

背景技术

高通量材料是指通过高通量实验方法，以高效、快速、自动化的方式制备大量用于新材料测试的材料样品，而高通量全自动材料快速评价分析软件是一种集成色谱和质谱分析数据的软件，通过建立多种实验参照数据库，数据库中包含催化剂的大部分常规反应，比如甲烷氧化，甲烷偶联，乙烯环氧化等特征反应，形成反应模型，对各种反应进行标准化的操作。在统一的条件下，对催化剂的反应性能和条件进行快速的筛选，并提供实验分析所需的字母数字报告，字母数字报告包括实验工艺的基本信息（温度、压力等）、色谱和质谱的数据图等多个方面的信息，对材料科学的研究、新材料开发和工程应用具有重要的意义。

为了更好地管理和利用高通量材料的实验数据资源，需要对软件中的实验参照数据库进行相关实验数据的快速、准确地检索，以帮助实验人员快速找到之前所做过的试验结果，避免因实验数据丢失或遗漏导致实验结果重复或无法复现的情况。传统的数据检索方法如：线性检索方法具有较高的检索精度，但不适用于处理高维数据；基于索引结构，如R树、kd树的检索方法，能处理高维数据，但是索引的构建和维护成本较高，并随着数据维度的增加索引检索的效率下降明显；基于聚类的近似最近临检索方法，通过对数据进行划分来加速高维数据的检索效率，但是数据的划分效果影响数据的检索精度。迭代自组织聚类ISODATA（Iterative Self-Organizing Data Analysis Technology Algorithm）算法因具有较好的自适应性、鲁棒性和高效性的优点，适用于高维数据的自适应聚类，但是该算法中的初始聚类中心是随机选取的，而随机选择可能会导致初始聚类中心的选取质量较差，造成对高维数据进行数据聚类的效果较差。

发明内容

本发明提供一种高通量全自动材料快速评价分析软件数据处理方法，以解决迭代自组织聚类算法初始聚类中心随机选择造成的材料数据检索准确率低的问题，所采用的技术方案具体如下：

本发明一个实施例一种高通量全自动材料快速评价分析软件数据处理方法，该方法包括以下步骤：

获取实验参照数据库中所有材料的实验数据，所述实验数据包括温度、压力、色谱图数据以及质谱图数据；

基于色谱图数据以及质谱图数据的降维结果构建数据检索空间，根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离；

基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度；

基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数；

根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心，采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果。

优选的，所述基于色谱图数据以及质谱图数据的降维结果构建数据检索空间的方法为：

将每个材料的色谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的色谱数据序列；将每个材料的色谱数据序列作为矩阵中的一个行向量，将所有材料的色谱数据序列组成的矩阵作为色谱数据矩阵；

将每个材料的质谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的质谱数据序列；将每个材料的质谱数据序列作为矩阵中的一个行向量，将所有材料的质谱数据序列组成的矩阵作为质谱数据矩阵；

分别将色谱数据矩阵、质谱数据矩阵作为输入，采用数据降维算法分别将每个材料的色谱数据序列、质谱数据序列降维至预设数量个维度的数据，将实验数据中的温度、压力各自作为一个维度，基于预设数量个维度的数据、温度、压力构建数据检索空间。

优选的，所述根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离的方法为：

根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度；

将数据检索空间中两个数据点之间的欧氏距离与两个数据点之间的材料成分相似度的比值作为两个数据点之间的实验条件相似距离。

优选的，所述根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度的方法为：

将数据检索空间中两个数据点对应的色谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的色谱数据相似度；

将数据检索空间中两个数据点对应的质谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的质谱数据相似度；

两个数据点之间的材料成分相似度由两个数据点之间的色谱数据相似度、质谱数据相似度组成，其中，所述材料成分相似度分别与色谱数据相似度、质谱数据相似度成正比关系。

优选的，所述基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度的方法为：

将数据检索空间中的每个数据点作为一个中心点，将距离每个中心点的欧氏距离不大于预设距离的所有数据点构成的空间作为每个中心点的近邻检索空间；

将每个中心点与其近邻检索空间内所有数据点之间的实验条件相似距离的累加和作为第一距离值，将第一距离值与预设参数之和作为分母；

将每个中心点的近邻检索空间内数据点的数量与分母的比值作为每个中心点的实验条件相似密度。

优选的，所述基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数的方法为：

根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度；

将每个数据点与其所在聚类簇内所有数据点之间的实验条件相似距离的均值作为每个数据点的簇内相似距离；

将每个数据点的簇内相似距离与预设参数之和作为分母，将每个数据点的实验相似聚集度与分母的比值作为每个数据点的簇内代表指数。

优选的，所述聚类簇的获取方法为：

将数据检索空间中所有数据点作为输入，将两个数据点之间的实验条件相似距离作为聚类时的度量距离，采用聚类算法得到预设数量个聚类簇。

优选的，所述根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度的获取方法为：

将每个数据点所取近邻检索空间中数据点组成的集合与每个数据点所在聚类簇的交集作为每个数据点的相似数据点集合；

将每个数据点的相似数据点集合内所有数据点的实验条件相似密度之和与所述相似数据点集合内数据点数量的比值将作为第一密度因子；

每个数据点的实验相似聚集度由每个数据点的实验条件相似密度、第一密度因子两部分组成，其中，所述实验相似聚集度分别与实验条件相似密度、第一密度因子成正比关系。

优选的，所述根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心的方法为：

将每个聚类簇中簇内代表指数最大值对应的数据点作为一个候选数据点；

将每个候选数据点与其余候选数据点之间实验条件相似距离的累加和与所有候选数据点数量的比值作为第一乘积因子；

将每个候选数据点的簇内代表指数与第一乘积因子的乘积作为每个候选数据点的初始选择指数；

将所有候选数据点的初始选择指数降序排列结果中前预设数量个元素对应的候选数据点作为初始聚类中心。

优选的，所述采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果的方法为：

采用迭代自组织聚类基于初始聚类中心将数据检索空间中所有数据点划分成预设数量个聚类簇，将每个聚类簇中所有数据点在数据检索空间中每个维度上的均值确定的数据点作为每个聚类簇的聚类簇中心点；

将待分析的高通量全自动材料映射到数据检索空间得到的数据点作为目标数据点，将与目标数据点之间欧氏距离最小的聚类簇中心点所在的聚类簇作为目标数据点的检索数据库，从目标数据点的检索数据库中获取预设数量个字母数字报告作为待分析的高通量全自动材料的检索参考报告。

本发明的有益效果是：根据各个材料的实验数据构建数据检索空间，基于数据检索空间中各个数据点对应的质谱图数据和色谱图数据构建材料成分相似度，并结合数据检索空间中数据点的分布情况依次构建实验条件相似距离和实验条件相似密度，提高了数据检索空间中数据点对应材料的材料合成原料之间的区分度；其次基于实验条件相似距离和实验条件相似密度构建各个聚类簇中数据点的簇内代表指数，有益效果在于能够使得各个候选数据点能更好的反应各个聚类簇中的数据点的分布情况，并降低了数据检索空间中的孤立点对初始聚类中心选择的影响；并基于簇内代表指数和实验条件相似距离构建各个候选数据点的初始选择指数，提高了ISODATA算法聚类的效果和准确性，并基于得到的初始聚类中心选择指数完成对待分析的高通量全自动材料的实验数据在实验参照数据库中的检索，提高了数据检索的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种高通量全自动材料快速评价分析软件数据处理方法的流程示意图；

图2为本发明一个实施例所提供的一种高通量全自动材料快速评价分析软件数据处理方法的实施流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种高通量全自动材料快速评价分析软件数据处理方法流程图，该方法包括以下步骤：

步骤S001，获取实验参照数据库中所有材料的实验数据。

从高通量全自动材料快速评价分析软件的实验参照数据库中获取所有材料的实验数据,本发明以实验参照数据库中的温度、压力、色谱图数据和质谱图数据为例，对待分析的高通量全自动材料的实验数据在实验参照数据库中进行相似实验数据的检索，其中目标材料的温度、压力指的是对目标材料进行材料制备时的恒定温度值和恒定压力值，在高通量材料的制备过程中，通常会固定实验条件，即保持高通量材料制备过程中温度和压力等参数不变。

进一步地，对于所获温度、压力数据进行max-min归一化的去量纲处理，得到每个材料温度、压力的归一化结果，max-min归一化为公知技术，具体过程不再赘述。

至此，得到所有材料的实验数据，用于后续数据检索空间的构建。

步骤S002，基于色谱图数据以及质谱图数据的降维结果构建数据检索空间，根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离。

本发明的目的在于对待分析的高通量全自动材料的实验数据，在实验参照数据库中进行相似实验数据的检索，根据检索得到的字母数据报告进行分析。因此由于不同实验数据的存在形式不同，对检索过程造成较大的干扰。因此本发明中考虑通过分别对色谱图数据、质谱图数据进行降维处理，基于降维处理的结果构建数据检索空间。

具体地，色谱图数据、质谱图数据进行相同方式的降维。以色谱图数据为例，对于任意一个材料的色谱图数据，以第i个材料的色谱图数据为例，将第i个材料的色谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为第i个材料的色谱数据序列。获取所有材料的色谱图数据后，按照上述方式得到每个材料的色谱数据序列，其次，将每个材料的色谱数据序列作为矩阵中的一个行向量，将所有材料的色谱数据序列组成的矩阵作为色谱数据矩阵。根据上述流程，获取每个材料的质谱图数据对应的质谱数据序列，基于所有材料的质谱数据序列构建质谱数据矩阵。

进一步地，分别将色谱数据矩阵、质谱数据矩阵作为输入，利用主成分分析算法分别将每个材料的色谱数据序列、质谱数据序列降维至1*M的数据，M的大小取经验值3，主成分分析算法为公知技术，具体过程不再赘述。其次，分别将压力、温度作为一个维度，结合色谱数据矩阵对应的1*M维的数据、质谱数据矩阵对应的1*M维的数据，构建一个维度为（2M+2）的数据检索空间，每个材料都会在数据检索空间中对应一个数据点。

由于色谱图数据反应了材料中化合物的种类和相对含量，质谱图数据反应了材料中各个化合物成分的分子结构、离子特征，因此组成原料越相似的两个材料，在数据检索空间中对应数据点的位置越相似。

基于上述分析，此处构建材料成分相似度，用于表征不同数据点对应材料之间的组成原料的相似程度。计算数据检索空间中数据点a、b之间的材料成分相似度

式中，

是数据点a、b之间的质谱数据相似度，/>

数据点a、b之间的材料成分相似度。

其中，数据点a、b对应材料的色谱图数据中色谱曲线之间越接近，对应材料的色谱图数据中出峰时间和峰面积越接近，数据点a、b对应材料的色谱数据序列之间的差异越小，

根据上述步骤，获取数据检索空间中任意两个数据点之间的材料成分相似度。其次，基于数据检索两个数据点之间的空间位置确定两个数据点之间的实验条件相似距离，计算数据检索空间中数据点a、b之间的实验条件相似距离

式中，

其中，两个数据点对应材料在相同实验条件下进行实验分析的可能性越大，数据检索空间中数据点a、b的空间距离越小，

至此，得到数据检索空间中任意两个数据点之间的实验条件相似距离，用于后续数据点的聚类分析。

步骤S003，基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度；基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数。

对于数据检索空间中的任意一个数据点，以数据点a为例，以数据点a为中心点，获取数据检索空间中所有距离数据点a的欧氏距离不超于距离阈值Y的数据点，将所述所有与数据点a的欧氏距离不超于距离阈值Y的数据点构建的空间作为数据点a的近邻检索空间，Y的大小取经验值5。根据数据点a的近邻检索空间内数据点的分布确定数据点a的实验条件相似密度：

式中，

其中，与数据点a对应材料的组成原料、实验条件相似的材料越多，数据检索空间中数据点a所在近邻检索空间内的数据点越多，N的值越大，第一距离值

进一步地，在高通量材料实验中，相同的材料合成原料在不同的实验条件下，比如材料制备压力、温度等参数的不同，保持实验流程不变，会得到具有相似化学组成和结构的材料，则在数据检索空间中会出现不同的聚集区域。因此，将数据检索空间中的所有数据点作为输入，将两个数据点之间的实验条件相似距离作为聚类时的度量距离，使用k-means算法对数据检索空间中的数据点进行聚类，得到k个聚类簇，其中k的大小取

基于上述分析，此处构建簇内代表指数，用于表征每个数据点能够代表其所在聚类簇的概率高低。计算第k个聚类簇中第j个数据点的簇内代表指数

式中，

是第k个聚类簇中第j个数据点的簇内相似距离，/>

是第k个聚类簇中第j个数据点的簇内代表指数，/>

其中，第k个聚类簇中第j个数据点所取近邻检索空间中与所述第j个数据点对应材料具有相似组成原料、相似实验条件的材料越多，

至此，得到每个聚类簇中每个数据点的簇内代表指数，用于后续确定初始聚类中心。

步骤S004，根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心，采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果。

根据上述步骤，分别获取每个聚类簇中所有数据点的簇内代表指数，将每个聚类簇中簇内代表指数最大值对应的数据点作为一个候选数据点。基于每个候选数据点的簇内代表指数评估每个候选数据点是否能够成为迭代自组织聚类算法组的初始聚类中心。计算第p个候选数据点的初始选择指数：

式中，

其中，第p个候选数据点对应材料的组成原料和实验条件越能反映其所在聚类簇内数据点对应材料的组成原料和实验条件，第p个候选数据点越应该成为初始聚类中心点；第p个候选数据点与其余候选数据点之间的差异越大，第一乘积因子

根据上述步骤，获取所有候选数据点的初始选择指数，取所有候选数据点的初始选择指数降序排列结果中前K个元素对应的候选数据点作为初始聚类中心，K的大小取经验值18。进一步的，将所取18个初始聚类中心作为迭代自组织聚类算法中的初始聚类中心，将数据检索空间中的所有数据点作为输入，算法中每一类中允许的最少样本数目为

进一步地，对于任意一个聚类簇，以第r个聚类簇为例，获取第r个聚类簇中所有数据点在数据检索空间中每个维度上取值的均值，则能够得到（2M+2）个维度上的均值，将（2M+2）个维度上的均值确定的数据点作为第r个聚类簇的聚类簇中心点。根据上述步骤，分别获取r个聚类簇的聚类簇中心点，其次基于所述聚类簇中心点检索待分析高通量全自动材料的字母数字报告，整个实施流程如图2所示。

进一步地，将待分析的高通量全自动材料映射到数据检索空间得到的数据点作为目标数据点，将与目标数据点之间欧氏距离最小的聚类簇中心点所在的聚类簇作为目标数据点的检索数据库，从目标数据点的检索数据库中获取X个字母数字报告作为待分析的高通量全自动材料的检索参考报告，X的大小取经验值10，实施者可根据具体的材料选择适合数量的字母数据报告。根据X个待分析的高通量全自动材料的检索参考报告对高通量全自动材料进行后续的原料分析。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：西瑞思创(西安)实验仪器有限公司;

上一篇：Demura补偿效果检测方法、装置、设备及存储介质
下一篇：获取污染负荷对饮用水源地影响程度的方法和装置