一种动态异权匿名数据析构方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于数据统计算法技术领域，涉及带权匿名表单设计与数据统计方法，具体为一种动态异权匿名数据析构方法及系统。

背景技术

随着信息化技术的发展和移动互联网的普及，传统企业越来越多的行政业务都实现了信息化，信息化助力企业的高质量发展，是提升企业综合实力的重要手段。

在企业的人员绩效考核过程中，有一项重要的工作是对特定考核人员进行多维度的测评打分，由于大型企业的人员规模庞大，结构复杂，打分测评试卷的编制分发与回收统计存在较大工作量，特别是当测评打分人因为所处岗位角色的不同，还需要用不同的权重比例加以区分，且还要实现测评的匿名化，这些对于传统的手工统计来说，存在工作量大、计算复杂、时效性低且易出错的问题。

现有的常规做法，主要是通过分布式密钥或区块链技术实现匿名性，然后电子分发进行数据收集，数据收集完成后，需要二次分类采集的数据，根据各个类别进行分类统计才能实现带权匿名数据收集，该种方式动态扩展性较差，且不适合大规模的匿名数据收集和统计场景，特别是在单位组织架构复杂的情况下，统计过程会更加耗时，故而需要发明一种结构灵活、匿名、有序的基于不同权重进行测评数据构建和分析统计的方法，才能满足不同权的匿名测评数据构造与统计需求。

发明内容

为解决上述现有技术存在的不足和缺陷，发明人经过设计和改进，针对现有匿名调研技术存在的不足，能够解决大规模的匿名数据收集和统计问题，利用同表不同权、同权不同数的动态数据权重分配框架，通过信息系统构造一次性无痕带权数据收集表单，再通过匿名随机分发方法实现表单数据收集，最后加权汇总同表数据，并进行基于实际回收数据的二次同权均值化处理，得到最终的匿名数据统计结果，该方法既具备构造大规模匿名数据采集表单的能力，又能够将各表单的数据进行按权统计汇总，具有动态析构、全过程匿名和抗抵赖性好的优点。

本发明是这样实现的：一种动态异权匿名数据析构方法，包括以下步骤：

步骤S1、根据数据收集表单中的角色对数据进行划分，按照角色数据所对应的类别划分为多级角色的类别层级，并以所述角色的类别层级作为根节点，构造分层的角色树；所述角色的类别层级为由粗到细、自上而下的分级；(与组织机构类似，例如对于一个单位的领导角色，可以自上而下依次分为单位正职领导，单位副职领导，部门正职领导，部门副职领导，普通员工)。

步骤S2、根据构造分层的角色树，构造与所述角色数据一一对应的权重树，且每个权重树的节点为对应的当前角色具有的总权重值；

步骤S3、根据所述角色树和权重树，通过特征向量抽取的主要属性来生成生成一次性无痕带权数据表单，并随机匿名发放给数据收集对象进行填写，构成数据收集表单统计数据；所述一次性无痕带权数据表单，能将表单和系统内的带权编码绑定，带权编码仅能被使用一次后不再能被使用，且会在系统中产生标记，一次性无痕带权数据表单，是一种将表单和带权编码绑定的方法，带权编码会注册于系统中，同时带权编码每次使用都会在系统中做标记，使用的次数默认为1，即使用一次后被系统标记不能被再次使用，在实现上可以通过但不限于二维码的方式实现一次性无痕带权表单的发放。此处所述的系统是指本实施例用于存储编码数据的一个数据存储区域，基于软件算法程序实现。

步骤S4、对数据收集表单进行分析统计，将同表数据进行聚合：遍历每一张表，提取每一张表的角色信息、权重信息和数据总和信息，并以此三类信息构建统计数据结构；所述数据总和信息用于计算分值的数据总和，通过数据总和与权重相乘，得出当前数据表单的实际分数；

步骤S5、将所述统计数据结构进行二次同权均值化处理、同表统计求和，得出异权匿名数据的统计结果。由于各角色的实际人数间存在差异，但是每一类角色具有该类角色的最大权重值，因此需要进行二次均值化处理，即每类角色根据该类角色的总权重值，对该类角色下的实际数量的表单数据进行二次加权平均，从而得到该类角色的带权分值结果。

进一步的，步骤S1中所述角色树的构造方法为：按照角色的类别先分级，然后统计同级下的角色类别，再次分级，直到所有角色都分级到最细粒度，然后自上而下构造角色树，以最高级角色作为根节点，每一级根节点的叶子结点为次级角色，直到所有具体角色都添加到角色树上并成为终端节点；其中，每一级根节点是该类角色特征的一个共性划分，从上往下依次细化，角色树的末端节点是角色的最细化划分。

进一步的，步骤S1中所述权重树的构造方法为：以构造的角色树为基础，找到角色树终端叶子节点，依次为每一个叶子节点赋予权重值,自下而上分级递归，求出每一级各根节点总权重值，规则为每个根节点的权重为所有叶子节点权重之和；权重代表的是该类角色的总权重，因为每类角色下实际的人数量不同，因此总权重并不是该类角色下具体的人权重的简单相加，对于相同权值的同角色来说，角色树上每个节点的权重值是该节点子节点的均值。

进一步的，所述一次性无痕带权数据表单的生成方式为：根据数据表单、角色树、权重树的基础，提取一组四元组特征向量：

Vector

上述向量中，n为角色树中所有终端叶子节点的数量；tableID为数据收集表单的标识id，用于区别不同的数据表单；roleID为角标识id，用于区分角色的名称；value为权重值，用于计算该向量组的权重值；random_timeSeq为基于时间的随机序列值，用于生成一次性数据表单的标识，每次进行数据收集时，该标识仅能使用一次，从而防止重复收集数据，同时采用随机化算法，使生成的标识具备匿名性。为了防止数据刷票和非授权刷票，虽然数据收集是匿名的，但是每一张匿名凭证均需在系统中注册，通过上述的四元组特征向量，可以实现将每一张被系统授权过的不可伪造的匿名带权数据收集表单，分发给匿名投票者进行数据收集。

进一步的，所述的同表数据进行聚合，包括以下步骤：

步骤a).为每张不同的表构建一颗空的用于计算异权数据统计的多叉统计树，并设定多叉统计树的树高为3；步骤b).对每一张填写完成的数据表，提取该表的角色信息、权重信息、数据信息三个特征步骤c).基于每张表提取的特征，在统计树上进行检索，依次按照角色-权重的顺序匹配，若发现没有与之匹配(角色，权重)的节点，则建立相应节点，否则将特征中的数据信息插入检索到的阶段下级，统计树的叶子节点均为数据节点；步骤d).循环上述三个步骤，直到所有表的数据均添加到统计树上。

进一步的，所述的二次同权均值化处理，包括：将相同角色、权重下的数据进行运算，使之不超过该角色、权重下的数据上限，运算方式包括但不限于求均值。

本发明的另一方面，提供了一种动态异权匿名数据析构系统，包括：动态异权匿名数据构建模块：用于构建角色树、权重树，构建一次性匿名标签及表单数据绑定，构造出用于一次性数据收集的带权匿名数据表单；动态异权匿名数据分发模块：用于数据分发，将生成的各类一次性数据收集的带权匿名数据表单，生成预先分类，构成动态异权数据表单分发到各角色；动态异权匿名数据统计模块：用于将分发出去的动态异权数据表单的填写结果进行回收和汇总统计，将识别出每一张数据样本的所属角色和权重，然后构造统计树，对相同角色权重的数据样本进行二次均值处理，最后全部汇总统计求和，得到动态异权匿名数据的统计结果。

进一步的，所述动态异权匿名数据构建模块，还能根据数据收集对象的角色进行划分，按照角色的类别分为多级，以角色的类别层级作为根节点构造分层的角色树；并能根据所述角色树构造一一对应的权重树。

进一步的，所述动态异权匿名数据统计模块，还能将同表数据进行聚合，能遍历每一张表，提取每一张表的角色、权重和数据三类信息，并以此三类信息构建统计数据结构；并进行二次同权均值化处理，同表统计求和，得出异权匿名数据的统计结果。

本发明的工作原理和有益效果介绍：本发明提供了一种动态异权匿名数据析构方法，在数据收集表单构造阶段，先构造表单数据角色树，再构造表单数据权重树，然后将角色树和权重树绑定到数据收集表单，预生成适当数量的一次性无痕带权数据收集表单进行匿名随机分发；发放的对应对象是基于角色，但是角色中具体的人是不知道的，例如本次发放的对象是中层领导，则会生成n张中层领导的投票表单，发放的对象将会是中层领导而不是普通员工，但是哪一个中层领导投票了什么数据，是不可跟踪的；匿名是指，发放后的选票表单，无法被跟踪是谁填写的，是对填写者的保护匿名。在数据收集表单分析统计阶段，先进行同表数据聚合，再按构造阶段的角色树进行基于实际回收数据的二次同权均值化处理，最终得到动态异权匿名数据的统计结果。该动态异权匿名数据析构方法是一种创新的数据收集方法，在大规模的匿名数据收集和统计中，利用同表不同权、同权不同数的动态数据权重分配框架，通过信息系统构造一次性无痕带权数据收集表单，再通过匿名随机分发方法实现表单数据收集，最后加权汇总同表数据，并进行基于实际回收数据的二次同权均值化处理，得到最终的匿名数据统计结果，该方法既具备构造大规模匿名数据采集表单的能力，又能够将各表单的数据进行按权统计汇总，具有动态析构、全过程匿名和抗抵赖性好的优点。

附图说明

图1为本发明动态异权匿名数据析构方法的流程图；

图2为实施例3种本发明的角色树示意图；

图3为实施例3种本发明的权重树示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例1：一种动态异权匿名数据析构方法，该方法主要分为动态异权匿名数据构建,动态异权匿名数据分发和动态异权匿名数据统计三个阶段，其中：

动态异权匿名数据构建是一个准备阶段：该阶段内需要完成角色树构建、权重树构建、一次性匿名标签构建及表单数据绑定，经过该阶段的处理，将构造出用于一次性数据收集的带权匿名数据表单。

动态异权匿名数据分发阶段：该阶段将进行数据的分发，由于数据的收集对象是按照角色进行划分，各类角色的权重以及该类角色实际具有的人数都是动态不确定的，因此该阶段需要将准备阶段生成的各类一次性数据收集表单，预先分类的生成出来，然后进行线下分发到各角色人员手中。

动态异权匿名数据统计阶段：在该阶段中，需要将分发出去的动态异权数据表单的填写结果进行回收和汇总统计，由于匿名状态下，无法定位到每一张数据表单的去向，因此汇总统计需基于实际回收到的数据样本数量，该阶段将识别出每一张数据样本的所属角色和权重，然后构造统计树，对相同角色权重的数据样本进行二次均值处理，最后全部汇总统计求和，以此得到动态异权匿名数据的统计结果。

如图1所示，该方法包括以下步骤：

步骤1、在数据收集表单构造阶段，根据数据收集对象的角色进行划分，按照角色的类别分为多级，以角色的类别层级作为根节点构造分层的角色树；

步骤2、在数据收集表单构造阶段，根据步骤1构造的角色树，一一对应构造权重树；

步骤3、在数据收集表单构造阶段，根据步骤1和步骤2的结果，生成一次性无痕带权数据表单，并随机匿名发放给数据收集对象进行填写；

步骤4、在数据收集表单分析统计阶段，将同表数据进行聚合，聚合方法为，遍历每一张表，提取每一张表的角色、权重和数据三类信息，并以此三类信息构建统计数据结构；

步骤5、在数据收集表单分析统计阶段，将步骤4中的统计数据结构进行二次同权均值化处理，在进行同表统计求和，得出异权匿名数据的统计结果。

实施例2

例如，某单位要对员工张三，李四，王五三人进行年度考核匿名测评，该单位的角色组织架构为表table_role，测评问卷为表table_question，以及各个角色对应的权重表table_priority。

table_role：

table_role

如上角色所示，某单位组织架构主要分为一级角色A(最高级)、一级角色B(次级)和一级角色C，一级角色下的二级角色为当前一级角色的一次细分，二级角色下的三级角色为该二级角色的一次细分，本次示例的角色级别架构为三级架构，三级角色代表终端角色，每个角色具有特定的权重规则。

table_question:

table_question

该表为调查问卷的内容，为便于举例该问卷仅以一个问题作为实例。

table_priority:

table_priority

在上述的权重规则中，权重值为该类角色实际人数打分权重的总和，例如当A1有2人时，则每人(A11，A12)的实际权重为30％/2＝15％，其他角色的实际权重以此类推。

根据步骤1、在数据收集表单构造阶段，根据数据收集对象的角色进行划分，按照角色的类别分为多级，以角色的类别层级作为根节点构造分层的角色树，构造出的角色树如图2所示：

然后根据步骤2、在数据收集表单构造阶段，根据步骤1构造的角色树，一一对应构造权重树，构造的权重树如图3所示：

在该示例中，假定所有叶子节点人数均为一人，实际使用中，相同终端角色投票人的实际权重为总角色权重的均分值。

然后根据步骤3、在数据收集表单构造阶段，根据步骤1和步骤2的结果，生成一次性无痕带权数据表单，并随机匿名发放给数据收集对象进行填写，在该示例中，为便于说明，各类型表单实际人数均为1人，但实际使用时是多人，匿名性原理不受此限制，根据该步骤，生成的匿名投票表单，转化为四元组特征向量

Vector

具体为：

vector1＝(table_question,A11，15％，10001)

vector2＝(table_question,A12，15％，10003)

vector3＝(table_question,A21，20％，10002)

vector4＝(table_question,B11，15％，10012)

vector5＝(table_question,B21，2.5％，10006)

vector6＝(table_question,B22，2.5％，10007)

vector7＝(table_question,C11，30％，10009)

上述例子代表了7张注册过的数据收集票据，每张票据仅可投票打分一次，从而防止刷票行为的产生。

根据步骤4、在数据收集表单分析统计阶段，将同表数据进行聚合，聚合方法为，遍历每一张表，提取每一张表的角色、权重和数据三类信息，并以此三类信息构建统计数据结构，假定上述7张选票回收回来后，每张选票对应的分数如下表所示：

最后根据步骤5、在数据收集表单分析统计阶段，将步骤4中的统计数据结构进行二次同权均值化处理，在进行同表统计求和，得出异权匿名数据的统计结果，具体过程为：

假设张三其的测评回收数据为：

该结果与特征向量

vector1＝(table_question,A11，15％，10001)

vector2＝(table_question,A12，15％，10003)

vector3＝(table_question,A21，20％，10002)

vector4＝(table_question,B11，15％，10012)

vector5＝(table_question,B21，2.5％，10006)

vector6＝(table_question,B22，2.5％，10007)

vector7＝(table_question,C11，30％，10009)

结合后，计算得分为：

张三测评分数＝80*0.15+80*0.15+80*0.2+80*0.15+80*0.025+

80*0.025+80*0.3＝80分

同理可计算李四为90分，王五为100分。

经过该方法的处理，实现了一次匿名异权数据的构造和分析统计过程，实际使用过程中，角色组织架构和权重及问卷的绑定关系会更加复杂，但是可以通过该方法实现统一化处理，实现海量匿名数据的收集与统计，具有动态析构、全过程匿名和抗抵赖性好的优点。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：何雄;戴鹏睿;毛启明;
专利申请人：中国船舶重工集团公司七五0试验场;

上一篇：一种PCB板波峰焊焊接工艺及焊接得到的PCB板
下一篇：烟气颗粒物检测装置及烟气颗粒物检测系统