一种同行互评异常评分检测及修正方法和装置
文献发布时间:2023-06-19 18:37:28
技术领域
本发明涉及企业人员考核管理制度,尤其涉及一种同行互评异常评分检测及修正方法和装置。
背景技术
同行互评机制已被越来越多的企业应用于内部人员考核管理中。一方面,企业管理者可以通过互评结果直观的了解到不同员工在其他同事眼中的工作能力及工作状态;另一方面,企业管理者可以通过互评结果了解日常管理中不曾看到的一面,有助于企业的发展。然而,受奖金、晋级等超额利益的名额限制,评分者出于自身利益考虑会出现“故意压分”、“抱团取暖”等舞弊形式,使得评分结果出现异常偏差。因此,如何判断同行评分中的异常行为将是保证同行互评结果的公平、公正及客观性的关键所在。
当前针对评分异常的判断主要包括以下三种方法,一是基于统计的异常数据检测,即预先假定数据集的分布符合某种分布,然后通过假设检验方法判断数据分布是否在置信区间范围内,如基于正态分布3倍标准差检测、基于Grubbs检测方法、基于t统计检测法等;二是基于距离的异常数据检测,通过距离函数计算数据对象之间的距离,如超过距离阈值则判断异常数据点;三是关于密度的异常检测方法,即通过聚类算法思想,寻找空间中密度相对稀疏的对象。
除此之外,受评审人自身偏好、专业能力与外界环境等因素影响,使得评审人在面对相似的评审对象时表现出不一致性。当前度量该现象的指标包括肯德尔和谐系数、最大绝对值偏差、变异系数及平均离差等。
然而针对同行互评机制,上述方法均存在或多或少的缺陷。如基于统计的异常数据检测需要预先知道数据的分布形态、参数个数及异常值个数。在现实情况下,数据分布形态往往并不符合标准分布,且对研究的数据维度要求较高。因此如何在未知分布的情况下对多维评分数据进行异常检测与修正是本发明将要解决的的技术难题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种同行互评异常评分检测及修正方法和装置。
本发明的目的是通过以下技术方案来实现的:本发明实施例第一方面提供了一种同行互评异常评分检测及修正方法,包括以下步骤:
(1)获取评分数据:从企业人员绩效考核数据库中收集同行互评数据集,以获取评分数据,并对评分数据的原始数据信息进行结构化转换,以获取结构化评分数据;
(2)清洗评分数据:采用数据清洗方法对所述步骤(1)得到的结构化评分数据进行数据清洗,数据清洗的流程包括数据缺失值填充与数据归一化处理;
(3)单向异常检测:对结构化评分数据中的每一列单向评分结果进行单向异常检测,并将检测出的异常数据对象加入第一异常数据集中;
(4)一致性检测:采用离散率进行一致性检测,并将检测出的异常数据对象加入第二异常数据集中;
(5)双向异常检测:对结构化评分数据进行双向异常检测,并将检测出的异常数据对象加入第三异常数据集中;
(6)异常数据集修复:对所述第一异常数据集、第二异常数据集和第三异常数据集进行异常数据修复;
(7)生成评价报告:所述评价报告包括评审人能力评价报告和异常评分修正报告。
进一步地,所述原始数据信息包括评审时间、评审人编号、被评审人编号和评分结果。
进一步地,所述缺失值填充具体为:利用历史评分数据计算平均值替代当期缺失值进行填充;
所述数据归一化处理具体为:利用最大-最小标准化法或Z-score法,将评分数据统一映射到[0,1]区间上,并对评分数据按列进行升序排列。
进一步地,所述步骤(3)包括以下子步骤:
(3.1)根据结构化评分数据的数据集构建索引结构,所述索引结构为Kd-树;
(3.2)异常点挖掘:首先建立查询路径,通过计算查询节点与当前最近节点的距离,判断是否对当前节点进行回溯,若当前距离小于等于设定的距离阈值D,则对当前节点进行回溯,直至回溯节点与查询节点的距离大于设定的距离阈值D;其次,进行异常点判断,统计当前查询节点D-邻域内包含的数据对象的个数m
(3.3)重复所述步骤(3.2),依次完成对结构化评分数据中的每一列中每一个数据对象的单向异常检测,并将检测出的异常数据对象加入第一异常数据集中。
进一步地,所述步骤(3.1)包括以下子步骤:
(3.1.1)确定分割域S:计算数据集在每个维度上的方差,并选取方差最大的维度作为分割域S;
(3.1.2)确定分割节点A:将数据集按照分割域S上的值进行升序排序,并将中位数做为分割节点A;
(3.1.3)确定左右子树:根据分割节点A进行数据切分,将所有小于等于分割节点A的数据对象划分至左子树中,将所有大于分割节点A的数据对象划分至右子树中;
(3.1.4)重复所述步骤(3.1.2)-步骤(3.1.3),直至将所有数据对象划分完成为止。
进一步地,所述离散率代表评审人对不同评审对象的评分值与各评审对象的平均评分值之间的偏差,其计算公式为:
其中,c
进一步地,所述步骤(5)包括以下子步骤:
(5.1)从结构化评分数据的数据集中提取特征值,并生成结构化矩阵;其中,特征值包括相关系数、差异一致性和离散率;结构化矩阵中的每一行代表一个样本,每一列代表一个特征值变量;
(5.2)根据结构化矩阵计算特征变量协方差矩阵,以对特征值进行相关性检测,若检测到的相关性超过相关性阈值,则利用主成分分析方法消除特征值变量之间的相关性;
(5.3)利用特征值进行聚类并计算不同数据对象与它最近邻局部可达密度比率的平均值,以判断数据对象的异常程度,并将异常的数据对象加入第三异常数据集中。
进一步地,所述步骤(6)包括以下子步骤:
(6.1)从第一异常数据集、第二异常数据集和第三异常数据集中获取待修正的数据;
(6.2)利用历史评分数据计算信息熵,并结合异常评分数据对最终评分结果进行修正。
进一步地,所述步骤(7)包括以下子步骤:
(7.1)生成评审人能力评价报告:结合第二异常数据集,计算不同评审人的变异系数,并利用因子权重法对不同评审人生成相应的评分权重,结合不同评审人的评分权重,利用加权平均法获得不同评审对象的最终评分结果,并建立反馈机制以实现评分权重的动态调整;
(7.2)生成异常评分修正报告:结合异常数据集修正结果与评审人能力评价报告中的评审人评分权重,计算不同评审对象的加权平均分作为最终评分结果,并以报告的形式展示异常评分数据修正前后评分结果。
本发明实施例第二方面提供了一种同行互评异常评分检测及修正装置,用于实现上述的同行互评异常评分检测及修正方法,包括:
数据获取单元,用于从企业人员绩效考核数据库获取特定时间段内同行互评数据集,其中,数据集中包括至少一个评审人信息;
数据清洗单元,用于将原始评分数据转化为结构化评分数据,并对结构化评分数据进行数据缺失值填充与数据归一化处理;
异常数据检测单元,用于对清洗好的结构化评分数据进行单向异常检测、一致性检测与双向异常检测;
异常数据集获取单元,用于存储单向异常检测、一致性检测与双向异常检测的异常检测结果;
异常数据集修正单元,用于修正第一异常数据集、第二异常数据集和第三异常数据集中获取的异常数据;和
报告生成单元,用于生成评审人能力评价报告与异常评分修正报告。
本发明的有益效果是,本发明首次将基于距离的异常数据检测与基于密度的异常数据检测方法有机结合,通过特征值提取将异常数据特征最大程度的表达,同时利用索引结构实现异常数据的快速检索;在进行异常数据修复时,本发明利用信息熵对异常数据进行修正,并建立循环反馈机制,动态调整评审人的评分权重得到最终加权评分结果;本发明能够在同行互评过程中针对异常评分现象进行检测及修正,一方面实现了异常评分结果的修正,另一方面,对评审人的评分行为进行有效约束,保证同行互评结果的公平、公正及客观性。
附图说明
图1为本发明实施例的总框架图;
图2为本发明实施例的总体流程图;
图3为本发明实施例的单向异常检测索引结构流程图;
图4为本发明实施例的双向异常检测效果图;
图5为本发明实施例的同行互评异常评分检测及修正装置的一种结构示意图;
图6为本发明实施例中的检测及修正装置在终端设备的可视化界面。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的同行互评异常评分检测及修正方法,通过基于距离的单向异常值检测法与基于聚类分析的双向异常点检测法获得异常数据集,并利用信息熵参数对异常数据进行修正,如图1所示,以确保评审环节的公正、公平及客观性。
本实施例中,如图2所示,该检测及修正方法包括以下步骤:
(1)获取评分数据:从企业人员绩效考核数据库中收集同行互评数据集,以获取评分数据,并对评分数据的原始数据信息进行结构化转换,以获取结构化评分数据。
其中,原始数据信息包括评审时间、评审人编号、被评审人编号和评分结果等信息。
具体地,将收集到的评分数据的原始数据信息转化为二维结构化数据形式。其中,行标签与列标签分别对应参与本次的被评审人与评审人。假设本次评审共有m人参与,其中,x
应当理解的是,当有多次评审时,还可将评审时间加入,按照评审时间及其他原始数据信息对评分数据进行结构化处理。
(2)清洗评分数据:采用数据清洗方法对步骤(1)得到的结构化评分数据进行数据清洗,数据清洗的流程包括数据缺失值填充与数据归一化处理。
本实施例中,对结构化评分数据进行缺失值填充,具体方法为:利用历史评分数据计算平均值替代当期缺失值进行填充。例如,提取最近一次同行互评数据,评审人2对被评审人1的评分值数据缺失,即步骤(1)中的x
本实施例中,对结构化评分数据进行数据归一化处理,具体方法为:利用最大-最小标准化法或Z-score法等,将评分数据统一映射到[0,1]区间上,并对评分数据按列进行升序排列。例如,若评分范围在1-10分之间,即0
其中,最大-最小标准化法是将数据进行线性变换,使之落入一个小的特定区间,为了数据处理方便,可以把数变为[0,1]之间的小数,这是数据标准化常用的一种方法,在此不再进行赘述。
Z-score法是基于原始数据的均值和标准差进行数据的标准化,Z-score法适用于最大值和最小值未知的情况,或有超出取值范围的离群数据的情况,这是数据标准化常用的一种方法,在此不再进行赘述。
(3)单向异常检测:对结构化评分数据中的每一列单向评分结果进行单向异常检测,并将检测出的异常数据对象加入第一异常数据集中。
在结构化评分数据中,每一列对应着其他评审人对同一评审对象即被评审人的评分结果,即单向评分结果。为了判断单向评分结果是否异常,可利用索引结构搜索每一列中每个数据对象x
(3.1)根据结构化评分数据的数据集构建索引结构,索引结构为Kd-树。索引结构采用k-d树对每一列进行搜索。具体步骤如图3所示。
(3.1.1)确定分割域S:计算数据集在每个维度上的方差,并选取方差最大的维度作为分割域S。在本实施例中,数据集共包含三个维度:评审人i,被评审人j和评分结果x
(3.1.2)确定分割节点A:将数据集按照分割域S上的值进行升序排序,并将中位数做为分割节点A。
(3.1.3)确定左右子树:根据分割节点A进行数据切分,将所有小于等于分割节点A的数据对象划分至左子树中,将所有大于分割节点A的数据对象划分至右子树中。
(3.1.4)重复步骤(3.1.2)-步骤(3.1.3),直至将所有数据对象划分完成为止。应当理解的是,Kd-树构建完成后,会有多级Kd-子树。
(3.2)异常点挖掘:首先建立查询路径,通过计算查询节点与当前最近节点的距离,判断是否对当前节点进行回溯,若当前距离小于等于设定的距离阈值D,即curr_dist≤D,则对当前节点进行回溯,直至回溯节点与查询节点的距离大于设定的距离阈值D。其次,进行异常点判断,统计当前查询节点D-邻域内包含的数据对象的个数m
本实施例中,距离阈值D可通过以下公式计算:
其中,x
(3.3)重复步骤(3.2),依次完成对每一列中每一个数据对象的单向异常检测,并将检测出的异常数据对象加入第一异常数据集中。
需要说明的是,距离阈值D的分母中的m随检测列数的增加而减少,当前的m=m-n,n为已检测列数。
(4)一致性检测:采用离散率进行一致性检测,并将检测出的异常数据对象加入第二异常数据集中。
离散率代表评审人对不同评审对象的评分值与各评审对象的平均评分值之间的偏差。离散率越大,说明主观波动性越大,则越可能存在不公平性。
计算评审人i的离散率,计算公式如下:
其中,c
需要说明的是,依据3sigma原则将离散率过高的数据对象作为异常数据对象,将检测出来的异常数据对象加入第二异常数据集中。
应当理解的是,3sigma原则又叫做经验法则,用于对离散率的平均值和离散率的标准差的正态分布数据进行推算,进而判断离散率是否过高,这是一种常用的概率统计方法,在此不再赘述。
(5)双向异常检测:对结构化评分数据进行双向异常检测,并将检测出的异常数据对象加入第三异常数据集中。
同行互评数据集不仅包括不同评审人对同一评审对象的评分结果,还包括同一评审人面对不同评审对象的评分结果,是一个双向评分的行为。
(5.1)从结构化评分数据的数据集中提取特征值,并生成结构化矩阵;其中,特征值包括相关系数、差异一致性和离散率;结构化矩阵中的每一行代表一个样本,每一列代表一个特征值变量。
具体地,可以根据特征值的相关公式提取特征值,相关表达式如下:
离散率的表达式为:
其中,c
秩相关系数的表达式为:
其中,r
差异一致性的表达式为:
其中,δ
(5.2)根据结构化矩阵计算特征变量协方差矩阵,以对特征值进行相关性检测,若检测到的相关性超过相关性阈值,则利用主成分分析方法消除特征值变量之间的相关性。
应当理解的是,变量之间如果存在较强的相关性,则不利于最终的分类效果,所以需要消除特征值变量之间的相关性。
本实施例中,相关性阈值V=0.2。
本实施例中,利用主成分分析方法消除特征值变量之间的相关性,具体为:借助正交变换,将原始特征变量映射到低纬空间,以保证不同特征变量相互正交,从而去除原始特征变相关性影响。
(5.3)利用特征值进行聚类并计算不同数据对象与它最近邻局部可达密度比率的平均值,以判断数据对象的异常程度,并将异常的数据对象加入第三异常数据集中。
离群点挖掘:在基于密度的异常检测方法中,局部异常因子(LOF)通过计算数据对象与它最近邻的局部可达密度的比率的平均值,来判断对象的异常程度。局部异常因子(LOF)越接近1,则数据对象的异常程度越大,反之,数据对象的异常程度越低。
最终通过可视化的形式展示异常点,如图4所示,其中X轴和Y轴分别代表排名前两位的特征向量,被圈起来的对象则为离群点。
(6)异常数据集修复:对第一异常数据集、第二异常数据集和第三异常数据集进行异常数据修复。
(6.1)从第一异常数据集、第二异常数据集和第三异常数据集中获取待修正的数据。
(6.2)利用历史评分数据计算信息熵,并结合异常评分数据对最终评分结果进行修正。
应当理解的是,信息熵通常被用来衡量随机变量出现的期望值。系统信息越为混乱,信息熵值越大。
针对异常数据集,采用信息熵修正法对异常数据集进行修复,在当前异常评分的基础上,添加以历史平均偏差为基础的信息熵,对结果进行补偿和修正,修正公式如下:
其中,X为异常评分,H为历史偏差信息熵,
(7)生成评价报告:评价报告包括两个部分,分别为评审人能力评价报告和异常评分修正报告。
(7.1)生成评审人能力评价报告:结合第二异常数据集,计算不同评审人的变异系数,并利用因子权重法对不同评审人生成相应的评分权重,结合不同评审人的评分权重,利用加权平均法获得不同评审对象的最终评分结果,并建立反馈机制以实现评分权重的动态调整。
其中,评审人能力评价报告包括评审人编号、评审次数、历史平均偏差、能力等级和评分权重等,如表1所示。
表1:评审人能力评价报告
(7.2)生成异常评分修正报告:结合异常数据集修正结果与评审人能力评价报告中的评审人评分权重,计算不同评审对象的加权平均分作为最终评分结果,并以报告的形式展示异常评分数据修正前后评分结果。如表2所示,其中评审人P001对被评审人P002的评分结果0.65为检测出的异常分数。
表2:异常评分修正前后对比表格
值得一提的是,本发明还提供了一种同行互评异常评分检测及修正装置,用于实现上述的同行互评异常评分检测及修正方法。
如图5所示,该检测及修正装置包括数据获取单元、数据清洗单元、异常数据检测单元、异常数据集获取单元、异常数据集修正单元和报告生成单元。
本实施例中,数据获取单元用于从企业人员绩效考核数据库获取特定时间段内同行互评数据集,其中,数据集中包括至少一个评审人信息。
本实施例中,数据清洗单元用于将原始评分数据转化为结构化评分数据,并对结构化评分数据进行数据缺失值填充与数据归一化处理。
本实施例中,异常数据检测单元用于对清洗好的结构化评分数据进行单向异常检测、一致性检测与双向异常检测。
本实施例中,异常数据集获取单元用于存储单向异常检测、一致性检测与双向异常检测的异常检测结果。
本实施例中,异常数据集修正单元用于修正第一异常数据集、第二异常数据集和第三异常数据集中获取的异常数据。
本实施例中,报告生成单元用于生成评审人能力评价报告与异常评分修正报告。
本发明实施例的同行互评异常评分检测及修正装置可在计算机终端通过可视化界面实施,包括以下功能:
①数据提取,用于从企业人员绩效考核数据库获取特定时间段内同行互评数据集,其中,数据集中包括至少一个评审人信息。提取的数据集可通过计算机终端可视化界面以表格的形式展示如图6所示。
②数据清洗,用于将原始评分数据转化为结构化数据,并对结构化评分数据进行数据缺失值填充与数据归一化处理。
③异常数据检测,用于对清洗好的结构化数据进行单向异常检测、一致性检测与双向异常检测。
④异常数据集获取,用于存储单向异常检测、一致性检测与双向异常检测的异常检测结果。
⑤异常数据集修正,用于修正第一异常数据集、第二异常数据集和第三异常数据集中获取的异常数据集。
⑥生成评审报告,评审报告包括评审人能力评价报告与异常评分修正报告。
应当理解的是,除了可以在计算机终端上可视化外,还可以在其它的终端设备上可视化,例如平板电脑、笔记本等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。