掌桥专利:专业的专利平台
掌桥专利
首页

一种基于聚类的员工行为分类模型数据集的生成方法

文献发布时间:2023-06-19 09:49:27


一种基于聚类的员工行为分类模型数据集的生成方法

技术领域

本发明涉及计算机技术领域,更具体地,涉及一种基于聚类的员工群体行为分类方法。

背景技术

员工群体行为测评通过科学方法对企业员工的行为进行分析,是为企业发展进步提供可靠、客观的依据,为企业业绩提供参考性建议,是选拔优秀员工的基本工具。目前对员工群体行为聚类分析的研究主要是分析用户的特征,通过分析该用户的行为记录,可以区分企业员工的工作程度,帮助管理者了解企业员工的行为特征和工作状况。

RFM法在营销学中最早被提出和应用。RFM三个字母分别代表:Recency(上一次购买行为的日期新鲜度),Frequency(购买频率),Monetary(平均购买金额)。这三个变量从三个维度综合刻画了在零售消费领域,具体使用时,对三个维度分别进行打分,通过三个维度的综合得分,来评价消费者对于企业的价值高低。

将RFM法应用到员工评价是因为,经过行为类别我们认为,营销领域的R,代表客户最近一次购买的日期,距离当前时间点是否够近;对应研发人员的R,代表研发人员最近一次的研发日期,距离当前时间点是否够近二者具有可类比性。

发明内容

将RFM方法应用到员工评价是因为,经过行为类别我们认为,营销领域的R,代表客户最近一次购买的日期,距离当前时间点是否够近;对应企业员工的R,代表员工最近一次的价值产出日期,距离当前时间点是否够近,二者具有可类比性;营销领域的F,代表客户购买频率;对应企业员工的F,代表员工的价值产出的频率,二者具有可类比性;营销领域的M,代表客户购买平均金额;对应企业员工的M,代表员工价值产出的平均工作量,二者具有可类比性。

为达到上述目的,本发明采用下述技术方案:

本发明第一方面提供了一种基于聚类的员工行为分类模型数据集的生成方法,包括:

S10、获取员工在时间周期内的时间序列数据,计算RFM变量,分别得出员工在时间周期内的R、F和M,其中R为员工有价值产出最近一次的时间点,F为时间周期内,员工价值产出频率,M为时间周期内平均价值产出;

S20、获取员工在时间周期内的截面数据,计算在时间周期内的实际工作总时长、已完成开发任务数量、缺陷数量、缺陷处理总时长和组织成本五个截面特征变量;

S30、将所述R、F和M变量和所述五个截面特征变量合并,得到每个员工的八个特征变量;

S40、检验所述八个特征变量间的相关性,去除关联变量,得到用于聚类的特征变量,并将时间周期内的用于聚类的特征变量作为数据集。

在一个具体实施例中,所述员工的实际工作总时长为:

实际工作总时长=∑(下班打卡时间-上班打卡时间-午休结束时间+午休开始时间),其中,∑为对员工在时间周期内求和。

在一个具体实施例中,所述已完成开发任务数量为:

已完成开发任务数量=开发任务数量+测试任务数量。

在一个具体实施例中,所述缺陷处理总时长为:

缺陷处理总时长=∑(缺陷解决时间-缺陷创建时间)。

在一个具体实施例中,所述S40还包括:

选择皮尔逊相关性检验,得到缺陷数量特征变量和缺陷处理总时长特征变量高度相关,选取去除缺陷数量特征变量,得到用于聚类的七个特征变量为R、F、M、实际工作总时长、已完成开发任务数量、缺陷处理总时长和组织成本,将时间周期内的七个特征变量作为数据集。

本发明第二方面提供了利用本发明第一方面所述方法生成的数据集进行K-means算法聚类模型训练的方法,包括:

S12、输入n个用于聚类的七个特征变量的数据集D={x1,x2,…,xn},聚类的类别数设定为k,迭代次数最大为N次,其中1≤N≤n;

S22、从数据集D中随机选择k个样本作为初始的k个质心,分别为μ1,μ2,…,μk,每个质心代表一个类别的中心;

S32、计算每个样本xi和各个质心μj之间的距离,为:dij=||xi-uj||,使得dij取得最小值的质心,为xi所属的类别,其中1≤i≤n,1≤j≤k;

S42、对于每个类别j,用属于该质心的所有样本取均值,重新计算质心,为

其中,u

S52、若所有的k个质心向量不再发生变化,则输出类别划分中心为所有的u

在一个具体实施例中,对聚类结果使用S参数进行误差参数对比,为

对聚类结果使用S参数进行误差参数对比时,选取误差参数最小的一个结果,若最小误差内有多个聚类结果,则选取聚类个数最少的结果,其中,u

本发明第三方面提供了利用本发明第二方面的训练方法生成的聚类模型对员工行为进行分类的方法,将每位员工的七个特征变量作为聚类模型的输入,计算得到对应的优秀员工、普通员工、吃苦员工和落后员工的分类结果。

本发明第四方面提供了一种计算机设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明第一方面所述的生成方法或第二方面所述的训练方法。

本发明第五方面提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面所述的生成方法或第二方面所述的训练方法。

本发明的有益效果如下:

本发明提供一种基于聚类的员工行为分类模型数据集的制作方法、K-means算法聚类模型训练的方法和应用,本发明可有效帮助管理者了解开发人员的行为特征和工作状况,对于不同类别的员工分类制定更为合理的管理举措。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1示出根据本申请的一个实施例的实现本发明方法的硬件架构图。

图2示出根据本申请的一个实施例的基于聚类的员工行为分类模型数据集的制作方法的流程图。

图3示出本发明的一个实施例的实施本发明的聚类模型对员工行为进行分类方法的分类结果的示意图。

图4示出本发明的一个实施例的实施本发明的聚类模型对员工行为进行分类方法的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。

图1示出了可以应用本申请的基于聚类的员工行为分类模型数据集的生成方法、K-means算法聚类模型训练的方法或利用生成的聚类模型对员工行为进行分类的方法的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括用户端101、网络104和服务器107。网络104用以在用户端101和服务器107之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。

用户可以使用用户端101通过网络104与服务器107交互,以进行基于聚类的员工行为分类模型数据集的制作、K-means算法聚类模型训练或利用生成的聚类模型对员工行为进行分类等。

用户端101可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。

服务器107可以是提供各种服务的服务器,服务器107可以对接收到的N年内的闸井安全事故应急事件的内部数据进行分析等处理,并将处理结果反馈给用户端101。

需要说明的是,图1中的用户端、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

实施例一

本发明提供了一种基于聚类的员工行为分类模型数据集的生成方法,如图2所示,它包括如下步骤:

S10、获取员工在时间周期内的时间序列数据,计算RFM变量,分别得出员工在时间周期内的R、F和M,其中R为员工有价值产出最近一次的时间点,F为时间周期内,员工价值产出频率,M为时间周期内平均价值产出。

在一个具体实施例中,获取员工在一个月内每周的时间序列数据,通过该时间序列数据,根据RFM算法,可以计算出员工在这一个月的R(新鲜度),例如第一周有产出,而第2-4周都没有产出,则R取低值,例如1;例如第1-3周没有产出,而第4周有产出,则意味着最新鲜,R取高值,例如4;例如第1,3,4周没有产出,而第2周有产出,则R取相应值,例如2;如果每周都有产出,则去距离观察点最近的进行赋值;仅取最靠近观察点的有产出的一次,越靠近观察点赋值越高;通过该时间序列数据,根据RFM算法,可以计算出员工在这一个月的F(频率),F的取值为每个月几周有产出就取几,例如在这一个月有4周都有产出,则F取4;通过该时间序列数据,根据RFM算法,可以计算出员工在这一个月的M(平均价值产出),M的取值为每月中所有周数产出价值的平均值,例如员工累计产出价值为13,则M=13/4=3.75。

S20、获取员工在时间周期内的截面数据,计算在时间周期内的实际工作总时长、已完成开发任务数量、缺陷数量、缺陷处理总时长和组织成本五个截面特征变量。

在一个具体实施例中,截面数据采集时间要与RFM变量的时间周期保持一致,例如RFM变量对应一个月的行为表现,则截面特征变量也要截取同一个月的截面数据来计算。

在一个具体实施例中,所述员工的实际工作总时长为:

实际工作总时长=∑(下班打卡时间-上班打卡时间)-(午休结束时间-午休开始时间),其中,∑为对员工在一段时间内求和。

在一个具体实施例中,所述已完成开发任务数量为:

已完成开发任务数量=开发任务数量+测试任务数量,针对研发人员,以编程为例,完成一个任务可能需要写1000行代码,只有完成这1000行代码后,才意味着完成该任务。

在一个具体实施例中,所述缺陷数量和缺陷处理总时长都可以从Jira系统中直接采集得到,其中缺陷处理总时长为对一个员工处理过的所有缺陷求和,为:

缺陷处理总时长=∑(缺陷解决时间-缺陷创建时间)。

在一个具体实施例中,所述组织成本为企业一个月内为员工花费的所有成本之和。表1示出员工1、员工2和员工3的5个截面特征变量。

表1员工1、员工2和员工3的5个截面特征变量

S30、将所述R、F和M变量和所述五个截面特征变量合并,得到每个员工的八个特征变量。

在一个具体实施例中,表2以员工1为例,示出员工1的8个特征变量。

表2员工1的8个特征变量

S40、检验所述八个特征变量间的相关性,去除关联变量,得到用于聚类的特征变量,并将时间周期内的用于聚类的特征变量作为数据集。

在一个具体实施例中,用K-means算法对员工行为聚类前,K-means算法要求输入的变量间彼此不相关。本申请选择皮尔逊相关性检验,得到缺陷数量和缺陷处理总时长高度相关,剔除缺陷数量特征变量,得到用于聚类的七个特征变量为R、F、M、实际工作总时长、已完成开发任务数量、缺陷处理总时长和组织成本,将时间周期内的七个特征变量作为数据集。

实施例二

利用实施例一所述方法生成的数据集行K-means算法聚类模型训练的方法,包括:

S12、输入n个用于聚类的七个特征变量的数据集D={x1,x2,…,xn},聚类的类别数设定为k,迭代次数最大为N次,其中1≤N≤n;

S22、从数据集D中随机选择k个样本作为初始的k个质心,分别为μ1,μ2,…,μk,每个质心代表一个类别的中心;

S32、计算每个样本xi和各个质心μj之间的距离,为:dij=||xi-uj||,使得dij取得最小值的质心,为xi所属的类别,其中1≤i≤n,1≤j≤k;

S42、对于每个类别j,用属于该质心的所有样本取均值,重新计算质心,为

其中,u

S52、若所有的k个质心向量不再发生变化,则输出类别划分中心为所有的u

在一个具体实施例中,对聚类结果使用S参数进行误差参数对比,为

对聚类结果使用S参数进行误差参数对比时,选取误差参数最小的一个结果,若最小误差内有多个聚类结果,则选取聚类个数最少的结果,其中,u

在一个具体实施例中,人为设定聚类类别个数,一般为3~10之间的某个数,然后进行算法计算;聚类完成后,对聚类结果的误差参数进行记录。对于Kmeans算法而言,选取的误差评价参数为:S;多次设定聚类类别个数K,比较得出误差参数S达到最小值时对应的聚类类别,并作为可信结果;如果出现若干个不同的聚类类别数情况下,S十分接近,误差在0.005(实际经验值)之内,则选取聚类个数最少的结果。例如聚类类别=3,S=0.012和聚类类别=4时,S=0.01。二者相差0.002<0.005,此时虽然聚类个数为3的结果误差参数不是最小的,但在0.005范围内,因此选择聚类类别为3。

实施例三

利用实施例一所述的方法生成的数据集或实施例二所述的训练方法生成的聚类模型对员工行为进行分类的方法,将每位员工的七个特征变量作为聚类模型的输入,计算得到不同类别的员工,例如得到对应的优秀员工、普通员工、吃苦员工和落后员工的分类结果。

在本申请中,选取16个员工,提取他们的7个特征变量并聚类,得到16个员工的7分特征变量和聚类结果如表3所示,对员工行为进行分类方法的分类结果如图3所示。

表3 16个员工的7分特征变量和聚类结果

从表3中可以看出,数字序号代表类别,得出类别1:优秀,2人,RFM得分高,价值点高,工作效率高;类别2:普通,6人,行为趋同,各项行为数据处于中等水平;类别3:吃苦,4人,工作时间与普通员工一样,但任务数量、任务产出多;类别4:落后,4人,各项行为数据偏小,工作产出很少。

实施例四

如图4所示,本发明的一个实施例提供了一种计算机设备的结构示意图,图4显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现实施例一或实施例二所提供的方法。

本发明针对目前现有的问题,提供一种计算机设备,充分利用闸井系统的历史监测大数据和机器学习方法,并考虑到城市燃气闸井的复杂性及事故原因的复杂性,结合基于模糊数学理论的专家模糊综合评价法,给出一种联合了大数据和专家经验优势的更客观、科学、易操作的燃气闸井风险预测模型构建方法。闸井风险预测模型要对闸井的事故发生可能和后果严重程度进行量化,计算评定其风险等级,事先给出风险预测,能在很大程度上提升闸井风险预测的准确性。

实施例五

本发明的另一个实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一或实施例二所提供的方法。

在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

相关技术
  • 一种基于聚类的员工行为分类模型数据集的生成方法
  • 生成聚类模型以及基于该聚类模型进行聚类的方法和装置
技术分类

06120112313622