掌桥专利:专业的专利平台
掌桥专利
首页

离职预估方法、计算机装置及存储介质

文献发布时间:2023-06-19 18:29:06


离职预估方法、计算机装置及存储介质

技术领域

本申请涉及计算机技术领域,尤其涉及一种离职预估方法、计算机装置及存储介质。

背景技术

劳动密集型企业随着产能的逐年增长,用工荒问题凸显,企业如何招揽员工、留住员工,成为劳动密集型企业不得不面对的问题。针对人员离职的问题,企业管理者往往通过访谈摸底等形式了解员工离职意向与时间,而员工往往不愿吐露真实想法,以至于实际离职人数与摸底离职人数误差大,导致人力补充不及时或招募过剩,出现产能不达标、增加额外人力成本等问题。

发明内容

鉴于以上内容,有必要提供一种离职预估方法、计算机装置及存储介质,能够预测生产线员工的离职时间与人数,降低企业在人力管理方面的难度,辅助人力招募。

所述离职预估方法包括:获取预设的数据源中的源数据;对所述源数据进行第一数据处理,并从经过所述第一数据处理后的源数据中选取训练集和第一验证集;利用所述训练集训练机器学习模型,获得离职预估模型;利用所述第一验证集验证所述离职预估模型,获得第一预估结果;根据所述第一预估结果,优化所述离职预估模型,获得优化后的离职预估模型;从所述预设的数据源中确定更新的源数据,利用所述优化后的离职预估模型,获得所述更新的源数据的离职预估结果。

可选地,所述对所述源数据进行第一数据处理包括:基于数据仓库技术,对所述源数据依次进行数据抽取、数据清洗、数据转换、数据装载,获得经过数据仓库技术处理后的源数据;及对所述经过数据仓库技术处理后的源数据进行时序关联分析、特征编码。

可选地,所述数据抽取包括:对所述源数据中预设类别的数据进行抽取;所述数据清洗包括:确定抽取的数据中的第一异常数据,删除所述第一异常数据,获得抽取的数据中的第一正常数据;所述数据转换包括:对所述第一正常数据进行数据类型转换、数据语义转换;所述数据装载包括:将经过所述数据转换后的第一正常数据保存至预设的数据仓库中。

可选地,所述时序关联分析包括:按照单员工单日的时序关联原则,在经过所述数据转换后的第一正常数据之间建立关联;所述特征编码包括:按照预设的编码规则,对所述经过所述数据转换后的第一正常数据进行赋值。

可选地,利用所述训练集训练机器学习模型获得的模型包括提升方法模型。

可选地,所述利用所述第一验证集验证所述离职预估模型,获得第一预估结果包括:将所述第一验证集输入所述离职预估模型,获得所述第一验证集对应的第一时间段内每日的第一预估结果,所述第一预估结果包括:所述第一时间段内每日的预估离职人数与每个员工的预估离职情况;其中,任一员工的预估离职情况包括:所述任一员工为预估离职员工和所述任一员工为预估在职员工。

可选地,所述根据所述第一预估结果,优化所述离职预估模型,获得优化后的离职预估模型包括:从经过所述第一数据处理后的源数据中获取所述第一时间段内每日的实际离职人数,以及根据所述第一时间段内每日的每个员工的预估离职情况统计所述第一时间段内每日的第二预估离职人数;对所述第一时间段内每日的第一预估离职人数与实际离职人数进行比较,获得第一比较结果;对所述第一时间段内每日的第一预估离职人数和第二预估离职人数进行比较,获得第二比较结果;根据所述第一比较结果和所述第二比较结果,对经过所述第一数据处理后的源数据进行第二数据处理,获得目标源数据;根据所述第一比较结果和所述第二比较结果选择深度神经网络模型,所述深度神经网络模型包括一维卷积神经网络模型;及基于所述目标源数据和所述深度神经网络模型,对所述离职预估模型进行优化。

可选地,所述第二数据处理包括:确定经过所述第一数据处理后的源数据中的第二异常数据,对所述第二异常数据进行删除和/或修正,获得经过所述第一数据处理后的源数据中的第二正常数据,将所述第二正常数据作为所述目标源数据;所述利用所述优化后的离职预估模型,获得所述更新的源数据的离职预估结果包括:对所述更新的源数据进行所述第一数据处理和所述第二数据处理,获得更新的目标源数据;及将所述更新的目标源数据输入所述优化后的离职预估模型,获得所述更新的源数据的离职预估结果。

所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述离职预估方法。

所述计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现所述离职预估方法。

相较于现有技术,所述离职预估方法、计算机装置及存储介质,能够通过获取人资系统的员工个人信息、岗位信息、动态考勤等数据,使用深度学习算法,建立与参考日期模块对等的感受野一维卷积神经网络模型,实现单员工单日的离职预测,避免因人力补充不及时或补充过剩导致的产出不达标或人员闲置等问题。同时给出确定性招募计划,辅助人资按需进行人力招募。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的离职预估方法的流程图。

图2是本申请实施例提供的计算机装置的架构图。

主要元件符号说明

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。

参阅图1所示,为本申请较佳实施例的离职预估方法的流程图。

在本实施例中,所述离职预估方法可以应用于计算机装置(例如图2所示的计算机装置3)中,对于需要进行离职预估的计算机装置,可以直接在计算机装置上集成本申请的方法所提供的用于离职预估的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在计算机装置上。

如图1所示,所述离职预估方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

步骤S1,计算机装置获取预设的数据源中的源数据。

在一个实施例中,所述预设的数据源可以是员工信息数据库和企业应用管理平台数据库。所述源数据包括企业员工的考勤数据(例如员工的请假时间、加班时长、迟到或早退的时间、旷工的时间、离职类型、离职时间)、基本信息(例如员工的性别、出生年月、籍贯、民族、居住地址、是否是双职工)、身份属性数据(例如员工的工号、部门、年资、薪酬等级、职位等级、入职薪资、入职方式、所处生产线别、岗位、直属主管)、薪酬福利数据(例如底薪、上一次涨薪金额、上一次涨薪时间、绩效、津贴)和其他相关数据(例如发薪日、发薪周、工作计划)。

步骤S2,计算机装置对所述源数据进行第一数据处理,并从经过所述第一数据处理后的源数据中选取训练集和第一验证集。

在一个实施例中,所述对所述源数据进行第一数据处理包括:基于数据仓库技术(Extract-Transform-Load,ETL),对所述源数据依次进行数据抽取、数据清洗、数据转换、数据装载,获得经过数据仓库技术处理后的源数据;及对所述经过数据仓库技术处理后的源数据进行时序关联分析、特征编码。

在一个实施例中,所述数据抽取包括:对所述源数据中预设类别的数据进行抽取。所述预设类别的数据包括企业员工的考勤数据、基本信息、身份属性数据、薪酬福利数据、其他相关数据中的各种数据。

在一个实施例中,所述数据清洗包括:确定抽取的数据中的第一异常数据,删除所述第一异常数据,获得抽取的数据中的第一正常数据。所述第一异常数据可以包括采集难度较大的数据和/或采集数据不准确的数据(例如员工的居住地址、是否是双职工,员工的薪酬福利数据等)。

在一个实施例中,所述数据转换包括,但不限于:对所述第一正常数据进行数据类型转换、数据语义转换、数据粒度转换、数据标准化处理。其中,所述数据类型转换包括:将来自不同数据源的不同类型的数据转换为格式统一的兼容的数据类型,例如将所有日期的数据类型转换为date类型。

所述数据语义转换包括:基于任一数据源的维度表对所述任一数据源的事实表进行语义解析,将所有数据源的事实表中的字段都解析为统一类型的业务解析语言。

所述数据粒度转换包括:将所述任一数据源中的明细数据进行聚合,以增大数据粒度。

所述数据标准化处理包括:消除所述任一数据源中各种数据的指标之间的量纲影响,以解决数据指标之间的可比性,使各指标处于同一数量级。

在一个实施例中,所述数据装载包括:将经过所述数据转换后的第一正常数据保存至预设的数据仓库(Data Warehouse)中,所述预设的数据仓库可以是计算机装置的存储器。

在一个实施例中,所述时序关联分析包括:按照单员工单日的时序关联原则,在经过所述数据转换后的第一正常数据之间建立关联。具体而言,所述时序关联分析包括:按照单日的时序,将当前数据(即所述经过数据仓库技术处理后的源数据)中属于每个员工的经过所述数据转换后的第一正常数据中的每种数据作为一种因子,并在所有属于同一员工的多种因子之间建立时序关联,所述时序关联包括在当日的数据与当日之前的多日(例如,2天)的数据之间建立关联。例如,在某年某月某日,对属于员工A的经过所述数据转换后的第一正常数据进行的时序关联分析结果包括:员工A的年龄、性别、今日加班时长、昨日未加班、前天加班时长、今日未迟到、昨日迟到时间、发薪日后的第几日、状态为未离职等。

在一个实施例中,所述特征编码包括:按照预设的编码规则,对所述经过所述数据转换后的第一正常数据进行赋值,通过赋值为各种因子设置权重。例如,将所有薪资的数额都赋值为(0,1)之间的数值,薪资越高赋值越大且权重越大。

在一个实施例中,计算机装置从经过所述第一数据处理后的源数据中选取训练集和第一验证集,所述第一验证集包括经过所述第一数据处理后的源数据中的与第一时间段对应的数据。所述第一时间段可以是指所述预设的数据源记录该源数据的时间。例如,从经过所述第一数据处理后的源数据中选取2018年8月1日至2018年8月21日的数据作为训练集,从经过所述第一数据处理后的源数据中选取2018年8月22日至2018年8月30日的数据作为第一验证集,此处所述2018年8月22日至2018年8月30日即所述第一时间段。

步骤S3,计算机装置利用所述训练集训练机器学习模型,获得离职预估模型。

在一个实施例中,所述利用训练集训练机器学习模型获得的模型包括但不限于:逻辑回归模型(Logistic Regression Model)、随机森林模型(Random Forest Model)、朴素贝叶斯模型(

步骤S4,计算机装置利用所述第一验证集验证所述离职预估模型,获得第一预估结果。

在一个实施例中,所述利用所述第一验证集验证所述离职预估模型,获得第一预估结果包括:将所述第一验证集输入所述离职预估模型,获得所述第一验证集对应的第一时间段(例如2018年8月22日至2018年8月30日)内每日的第一预估结果。

所述第一预估结果包括:所述第一时间段内每日的第一预估离职人数与每个员工的预估离职情况;其中,任一员工的预估离职情况包括:所述任一员工为预估离职员工或所述任一员工为预估在职员工(即所述任一员工为预估未离职员工)。需要说明的是,所述第一预估离职人数为按照员工总人数获得的离职预估结果,所述每个员工的预估离职情况为针对每个员工进行离职预估获得的结果。

举例而言,所述第一预估结果包括:在2018年8月22日员工总人数为1000时,第一预估离职人数为8;2018年8月22日员工A为预估在职员工,2018年8月23日员工A为预估离职员工。

在一个实施例中,计算机装置还可以从经过所述第一数据处理后的源数据中获取所述第一时间段内每日的员工总人数,根据所述第一时间段内每日的第一预估离职人数和员工总人数,计算获得所述第一时间段内每日的第一预估在职人数。

步骤S5,计算机装置根据所述第一预估结果,优化所述离职预估模型,获得优化后的离职预估模型。

在一个实施例中,计算机装置从经过所述第一数据处理后的源数据中获取所述第一时间段(例如2018年8月22日至2018年8月30日)内每日的实际离职人数(例如,2018年8月22日员工的实际离职人数为5),以及根据所述第一时间段内每日的每个员工的预估离职情况统计所述第一时间段内每日的第二预估离职人数,例如,统计得到2018年8月22日的员工中是预估离职员工的人数为5,那么第二预估离职人数为5。

在一个实施例中,计算机装置对所述第一时间段内每日的第一预估离职人数与实际离职人数进行比较,获得第一比较结果。所述第一比较结果包括:所述第一时间段内每日的第一错误率。所述第一错误率的计算公式为:第一错误率=(第一时间段内每日的第一预估离职人数-第一时间段内每日的实际离职人数)/第一时间段内每日的实际离职人数×100%。例如,2018年8月22日的第一错误率=(8-5)/5×100%=60.00%。

在一个实施例中,计算机装置对所述第一时间段内每日的第一预估离职人数和第二预估离职人数进行比较,获得第二比较结果。所述第二比较结果包括:计算所述第一时间段内每日的第二错误率,所述第二错误率的计算公式为:第二错误率=(第一时间段内每日的第一预估离职人数-第一时间段内每日的第二预估离职人数)/第一时间段内每日的第一预估离职人数×100%。例如,2018年8月22日的第二错误率=(5-5)/5×100%=0.00%。

在一个实施例中,计算机装置还可以利用折线图来直观对比所述第一时间段内每日的第一预估离职人数、实际离职人数和第二预估离职人数。具体而言,计算机装置可以对所述第一时间段内每日的第一预估离职人数进行拟合获得第一拟合曲线,对所述第一时间段内每日的实际离职人数进行拟合获得第二拟合曲线,对所述第一时间段内每日的第二预估离职人数进行拟合获得第三拟合曲线,在第一直角坐标系中以不同颜色分别绘制所述第一拟合曲线、第二拟合曲线和第三拟合曲线,所述第一直角坐标系的横轴表示所述第一时间段每日的日期,所述第一直角坐标系的纵轴表示人数。例如,计算机装置可以在第一直角坐标系中用蓝色折线绘制所述第一拟合曲线,在所述第一直角坐标系中用红色折线绘制所述第二拟合曲线,在所述第一直角坐标系中用黄色折线绘制所述第三拟合曲线;其中,所述第一直角坐标系的横轴表示所述第一时间段例如2018年8月22日至2018年8月30日的日期,所述第一直角坐标系的纵轴表示人数。同样的,计算机装置还可以根据所述第一时间段内每日的第二预估离职人数和员工总人数,计算获得所述第一时间段内每日的第二预估在职人数。计算机装置还可以统计所述第一时间段内每日的第一预估在职人数、实际在职人数和第二预估在职人数,并利用折线图来对在职人数数据进行直观对比,不再赘述。

在一个实施例中,计算机装置根据所述第一比较结果和所述第二比较结果,确定经过所述第一数据处理后的源数据中的第二异常数据,所述第二异常数据包括过拟合数据,所述过拟合数据包括使得所述第一错误率和/或第二错误率的数值过高(例如,超过15%)的数据,例如,员工连续多日旷工的数据、节假日出现离职的数据。

在一个实施例中,计算机装置对经过所述第一数据处理后的源数据进行第二数据处理,获得目标源数据。所述第二数据处理包括:对所述第二异常数据进行删除和/或修正,获得经过所述第一数据处理后的源数据中的第二正常数据;及将所述第二正常数据作为所述目标源数据。所述修正包括降低或增大所述第二异常数据中因子的权重。

在一个实施例中,计算机装置根据所述第一比较结果和所述第二比较结果选择深度神经网络模型;及基于所述目标源数据和所述深度神经网络模型,对所述离职预估模型进行优化。所述深度神经网络模型包括但不限于:多层感知器(Multilayer Perceptron,MLP)模型、循环神经网(Recurrent Neural Networks,RNN)模型,一维卷积神经网络(Convolutional Neural Network,CNN)模型。其中,一维卷积神经网络模型CNN-1D在自然语言处理领域(Natural Language Processing,NLP)具有适用性,并且CNN可以使用固定的卷积隐层节点作为局部感受野(local receptive field),本实施例中选择CNN-1D对所述离职预估模型进行优化,所述优化包括:融合CNN在图像处理应用中的残差模组对所述离职预估模型进行轻量化处理,除模型的第一层与最后一层,将其他所有卷积层改为残差结构;修改所述离职预估模型的第一层激活函数,例如将relu改为sigmoid。

步骤S6,计算机装置从所述预设的数据源中确定更新的源数据,利用所述优化后的离职预估模型,获得所述更新的源数据的离职预估结果。

在一个实施例中,所述更新的源数据包括所述预设的数据源中当日更新的数据。计算机装置对所述更新的源数据进行所述第一数据处理和所述第二数据处理,获得更新的目标源数据;及将所述更新的目标源数据输入所述优化后的离职预估模型,获得所述更新的源数据的离职预估结果。

步骤S7,计算机装置展示所述更新的源数据的离职预估结果。

在一个实施例中,计算机装置基于所述数据仓库技术,建立可视化平台,在所述可视化平台上展示所述更新的源数据的离职预估结果。

上述图1详细介绍了本申请的离职预估方法,下面结合图2,对实现所述离职预估方法的硬件装置架构进行介绍。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

参阅图2所示,为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解,图2示出的计算机装置的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据。例如,所述存储器31可以用于存储预设的数据源,还可以存储安装在所述计算机装置3中的离职预估系统30,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。

在本申请的一个实施例中,所述存储器31存储一个或多个指令(即至少一个指令),所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的离职预估的目的。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行如图1所示的离职预估的功能。

在一些实施例中,所述离职预估系统30运行于计算机装置3中。所述离职预估系统30可以包括多个由程序代码段所组成的功能模块,本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段。所述离职预估系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中,并由至少一个处理器32所执行,以实现图1所示的离职预估的功能。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的离职预估系统30)、程序代码等,例如,上述的各个模块。

尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块、显示装置等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照以上较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

技术分类

06120115588963