导航：首页> 计算；推算；计数>基于简历解析的人员相似性计算方法、装置、设备及介质

基于简历解析的人员相似性计算方法、装置、设备及介质

文献发布时间：2024-04-18 19:55:00

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于简历解析的人员相似性计算方法、装置、设备及介质。

背景技术

人员相似性计算是将人与人之间的相似性进行量化的一种方法，是人力资源领域的一个研究重点，在人才搜索、个性化推荐系统、相似用户发现、用户聚类、社区发现、热点预测等多个领域发挥着重要的作用。

目前基于简历信息的人员相似性计算方法针对结构化特征和非结构化特征分别采用不同的技术，后对所有特征相似性进行加权融合，权重有自定义、层次分析法生成等方法。对于结构化特征进行匹配计算，如性别、年龄、地址、技能和具有标准库的用户标签等。对非结构化特征如工作经历，有的方法将工作经历看成由一段历史工作节点组成的序列，工作经历节点带有岗位名称、公司等特征，后通过编辑距离计算序列相似性。

用匹配方法计算特征相似性只有相同和不相同两种结果，未做到真正意义上的量化。将文本特征看作离散特征，未考虑文本信息的语义，但在日常使用场景中，很多不同的词语和表达都有相似的意思，即未完全匹配但相近的特征之间理应有一定的相似性，而不是为0。工作经历是一个带有时间性质的特征，现有技术未考虑工作时间的长短对相似性的影响。对于没有标签的人员数据，大部分技术都采用层次分析法对于不同特征的权重进行定义方法，这种定义权重的方法未结合实际应用，生成的相似性没有针对性，在进行在人才搜索、个性化推荐系统、相似用户发现、用户聚类、社区发现时准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高人才推荐和个性化推荐准确率的基于简历解析的人员相似性计算方法、装置、设备及介质。

一种基于简历解析的人员相似性计算方法，所述方法包括：

获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集；

根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性；

将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性；

根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；

利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性；

根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

在其中一个实施例中，根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性，包括：

将技能看成集合计算技能集合的杰卡德相似度，对技能集里面的每个技能采用贪心搜索计算最大相似度，采用加权融合的方式对杰卡德相似度和最大相似度进行计算，得到技能集之间的相似性。

在其中一个实施例中，对技能集里面的每个技能采用贪心搜索计算最大相似度，包括：

对技能集里面的每个技能采用贪心搜索计算最大相似度为

；

其中，

在其中一个实施例中，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性，包括：

对工作经历序列进行公司相似性计算，得到公司相似性为

；

其中，

对工作经历序列进行岗位名称相似性计算的，得到岗位名称相似性为

；

其中，

在其中一个实施例中，对公司相似性和岗位名称相似性进行权重赋值，得到融合后的节点相似性为

；

其中，

在其中一个实施例中，根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性，包括：

根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性为

；

其中，

在其中一个实施例中，根据类

根据类

；

其中，

一种基于简历解析的人员相似性计算装置，所述装置包括：

数据获取模块，用于获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集；

技能相似性计算模块，用于根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性；

节点相似性计算模块，用于将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性；

节点规划模块，用于根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；

相似性优化模块，用于利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性；

相似性最终计算模块，用于根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集；

根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；

根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集；

根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；

根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

上述基于简历解析的人员相似性计算方法、装置、设备及介质，首先根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性；将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性；根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性；根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

本申请通过计算带有语义的技能相似性和带有语义、时序的工作经历相似性，并通过利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，大大提高了人员相似性计算的准确率，在应用过程中给定一个带有技能和工作经历的个人简历数据集，能够有效生成相似性矩阵，也能在给定理想候选人的条件上从数据集中找到最相似人员。

附图说明

图1为一个实施例中一种基于简历解析的人员相似性计算方法的流程示意图；

图2为一个实施例中一种基于简历解析的人员相似性计算装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于简历解析的人员相似性计算方法，包括以下步骤：

步骤102，获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集。

给定包含成员信息的简历数据集

步骤104，根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性。

根据贪心搜索算法对技能集的向量特征进行相似度计算，能解决每个人的技能个数不同的情况下的相似度计算问题，对不同个数的技能集采取贪心策略得到最相似技能对的相似性之和，保证相似性的准确度。

根据BERT模型来提取文本语义，对技能集和岗位名称集进行特征计算，得到对应的词向量特征。

步骤106，将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性。

将工作经历按月份分为不同节点得到样本

步骤108，根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性。

根据最优对齐的动态规划算法解决了人员工作经历数不相同时相似性计算难以匹配节点的问题，能在对齐时跳过相似度较低的节点，并对不连续的节点进行惩罚，保证了在工作经历相同且顺序也相同的情况下最相似，最终得到候选节点相似性。

步骤110，利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性。

对技能相似性的两个特征赋权重

步骤112，根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

上述基于简历解析的人员相似性计算方法中，首先根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性；将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性；根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性；根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。本申请通过计算带有语义的技能相似性和带有语义、时序的工作经历相似性，并通过利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，大大提高了人员相似性计算的准确率，在应用过程中给定一个带有技能和工作经历的个人简历数据集，能够有效生成相似性矩阵，也能在给定理想候选人的条件上从数据集中找到最相似人员。

在其中一个实施例中，根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性，包括：

在其中一个实施例中，对技能集里面的每个技能采用贪心搜索计算最大相似度，包括：

对技能集里面的每个技能采用贪心搜索计算最大相似度为

；

其中，

在其中一个实施例中，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性，包括：

对工作经历序列进行公司相似性计算，得到公司相似性为

；

其中，

对工作经历序列进行岗位名称相似性计算的，得到岗位名称相似性为

；

其中，

在其中一个实施例中，对公司相似性和岗位名称相似性进行权重赋值，得到融合后的节点相似性为

；

其中，

根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性为

；

其中，

在其中一个实施例中，根据类DBI指数衡量聚类结果，包括：

根据类DBI指数衡量聚类结果为

；

其中，

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于简历解析的人员相似性计算装置，包括：数据获取模块202、技能相似性计算模块204、节点相似性计算模块206、节点规划模块208、相似性优化模块210和相似性最终计算模块212，其中：

数据获取模块202，用于获取简历数据集；简历数据集中包括多个样本；样本包括技能集和工作经历集；工作经历集包括公司集和岗位名称集；

技能相似性计算模块204，用于根据BERT模型对技能集和岗位名称集进行特征计算，得到对应的词向量特征；根据贪心搜索算法对技能集的向量特征进行相似度计算，得到技能集之间的相似性；

节点相似性计算模块206，用于将工作经历按月份分为不同节点构建工作经历序列，对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值，得到融合后的节点相似性；

节点规划模块208，用于根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚，得到候选节点相似性；

相似性优化模块210，用于利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重，然后对技能集之间的相似性和候选节点相似性进行谱聚类，根据类DBI指数衡量聚类结果，选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化，得到优化后的技能集之间的相似性和候选节点相似性；

相似性最终计算模块212，用于根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算，得到最终的人员相似性。

关于基于简历解析的人员相似性计算装置的具体限定可以参见上文中对于基于简历解析的人员相似性计算方法的限定，在此不再赘述。上述基于简历解析的人员相似性计算装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于简历解析的人员相似性计算方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图3中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国人民解放军国防科技大学;