一种基于数据采集的高端人才数据库构建方法

文献发布时间：2023-06-19 18:32:25

技术领域

本发明属于计算机数据挖掘技术领域，具体涉及一种基于数据采集的高端人才数据库构建方法。

背景技术

高端人才是目前各个城市、企业机构的首要引进目标，能够推动该城市所在地的高端领域技术的创新发展，提高核心竞争力，目前最常用人才引进手段包括通过猎聘手段寻找行业关键人才，但是这需要付出较高的看护成本，对于一些全能型人才的挖猎难度相对更大，并且对于高端人才的资源也相对较少；部分还通过提升内部绩优人才以补充关键人才，但是需要花费较长的时间来建立内部人才梯队，耗费时间长且效果也并不明显；此外还有部分企业机构直接在互联网搜索引擎中根据关键词进行检索，但是所获取的信息十分有限，并且搜索结果的准确率也不高，目前各行业的高端人才信息也都非常分散，不便汇总，对人才引进工作造成了不便。

发明内容

针对目前存在的寻找行业高端人才成本高、难度大、耗费时间长且效果也并不明显，在互联网搜索引擎中根据关键词进行检索，所获取的信息十分有限，并且搜索结果的准确率也不高，且各行业的高端人才信息也都非常分散，不便汇总的缺陷和问题，本发明提供一种基于数据采集的高端人才数据库构建方法。

本发明解决其技术问题所采用的方案是：一种基于数据采集的高端人才数据库构建方法，包括以下步骤：

步骤一：搭建用于汇集高端人才信息的数据库及设计表结构，其中人才信息表中具有包含多项属性的高端人才基本信息，用于辅助人才身份验证和人才关系分析；

步骤二：根据设定好的检索条件基于数据采集技术在搜索引擎中深度检索，对全网高端人才基本信息进行采集汇总，并筛选出包含高端人才名和机构名的人才信息详情页链接，再将高端人才名和机构名信息存储到人才表中，作为新的检索条件再次检索；

步骤三：根据已存储的高端人才名和所述机构名在搜索引擎中进行搜索，同时对生成的页面数据进行过滤处理，筛除不必要的人物标签，将符合高端人才信息的数据更新至对应的人才信息表中，从而实现对高端人才其他各项维度信息进行补全；

步骤四：进行人才合作关系匹配，构建关系图谱，根据采集到的高端人才信息，提取出具有合作关系的信息，将其按照合作关系程度进行排序并更新至人才表中的关系图谱字段中，同时将未收录的人才添加至人才库中，继续进行步骤二的采集任务；

步骤五：根据已存储的数据进行分析和展示，通过收录的人才信息生成各地区各行业的人才画像和人才地图，实现高端人才数据可视化。

作为本发明的一种优选技术方案，所述步骤一中创建的汇集高端人才信息的设计表包括人才表、论文表、专利表、项目表和新闻资讯表。

作为本发明的一种优选技术方案，所述步骤二中通过爬虫系统读取数据库中设定好的检索条件生成采集任务，并在搜索引擎中搜索出与关键词相关的列表页内容。

作为本发明的一种优选技术方案，所述步骤二中对搜索得到的列表页内容进行智能解析，以筛选出其中具有高端人才信息的详情页链接。

作为本发明的一种优选技术方案，所述步骤三中通过设置过滤词汇和特征词汇，对搜索引擎中输出的与高端人才重名的信息进行清洗筛除，以输出符合高端人才信息的数据。

作为本发明的一种优选技术方案，所述步骤四中根据高端人才名和所属机构名获取到的有关人才的论文、专利、项目、新闻资讯信息，提取出作者列表、发明人列表、项目参与人、活动出席人，判定在同一论文、专利、项目、新闻资讯活动中出现的人之间具有合作关系，并将关系信息更新至人才信息表的关系图谱字段中。

作为本发明的一种优选技术方案，所述步骤五中根据人才信息中的籍贯、专业、当前所在地的信息，生成一种能够明确统计各地区关键人才发展现状的高端人才战略地图，该战略地图即为人才地图。

作为本发明的一种优选技术方案，所述步骤五中根据在高端人才数据库查询人才信息和其所涉及的论文、专利、项目、合作关系，来将每个高端人才的领域优势和发展趋势展示出来，即为生成的高端人才画像。

与现有技术相比，本发明的有益效果是：本发明在对存储的高端人才名和所属机构名进行各维度信息补全的过程中，能够对出现的一些具有干扰性的信息如重名数据进行清洗筛除，从而提高了对高端人才数据库中存储信息的准确性；通过将人才合作关系进行匹配，能够明确显示出高端人才之间合作关系的优先度，同时在匹配过程中还能发掘出未收录的高端人才，并将其添加至人才库中，保证了数据库中数据源的持续增加和人才信息的实时更新，为企业机构提供了更多更优质的选择；通过最终生成的人才画像和人才地图，汇集了各地区各行业的高端人才基本数据，能够快速高效精确的为企业机构提供人才需求的分析和筛选，更加便捷的寻找所需要的高端人才。

通过本发明提供的基于数据采集的高端人才数据库构建方法，结合数据采集技术进行全网高端人才、人才合作关系的抓取，来构建包含全网高端人才基本信息的数据库，从而实现了对全网高端人才信息的采集、存储、分析和可视化这一整个流程，汇集了各地区的高端人才基本数据，满足了企业机构对高端人才的数量和质量两方面的把控，能够更大程度范围内面向不同领域的企业机构对于高端人才的需求。

附图说明

图1为本发明的整体流程图；

图2为本发明步骤二的操作流程图；

图3为本发明步骤三结合实施例二的操作流程图；

图4为本发明步骤四的操作流程图；

图5为本发明步骤五的操作流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

请参阅图1-5，本发明提供了一种基于数据采集的高端人才数据库构建方法的技术方案：

实施例一：

根据图1-5所示，本发明提供的一种基于数据采集的高端人才数据库构建方法，包括以下步骤：

步骤一：搭建用于汇集高端人才信息的数据库及设计表结构，其中包括创建的人才表、论文表、专利表、项目表和新闻资讯表，用来辅助人才身份验证和人才关系分析，而完整的人才信息表包括“姓名、性别、照片、简介、机构、部门、民族、籍贯、专业、职称、学位、邮箱、出生日期、毕业学院、研究方向、教育经历、工作经历、学术思想、科研成果、获奖情况、荣誉称号、社会活动、出版著作、主要论文、关系图谱”等属性，是人才数据库的核心内容；

步骤二：根据步骤一中创建的表格，对表格内容进行填充，依据检索条件基于数据采集技术在搜索引擎中深度检索，对全网高端人才基本信息进行采集汇总，并筛选出包含高端人才名和机构名的人才信息详情页链接，具体地，参见图2，首先设置检索条件，为各地区的“国家院士”、“长江学者”、 “千人计划”、“ 科学技术进步奖”、“ 万人计划”、“ 自然科学奖”获得者，以及具有一定影响力的“领军人才”、“专业技术人才”、“管理人才”、“技能人才”等，通过爬虫系统读取上述设定好的检索条件并生成采集任务，在百度、必应、谷歌、搜狗等搜索引擎中检索关键词，搜索后得到列表页内容，再将生成的列表页进行智能解析，筛选列表页内容中可能具有高端人才信息的详情页链接，即先提取出列表页主体，删除列表页html中的无关标签，并以a标签聚焦程度为评估标准，通过xpath匹配出主体中所有的a标签，以h标签、ul/li标签、tr/td标签为主，返回链接列表，通过余弦相似度公式计算链接列表中所有链接的相似度，即遍历链接列表，将每个链接分别和列表中的链接做相似度计算，保留相似度较高的链接，之后再返回新的链接列表，根据网站的域名从数组中过滤，保留符合规则的链接，通过访问余下的符合规则的链接详情页，结合readability的主体抽取方法访问正文内容，从而筛选出文本中的高端人才名字和所属机构的名称，并将该高端人才名和机构名信息存储到人才表中，作为新的检索条件再次检索；

步骤三：根据步骤二中得到的高端人才名和机构名，对高端人才表中的其它各项维度信息进行补全，即根据存储的高端人才名和所述机构名在百度学术和维基百科中进行搜索，提取出人才表中的其它维度信息，需要注意的是，由于在进行搜索时，搜索引擎中输出的结果可能存在多个重名的人物，如各行业的人物标签，那么与其对应的描述信息也是不同的，因此需要在对需补全的信息进行采集时对页面数据进行清洗过滤处理，最终实现在保证信息针对准确的前提下对高端人才其他各项维度信息进行补全；

步骤四：参见图4，进行人才合作关系匹配，并构建关系图谱，即根据高端人才名和所属机构名获取到的有关人才的论文、专利、项目、新闻资讯等信息，提取出作者列表、发明人列表、项目参与人、活动出席人，并判定在同一论文、专利、项目、新闻资讯活动中出现的人之间具有合作关系，并将相关关系信息更新至人才信息表的关系图谱字段，并以人物出现的次数进行排序，进而体现出高端人才之间的合作关系程度，同时将未收录的人才添加至人才库中，继续进行上述步骤二的采集任务；

步骤五：实现高端人才数据的可视化，即根据已存储的高端人才数据进行分析和展示，通过获取的人才信息生成各地区各行业的人才画像和人才地图，具体地，如图5所示，根据在高端人才数据库查询人才信息和其所涉及的论文、专利、项目、合作关系，来将每个高端人才的领域优势和发展趋势展示出来，即生成相关高端人才画像，根据人才信息中的籍贯、专业、当前所在地等信息，生成一种能够明确统计各地区关键人才发展现状的高端人才战略地图，从而实现高端人才数据可视化。

通过本发明提供的基于数据采集的高端人才数据库构建方法，能够汇集各地区的高端人才基本数据，能够面向不同领域的企业机构，并根据所述行业属性的不同，通过变换检索关键词，即可生成与对应行业相关的高端人才数据，不仅提高了对高端人才数据库中存储信息的准确性，同时还能够保证数据源的持续增加和人才信息的实时更新，通过最终生成的人才画像和人才地图能够为企业机构提供人才需求的分析和筛选，更加便捷的寻找所需要的高端人才。

实施例二：

在实施例一的基础上，针对步骤三中对高端人才表中的其它各项维度信息进行补全，其中在对需补全的信息进行采集时对页面数据进行清洗过滤处理，具体地，首先设置过滤词，包括网络红人、演员、电竞人物、影视幕后人物、音乐人物、明星组合、虚拟人物等特征词汇，当页面中出现与上述相关信息时能够自动对其进行过滤，再设置特征词，包括学位、职务、职称、籍贯、人物简介、学习经历、工作经历、研究方向、学术成果、奖项荣誉、图书出版等符合高端人才的特征词汇，当出现的页面信息中包含有上述一定数量的特征词汇时，则认为其符合高端人才的信息页面，从而对输出的页面数据进行保留，此外，由于在百科中检索时其中的人物属性具有不同的字段和称谓，其页面结构也不相同，因此需要构建一个通用的智能解析方法，通过正则表达式设置标签提取方法，来过滤掉无用标签，通过正则筛选出css标签和[n]、[n-n]引用标签并进行过滤，其中匹配css标签的表达式为

以上所述仅为本发明的较佳实施例，并不限制本发明，凡在本发明的精神和原则范围内所做的任何修改、等同替换和改进，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李玺;詹彦卿;康锐文;冯凯;王元卓;
专利申请人：中科大数据研究院;

上一篇：地理信息系统数据保护方法、系统、设备、介质和芯片
下一篇：配电系统的无功补偿方法及配电系统