基于网络爬虫技术的文献数据处理方法、系统及介质

文献发布时间：2024-04-18 19:58:26

技术领域

本发明涉及网络技术领域，更具体的，涉及基于网络爬虫技术的文献数据处理方法、系统及介质。

背景技术

科研成果数据的统计处理工作是高校的一项重要工作，特别是web of science数据库中的SCI论文，其论文是高校科研成果的重要组成部分。目前高校的论文基本通过人工检索核实，各个二级科研单位提交论文成果清单(人员姓名、论文名称、期刊名称、作者位次、单位位次、被引次数、影响因子、期刊分区、等信息)内容较多，现有技术中对科研数据的分类效果差、分析效率低，且一般由具有查新资质的部门人工检索核实每篇论文，导出相关信息并出具证明材料，而科研人员也需要在科研系统中不断更新自己的论文成果。可见该检索统计工作耗费人力及时间巨大，且容易出现错误。因此，急需一种对科研网页数据进行有效提取分类的方法。

发明内容

本发明克服了现有技术的缺陷，提出了基于网络爬虫技术的文献数据处理方法、系统及介质。

本发明第一方面提供了一种基于网络爬虫技术的文献数据处理方法，包括：

基于网络爬虫技术抓取目标科研网址的网页数据；

将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据；

获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息；

基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据。

本方案中，所述基于网络爬虫技术抓取目标科研网址的网页数据，具体为：

获取目标科研网址中网站类型信息；

基于所述网站类型信息与网络爬虫技术生成网络请求数据；

将所述网络请求数据发送至目标科研网址进行数据抓取，并得到未分类的网页数据。

本方案中，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

根据用户科研数据库进行科研数据提取，得到科研期刊数据；

根据预设科研分类标准，获取多个第一关键词与多个第二关键词；

基于所述第一关键词从科研期刊数据进行数据提取与关键词位置分析，得到第一关键词关联文本数据与关键词文本位置信息；

基于所述第一关键词关联文本数据进行基于循环神经网络的语义分析与语义特征提取，得到第一语义特征数据；

基于关键词文本位置信息，根据预设文本分析距离进行上下文语义分析与上下文语义特征提取，得到第一上下文特征数据；

基于所述第二关键词从科研期刊数据进行数据分析，得到第二语义特征数据与第二上下文特征数据。

本方案中，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

构建基于决策树的分类模型；

将第一语义特征数据与第一上下文特征数据进行数据关联，得到语义特征关联数据；

基于所述语义特征关联数据进行特征判断条件转化，得到特征判断信息；

基于所述特征判断信息生成决策树的多个第一节点；

将第二语义特征数据与第二上下文特征数据进行关联分析生成多个第二节点；

将第一节点作为根节点与中间节点，第二节点作为叶子结点，对分类模型进行条件节点的填充并形成完整的分类模型；

基于互联网，从所述目标科研网址中进行随机性科研数据提取，得到预设数据量的科研文本数据；

将所述科研文本数据作为训练数据并按照预设比例划分训练集、测试集与验证集，将所述训练数据导入分类模型进行模型训练与参数优化。

本方案中，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，具体为：

将未分类的网页数据进行格式转换与文本数据提取，得到文本检索数据；

将所述文本检索数据导入分类模型进行科研内容分类，得到基于关键词的分类后文本数据。

本方案中，所述获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息，具体为：

基于用户输入，获取科研内容检索需求信息；

将所述科研内容检索需求信息进行语义分析与关键词匹配，得到需求关键词；

基于所述需求关键词进行表单形式转化，得到需求表单信息。

本方案中，所述基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据，具体为：

以检索表单信息生成文本格式标准；

将所述分类后文本数据基于所述文本格式标准进行转换，得到文本检索需求数据；

将所述检索需求数据发送至预设终端设备。

本发明第二方面还提供了一种基于网络爬虫技术的文献数据处理系统，该系统包括：存储器、处理器，所述存储器中包括基于网络爬虫技术的文献数据处理程序，所述基于网络爬虫技术的文献数据处理程序被所述处理器执行时实现如下步骤：

基于网络爬虫技术抓取目标科研网址的网页数据；

将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据；

获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息；

基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据。

本方案中，所述基于网络爬虫技术抓取目标科研网址的网页数据，具体为：

获取目标科研网址中网站类型信息；

基于所述网站类型信息与网络爬虫技术生成网络请求数据；

将所述网络请求数据发送至目标科研网址进行数据抓取，并得到未分类的网页数据。

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于网络爬虫技术的文献数据处理程序，所述基于网络爬虫技术的文献数据处理程序被处理器执行时，实现如上述任一项所述的基于网络爬虫技术的文献数据处理方法的步骤。

本发明公开了一种基于网络爬虫技术的文献数据处理方法、系统及介质，基于网络爬虫技术抓取目标科研网址的网页数据；将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据；获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息；基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据；所述目标科研网址包括文献、科研、期刊网址。通过本发明，能够对文本词语进行高效、准确的语义分析，实现论文数据、科研数据、期刊数据的高精准数据挖掘高效分类，大大降低了科研工作人工的时间、精力成本。

附图说明

图1示出了本发明一种基于网络爬虫技术的文献数据处理方法的流程图；

图2示出了本发明网页数据获取流程图；

图3示出了本发明分类后文本数据获取流程图；

图4示出了本发明一种基于网络爬虫技术的文献数据处理系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于网络爬虫技术的文献数据处理方法的流程图。

如图1所示，本发明第一方面提供了一种基于网络爬虫技术的文献数据处理方法，包括：

S102，基于网络爬虫技术抓取目标科研网址的网页数据；

S104，将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据；

S106，获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息；

S108，基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据；

S110，所述目标科研网址包括文献、科研、期刊网址。

需要说明的是，在本发明实施例中，文献数据与科研数据、期刊数据为同一研究对象，均为科研数据，且均科研检索对应文本数据。

图2示出了本发明网页数据获取流程图。

根据本发明实施例，所述基于网络爬虫技术抓取目标科研网址的网页数据，具体为：

S202，获取目标科研网址中网站类型信息；

S204，基于所述网站类型信息与网络爬虫技术生成网络请求数据；

S206，将所述网络请求数据发送至目标科研网址进行数据抓取，并得到未分类的网页数据。

需要说明的是，所述网站类型信息包括网络协议、数据传输方式、网页请求方式等信息，用于确定基于爬虫技术的爬虫请求数据。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

根据用户科研数据库进行科研数据提取，得到科研期刊数据；

根据预设科研分类标准，获取多个第一关键词与多个第二关键词；

基于所述第一关键词从科研期刊数据进行数据提取与关键词位置分析，得到第一关键词关联文本数据与关键词文本位置信息；

基于所述第一关键词关联文本数据进行基于循环神经网络的语义分析与语义特征提取，得到第一语义特征数据；

基于关键词文本位置信息，根据预设文本分析距离进行上下文语义分析与上下文语义特征提取，得到第一上下文特征数据；

基于所述第二关键词从科研期刊数据进行数据分析，得到第二语义特征数据与第二上下文特征数据。

需要说明的是，所述第一、第二关键词为重要的科研检索关键词，如人员姓名、论文名称、期刊名称、作者位次、单位位次、被引次数、影响因子、期刊分区、科研术语等关键词，根据重要性进行第一、第二设定。所述预设文本分析距离即关键词上下文的文本分析跨度距离，跨度距离越大，则对应分析的上下文内容越多，但特征度越低。所述循环神经网络为一种深度学习算法，通过该算法模型能够对文本词语进行高效、准确的语义分析。

所述第二关键词从科研期刊数据进行数据分析的过程与第一关键词分析过程相同。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

构建基于决策树的分类模型；

将第一语义特征数据与第一上下文特征数据进行数据关联，得到语义特征关联数据；

基于所述语义特征关联数据进行特征判断条件转化，得到特征判断信息；

基于所述特征判断信息生成决策树的多个第一节点；

将第二语义特征数据与第二上下文特征数据进行关联分析生成多个第二节点；

将第一节点作为根节点与中间节点，第二节点作为叶子结点，对分类模型进行条件节点的填充并形成完整的分类模型；

基于互联网，从所述目标科研网址中进行随机性科研数据提取，得到预设数据量的科研文本数据；

将所述科研文本数据作为训练数据并按照预设比例划分训练集、测试集与验证集，将所述训练数据导入分类模型进行模型训练与参数优化。

需要说明的是，本发明通过关键词语义特征与上下文语义特征双特征形式进行决策树的构建，能够实现论文数据、科研数据、期刊数据的高精准数据挖掘，且基于上下文特征分类，有效提高程序的多学科期刊的适用性，实现快速、精准地获取用户所需科研文本数据与相关属性数据，实现精准化的用户检索需求数据获取，大大降低了人工筛选的时间成本。另外，由于语义分析的分类还基于上下文特征，能够对不同的科研网站的数据库实现模型学习与构建，可移植性高，且不只针对一种期刊科研类型，对于其他文本类型的需求性检索与分类均具有较好的效果。

值得一提的是，第一关键词对应分析出第一节点，用作决策树根节点与中间节点，第二关键词对应分析出第二节点，得到的决策树分类模型能够实现对文本数据对第一关键词优先分类，提高分类效率。

所述多个第一节点与多个第二节点中，由于关键词为多个，对应分析的数据不止对应一个关键词，因此对应的第一、二节点均为多个。所述中间节点即非叶子结点与非根节点的节点。

图3示出了本发明分类后文本数据获取流程图。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，具体为：

S302，将未分类的网页数据进行格式转换与文本数据提取，得到文本检索数据；

S304，将所述文本检索数据导入分类模型进行科研内容分类，得到基于关键词的分类后文本数据。

需要说明的是，所述分类后文本数据为高度有序数据，后续通过用户相关需求标准即可进行需求检索数据的快速生成。

根据本发明实施例，所述获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息，具体为：

基于用户输入，获取科研内容检索需求信息；

将所述科研内容检索需求信息进行语义分析与关键词匹配，得到需求关键词；

基于所述需求关键词进行表单形式转化，得到需求表单信息。

需要说明的是，所述科研内容检索需求信息具体为用户需要整理的科研检索需求信息，一般为文本信息，本实施例通过语义分析关键词匹配，得到相应的需求表单信息，所述需求表单信息即一种格式标准，所述格式标准为符合用户科研期刊的检索需求标准，通过需求表单信息能够将分类好的文本数据进行相应需求格式的填充，形成满足用户需求的检索需求数据。例如，用户需要在web of science网页中进行相关科研数据检索，且需要得到规定格式的word文件，此时，用户可通过输入科研内容检索需求信息进行语义分析得到需求表单信息，根据需求表单信息作为标准模式对分类后数据进行表单转化，进一步得到检索需求数据。

根据本发明实施例，所述基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据，具体为：

以检索表单信息生成文本格式标准；

将所述分类后文本数据基于所述文本格式标准进行转换，得到文本检索需求数据；

将所述检索需求数据发送至预设终端设备。

需要说明的是，所述预设终端设备包括计算机终端设备与移动终端设备。

此外，一些数据库检索无法满足高校成果统计的需求，例如无法直接筛选第一作者或通讯作者或第一单位，无法筛选论文所属期刊的JCR或中科院分区等，也无法生成规定格式的word文件用于出具检索证明等，存在诸多问题。通过本发明分类过程与文本分析过程，能够高效地对科研文本数据进行检索、分类，并可以生成预设标准的检索需求数据。

根据本发明实施例，还包括：

将未分类的网页数据进行格式转换与文本数据提取，得到文本检索数据；

将所述文本检索数据进行单一学科文本数据提取，得到当前文本数据；

基于预设关键词进行相似性语义分析与相似性词语生成，得到相似性关键词，将相似性关键词与对应的预设关键词进行映射关联；

所述预设关键词包括第一、第二关键词；

基于所述相似性关键词从当前文本数据进行词语检索，并将出现与相似性关键词相同或相似的词语进行标记，得到第二相似性关键词；

分析第二相似性关键词在当前文本数据种上下文的语义特征，得到相似上下文语义特征；

将相似上下文语义特征与预设关键词的第一上下文特征数据、第二上下文特征数据进行语义特征对比分析与上下文语义相似度计算，得到第二相似性关键词的语义相似度；

若所述语义相似度大于预设相似度，则将对应的第二相似性关键标记为附加关键词；

基于所述附加关键词对预设关键词进行更新。

需要说明的是，所述将相似性关键词与对应的预设关键词进行映射关联中，一个预设关键词关联至少一个相似性关键词。所述预设关键词为在当前学科内的第一、第二关键词，同时，通过本实施例方法可用于其余学科的科研文本数据。由于不同学科内一些术语关键词存在较大差异，因此，本发明通过分学科进行文本分析。所述相同或相似的词语进行标记中，相似的判定标准为词语文字符号重合率大于预设值，预设值一般设定为50％。

值得一提的是，在进行科研数据关键词检索与数据分类分析过程中，由于科研数据的复杂性与术语表达的多样性，往往存在与预设关键词相似的其他词语，所述其他词语可能与相应关键词意思一致，上下文作用也一致，因此，需要将这些相似词语进行筛选并更新关键词，从而提高后续对科研数据的分析、分类效率，而通过人工方式进行检查检索，费时费力。本发明通过对相似性词语的生成，并基于生成的相似词语在对应文本数据中进行检索，将可能存在的实际相似词语进行基于上下文语义的判断并提取，进一步更新预设关键词，有效提高后续对科研数据的分析、分类效率。且本方法可用于动态更新预设关键词，进一步实现动态调整科研检索流程。

图4示出了本发明一种基于网络爬虫技术的文献数据处理系统的框图。

本发明第二方面还提供了一种基于网络爬虫技术的文献数据处理系统4，该系统包括：存储器41、处理器42，所述存储器中包括基于网络爬虫技术的文献数据处理程序，所述基于网络爬虫技术的文献数据处理程序被所述处理器执行时实现如下步骤：

基于网络爬虫技术抓取目标科研网址的网页数据；

将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据；

获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息；

基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据；

所述目标科研网址包括文献、科研、期刊网址。

需要说明的是，在本发明实施例中，文献数据与科研数据、期刊数据为同一研究对象，均为科研数据，且均科研检索对应文本数据。

根据本发明实施例，所述基于网络爬虫技术抓取目标科研网址的网页数据，具体为：

获取目标科研网址中网站类型信息；

基于所述网站类型信息与网络爬虫技术生成网络请求数据；

将所述网络请求数据发送至目标科研网址进行数据抓取，并得到未分类的网页数据。

需要说明的是，所述网站类型信息包括网络协议、数据传输方式、网页请求方式等信息，用于确定基于爬虫技术的爬虫请求数据。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

根据用户科研数据库进行科研数据提取，得到科研期刊数据；

根据预设科研分类标准，获取多个第一关键词与多个第二关键词；

基于所述第一关键词从科研期刊数据进行数据提取与关键词位置分析，得到第一关键词关联文本数据与关键词文本位置信息；

基于所述第一关键词关联文本数据进行基于循环神经网络的语义分析与语义特征提取，得到第一语义特征数据；

基于关键词文本位置信息，根据预设文本分析距离进行上下文语义分析与上下文语义特征提取，得到第一上下文特征数据；

基于所述第二关键词从科研期刊数据进行数据分析，得到第二语义特征数据与第二上下文特征数据。

所述第二关键词从科研期刊数据进行数据分析的过程与第一关键词分析过程相同。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，之前包括：

构建基于决策树的分类模型；

将第一语义特征数据与第一上下文特征数据进行数据关联，得到语义特征关联数据；

基于所述语义特征关联数据进行特征判断条件转化，得到特征判断信息；

基于所述特征判断信息生成决策树的多个第一节点；

将第二语义特征数据与第二上下文特征数据进行关联分析生成多个第二节点；

将第一节点作为根节点与中间节点，第二节点作为叶子结点，对分类模型进行条件节点的填充并形成完整的分类模型；

基于互联网，从所述目标科研网址中进行随机性科研数据提取，得到预设数据量的科研文本数据；

将所述科研文本数据作为训练数据并按照预设比例划分训练集、测试集与验证集，将所述训练数据导入分类模型进行模型训练与参数优化。

根据本发明实施例，所述将所述网页数据导入基于决策树的分类模型进行数据分类，得到分类后数据，具体为：

将未分类的网页数据进行格式转换与文本数据提取，得到文本检索数据；

将所述文本检索数据导入分类模型进行科研内容分类，得到基于关键词的分类后文本数据。

需要说明的是，所述分类后文本数据为高度有序数据，后续通过用户相关需求标准即可进行需求检索数据的快速生成。

根据本发明实施例，所述获取科研内容检索需求信息，基于所述需求信息进行语义分析与表单需求信息提取，得到检索表单信息，具体为：

基于用户输入，获取科研内容检索需求信息；

将所述科研内容检索需求信息进行语义分析与关键词匹配，得到需求关键词；

基于所述需求关键词进行表单形式转化，得到需求表单信息。

根据本发明实施例，所述基于检索表单信息，将分类后数据进行数据检索与数据整合，生成检索需求数据，具体为：

以检索表单信息生成文本格式标准；

将所述分类后文本数据基于所述文本格式标准进行转换，得到文本检索需求数据；

将所述检索需求数据发送至预设终端设备。

需要说明的是，所述预设终端设备包括计算机终端设备与移动终端设备。

根据本发明实施例，还包括：

将未分类的网页数据进行格式转换与文本数据提取，得到文本检索数据；

将所述文本检索数据进行单一学科文本数据提取，得到当前文本数据；

基于预设关键词进行相似性语义分析与相似性词语生成，得到相似性关键词，将相似性关键词与对应的预设关键词进行映射关联；

所述预设关键词包括第一、第二关键词；

基于所述相似性关键词从当前文本数据进行词语检索，并将出现与相似性关键词相同或相似的词语进行标记，得到第二相似性关键词；

分析第二相似性关键词在当前文本数据种上下文的语义特征，得到相似上下文语义特征；

若所述语义相似度大于预设相似度，则将对应的第二相似性关键标记为附加关键词；

基于所述附加关键词对预设关键词进行更新。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载