网页路径导航方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 09:33:52

技术领域

本发明涉及互联网技术领域，具体涉及一种网页路径导航方法、装置、电子设备及存储介质。

背景技术

目前，Web网页标准语言HTML无法适应知识表示的需求，通常利用标准语言规范，RDF、RDFS和OWL嵌入HTML的方式进行网页的知识表示。为了便于知识的共享，需要从网页(如语义网)中进行知识抽取并形成知识图谱。可以通过爬虫技术从互联网中获取知识，但是，爬虫技术的应用通常需要明确网页地址。而网页地址有时会不定期更新，导致爬虫技术失效。而虽然有一些基于某一主题的深度优先爬虫，通过遍历的方式进行网页地址的确定，但是，采取穷举链接的方式，浪费大量与主题无关的URL的执行耗时。

发明内容

基于现有技术中存在的问题，本发明实施例中提出一种网页路径导航方法、装置、电子设备及存储介质。

第一方面，本发明实施例中提供了一种网页路径导航方法，包括：

接收用户的输入请求；

基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序；

获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；

根据所述频繁项集，确定所述目标网页的导航路径。

进一步地，还包括：获得所述访问任务集合的步骤，具体包括：

获取互联网访问数据样本；

对所述互联网访问数据样本进行时序分解，以得到多个访问任务；

根据所述多个访问任务得到所述访问任务集合。

进一步地，所述获取所述至少一个访问任务的URL正则模式的频繁项集，包括：

获取访问任务集合中的每个访问任务的URL正则模式，组成事务样本集；

应用分布式关联规则，从事务样本集中查找至少一个访问任务的URL正则模式的频繁项集。

进一步地，在组成事务样本集之前，还包括：

对访问任务集合中的每个访问任务的URL正则模式进行验证，并将验证通过后的URL正则模式加入所述事务样本集。

进一步地，所述根据所述频繁项集，确定所述目标网页的导航路径，包括：

获取所述频繁项集中各频繁项的路径；

根据所述频繁项集中路径最短的频繁项得到所述目标网页的导航路径。

进一步地，所述获取互联网访问数据样本，包括：

从公网IP池中获取代理IP；

拦截并转发用户与目标网页之间的请求和响应信息；

根据所述请求和响应信息得到所述互联网访问数据样本。

进一步地，在确定目标网页的导航路径之后，还包括：根据所述目标网页的导航路径从所述目标网页中抽取知识，以形成知识图谱。

第二方面，本发明实施例中还提供了一种网页路径导航装置，包括：

接收模块，用于接收用户的输入请求；

查询模块，用于基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序；

获取模块，用于获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；

确定模块，用于根据所述频繁项集，确定所述目标网页的导航路径。

第三方面，本发明实施例中还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现根据第一方面所述的网页路径导航方法。

第四方面，本发明实施例中还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现根据第一方面所述的网页路径导航方法。

由上述技术方案可知，本发明实施例中提供的网页路径导航方法、装置、电子设备及存储介质，根据关联规则挖掘算法，可以自动、智能地分析出爬虫的路径导航，进而，可以降低网页路径的遍历次数，提高网页中知识抽取的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的网页路径导航方法的流程图；

图2是本发明一个实施例中提供的网页路径导航方法中获取互联网访问数据样本的示意图；

图3是应用本发明一个实施例中提供的网页路径导航方法实现目标网页的导航路径的示意图；

图4是本发明一个实施例中提供的网页路径导航装置的结构框图；

图5是本发明一个实施例中提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

以下结合附图描述根据本发明实施例的网页路径导航方法、装置、电子设备及存储介质。

图1示出了本发明一个实施例中提供的网页路径导航方法的流程图，如图1所示，本发明的实施例中提供的网页路径导航方法，具体包括如下内容：

S101：接收用户的输入请求。

其中，输入请求包括设定的目标，例如：需要采集影视的奖项信息，输入的目标可以为“获奖情况”。

S102：基于输入请求，从预先得到的访问任务集合中查询对应于输入请求的至少一个访问任务，其中，至少一个访问任务包括由起始网页到目标网页的网页导航顺序。以访问任务a为例，其中，访问任务a例如为：www.abc.com/search,www.abc.com/video/1,www.abc.com/video/1/awards，则访问任务a的起始网页为：www.abc.com/search，目标网页为：www.abc.com/video/1/awards，而导航顺序为：www.abc.com/search->www.abc.com/video/1->www.abc.com/video/1/awards。

具体地说，给出访问任务集合中至少一条已经存在的访问任务(也称为任务单元)，例如：给定影视名称“电影A”，以及目标“获奖情况”，此时可以从访问任务集合中进行查找，匹配含有“电影A”和“获奖信息”的至少一条记录。

S103：获取至少一个访问任务的URL正则模式的频繁项集，其中，频繁项集包括由起始网页到目标网页的多个网页导航顺序对应的各访问任务的URL正则模式。

例如：对于访问任务a，通过访问任务a的URL正则模式，获取该URL正则模式的频繁项集。其中，频繁项集中包括的每个频繁项均是由起始网页到目标网页的多个网页导航顺序对应的各访问任务的URL正则模式。如下：假设F0为起始网页，F2为目标网页，包括如下三个频繁项：(F0，F1，F2)，(F0，F3，F4，F2)，(F0，F2)。

在本发明的一个实施例中，获取至少一个访问任务的URL正则模式的频繁项集，包括：获取访问任务集合中的每个访问任务的URL正则模式，组成事务样本集；并应用分布式关联规则，从事务样本集中查找至少一个访问任务的URL正则模式的频繁项集。

由此，可以通过查找到的任务单元找到对应的URL正则模式，后续可按此任务单元对应的URL正则模式进行类推。

需要说明的是，在组成事务样本集之前，还可以对访问任务集合中的每个访问任务的URL正则模式进行验证，并将验证通过后的URL正则模式加入所述事务样本集。

在以上描述中，频繁项集是从项集中得到，其中，项集指若干个项的集合。频繁项集是指数据集中频繁出现的项集，即：频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。

频繁项集挖掘是数据挖掘研究课题中一个很重要的研究基础，在数据集中经常一起出现的变量，为可能的决策提供一些支持。频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此，频繁项集有着很广泛的应用。

关联规则学习(Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法。它的目的是利用一些有趣性的量度来识别数据库中发现的强规则。，关联规则如今还被用在许多应用领域中，包括网络用法挖掘、入侵检测、连续生产及生物信息学中。与序列挖掘相比，关联规则学习通常不考虑在事务中、或事务间的项目的顺序。

关联规则挖掘的整个过程主要分两步来完成：第一步是找出数据库中所有满足最小支持度阈值的频繁项集；第二步是由频繁项集产生所有满足最小置信度阈值的关联规则。由于关联规则挖掘的整体性能主要是由第一步的性能所决定，因此，关联规则挖掘的关键和难点都集中在了频繁项集的挖掘上。随着关联分析技术的不断发展，众多的研究学者提出了许多优秀的频繁项集挖掘算法，包括单机(single-machine)挖掘算法、基于MPI(Message Passing Interface)的挖掘算法、基于Map Reduce的挖掘算法和基于Spark的挖掘算法。单机(single-machine)挖掘算法指的是运行在一台机器上的频繁项集挖掘算法，特点是数据量小，对机器的内存大小和计算性能要求不高，在一台机器上即可完成挖掘任务。一些经典的算法，如Apriori和FP-growth等经典的频繁项集挖掘算法，都是单机频繁项集挖掘算法。MPI的全称是Message Passing Interface，它是一种消息传递标准，同时也是一项被广泛采用的并行编程技术。基于MPI的频繁项集挖掘算法都是一些并行算法，它们的特点是各个计算节点并行地挖掘频繁项集，因此算法的效率很高。

S104：根据频繁项集，确定目标网页的导航路径。

例如：存在上述的URL正则模式组成的频繁项集：

(F0，F1，F2)，

(F0，F3，F4，F2)，

(F0，F2)；

则，可以从这三个频繁项集中选择一个网页路径导航。其中，每一个频繁项对应一个网页路径导航。

在具体应用中，可以将频繁项集中路径最短的频繁项作为网页路径导航模式，即：根据所述频繁项集，确定所述目标网页的导航路径，包括：获取所述频繁项集中各频繁项的路径；根据所述频繁项集中路径最短的频繁项得到所述目标网页的导航路径。例如：(F0，F2)这一频繁项的路径最短，因此，选择(F0，F2)作为网页路径导航。

进一步地，在确定目标网页的导航路径之后，还包括：根据所述目标网页的导航路径从所述目标网页中抽取知识，以形成知识图谱，即：根据确定出的网页路径导航进行网页上知识的抽取，形成知识图谱，进而，可以有效提升从网页中进行知识抽取的效率。

根据本发明实施例的网页路径导航方法，根据关联规则挖掘算法，可以自动、智能地分析出爬虫的路径导航，进而，可以降低网页路径的遍历次数，提高网页中知识抽取的效率。

本发明实施例的网页路径导航方法中，需要预先获得访问任务集合，其中，访问任务集合中的访问任务例如由互联网访问数据样本得到，因此，该方法还包括：获得访问任务集合的步骤，具体包括：获取互联网访问数据样本；对所述互联网访问数据样本进行时序分解，以得到多个访问任务；根据所述多个访问任务得到所述访问任务集合。

其中，获取互联网访问数据样本，可以从公网IP池中获取代理IP；拦截并转发用户与目标网页之间的请求和响应信息；根据所述请求和响应信息得到所述互联网访问数据样本。如图2所示，例如：在用户与网页之间加入外网代理访问中间件集群服务，外网代理访问中间件集群服务用于从公网IP池中获取代理IP，拦截并转发用户浏览器与目标网页之间的请求和响应的完整信息(即：互联网访问数据样本)，其中，互联网访问数据样本包括请求/响应头和请求/响应体等，同时将拦截到的互联网访问数据样本保存到数据库中。

对所述互联网访问数据样本进行时序分解，包括：首先将互联网访问数据样本通过Map Reduce计算集群中进行计算，以将互联网访问数据样本按照用户侧源IP地址，对互联网访问数据样本进行分组，即：分为每个用户对应的互联网访问数据样本。然后，根据预设的每次查询请求的入口地址为分隔点，利用滑动时间窗口对用户的互联网访问数据样本进行时间段分解，得到每次独立完整的访问任务，即：任务单元，例如：

任务单元a为：www.abc.com/search,www.abc.com/video/1,www.abc.com/video/1/awards。

任务单元a表示特定任务的网页导航顺序为：

www.abc.com/search->www.abc.com/video/1->www.abc.com/video/1/awards。

在本发明的一个实施例中，获取访问任务集合中的每个访问任务的URL正则模式，组成事务样本集；并应用分布式关联规则，从事务样本集中查找至少一个访问任务的URL正则模式的频繁项集，具体以任务单元a为例，则由任务单元抽象出用户访问的URL正则模式，例如：

上述任务单元a的正则模式为：

正则模式A：www.abc.com/search->www.abc.com/video/\d+*->www.abc.com/video/\d+/awards。

其中，正则模式A在所有的任务单元中，如果达到预设的匹配率，即为有效的正则模式。将所有有效的正则模式作为事务样本集，用分布式关联规则进行挖掘，例如：通过FP-Growth算法查找URL正则模式中的频繁项集。此外，为了降低噪音，频繁项集的支持度、置信度的阈值设置的相对较高。

在得到的频繁项集中，即为强关联规则集，表示用户进行一些特定的数据采集任务的网页路径导航模式集合。

需要说明的是，由于任务单元中对应的URL地址可能发生变动，例如：www.abc.com/search->www.abc.com/video/1->www.abc.com/video/1/awards，可能变动为www.abc.com/search->

www.abc.com/video/2->www.abc.com/video/2/awards、www.abc.com/search->www.abc.com/video/3->www.abc.com/video/3/awards等，因此，通过URL正则规则，在网页的URL地址发生类似上述变动时，其通过URL正则规则均能够匹配到。因此，本发明的实施例可以通过URL正则规则确定出网页路径导航，进而，可以通过网页路径导航从网页中进行知识抽取，进而，有效提升从网页中抽取知识的效率。

本发明实施例的网页路径导航方法的一种具体应用如图3所示，在具体应用中，可以过日志汇聚层收集用户访问日志(即：互联网访问数据样本)，其中，日志汇聚层由外网代理访问中间件集群采集用户访问日志后，持久化到日志汇聚层中的数据库中。

可以通过数据预处理层实现互联网访问数据样本进行时序分解，例如：数据预处理层读取日志汇聚层中的互联网访问数据样本，可以通过Map Reduce方式对互联网访问数据样本进行时序分解，得到访问任务集合，以提升时序分解效率。

可以通过样本训练层确定访问任务集合中各访问任务之间的关联。具体来说，样本训练层进行样本数据的训练，并通过分布式队列服务通知目标计算层中的微服务将关联的访问任务的网页文本内容加载到搜索应用服务器中。

在该示例中，目标计算层中的微服务提供HTTP接口供不同的目标调用，输出导航路径最优解(即：目标网页的导航路径)，其中根据输入请求从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务由搜索应用服务器通过全文检索匹配实现。

图4是根据本发明一个实施例的系统的请求处理装置的结构框图。如图2所示，根据本发明一个实施例的网页路径导航装置，包括：接收模块410、查询模块420、获取模块430和确定模块440。

其中，接收模块410用于接收用户的输入请求。查询模块420用于基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序。获取模块430用于获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集表包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式。确定模块440用于根据所述频繁项集，确定所述目标网页的导航路径。

根据本发明实施例的网页路径导航装置，根据关联规则挖掘算法，可以自动、智能地分析出爬虫的路径导航，进而，可以降低网页路径的遍历次数，提高网页中知识抽取的效率。

需要说明的是，本发明实施例的网页路径导航装置的具体实现方式与本发明实施例的网页路径导航方法的具体实现方式类似，具体请参见方法部分的描述，为了减少冗余，具体此处不做赘述。

基于相同的发明构思，本发明又一个实施例中提供了一种电子设备，参见图5，所述电子设备具体包括如下内容：处理器501、存储器502、通信接口503和通信总线504；

其中，所述处理器501、存储器502、通信接口503通过所述通信总线504完成相互间的通信；所述通信接口503用于实现各设备之间的信息传输；

所述处理器501用于调用所述存储器502中的计算机程序，所述处理器执行所述计算机程序时实现上述网页路径导航方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：接收用户的输入请求；基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序；获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；根据所述频繁项集，确定所述目标网页的导航路径。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述网页路径导航方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：接收用户的输入请求；基于所述输入请求，从预先得到的访问任务集合中查询对应于所述输入请求的至少一个访问任务，其中，所述至少一个访问任务包括由起始网页到目标网页的网页导航顺序；获取所述至少一个访问任务的URL正则模式的频繁项集，其中，所述频繁项集包括由所述起始网页到所述目标网页的多个网页导航顺序对应的各访问任务的URL正则模式；根据所述频繁项集，确定所述目标网页的导航路径。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例的方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例的或者实施例的某些部分所述的指标监控方法。

此外，在本发明中，诸如“当前”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“当前”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明中，诸如当前和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐晶;霍振坤;王军宁;李琳;张晓颖;
专利申请人：咪咕文化科技有限公司;

上一篇：一种按需分配IP地址段的方法及IP地址统计系统
下一篇：麦克风组件及电子设备