掌桥专利:专业的专利平台
掌桥专利
首页

一种基于页面引擎的数据提取方法及系统

文献发布时间:2023-06-19 18:35:48


一种基于页面引擎的数据提取方法及系统

技术领域

本申请涉及计算机信息技术领域,尤其是涉及一种基于页面引擎的数据提取方法及系统。

背景技术

目前随着Web2.0的兴起,AJAX(Asynchronous JavaScr i pt and XML,异步JavaScr i pt和XML)技术风靡一时,客户端与服务器端异步交互的方式既减小了服务器端的压力,而且带来了更好的用户体验。然而,使用该技术产生的大量动态网页给网络数据获取造成了新的难题,传统的用于采集静态网页的Web数据采集工具如网络爬虫抓取的内容远少于页面呈现的内容,大量动态网页中的有用信息无法获取使得以网络数据为主要处理对象的工作无法顺利进行,严重影响了网络内容监控,网络数据挖掘等学科的发展。

因此,如何改进传统的Web数据采集系统,使之支持动态页面解析,已经成为了当前信息采集技术的一个研究热点。

当前动态页面采集的主要方法大体有两种:一是利用开源浏览器接口(如F irefox),以编写插件的形式对浏览器输出结果进行采集;二是利用现有的脚本解释引擎(如Sp i derMonkey、Rh i no等)根据信息采集的需要对相关DOM(DocumentObject Mode l,文档对象模型)对象进行绑定,对输出结果进行采集。

现有基于页面引擎的数据提取方法,在进行提取数据后,会将相应数据全部存储入同一存储装置。

针对上述中的相关技术,发明人发现存在有如下缺陷:页面引擎的数据一般都存储在默认存储装置上,而这个默认地址不一定是当前用户所想要存储的存储装置。

发明内容

为了提高用户寻找所需类别数据的效率,本申请提供一种基于页面引擎的数据提取方法及系统。

第一方面,本申请提供一种基于页面引擎的数据提取方法,采用如下的技术方案:

一种基于页面引擎的数据提取方法,包括:

获取系统登录人员身份信息;

根据登录人员身份信息与数据存储模块的对应关系,分析确定存储本次提取数据的数据存储模块;

执行对页面引擎的数据提取,并存储入数据存储模块内。

可选的,系统登录人员身份信息的获取包括:

获取当天日期尾号;

根据当天日期尾数的奇偶性与身份信息识别顺序的对应关系,分析确定身份识别顺序,身份识别顺序包括先指纹识别再虹膜识别以及先虹膜识别再指纹识别两种识别顺序;

获取用户的身份识别信息以及身份识别顺序;

当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信息。

可选的,还包括位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的步骤,具体如下:

若用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序不一致,则提醒用户作二次身份识别;

获取当前时段;

根据当天时段尾数的奇偶性与身份信息识别顺序的对应关系,分析确定身份识别顺序,身份识别顺序包括先指纹识别再虹膜识别以及先虹膜识别再指纹识别两种识别顺序;

获取用户的身份识别信息以及身份识别顺序;

当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信息。

可选的,还包括位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的步骤,具体如下:

若用户的身份识别信息不一致且身份识别顺序与所分析确定的身份识别顺序一致,则提醒用户作二次身份识别;

获取用户的身份识别信息;

当且仅当同时通过指纹识别以及虹膜识别完成对用户的身份信息识别,则确定登录人员身份信息。

可选的,根据登录人员身份信息与数据存储模块的对应关系,分析确定存储本次提取数据的数据存储模块包括:

获取加载有于页面引擎的数据提取程度的终端是否插接有移动存储装置;

若为是,则以相应移动存储装置作为本次提取数据的整体数据存储模块;

若为否,根据登录人员身份信息与存储不同类型数据的数据存储模块的对应关系,分析确定不同类型数据的数据存储模块。

可选的,还包括位于执行对页面引擎的数据提取,并存储入数据存储模块内之后的步骤,具体如下:

获取用户对数据存储路径展示的倾向模式;

根据用户对数据存储路径展示的倾向模式展示本次不同数据所存储入的数据存储模块情况。

可选的,用户对数据存储路径展示的倾向模式的获取包括:

根据所获取的数据类型组合与展示对象的对应关系,分析确定展示对象,展示对象包括用户自身和公众;

若展示对象为用户自身,则根据用户在不同时段对数据存储路径展示的倾向模式,分析确定用户对数据存储路径展示的倾向模式;

若展示对象为公众,则以公众所倾向的对数据存储路径展示的倾向模式,作为用户对数据存储路径展示的倾向模式。

可选的,还包括位于根据用户对数据存储路径展示的倾向模式展示本次不同数据所存储入的数据存储模块情况之后的步骤,具体如下:

若展示对象为用户自身,则分析在预设时间内用户是否对存储路径进行修改;

若为是,则按照用户所修改的存储路径进行数据存储调整,并将调整后的存储情况发送至用户所持终端;

若为否,则将存储情况发送至用户所持终端。

第二方面,本申请提供一种基于页面引擎的数据提取系统,采用如下的技术方案:

一种基于页面引擎的数据提取系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如第一方面所述的基于页面引擎的数据提取方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1是本申请实施例一种基于页面引擎的数据提取方法的流程示意图。

图2是本申请另一实施例系统登录人员身份信息的获取流程示意图。

图3是本申请另一实施例位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的流程示意图。

图4是本申请另一实施例位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的流程示意图。

图5是本申请另一实施例根据登录人员身份信息与数据存储模块的对应关系,分析确定存储本次提取数据的数据存储模块的流程示意图。

图6是本申请另一实施例位于执行对页面引擎的数据提取,并存储入数据存储模块内之后的流程示意图。

图7是本申请另一实施例用户对数据存储路径展示的倾向模式的获取流程示意图。

图8是本申请另一实施例位于根据用户对数据存储路径展示的倾向模式展示本次不同数据所存储入的数据存储模块情况之后的流程示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

参照图1,为本申请公开的一种基于页面引擎的数据提取方法,包括:

步骤S100,获取系统登录人员身份信息。

步骤S200,根据登录人员身份信息与数据存储模块的对应关系,分析确定存储本次提取数据的数据存储模块。

步骤S300,执行对页面引擎的数据提取,并存储入数据存储模块内。

在图1的步骤S100中,进一步考虑系统登录人员身份信息出错的情况,需要进一步分析确定系统登录人员身份信息,具体参照图2所示实施例作详细说明。

参照图2,系统登录人员身份信息的获取包括:

步骤S110,获取当天日期尾号。

步骤S120,根据当天日期尾数的奇偶性与身份信息识别顺序的对应关系,分析确定身份识别顺序,身份识别顺序包括先指纹识别再虹膜识别以及先虹膜识别再指纹识别两种识别顺序。

其中,指纹识别可以通过指纹识别装置来识别获取,虹膜识别可以通过虹膜识别装置来识别获取;当天日期尾数的奇偶性与身份信息识别顺序的对应关系可以从预设的存储有当天日期尾数的奇偶性与身份信息识别顺序的对应关系的数据库中查询获取。

步骤S130,获取用户的身份识别信息以及身份识别顺序。

步骤S140,当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信息。

在图2的步骤S130以及步骤S140之间,进一步考虑到用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序不一致的情况,具体参照图3所示实施例作详细说明。

参照图3,一种基于页面引擎的数据提取方法还包括位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的步骤,具体如下:

步骤S1A0,若用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序不一致,则提醒用户作二次身份识别。

步骤S1B0,获取当前时段。

步骤S1C0,根据当天时段尾数的奇偶性与身份信息识别顺序的对应关系,分析确定身份识别顺序,身份识别顺序包括先指纹识别再虹膜识别以及先虹膜识别再指纹识别两种识别顺序。

其中,当天时段尾数的奇偶性与身份信息识别顺序的对应关系可以从预设的存储有当天时段尾数的奇偶性与身份信息识别顺序的对应关系的数据库中查询获取。

步骤S1D0,获取用户的身份识别信息以及身份识别顺序。

步骤S1E0,当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信息。

在图2的步骤S130以及步骤S140之间,进一步考虑用户的身份识别信息不一致且身份识别顺序与所分析确定的身份识别顺序一致的情况,具体参照图4所示实施例作详细说明。

参照图4,一种基于页面引擎的数据提取方法还包括位于获取用户的身份识别信息以及身份识别顺序之后,且与当前仅当用户的身份识别信息正确且身份识别顺序与所分析确定的身份识别顺序一致,确定登录人员身份信并行的步骤,具体如下:

步骤S1a0,若用户的身份识别信息不一致且身份识别顺序与所分析确定的身份识别顺序一致,则提醒用户作二次身份识别。

步骤S1b0,获取用户的身份识别信息。

步骤S1c0,当且仅当同时通过指纹识别以及虹膜识别完成对用户的身份信息识别,则确定登录人员身份信息。

在图1的步骤S200中,进一步考虑用户本次是否有使用移动存储装置的情况,以更好的判断用户的存储意愿,具体参照图5所示实施例作详细说明。

参照图5,根据登录人员身份信息与数据存储模块的对应关系,分析确定存储本次提取数据的数据存储模块包括:

步骤S210,获取加载有于页面引擎的数据提取程度的终端是否插接有移动存储装置。若为是,则执行步骤S220。若为否,则执行步骤S230。

其中,移动存储装置可以是移动硬盘或U盘之类的移动存储装置。

步骤S220,以相应移动存储装置作为本次提取数据的整体数据存储模块。

步骤S230,根据登录人员身份信息与存储不同类型数据的数据存储模块的对应关系,分析确定不同类型数据的数据存储模块。

其中,数据类型可以按照很多方式来划分,例如可以划分为图像数据、视频数据、文字数据等。

在图1的步骤S300之后,进一步考虑到用户后续可以了解数据的存储路径,以便于在需要的时候可以进行查询,具体参照图6所示实施例作详细说明。

参照图6,一种基于页面引擎的数据提取方法,还包括位于执行对页面引擎的数据提取,并存储入数据存储模块内之后的步骤,具体如下:

步骤S400,获取用户对数据存储路径展示的倾向模式。

其中,倾向模式可以是文字展示模式或图表展示模式。

步骤S500,根据用户对数据存储路径展示的倾向模式展示本次不同数据所存储入的数据存储模块情况。

其中,数据存储模块可以是C盘、D盘或者其他存储单元。

在图6的步骤S400中,进一步考虑到由于数据类型的不同,可能展示的对象是有所不同的,因此存储路径也会发生变化,因此需要对用户对数据存储路径展示的倾向模式的获取作进一步分析,具体参照图7所示实施例作详细说明。

参照图7,用户对数据存储路径展示的倾向模式的获取包括:

步骤S410,根据所获取的数据类型组合与展示对象的对应关系,分析确定展示对象,展示对象包括用户自身和公众。

步骤S420,若展示对象为用户自身,则根据用户在不同时段对数据存储路径展示的倾向模式,分析确定用户对数据存储路径展示的倾向模式。

步骤S430,若展示对象为公众,则以公众所倾向的对数据存储路径展示的倾向模式,作为用户对数据存储路径展示的倾向模式。

在图6的步骤S500中,进一步考虑到在展示存储路径后,用户可能会做调整的情况,具体参照图7所示实施例作详细说明。

参照图8,一种基于页面引擎的数据提取方法还包括位于根据用户对数据存储路径展示的倾向模式展示本次不同数据所存储入的数据存储模块情况之后的步骤,具体如下:

步骤S600,若展示对象为用户自身,则分析在预设时间内用户是否对存储路径进行修改。若为是,则执行步骤S700;若为否,则执行步骤S800。

步骤S700,按照用户所修改的存储路径进行数据存储调整,并将调整后的存储情况发送至用户所持终端。

步骤S800将存储情况发送至用户所持终端。

其中,用户所持终端可以是手机、电脑或其他可通信的终端设备。

基于同一发明构思,本发明实施例提供一种基于页面引擎的数据提取系统,包括存储器、处理器,存储器上存储有可在所述处理器上运行实现如图1至图8任一种方法的程序。

本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

相关技术
  • 一种提高基于Hadoop大数据综合查询引擎效率的方法及系统
  • 一种基于WebKit浏览器引擎的动态页面数据采集方法
  • 基于数据处理的页面组件快速提取方法及系统
技术分类

06120115627490