掌桥专利:专业的专利平台
掌桥专利
首页

一种用于网站信息数据的综合采集分析方法

文献发布时间:2024-04-18 19:59:31


一种用于网站信息数据的综合采集分析方法

技术领域

本发明涉及网站信息数据采集分析领域,具体涉及一种用于网站信息数据的综合采集分析方法。

背景技术

在大规模数据采集领域,网站配置和数据提取过程繁琐且复杂,尤其是在面对不同类型、国家、功能的网站时,现有技术通常只能针对某一个或某一类网站进行数据分析采集,对于高需求、大范围采集分析请求时,则存在方案单一且实施存在逻辑漏洞等风险。

发明内容

针对现有技术的不足,本发明提供了一种用于网站信息数据的综合采集分析方法,通过采集网站多种类信息数据,实现多目标多层次的综合采集、分析、验证等功能的方法实现。

为实现上述目的,本发明提供了一种用于网站信息数据的综合采集分析方法,包括:

S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;

S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;

S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果。

优选的,所述根据网站对应类型获取网站信息数据得到信息数据采集配置包括:

S1-1、获取网站的语言类型作为初始采集标签;

S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;

S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置。

进一步的,根据所述初始采集标签进行合规性验证建立信息数据采集通用配置包括:

S1-2-1、根据所述初始采集标签获取网络服务器地址;

S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;

S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;

S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;

S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置。

进一步的,根据所述信息数据采集配置进行数据采集得到基础网站信息数据包括:

S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;

S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据。

进一步的,根据所述信息数据采集配置进行数据采集得到初始网站信息数据包括:

S2-1-1、判断网站是否存在网络代理,若是,则执行S2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行S2-1-3;

S2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;

S2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;

其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。

进一步的,利用所述初始网站信息数据进行交叉验证得到基础网站信息数据包括:

S2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行S2-2-3,否则,执行S2-2-2;

S2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;

S2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行S2-2-4,否则,直接执行S2-2-5;

S2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行S2-2-5,否则,所述交叉验证失败,返回S2-2-1;

S2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回S2-2-1;

其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。

进一步的,利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:

S3-1、利用所述基础网站信息数据建立基础网站信息数据库;

S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;

S3-3、根据所述信息数据采集配置建立对应网站通用特征;

S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。

进一步的,根据所述基础网站信息数据库进行顺序输出得到时序性输出数据包括:

S3-2-1、获取当前时刻作为时序输出起始时刻t;

S3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;

S3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行S3-2-4,否则,放弃处理;

S3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行S3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回S3-2-2;

S3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回S3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。

进一步的,根据所述信息数据采集配置建立对应网站通用特征包括:

获取网站对应平均数据流量作为网站第一特征;

根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;

根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;

利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。

进一步的,利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果包括:

S3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行S3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行S3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行S3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。

与最接近的现有技术相比,本发明具有的有益效果:

通过语言项目分类,提高了对不同国家和语言网站的支持,并据此建立初步验证标签,为后续方案的多级验证打下基础,同时,可以根据需求自定义采集策略,更加灵活,有完善的错误处理和报警机制,确保方案的稳定自循环运行,最终形成一个闭环的实施方案,提高了数据采集分析的效率。

附图说明

图1是本发明提供的一种用于网站信息数据的综合采集分析方法的流程图;

图2是本发明提供的一种用于网站信息数据的综合采集分析方法的顺序输出流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施例1:本发明提供了一种用于网站信息数据的综合采集分析方法,如图1所示,包括:

S1、根据网站对应类型获取网站信息数据得到信息数据采集配置;

S2、根据所述信息数据采集配置进行数据采集得到基础网站信息数据;

S3、利用所述基础网站信息数据根据网站通用特征得到网站信息数据的综合采集分析结果。

S1具体包括:

S1-1、获取网站的语言类型作为初始采集标签;

S1-2、根据所述初始采集标签进行合规性验证建立信息数据采集通用配置;

S1-3、利用所述初始采集标签与信息数据采集通用配置作为信息数据采集配置。

S1-2具体包括:

S1-2-1、根据所述初始采集标签获取网络服务器地址;

S1-2-2、判断所述网络服务器地址的通讯状态是否正常,若是,则执行S1-2-3,否则,放弃处理;

S1-2-3、判断所述网络服务器地址的通讯线路是否存在网络代理,若是,则获取所述网络代理对应网络代理类型与网络代理地址作为信息数据采集通用预配置,并执行S1-2-4,否则,直接执行S1-2-5;

S1-2-4、利用所述信息数据采集通用预配置与初始采集标签对应网络通信协议作为信息数据采集通用配置;

S1-2-5、利用所述初始采集标签对应网络通信协议作为信息数据采集通用配置。

S2具体包括:

S2-1、根据所述信息数据采集配置进行数据采集得到初始网站信息数据;

S2-2、利用所述初始网站信息数据进行交叉验证得到基础网站信息数据。

S2-1具体包括:

S2-1-1、判断网站是否存在网络代理,若是,则执行S2-1-2,否则,利用所述信息数据采集配置的信息数据采集通用配置建立数据采集通信线路,并执行S2-1-3;

S2-1-2、根据所述信息数据采集配置的信息数据采集通用预配置建立数据采集通信中转节点,并根据所述信息数据采集配置的信息数据采集通用配置与数据采集通信中转节点建立数据采集通信线路;

S2-1-3、利用所述数据采集通信线路获取网站对应全部类型数据作为初始网站信息数据;

其中,所述网站对应全部类型数据包括数值类型数据、字符串类型数据、布尔类型数据、未定义数据、空对象数据与特殊类型数据。

S2-2具体包括:

S2-2-1、判断所述初始网站信息数据是否存在特殊类型数据,若是,则利用所述特殊类型数据作为交叉验证标签,并直接执行S2-2-3,否则,执行S2-2-2;

S2-2-2、判断初始网站信息数据的数据类型数量是否为1,若是,则获取初始网站信息数据的数据流作为交叉验证标签,否则,利用所述初始网站信息数据的数据类型建立交叉验证标签;

S2-2-3、判断当前时刻的数据采集通信线路是否存在网络代理,若是,则执行S2-2-4,否则,直接执行S2-2-5;

S2-2-4、判断所述交叉验证标签与网络代理的数据流转历史记录是否对应,若是,则执行S2-2-5,否则,所述交叉验证失败,返回S2-2-1;

S2-2-5、判断所述交叉验证标签与数据采集通信线路的终端数据流转历史记录是否对应,若是,则所述交叉验证成功,否则,所述交叉验证失败,返回S2-2-1;

其中,所述终端数据流转历史记录为数据采集通信线路的两个终端的数据流转历史记录。

S3具体包括:

S3-1、利用所述基础网站信息数据建立基础网站信息数据库;

S3-2、根据所述基础网站信息数据库进行顺序输出得到时序性输出数据;

S3-3、根据所述信息数据采集配置建立对应网站通用特征;

S3-4、利用所述时序性输出数据根据网站通用特征得到网站信息数据的综合采集分析结果。

S3-2具体包括,如图2所示:

S3-2-1、获取当前时刻作为时序输出起始时刻t;

S3-2-2、利用所述基础网站信息数据库根据时序输出起始时刻t进行输出得到基础网站信息数据的时序输出结果;

S3-2-3、判断当前时刻时序输出结果与信息数据采集配置是否对应,若是,则执行S3-2-4,否则,放弃处理;

S3-2-4、判断当前时刻是否存在相邻上一时刻时序输出结果,若是,则利用当前时刻时序输出结果与相邻上一时刻时序输出结果建立映射得到时序输出映射,并执行S3-2-5,否则,利用当前时刻时序输出结果作为时序输出映射起点,并返回S3-2-2;

S3-2-5、判断当前时刻是否存在相邻下一时刻时序输出结果,若是,则返回S3-2-2,否则,输出当前时刻时序输出映射作为时序性输出数据。

本实施例中,一种用于网站信息数据的综合采集分析方法,当时序输出结果与信息数据采集配置不对应时,由于进行判断的两个数值类型均与基础数据相关,所以当此刻存在异常时,无法准确判断到底是哪个数值出现问题,因此在本方案中放弃处理,可根据实际实施进行方案纠正。

S3-3具体包括:

S3-3-1、获取网站对应平均数据流量作为网站第一特征;

S3-3-2、根据所述网站第一特征获取对应终端的发送流量数据与接收流量数据作为网站第二特征;

S3-3-3、根据所述网站第二特征获取对应通信线路的数据量作为网站第三特征;

S3-3-4、利用所述网站第一特征、网站第二特征与网站第三特征作为网站通用特征。

S3-4具体包括:

S3-4-1、判断所述时序性输出数据与网站通用特征的网站第一特征是否对应,若是,则执行S3-4-2,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-2、判断所述时序性输出数据与网站通用特征的网站第二特征是否对应,若是,则执行S3-4-3,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-3、判断所述时序性输出数据与网站通用特征的网站第三特征是否对应,若是,则网站信息数据的综合采集分析状态为正常,并执行S3-4-4,否则,网站信息数据的综合采集分析状态为异常,并输出时序性输出数据与网站第一特征不对应的数据作为网站信息数据的综合采集分析结果;

S3-4-4、输出当前时刻时序性输出数据与对应信息数据采集配置作为网站信息数据的综合采集分析结果。

本实施例中,一种用于网站信息数据的综合采集分析方法,S3-4-1中筛选依据为根据平均值反推流量上下限,数据量需要处于范围内,否则存在流量值异常的情况;S3-4-2中筛选依据为发送与接收流量要对应,否则存在流程劫持情况;S3-4-3中筛选依据为整体线路流量要对应,否则可能存在恶意攻击等情况,以上可实现采集数据的分析后情况判断的综合输出。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种图片验证码的生成方法、装置、设备及介质
  • 一种BIOS参数自动化验证装置及验证方法
  • 一种点读验证装置以及点读答题验证评分方法
  • 一种数据验证方法及验证装置
  • 一种人脸识别方法和装置及车票验证方法和装置
  • 验证信息生成系统、验证信息生成方法以及验证信息生成程序
  • 验证信息生成系统、验证信息生成方法以及验证信息生成程序
技术分类

06120116522085