导航：首页> 电通信技术>一种网关数据智能采集方法及系统

一种网关数据智能采集方法及系统

文献发布时间：2024-04-18 19:58:30

技术领域

本发明属于数据采集技术领域，更具体地说，是涉及一种网关数据智能采集方法及系统。

背景技术

网关作为互联网的关键设备，其负责不同网络或设备之间的通信。它可以将一个网络的协议格式转换为另一个网络可识别的协议格式，实现不同网络之间的数据传输。

随着互联网以及各种终端设备的普及，网络中的数据呈爆炸式的增长，各种类型的终端设备无时无刻不在产生数据，有些数据暂时利用不上，网关在进行数据采集时，会包含这些暂时不用的数据，导致网关数据采集的效率较低。

发明内容

本发明的目的在于提供一种网关数据智能采集方法及系统，以提高网关数据采集的效率。

本发明实施例的第一方面，提供了一种网关数据智能采集方法，包括：

获取网关数据的数据属性；

基于数据属性对所述网关数据进行分类，得到多类子数据；其中，每类子数据对应一组数据属性；

基于所述数据属性确定每类子数据的目标访问时间；其中，所述目标访问时间为从当前时刻起，所述子数据最快被访问的时间；

基于所述目标访问时间确定每类子数据的数据采集顺序；

根据所述数据采集顺序对每类子数据进行智能化采集。

在一种可能的实现方式中，所述基于所述数据属性确定每类子数据的目标访问时间，包括：

基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据；其中，所述目标类数据指的是访问时间具备规律的数据；

若某类子数据属于目标类数据，则获取该类子数据对应的历史访问时间，基于所述历史访问时间确定该类子数据的目标访问时间；

若某类子数据不属于目标类数据，则在预设的时间范围内随机生成一时间值，并将随机生成的时间值确定为该类子数据的目标访问时间。

在一种可能的实现方式中，在基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据之前，所述网关数据智能采集方法还包括：

确定各组数据属性的数据与目标类数据的所属关系；

其中，确定某组数据属性的数据与目标类数据的所属关系，包括：

获取该组数据属性对应的历史访问时间，并将所述历史访问时间划分为多组训练数据和多组验证数据；其中，所述该组数据属性对应的历史访问时间为该组数据属性的数据对应的历史访问时间；

基于所述训练数据训练神经网络模型，并基于所述验证数据验证训练完成的所述神经网络模型的预测精度；

若所述预测精度大于预设精度，则确定该组数据属性的数据属于目标类数据；

若所述预测精度不大于预设精度，则确定该组数据属性的数据不属于目标类数据。

在一种可能的实现方式中，所述基于所述历史访问时间确定该类子数据的目标访问时间，包括：

基于所述历史访问时间确定该类子数据的访问时间间隔；

基于任一次的所述历史访问时间和所述访问时间间隔确定目标访问时间。

在一种可能的实现方式中，所述基于所述目标访问时间确定每类子数据的数据采集顺序，包括：

将所述目标访问时间由小到大的顺序确定为每类子数据的数据采集顺序。

在一种可能的实现方式中，所述基于所述目标访问时间确定每类子数据的数据采集顺序，包括：

对各类子数据的目标访问时间进行归一化处理，将（1-t）确定为每类子数据的第一使用概率；t为归一化处理后的每类子数据的目标访问时间；

确定每类子数据中单体数据文件的平均大小，对各类子数据对应的平均大小进行归一化处理，将（1-s）确定为每类子数据的第二使用概率；

其中，s为归一化处理后的每类子数据对应的平均大小；

对所述第一使用概率和所述第二使用概率进行加权求和，确定每类子数据的综合使用概率；

基于每类子数据的综合使用概率确定每类子数据的数据采集顺序。

在一种可能的实现方式中，所述基于每类子数据的综合使用概率确定每类子数据的数据采集顺序，包括：

将所述综合使用概率由大到小的顺序确定为每类子数据的数据采集顺序。

本发明实施例的第二方面，提供了一种网关数据智能采集系统，包括：

数据获取模块，用于获取网关数据的数据属性；

数据分类模块，用于基于数据属性对所述网关数据进行分类，得到多类子数据；其中，每类子数据对应一组数据属性；

时间确定模块，用于基于所述数据属性确定每类子数据的目标访问时间；其中，所述目标访问时间为从当前时刻起，所述子数据最快被访问的时间；

顺序确定模块，用于基于所述目标访问时间确定每类子数据的数据采集顺序；

数据采集模块，用于根据所述数据采集顺序对每类子数据进行智能化采集。

本发明实施例提供的网关数据智能采集方法及系统的有益效果在于：

本发明实施例首先根据数据属性将网关数据分为多类子数据，其中，数据属性包括但不限于数据来源、数据类型、数据文件名称等，然后根据数据属性的不同，计算每类子数据第一次被访问的时间，也即目标访问时间，最后根据目标访问时间确定每类子数据的采集顺序。按照上述方法确定出的数据采集顺序进行网关数据的采集，能够实现对亟需访问的子数据优先采集，避免暂时不用的数据占用网关传输资源，从而保证对亟需访问的子数据的传输效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的网关数据智能采集方法的流程示意图；

图2为本发明一实施例提供的网关数据智能采集系统的结构框图；

图3为本发明一实施例提供的终端设备的示意框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

请参考图1，图1为本发明一实施例提供的网关数据智能采集方法的流程示意图，该网关数据智能采集方法包括：

S101：获取网关数据的数据属性。

在本实施例中，网关数据为经过目标网关的数据，数据属性包括但不限于数据来源、数据类型、数据文件名称等，其中数据来源表明产生数据的设备，可以用设备ID来标识，数据类型表明数据格式，例如视频数据、音频数据、txt文档数据、word文档数据、excel文档数据等。

S102：基于数据属性对网关数据进行分类，得到多类子数据；其中，每类子数据对应一组数据属性。

在本实施例中，可以根据数据来源对网关数据进行分类，例如，来自同一设备的数据作为一类子数据；也可以结合数据来源和数据类型进行分类，例如，来自同一设备的word文档数据作为一类子数据。本领域技术人员可以根据实际需要灵活设计数据分类方法，这里不做赘述。

S103：基于数据属性确定每类子数据的目标访问时间；其中，目标访问时间为从当前时刻起，子数据最快被访问的时间。

在本实施例中，最快被访问的时间即为数据被采集后，第一次被访问的时间。根据数据属性的不同，每类子数据的目标访问时间会有不同。

S104：基于目标访问时间确定每类子数据的数据采集顺序。

在本实施例中，按照目标访问时间确定每类子数据的数据采集顺序。例如，把目标访问时间最短的子数据排在第一位，目标访问时间次短的子数据排在第二位，…，依此类推。

S105：根据数据采集顺序对每类子数据进行智能化采集。

在本实施例中，首先采集排在第一位的子数据，然后采集排在第二位的子数据，…，依此类推。

由上可以得出，本发明实施例首先根据数据属性将网关数据分为多类子数据，然后根据数据属性的不同，计算每类子数据第一次被访问的时间，也即目标访问时间，最后根据目标访问时间确定每类子数据的采集顺序。按照上述方法确定出的数据采集顺序进行网关数据的采集，能够实现对亟需访问的子数据优先采集，避免暂时不用的数据占用网关传输资源、影响对亟需访问的子数据的传输效率。

为进一步减轻网关的数据采集负担，排在N位之后的各类子数据判定为暂时不用的数据，可仅采集排在前N位的各类子数据。其中，N为自然数，本领域技术人员可以根据实际需要灵活设计N的值，例如N=3、N=4或N=5等等。

在一种可能的实现方式中，基于数据属性确定每类子数据的目标访问时间，包括：

基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据。其中，目标类数据指的是访问时间具备规律的数据。

若某类子数据属于目标类数据，则获取该类子数据对应的历史访问时间，基于历史访问时间确定该类子数据的目标访问时间。

若某类子数据不属于目标类数据，则在预设的时间范围内随机生成一时间值，并将随机生成的时间值确定为该类子数据的目标访问时间。

在本实施例中，对于访问时间具有规律的子数据，例如周报表、月报表等，可以根据历史访问数据预测新一次的访问时间，即目标访问时间。对于访问时间没有规律的子数据，通过设定预设的时间范围，并在预设的时间范围内随机生成一时间值，作为该类子数据的目标访问时间。采样上述方法，能够为每类子数据确定一个合适的目标访问时间，进而实现各类子数据的有序采集。

在一种可能的实现方式中，在基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据之前，网关数据智能采集方法还包括：

确定各组数据属性的数据与目标类数据的所属关系。

其中，确定某组数据属性的数据与目标类数据的所属关系，包括：

获取该组数据属性对应的历史访问时间，并将历史访问时间划分为多组训练数据和多组验证数据。其中，所述该组数据属性对应的历史访问时间为该组数据属性的数据对应的历史访问时间。

基于训练数据训练神经网络模型，并基于验证数据验证训练完成的神经网络模型的预测精度。

若预测精度大于预设精度，则确定该组数据属性的数据属于目标类数据。

若预测精度不大于预设精度，则确定该组数据属性的数据不属于目标类数据。

在本实施例中，通过将某组数据属性对应的历史访问时间划分为多组训练数据和多组验证数据，并基于训练数据训练神经网络模型、基于验证数据验证训练完成的神经网络模型的预测精度，其中，任一组训练数据中的最后一个数据作为神经网路模型的输出，其余数据作为神经网络模型的输入。如果预测精度大于预设精度，则表明基于该组数据属性对应的历史访问时间能够训练得到一个神经网络模型，来预测目标访问时间，也即该组数据属性对应数据的访问时间具备规律，属于目标类数据；否则，如果预测精度不大于预设精度，目标访问时间不可预测，则该组数据属性对应数据的访问时间不具备规律，不属于目标类数据。

在进行神经网络模型的训练时，预设精度越大越好，但是太大的预设精度会增加模型训练的难度，导致模型训练失败。根据实际需要，本实施例具体选用预设精度为0.95。

需要说明的是，目前常用的神经网络模型，例如BP神经网络、CNN模型、DNN模型，均可用作本实施例中的神经网络模型。

在一种可能的实现方式中，基于历史访问时间确定该类子数据的目标访问时间，包括：

将历史访问时间输入上述神经网络模型，神经网络模型的输出确定为目标访问时间。

对于某类子数据，如果该类子数据属于目标类数据，则可利用上述训练完成的神经网络模型预测该类子数据的目标访问时间。

在一种可能的实现方式中，基于历史访问时间确定该类子数据的目标访问时间，包括：

基于历史访问时间确定该类子数据的访问时间间隔。

基于任一次的历史访问时间和访问时间间隔确定目标访问时间。

在本实施例中，对于历史访问时间具备简单规律的子数据，也可以根据该简单规律直接进行目标访问时间的计算。例如，当前时间为9月16日，某类子数据的历史访问时间分别为9月1日、9月8日和9月15日，则根据历史访问时间可得到访问时间间隔为7日。根据该时间间隔和任一次的历史访问时间可以直接计算得到目标访问时间，以9月1日为例，由于当前时间和9月1日之间相差15日，大于2个时间间隔，所以以3个时间间隔计算目标访问时间，即：目标访问时间=9月1日+3×7日=9月22日。

在一种可能的实现方式中，基于目标访问时间确定每类子数据的数据采集顺序，包括：

将目标访问时间由小到大的顺序确定为每类子数据的数据采集顺序。

在本实施例中，可以根据目标访问时间的大小确定数据采集顺序，例如，当前时刻为6点，三类子数据的目标访问时间分别为：第一类子数据15点，第二类子数据17点，第三类子数据16点，则在当前时刻首先采集第一类子数据，在6:01采集完第一类子数据之后，开始采集第三类子数据，在6:03采集完第三类子数据之后，开始采集第二类子数据。

在一种可能的实现方式中，基于目标访问时间确定每类子数据的数据采集顺序，包括：

对各类子数据的目标访问时间进行归一化处理，将（1-t）确定为每类子数据的第一使用概率。t为归一化处理后的每类子数据的目标访问时间。

确定每类子数据中单体数据文件的平均大小，对各类子数据对应的平均大小进行归一化处理，将（1-s）确定为每类子数据的第二使用概率。

其中，s为归一化处理后的每类子数据对应的平均大小。

对第一使用概率和第二使用概率进行加权求和，确定每类子数据的综合使用概率。

基于每类子数据的综合使用概率确定每类子数据的数据采集顺序。

在本实施例中，可以同时根据目标访问时间和单体数据文件的平均大小，确定每类子数据的数据采集顺序。通过综合考虑目标访问时间和单体数据文件的平均大小的影响，进一步优化数据采集顺序，确保数据传输效率。

在一种可能的实现方式中，基于每类子数据的综合使用概率确定每类子数据的数据采集顺序，包括：

将综合使用概率由大到小的顺序确定为每类子数据的数据采集顺序。

在本实施例中，目标访问时间短且单体数据文件小的数据会被优先采集，目标访问时间长且单体数据文件大的数据会被最后采集。这样，在发生网络中断或网络拥堵的情况时，目标访问时间短且单体数据文件小的数据也可以很快被采集完毕，最大限度的保证数据的传输效率。

对应于上文实施例的网关数据智能采集方法，图2为本发明一实施例提供的网关数据智能采集系统的结构框图。为了便于说明，仅示出了与本发明实施例相关的部分。参考图2，该网关数据智能采集系统20包括：数据获取模块21、数据分类模块22、时间确定模块23、顺序确定模块24和数据采集模块25。

其中，数据获取模块21，用于获取网关数据的数据属性。

数据分类模块22，用于基于数据属性对网关数据进行分类，得到多类子数据。其中，每类子数据对应一组数据属性。

时间确定模块23，用于基于数据属性确定每类子数据的目标访问时间。其中，目标访问时间为从当前时刻起，子数据最快被访问的时间。

顺序确定模块24，用于基于目标访问时间确定每类子数据的数据采集顺序。

数据采集模块25，用于根据数据采集顺序对每类子数据进行智能化采集。

在一种可能的实现方式中，时间确定模块23具体用于：

基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据。其中，目标类数据指的是访问时间具备规律的数据。

若某类子数据属于目标类数据，则获取该类子数据对应的历史访问时间，基于历史访问时间确定该类子数据的目标访问时间。

若某类子数据不属于目标类数据，则在预设的时间范围内随机生成一时间值，并将随机生成的时间值确定为该类子数据的目标访问时间。

在一种可能的实现方式中，在基于每类子数据对应的数据属性判断每类子数据是否属于目标类数据之前，时间确定模块23还用于：

确定各组数据属性的数据与目标类数据的所属关系。

其中，确定某组数据属性的数据与目标类数据的所属关系，包括：

获取该组数据属性对应的历史访问时间，并将历史访问时间划分为多组训练数据和多组验证数据。

基于训练数据训练神经网络模型，并基于验证数据验证训练完成的神经网络模型的预测精度。

若预测精度大于预设精度，则确定该组数据属性的数据属于目标类数据。

若预测精度不大于预设精度，则确定该组数据属性的数据不属于目标类数据。

在一种可能的实现方式中，时间确定模块23具体用于：

基于历史访问时间确定该类子数据的访问时间间隔。

基于任一次的历史访问时间和访问时间间隔确定目标访问时间。

在一种可能的实现方式中，顺序确定模块24具体用于：

将目标访问时间由小到大的顺序确定为每类子数据的数据采集顺序。

在一种可能的实现方式中，顺序确定模块24具体用于：

对各类子数据的目标访问时间进行归一化处理，将（1-t）确定为每类子数据的第一使用概率。t为归一化处理后的每类子数据的目标访问时间。

确定每类子数据中单体数据文件的平均大小，对各类子数据对应的平均大小进行归一化处理，将（1-s）确定为每类子数据的第二使用概率。

其中，s为归一化处理后的每类子数据对应的平均大小。

对第一使用概率和第二使用概率进行加权求和，确定每类子数据的综合使用概率。

基于每类子数据的综合使用概率确定每类子数据的数据采集顺序。

在一种可能的实现方式中，顺序确定模块24具体用于：

将综合使用概率由大到小的顺序确定为每类子数据的数据采集顺序。

参见图3，图3为本发明一实施例提供的终端设备的示意框图。如图3所示的本实施例中的终端300可以包括：一个或多个处理器301、一个或多个输入设备302、一个或多个输出设备303及一个或多个存储器304。上述处理器301、输入设备302、输出设备303及存储器304通过通信总线305完成相互间的通信。存储器304用于存储计算机程序，计算机程序包括程序指令。处理器301用于执行存储器304存储的程序指令。其中，处理器301被配置用于调用程序指令执行以下操作上述各装置实施例中各模块/单元的功能，例如图2所示模块21至25的功能。

应当理解，在本发明实施例中，所称处理器301可以是中央处理单元 (CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备302可以包括触控板、指纹采传感器（用于采集用户的指纹信息和指纹的方向信息）、麦克风等，输出设备303可以包括显示器（LCD等）、扬声器等。

该存储器304可以包括只读存储器和随机存取存储器，并向处理器301 提供指令和数据。存储器304的一部分还可以包括非易失性随机存取存储器。例如，存储器304还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器301、输入设备302、输出设备303可执行本发明实施例提供的网关数据智能采集方法的第一实施例和第二实施例中所描述的实现方式，也可执行本发明实施例所描述的终端的实现方式，在此不再赘述。

在本发明的另一实施例中提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

计算机可读存储介质可以是前述任一实施例的终端的内部存储单元，例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备，例如终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，计算机可读存储介质还可以既包括终端的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序及终端所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：石家庄常宏智能科技有限公司;

上一篇：一种哑终端管理方法及装置
下一篇：一种误码插入方法、装置、系统及计算机存储介质