掌桥专利:专业的专利平台
掌桥专利
首页

一种数据链路异常定位方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 11:26:00


一种数据链路异常定位方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及电力系统技术领域,尤其涉及一种数据链路异常定位方法、装置、电子设备及存储介质。

背景技术

随着大数据时代的来临,越来越多的数据被产生,数据链路在企业建设的过程中起着十分重要的作用。数据贯穿业务处理的各个环节,随着数据中台建设的不断推进,数据资源不断丰富,数据链路建设规模逐渐变得庞大和复杂。但是在数据集成链路上还存在异常环节难以定位等问题,如果不能及时有效地将异常环节进行定位,会导致链路无法正常运行,增加维护成本,影响企业的生产效益。

现有技术中,通过专家人工查看数据链路流转信息,凭借经验做出判断,对数据链路异常环节进行定位。但是,对着数据链路规模的复杂化,在面对高纬度、大批量的复杂数据时,现有技术的方法力不从心,难以达到异常定位精度的要求。为保证数据链路的高质高效运行,亟需研究一种数据链路异常定位的方法,对数据链路可能存在的异常环节进行定位和诊断,实现数据集成链路效率效能的提升。

发明内容

本发明实施例提供了一种数据链路异常定位方法、装置、电子设备及存储介质,可以提高数据链路监测效率,降低人工成本,便于数据链路维护,提高数据链路效能。

第一方面,本发明实施例提供了一种数据链路异常定位方法,该方法包括:

根据数据链路的传输方式,确定异常定位指标,并获取与各所述异常定位指标对应的异常定位数据;

对各所述异常定位指标对应的异常定位数据进行处理,确定各所述异常定位指标对应的数据特征;

将所述数据特征输入至预设机器学习分类模型中,得到异常分类结果。

第二方面,本发明实施例还提供了一种数据链路异常定位装置,该装置包括:

异常定位数据获取模块,用于根据数据链路的传输方式,确定异常定位指标,并获取与各所述异常定位指标对应的异常定位数据;

数据特征确定模块,用于对各所述异常定位指标对应的异常定位数据进行处理,确定各所述异常定位指标对应的数据特征;

异常分类结果确定模块,用于将所述数据特征输入至预设机器学习分类模型中,得到异常分类结果。

第三方面,本发明实施例还提供了一种电子设备,该设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的一种数据链路异常定位方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的一种数据链路异常定位方法。

本发明实施例的技术方案,通过根据数据链路的传输方式,确定异常定位指标,并获取与各异常定位指标对应的异常定位数据;对各异常定位指标对应的异常定位数据进行处理,确定各异常定位指标对应的数据特征;将数据特征输入至预设机器学习分类模型中,得到异常分类结果,解决了数据链路的异常定位问题,实现了提升数据链路监测效率,便于数据链路的维护,并降低人工成本,以及提高数据链路效能的效果。

附图说明

图1a是本发明实施例一提供的一种数据链路异常定位方法的流程图;

图1b是本发明实施例一提供的一种数据链路异常定位的指标体系示意图;

图2是本发明实施例二提供的一种数据链路异常定位装置的结构示意图;

图3是本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1a是本发明实施例一提供的一种数据链路异常定位方法的流程图,本实施例可适用于对大规模数据链路进行异常定位的情况,该方法可以由数据链路异常定位装置来执行,该装置可以通过软件,和/或硬件的方式实现,装置可以集成在电子设备如计算机中,如图1a所示,该方法具体包括:

步骤110、根据数据链路的传输方式,确定异常定位指标,并获取与各异常定位指标对应的异常定位数据。

其中,数据链路的传输方式可以是横向链路传输和/或纵向链路传输。例如,横向链路传输可以是国家级数据库(总部)之间的一级数据传输,纵向链路传输可以是国家级数据库与地方级数据库(分部)之间的二级数据传输。通过对数据链路进行横向和纵向的链路监测,可以实现总部与分部的两级调度下的异常定位。

异常定位指标可以是与传输方式对应的且与异常定位相关的指标。例如,异常定位指标可以是横向链路指标和/或,纵向链路指标。具体的,异常定位指标可以是根据国家级数据库提供的监测方案、监测指标清单和数据链路传输技术确定的。

在本发明实施例的一个可选实施方式中,根据数据链路的传输方式,确定异常定位指标,包括:根据横向链路的传输方式,确定横向链路指标;和/或,根据纵向链路的传输方式,确定纵向链路指标。

图1b是本发明实施例一提供的一种数据链路异常定位的指标体系示意图。如图1b所示,在本发明实施例的一个可选实施方式中,横向链路指标,包括下述至少一项:横向链路输入数据量指标、横向链路输出数据量指标、横向链路数据传输耗时指标、横向链路传输任务状态指标、横向链路时间延迟指标、以及横向链路检查点时间延迟指标。

其中,横向链路输入数据量指标是指横向链路中输入数据的大小。横向链路输出数据量指标是指横向链路中输出数据的大小。横向链路数据传输耗时指标是指横向链路中每次传输数据所消耗的时间。横向链路传输任务状态指标是指横向链路中传输任务的状态。横向链路时间延迟指标(lag at chkpt)是指复制进程处理最后一条记录的操作系统时间和此条记录在轨迹(trail)文件中的时间戳之间的差值。横向链路检查点时间延迟指标(time since chkpt)是指横向链路中最近一个检查点与当前系统时间之间的时间差。

如图1b所示,在本发明实施例的一个可选实施方式中,纵向链路指标,包括下述至少一项:纵向链路输入数据量指标、纵向链路输出数据量指标、纵向链路数据传输耗时指标、纵向链路本地执行状态指标、纵向链路远程执行状态指标、以及纵向链路回调状态指标。

其中,纵向链路输入数据量指标是指纵向链路中输入数据的大小。纵向链路输出数据量指标是指纵向链路中输出数据的大小。纵向链路数据传输耗时指标是指纵向链路中每次传输数据所消耗的时间。纵向链路本地执行状态指标是指纵向链路中跨系统远程任务调度情况下的本地任务的状态。纵向链路远程执行状态指标是指纵向链路中本地任务配置通过“DMS调度”组件调用的远程服务,其中,DMS为调度管理系统。纵向链路回调状态指标是指第三方系统通过接口触发任务,任务完成后异步回调通知第三方系统运行结果。

异常定位数据可以是与异常定位指标对应的数据。异常定位数据可以是指标对应的具体数值。异常定位数据可以是实时对数据链路进行监测采集的数值,可以是真实值或者仿真值。

步骤120、对各异常定位指标对应的异常定位数据进行处理,确定各异常定位指标对应的数据特征。

其中,对异常定位数据的处理可以是提取异常定位数据所具有的数据特征,作为对应的异常定位指标的数据特征。各异常定位指标对应的异常定位数据可以是大量的。本发明实施例的数据链路异常定位方法可以适用于大规模数据链路。提取数据特征的方法可以是多种的,例如,可以是通过深度学习模型实现的;或者,可以是通过自编码器实现的等。

在本发明实施例的一个可选实施方式中,对各异常定位指标对应的异常定位数据进行处理,确定各异常定位指标对应的数据特征,包括:对各异常定位指标对应的异常定位数据进行标准化处理,得到标准异常定位数据;对标准异常定位数据通过自编码器进行预先训练,得到最小化重构误差的数据特征。

其中,标准化处理可以是对异常定位数据进行无量纲处理,可以使处理后的异常定位数据,即标准异常定位数据位于区间[0,1]内。标准化处理可以避免数据量纲对数据特征的影响,可以提高异常定位的精准度。

示例性的,对于各异常定位指标对应的异常定位数据可以采用公式

在本发明实施例中,提取异常定位数据的数据特征可以采用自编码器(AutoEncoder,AE)实现。自编码器是一种能够通过无监督学习,学到输入数据高效表示的人工神经网络。自编码器的预先训练包含编码、解码和重构误差。

示例性的,采用自编码器的预先训练可以是:

首先,将标准异常定位数据y作为隐藏层的输入进行编码,得到编码后的数据h。其中,h为提取的特征。编码是指将y映射到隐含表示h的过程。其中,y∈R,h∈R。h的计算公式可以是h=σ

其次,对编码数据h进行解密,得到重构后的数据z。解码是指把隐含表示h映射到输出层z,以对输入y进行重构的过程。z的计算公式可以是z=σ

最后,计算y和z间的损失函数,调整参数(如权重矩阵)重复进行预先训练,最小化重构误差,直至损失函数收敛。其中,损失函数的确定方式可以是:

在本发明实施例中,得到最小化重构误差的数据特征可以是在上述得到的自编码器模型中,保留自编码器的前半部分,即仅使用自编码器提取数据特征。采用自编码器进行特征提取,并结合预设机器学习分类模型,可以克服单个机器学习算法进行异常定位的局限性,可以提高异常定位的准确性。

需要说明的是,采用自编码器进行特征提取时,可以是针对不同的异常分类进行的。在本发明实施例的一个可选实施方式中,异常分类,包括:数据及时性告警、数据完整性告警以及数据库连通告警。

其中,数据及时性告警是指数据在数据链路上传输的时间出现异常,如网络中断、传输线路异常等。数据完整性告警是指数据在数据链路上传输的数据量出现异常,如数据丢失、数据冗余等。数据库连通告警是指数据的输入来源和输出对象出现异常,如数据库连接中断、数据库损坏等。

在进行特征提取时,可以对各异常分类进行编码处理。例如,可以对异常分类进行独热编码。其中,独热编码是利用0和1表示一些参数,使用N位状态寄存器,进行N个状态的编码。

示例性的,当异常分类为数据及时性告警、数据完整性告警以及数据库连通告警时,对应的独热编码可以分别为:[100,010,001]。通过独热编码对异常分类进行处理,可以便于模型的训练。

步骤130、将数据特征输入至预设机器学习分类模型中,得到异常分类结果。

其中,数据特征可以是通过自编码器进行编码得到的特征h。在本发明实施例中,可以将自编码器提取的特征输入至机器学习分类模型中进行机器学习模型的训练,可以克服单个机器学习算法进行异常定位的局限性,可以提高异常定位的准确性。

预设机器学习分类模型可以是根据特征预先进行训练得到的机器学习分类模型。通过预设机器学习分类模型可以根据特征确定异常分类结果。目前常用的机器学习分类算法有很多,例如,支持向量机、对数几率回归、随机森林和朴素贝叶斯等。

在本发明实施例的一个可选实施方式中,异常分类结果,包括:数据及时性告警、数据完整性告警以及数据库连通告警。

在本发明实施例的一个可选实施方式中,在将数据特征输入至预设机器学习分类模型中,得到异常分类结果之前,还包括:获取与异常定位指标对应的训练集,使用机器学习分类算法进行模型训练,得到预设机器学习分类模型;其中,训练集中的数据包括与各异常定位指标对应的异常定位数据、数据特征、以及预设异常分类结果标签。

其中,训练集可以是根据历史异常定位数据确定的数据特征构成的样本集合。例如,训练集可以是根据历史异常定位数据进行标准化处理后,并采用自编码器提取的特征。训练集中可以包括预设异常分类结果标签,标签可以是独热编码。

示例性的,以支持向量机为例,说明预设机器学习分类模型的训练。在机器学习中,支持向量机(SVM)是具有相关学习算法的监督学习模型,其分析用于分类和回归分析的数据。给定一组训练示例,每个示例标记为属于两个类别中的一个或另一个,SVM训练算法构建一个模型,将新示例分配给一个类别或另一个类别,使其成为非概率二元线性分类器。SVM模型是将示例表示为空间中的点,映射使得单独类别的示例除以尽可能宽的明确间隙。然后将新的示例映射到同一空间,并根据它们落在哪个边缘预测属于哪一个类别。除了执行线性分类之外,SVM还可以使用内核技巧有效地执行非线性分类,将其输入隐式映射到高维特征空间。

由于有些分类算法(如支持向量机)属于二分类机器学习算法,为了能应用这些算法进行多分类,常用的方法包括一对多和一对一。

其中,一对多方法是指:对于含有N个类别标签的样本集,将训练N个二分类的模型。在训练阶段,每次将一个类的样本作为正类,剩下的其余所有类的样本作为负类来训练N个模型。在测试阶段,若仅有一个分类器将样本预测为正类,则该样本划分为属于该正类对应的类别标签。若有多个分类器都将该样本预测为正类,将该样本划分为分类置信度最大的分类器的结果所对应的类别。

一对一方法是指:在含有N个类别标签的样本中将为每两个类别的样本训练一个分类器,所以总共需要训练

在本发明实施例中,实际使用机器学习算法进行训练的关键是数据集的构建。例如,可以将不同异常类型的异常定位数据各取1000条并随机打乱,以8:1:1的比例将数据集划分为训练集、验证集和测试集,使用训练集的数据进行自编码器的预训练和机器学习分类器的训练,通过验证集比较精确度不断对模型参数进行优化,最终在测试集上得到较高的分类精确度,所得到的模型即为预设机器学习分类模型。

本发明实施例得到的预设机器学习分类模型可以确定异常分类结果,进而根据异常分类结果可以实现对异常环节的精准定位。例如,异常分类结果为数据及时性告警,可以将异常定位为网络中断或者传输线路异常。通过预设机器学习分类模型确定异常分类结果,可以确保及时排查数据链路异常环节并解决问题,提升数据全链路监测工具的监测效率和维护效率,保障数据全链路体系能够正常、高效地运行。

在本发明实施例的一个可选实施方式中,预设异常分类结果标签通过独热编码对预设异常分类结果进行编码得到。

本实施例的技术方案,通过根据数据链路的传输方式,确定异常定位指标,并获取与各异常定位指标对应的异常定位数据;对各异常定位指标对应的异常定位数据进行处理,确定各异常定位指标对应的数据特征;将数据特征输入至预设机器学习分类模型中,得到异常分类结果,解决了数据链路的异常定位监测问题,实现了便于确定异常定位,提升数据链路监测效率,便于数据链路的维护,并降低人工成本的效果。

实施例二

图2是本发明实施例二提供的一种数据链路异常定位装置的结构示意图。结合图2,该装置包括:异常定位数据获取模块210,数据特征确定模块220和异常分类结果确定模块230。其中:

异常定位数据获取模块210,用于根据数据链路的传输方式,确定异常定位指标,并获取与各异常定位指标对应的异常定位数据;

数据特征确定模块220,用于对各异常定位指标对应的异常定位数据进行处理,确定各异常定位指标对应的数据特征;

异常分类结果确定模块230,用于将数据特征输入至预设机器学习分类模型中,得到异常分类结果。

可选的,异常定位数据获取模块210包括:

异常定位指标确定单元,用于根据横向链路的传输方式,确定横向链路指标;和/或,根据纵向链路的传输方式,确定纵向链路指标。

可选的,横向链路指标,包括下述至少一项:横向链路输入数据量指标、横向链路输出数据量指标、横向链路数据传输耗时指标、横向链路传输任务状态指标、横向链路时间延迟指标、以及横向链路检查点时间延迟指标;

纵向链路指标,包括下述至少一项:纵向链路输入数据量指标、纵向链路输出数据量指标、纵向链路数据传输耗时指标、纵向链路本地执行状态指标、纵向链路远程执行状态指标、以及纵向链路回调状态指标。

可选的,数据特征确定模块220包括:

标准化处理单元,用于对各异常定位指标对应的异常定位数据进行标准化处理,得到标准异常定位数据;

数据特征确定单元,用于对标准异常定位数据通过自编码器进行预先训练,得到最小化重构误差的数据特征。

可选的,异常分类结果,包括:数据及时性告警、数据完整性告警以及数据库连通告警。

可选的,该装置还包括:

预设机器学习分类模型确定模块,用于在将数据特征输入至预设机器学习分类模型中,得到异常分类结果之前,获取与异常定位指标对应的训练集,使用机器学习分类算法进行模型训练,得到预设机器学习分类模型;

其中,训练集中的数据包括与各异常定位指标对应的异常定位数据、数据特征、以及预设异常分类结果标签。

可选的,预设异常分类结果标签通过独热编码对预设异常分类结果进行编码得到。

本发明实施例所提供的数据链路异常定位装置可执行本发明任意实施例所提供的数据链路异常定位方法,具备执行方法相应的功能模块和有益效果。

实施例三

图3是本发明实施例三提供的一种电子设备的结构示意图,如图3所示,该设备包括:

一个或多个处理器310,图3中以一个处理器310为例;

存储器320;

所述设备还可以包括:输入装置330和输出装置340。

所述设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。

存储器320作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种数据链路异常定位方法对应的程序指令/模块(例如,附图2所示的异常定位数据获取模块210,数据特征确定模块220和异常分类结果确定模块230)。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例的一种数据链路异常定位方法,即:

根据数据链路的传输方式,确定异常定位指标,并获取与各所述异常定位指标对应的异常定位数据;

对各所述异常定位指标对应的异常定位数据进行处理,确定各所述异常定位指标对应的数据特征;

将所述数据特征输入至预设机器学习分类模型中,得到异常分类结果。

存储器320可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器320可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

实施例四

本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的一种数据链路异常定位方法:

根据数据链路的传输方式,确定异常定位指标,并获取与各所述异常定位指标对应的异常定位数据;

对各所述异常定位指标对应的异常定位数据进行处理,确定各所述异常定位指标对应的数据特征;

将所述数据特征输入至预设机器学习分类模型中,得到异常分类结果。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

相关技术
  • 一种数据链路异常定位方法、装置、电子设备及存储介质
  • 一种异常定位方法、装置、电子设备及存储介质
技术分类

06120112922283