基于知识图谱的油井数据完整性识别方法

文献发布时间：2024-04-18 20:01:30

技术领域

本发明涉及油井数据管理技术领域，特别涉及基于知识图谱的油井数据完整性识别方法。

背景技术

随着油田业务的不断发展，对信息系统的依赖程度越来越高，信息的集中式管控问题越来越突出。当前社会正在向“万物互联”的方向推进，传统IPv4地址数量紧缺带来的问题日益严重，于是出现了IPv6技术等下一代互联网技术。在发展过程中，新需求、新系统和新技术的不断使用，网络管理面临以下诸多问题，例如流量剧增、人员工作量加大，导致负担加重；其次，传统监控方式过于分散，不利于故障的准确定位，数据之间的关系复杂不利于快速找出问题关键，且被动式接受各种问题和故障，缺乏自主的应对策略。

对于已提出的异常检测方案，仍存在不少缺陷，在大多数实际的场景中，数据本身是没有标签的，也存在一些数据集有标签，但标签的可信度非常低，导致放入模型后效果很差，这就导致我们无法直接使用一些成熟的监督学习方法。在一些欺诈检测的场景中，多种诈骗数据都混在一起，很难区分不同类型的诈骗，对于时间维度上的探究考虑不够，缺少应对在时间间隔内的异常分析。

发明内容

本发明的目的在于至少解决现有技术中存在的技术问题之一，提供基于知识图谱的油井数据完整性识别方法，能够对幽静数据异常情况进行精准和快速的筛查。

根据本发明实施例，提供基于知识图谱的油井数据完整性识别方法，该方法步骤包括：

利用SNMP协议连接网络目标交换机，通过不同的OID字段发起请求获取业务命令，周期性获取目标信息；

确定与异常信息检测模型相对应的目标模型参数，分类别存储入库，与企业内部人员信息表进行交叉匹配，获得汇总数据集，进行数据清洗，处理获取信息的格式；

运行基于正态分布的概率统计异常检测算法，将该检测算法部署到网络内，获取并计算异常特征，构建异常分类器进行分类；

通过时间维度检测算法，拟合出一条时间序列曲线，从时间维度查看物理位置下IPv6地址的负载数量变化，检测其异常变化幅度和物理位置的稳定性；

进行动态知识图谱的异常行为检测，构建网络模型，抽取实体，探讨实体之间的度量尺度和相互关系，构建动态知识图谱；

对于异常信息进行图谱化展示和文本化信息输出。

进一步，所述步骤运行基于正态分布的概率统计异常检测算法，将该检测算法部署到网络内，获取并计算异常特征，构建异常分类器进行分类，具体包括：在正态分布的假设下，如果有一个新样本X，当X的正态分布值小于某个阈值时，认定样本是异常的；针对已获取的企业网络数据，以一个五元组作为一个数据，获得的数据集为包含m个数据的数据集，如公式(1)所示：

X＝{x(1),x(2),...,x(m)}(1)

依据上述数据集，选定训练集，通过公式(2)和(3)并依据所述训练集求得μ和σ

得到公式的各项参数，然后通过正态分布函数(4)对样本数据集进行异常检测判断，如公式(4)所示：

p(x

经过异常检验算法，得到汇总的异常登录数据，将异常数据分类存储入库。

进一步，所述通过时间维度检测算法，拟合出一条时间序列曲线，从时间维度查看物理位置下IPv6地址的负载数量变化，检测其异常变化幅度和物理位置的稳定性，具体包括：进行贝叶斯变换检测以求得时间拟合曲线，通过贝叶斯回归计算出一个预测分布，将不同对应的预测结果组合起来，形成最终的预测曲线，作为比对标准；计算出当前时间节点下的挂载IPv6地址数目，其中

式(5)中，ΔT是时间窗口变化幅度；

给定一个确定的滑动窗口，IPv6地址数量M(I

M(I

式(6)中，r

模式匹配算法应用于拟合曲线用以检测异常模式，令L表示时间序列二维的拟合曲线，如果经拟合曲线比对，实际曲线与所设置模板不相匹配，从而找到异常线段y＝{y

进一步，通过前后滑动窗口检测出的异常线段比对找到确定的异常数据，借助滑动窗口来获得所有的序列段，上一次检测被滑动窗口圈起的异常序列段定义为b＝{b

式(7)中，ε指的是合理阈值。

进一步，所述进行动态知识图谱的异常行为检测，构建网络模型，抽取实体，探讨实体之间的度量尺度和相互关系，构建动态知识图谱，具体包括：针对抽取的五类知识主体，将这五类主体作为五个特征值，借助于逻辑回归分析函数分析计算每一个知识主体对于异常登录的检测占比率，逻辑回归的公式代表了变量之间的关系，如(8)所示：

式(8)中，P(x)是检测占比率，借助最大似然函数可以计算出各个主体对应的W

进一步，在所述构建动态知识图谱时，采用关联影响值累计叠加的方法计算关联值；加入时间特征，把时间分为m个片段，在t

式(9)中，

本发明的基于知识图谱的异常网络信息检测方法具有以下技术效果：

(1)本发明实施例方法分析并设计了一个网络结构，比之前已有的方法能够更好地进行对工业互联网中的异常信息，包含了针对异常检测的所有网络信息，能够从这些数据中解析出更多有使用价值的信息，不仅精度高，速度也快，具有广泛的应用场景；

(2)本发明实施例的方法能够应用于工业互联网这个复杂场景中，实现了精准的网络信息异常检测，并在特定的实际应用场景中结合SNMP协议和异常检测算法，实现了一套针对异常网络情况检测的通用框架；

(3)本发明实施例的方法在使用人员众多，设备集群庞大的实际工程场景中，通过构造异常检测算法，实现了从原始数据到带有检测标签的测试数据，加入时间维度的测比更大地提高了异常检测的精度，并且在最终的网络知识图谱的绘制中显著提高了对异常情况复杂关系的可读性。

附图说明

下面结合附图和实施例对本发明进一步地说明；

图1为本发明实施例基于知识图谱的异常网络信息检测方法的流程图；

图2为本发明图1实施例中基于正态分布的概率统计异常检测的结构示意图；

图3为本发明图1实施例中时间维度检测的结构示意图；

图4为本发明图1实施例中动态知识图谱异常检测的结构示意图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

参照图1所示，本发明实施例公开了一种提供基于知识图谱的油井数据完整性识别方法，该方法步骤包括：

步骤S100，利用SNMP协议连接网络目标交换机，通过不同的OID字段发起请求获取业务命令，周期性获取目标信息。

具体的，在企业内部网络中抓取所需的数据，利用OID进行对网络信息的分类找寻。

步骤S110，确定与异常信息检测模型相对应的目标模型参数，分类别存储入库，与企业内部人员信息表进行交叉匹配，获得汇总数据集，进行数据清洗，处理获取信息的格式。

具体的，用户人员登记信息录入数据库，按要求进行处理相应字段。获取信息匹配成功后，组合存储，将信息转化为所需格式文件。根据登记表中的用户的登入登出时间同设备信息的获取时间作对比进行第一轮匹配，在用户的登入登出间隔内条目进行第二轮筛选，筛选出相同Mac地址的条目进行组合字段存储，其余数据作废。

步骤S120，运行基于正态分布的概率统计异常检测算法，将该检测算法部署到网络内，获取并计算异常特征，构建异常分类器进行分类。

本发明实施例中，如图2所示，将数据集带入基于正态分布的概率统计异常检测算法。在面对原始数据时，时常出现“肮脏”数据，需要对所有的数据进行数据清洗，一般的操作方法是直接删除带有缺失值的行记录或者列字段，减少缺失记录对总体数据的影响，但是丢弃意味着消减数据特征，特别是数据集总体中存在大量的数据记录不完整情况且比例较大，例如超过10％，删除这些带有缺失值的记录意味着会损失过多有用信息。缺失值的数据记录大量存在着明显的数据分布规律或特征，例如带有缺失值的数据记录的目标标签主要集中于某一类或几类，如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息，导致模型过拟合或分类不准确。

我们利用模型法进行数据补全，将缺失字段进行目标变量进行预测，从而得到最为可能的补全值。利用所设计的异常检测函数进行异常检测。这算法的核心思想是：给定一个训练集，将训练集转换为m维的高斯分布，通过对其中n个训练样例的分布分析，得出训练集的概率密度函数，并且利用其确定一个阈值ε。当给定一个新的点，我们根据在其高斯分布上算出的概率及阈值ε，当概率p＜ε判定为异常，当p＞ε则判定为非异常。

具体的，在正态分布的假设下，如果有一个新样本X，当X的正态分布值小于某个阈值时，认定样本是异常的；针对已获取的企业网络数据，以一个五元组作为一个数据，获得的数据集为包含m个数据的数据集，如公式(1)所示：

X＝{x(1),x(2),...,x(m)} (1)

依据上述数据集，选定训练集，通过公式(2)和(3)并依据所述训练集求得μ和σ

得到公式的各项参数，然后通过正态分布函数(4)对样本数据集进行异常检测判断，如公式(4)所示：

p(x

步骤S130，通过时间维度检测算法，拟合出一条时间序列曲线，从时间维度查看物理位置下IPv6地址的负载数量变化，检测其异常变化幅度和物理位置的稳定性。

本发明实施例中，进行贝叶斯变换检测的算法以求得时间拟合曲线。贝叶斯推断的基本方法是将未知参数的先验信息与样本信息综合，根据贝叶斯定理，得出后验信息，最后根据后验信息去推断未知参数。

对于时间序列，指的是将同一统计指标的数值按其发生的时间先后顺序排列而成的数列，使用基于滑动窗口的方法进行时间序列的检测，将时间序列划分成若干个子列，即小窗口，在各个子序列中定位异常点，该方法的基础是时间序列中的异常点可能是其中之一或多个子序列中的异常点导致。

再进行模式匹配找出异常线段，构建二维的时间拟合曲线，并使用类似函数的模板来表示值的突然发生异常y＝{y

作为本发明的一个具体实施例，如图3所示，进行贝叶斯变换检测以求得时间拟合曲线，通过贝叶斯回归计算出一个预测分布，将不同对应的预测结果组合起来，形成最终的预测曲线，作为比对标准；计算出当前时间节点下的挂载IPv6地址数目，其中

式(5)中，ΔT是时间窗口变化幅度；

给定一个确定的滑动窗口，IPv6地址数量M(I

M(I

式(6)中，r

通过前后滑动窗口检测出的异常线段比对找到确定的异常数据，借助滑动窗口来获得所有的序列段，上一次检测被滑动窗口圈起的异常序列段定义为b＝{b

式(7)中，ε指的是合理阈值。

步骤S140，进行动态知识图谱的异常行为检测，构建网络模型，抽取实体，探讨实体之间的度量尺度和相互关系，构建动态知识图谱。

在本发明实施例中，如图4所示，在实际的网络环境中抽取人员姓名和IPv4地址、IPv6地址、Mac地址、物理位置和时间这五种知识主体，借助逻辑回归函数进行异常占比的分类计算，对数据进行标签化处理。将标签化的数据集用来进行构建节点关联模型，计算出之间存在的关联值。实体之间存在着必然联系，我们设计了一种关联性模型Model＝(Z，I，ε)，Z＝(Z

加入时间特征进一步判断是否存在关联。为了排除无关点对于其余节点之间关联关系的影响，我们引入时间维度，把时间分为m个片段，将图谱以时间为维度进行划分为K

针对抽取的五类知识主体，将这五类主体作为五个特征值，借助于逻辑回归分析函数分析计算每一个知识主体对于异常登录的检测占比率，逻辑回归的公式代表了变量之间的关系，如(8)所示：

式(8)中，P(x)是检测占比率，借助最大似然函数可以计算出各个主体对应的W

在上述构建动态知识图谱时，采用关联影响值累计叠加的方法计算关联值；加入时间特征，把时间分为m个片段，在t

式(9)中，

步骤S150，对于异常信息进行图谱化展示和文本化信息输出。

综上所述，本发明的基于知识图谱的异常网络信息检测方法适用于大规模部署IPv6地址的工业互联网场景中，并在特定的实际应用场景中尝试油田IPv6工业互联网环境信息进行异常的检测与分析，建立了一套专门针对IPv6工业互联网的异常检索系统，可以从多个维度对工业互联网的网络信息进行异常检索，适用于多个领域，具有广泛的应用场景。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国石油化工股份有限公司;中国石油化工股份有限公司胜利油田分公司;

上一篇：亚磷酰胺单体的纯化方法
下一篇：一种判断操作系统的缓存文件可信的方法和装置