掌桥专利:专业的专利平台
掌桥专利
首页

基于动态时间弯曲的多元时间序列异常检测方法

文献发布时间:2024-04-18 20:00:25


基于动态时间弯曲的多元时间序列异常检测方法

技术领域

本发明涉及大数据、数据库、人工智能、数据挖掘等领域,尤其涉及多元时间序列数据分析和挖掘。

背景技术

多元时间序列广泛存在于人们的日常生活及工业生产中,如基金或股票交易数据,零售市场日销量数据,流程工业传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据,天气温度及空气质量指数等。为了保证各类业务系统的正常运行,工业界通常需要对所采集的多元时间序列数据进行异常检测和诊断,以便及时发现系统故障或异常。因此,多元时间序列异常检测方法在工业界有着广泛的应用需求。

目前,工业界常用的多元时间序列异常检测方法有基于最近邻的方法、基于聚类的方法、深度学习方法等。基于最近邻的方法将样本的异常分数定义为到第K个最近邻的距离,可以通过空间划分方法高效挖掘异常点;在此基础上,根据样本相对于邻域的孤立程度定义局部离群因子,可以利用反向K近邻数量计算异常分数。基于聚类的方法则是将原始数据编码到特征空间来检测异常,可以提供简单且强解释性的异常检测手段,常用的聚类方法有符号聚类、模糊C均值聚类、基于形状的聚类等。然而,现有的方法均无法在相似性度量中考虑不同维度的重要性,从而导致异常检测准确性受到较大影响。基于深度学习的异常检测方法大致可分为预测和重构两种类型。前者在无异常的训练数据集上训练模型,将观测数据与预测数据的显著差异作为异常;后者则将正常的训练样本编码到隐含空间,将重构误差较大的样本识别为异常。深度学习异常检测方法通常具有复杂的模型结构和较弱的可解释性,因此在实际应用中尚未体现出显著优势。

在时间序列相似性度量方面,目前工业界常用的时间序列距离度量方法可分为锁步度量方法和弹性度量方法。前者采用了一对一的度量方式,即时间序列T

发明内容

本发明要解决的问题是如何针对多元时间序列识别其中存在异常样本。为了解决该问题,本发明提出了基于动态时间弯曲的多元时间序列异常检测方法。

本发明的目的是通过以下技术方案实现的:基于动态时间弯曲的多元时间序列异常检测方法,包括以下步骤:

(1)模型初始化,具体包括以下子步骤:

(1.1)对多元时间序列各维度做移动平滑处理,得到平滑多元时间序列T;

(1.2)利用滑动窗口划分多元时间序列T得到训练样本集合X={x

(1.3)初始化簇中心集合V、样本隶属度矩阵U和权重系数集合Λ,设置异常阈值ε;

(2)模型优化,具体包括以下子步骤:

(2.1)保持隶属度矩阵U、簇中心集合V、权重系数集合Λ不变,优化样本到簇中心的最优弯曲路径P;

(2.2)保持样本到簇中心的最优弯曲路径P、簇中心集合V、权重系数集合Λ不变,优化隶属度矩阵U;

(2.3)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V不变,优化权重系数集合Λ;

(2.4)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、权重系数集合Λ不变,优化簇中心集合V;

(2.5)计算目标函数值J,若小于收敛阈值,则输出隶属度矩阵U和簇中心集合V,否则重复步骤(2.1)~(2.5);

(3)隐空间构建,具体包括以下子步骤:

(3.1)初始化X的重构样本集合Y={y

(3.2)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V以及权重系数集合Λ不变,依次计算每个重构样本y

(3.3)计算重构样本与原样本的加权动态时间弯曲距离作为样本异常分值;

(3.4)比较样本异常分值与异常阈值的大小,若大于阈值,则输出样本作为异常样本。

进一步的,所述步骤(2.1)包括以下子步骤:

(2.1.1)初始化动态规划表Tab=cell(a,b);

(2.1.2)依次计算样本x

(2.1.3)依次计算v

(2.1.4)利用动态规划方法,依次扫描并计算x

(2.1.5)利用Tab计算每个样本x

(2.1.5.1)初始化索引(s,r)=(a,b),将(s,r)作为P

(2.1.5.2)选取Tab(s-1,r)、Tab(s,r-1)和Tab(s-1,r-1)中最小值的索引更新(s,r),将(s,r)存入P

进一步的,所述步骤(2.2)包括以下子步骤:

(2.2.1)从Tab获取样本x

(2.2.2)通过拉格朗日乘子法更新隶属度矩阵U;

进一步的,所述步骤(2.3)包括以下子步骤:

(2.3.1)根据样本到簇中心的最优弯曲路径P分别计算各簇内维度d上的距离和A

(2.3.2)通过拉格朗日乘子法更新权重系数集合Λ。

进一步的,所述步骤(2.4)中根据公式(3)优化簇中心集合V;

进一步的,所述步骤(2.5)中根据公式(4)计算目标函数值J:

进一步的,所述步骤(3.2)中根据公式(5)依次计算每个重构样本y

本发明的有益效果是:

1、有效解决了无监督异常检测中多元时间序列维度重要性的区分问题,通过参数化局部加权动态弯曲距离约束了维度对相似度计算的影响,从而提高了动态时间弯曲距离在异常检测中的度量精度。

2、在模型优化阶段,基于模型求解的优化方法,可以保证优化过程的完备性和快速收敛性,从而显著提高异常检测效率。

3、在异常检测阶段,基于动态时间弯曲距离和隶属度计算重构样本和异常分值,使得方法具有较强的可解释性,为异常样本的根因诊断提供了较大便利。

附图说明

图1为基于动态时间弯曲的多元时间序列异常检测流程图;

图2为动态规划最优弯曲路径流程图;

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示,本发明一种基于动态时间弯曲的多元时间序列异常检测方法,包括以下步骤:

(1)模型初始化,具体包括以下子步骤:

(1.1)对多元时间序列各维度做移动平滑处理,得到平滑多元时间序列T;多元时间序列可以是基金或股票交易数据,零售市场日销量数据,流程工业传感器监测数据,天文观测数据,航空航天雷达、卫星监测数据或天气温度及空气质量指数等;

(1.2)利用滑动窗口划分多元时间序列T得到训练样本集合X={x

(1.3)随机选取c个样本得到簇中心集合V={v

(2)模型优化,具体包括以下子步骤:

(2.1)保持隶属度矩阵U、簇中心集合V、权重系数集合Λ不变,优化样本到簇中心的最优弯曲路径P,该过程包括以下子步骤:

(2.1.1)初始化动态规划表Tab=cell(a,b);

(2.1.2)依次计算样本x

(2.1.3)依次计算v

(2.1.4)利用动态规划方法,依次扫描x

(2.1.4.1)顺序扫描x

(2.1.4.2)根据先行后列的顺序扫描Tab(2:a,2:b),在每个单元Tab(s,r)中,首先比较Tab(s-1,r)、Tab(s,r-1)和Tab(s-1,r-1)的大小,选择最小值记为min,然后计算

(2.1.5)利用Tab计算x

(2.1.5.1)初始化索引(s,r)=(a,b),将(s,r)存入P

(2.1.5.2)选取Tab(s-1,r)、Tab(s,r-1)和Tab(s-1,r-1)中最小值的索引更新(s,r),将(s,r)存入P

(2.2)保持样本到簇中心的最优弯曲路径P、簇中心集合V、权重系数集合Λ不变,优化隶属度矩阵U,该过程包括以下子步骤:

(2.2.1)从Tab得到x

(2.2.2)根据公式(1)更新隶属度矩阵U;

(2.3)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V不变,优化权重系数集合Λ,该过程包括以下子步骤:

(2.3.1)在P

(2.3.2)根据公式(2)更新权重系数集合Λ;

(2.4)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、权重系数集合Λ不变,根据公式(3)优化簇中心集合V;

(2.5)根据公式(4)计算目标函数值J,若小于收敛阈值,则输出隶属度矩阵U和簇中心集合V,否则重复步骤(2.1)~(2.5);

(3)隐空间构建,具体包括以下子步骤:

(3.1)初始化X的重构样本集合,即Y={y

(3.2)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V以及权重系数集合Λ不变,根据公式(5)依次计算每个重构样本y

(3.3)根据步骤(2.1.1)~(2.1.5)计算重构样本y

(3.4)比较score

实施例

针对股票交易多元时间序列数据(选取股票价格、成交量、换手率、MACD指标、KDJ指标5个维度),若基于最近1个月的历史交易数据检测当前5分钟(序列长度为600)的交易异常情况,具体实施方式如下:

(1)模型初始化,具体包括以下子步骤:

(1.1)对股票交易多元时间序列各维度做移动平滑处理;

(1.2)利用长度为5分钟的滑动窗口切分历史股票多元时间序列,得到股票训练样本集合X={x

(1.3)随机选取8个样本作为簇中心集合V={v

(2)模型优化,具体包括以下子步骤:

(2.1)保持隶属度矩阵U、簇中心集合V、权重系数集合Λ不变,优化每个样本到各簇中心的最优弯曲路径P,该过程包括以下子步骤:

(2.1.1)初始化动态规划表Tab=cell(600,600);

(2.1.2)依次计算样本x

(2.1.3)依次计算v

(2.1.4)利用动态规划方法,依次扫描x

(2.1.4.1)顺序扫描x

(2.1.4.2)根据先行后列的顺序扫描Tab(2:600,2:600),在每个单元Tab(s,r)中,首先比较Tab(s-1,r)、Tab(s,r-1)和Tab(s-1,r-1)的大小,选择最小值记为min,然后计算

(2.1.5)利用Tab计算x

(2.1.5.1)初始化索引(s,r)=(600,600),将其存入P

(2.1.5.2)选取Tab(s-1,r)、Tab(s,r-1)和Tab(s-1,r-1)中最小值的索引更新(s,r),将(s,r)存入P

(2.2)保持样本到簇中心的最优弯曲路径P、簇中心集合V、权重系数集合Λ不变,优化隶属度矩阵U,该过程包括以下子步骤:

(2.2.1)从Tab得到x

(2.2.2)根据公式(1)更新隶属度矩阵U;

(2.3)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V不变,优化权重系数集合Λ,该过程包括以下子步骤:

(2.3.1)在P

(2.3.2)根据公式(2)更新权重系数集合Λ;

(2.4)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、权重系数集合Λ不变,根据公式(3)优化簇中心集合V;

(2.5)根据公式(4)计算目标函数值J,若小于收敛阈值,则输出隶属度矩阵U和簇中心集合V,否则重复步骤(2.1)~(2.5);

(3)隐空间构建,具体包括以下子步骤:

(3.1)初始化待检测样本(最近5分钟股票交易数据)的重构样本;

(3.2)保持样本到簇中心的最优弯曲路径P、隶属度矩阵U、簇中心集合V以及权重系数集合Λ不变,根据公式(5)计算待检测重构样本;

(3.3)根据步骤(2.1.1)~(2.1.5)计算重构样本与原样本的加权动态时间弯曲距离,作为异常分数score;

(3.4)若score>10,则判断最近5分钟股票交易异常,否则为正常。

本发明针对无监督多元时间序列异常检测任务,提出了基于加权动态时间弯曲距离的聚类重构方法,可显著提高多元时间序列的异常检测准确率。该方法不仅有利于直观分析多元时间序列异常行为模式,而且为根因诊断和因果分析奠定了基础,对工业生产和日常生活中普遍存在的多元时间序列数据提供了有效的监测手段。

相关技术
  • 冷镦钢、冷镦钢的钢包炉精炼工艺和冷镦钢的生产工艺
  • 一种制钉用冷镦钢盘条的生产方法
技术分类

06120116528586