掌桥专利:专业的专利平台
掌桥专利
首页

仿真方法及装置、训练方法及装置

文献发布时间:2024-04-29 00:47:01


仿真方法及装置、训练方法及装置

技术领域

本申请涉及数据仿真技术领域,尤其是涉及一种仿真方法及装置、训练方法及装置。

背景技术

目前,通常会通过时序分析任务检测网站的访问流量是否异常,以及网站是否被攻击等。为了能够利用时序分析任务得到更准确的检测结果,在利用时序分析任务进行检测前,准确评估时序分析任务的检测性能至关重要。

相关技术中,通过获取正常业务产生的访问流量数据,在预设的时间点基于规则随机插入预设的异常数据,利用掺杂有异常数据的访问流量数据对时序分析任务进行评估。但是,正常业务产生的访问流量大部分都是正常的访问流量,访问流量较为单一,即便在预设的时间点基于规则随机插入预设的异常数据,也只能改变部分时刻的访问流量数据,由此掺杂有异常数据的访问流量数据仅能体现真实环境下部分时刻的异常情况,即掺杂有异常数据的访问流量数据只能覆盖较少的异常情况。因此即便使用掺杂有异常数据的访问流量数据对时序分析任务进行评估,仍不利于正确评估时序分析任务的检测性能。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。

本申请实施例提供了一种仿真方法及装置、训练方法及装置,以获取能够更全面的体现真实环境下异常情况的流量仿真数据。

本申请实施例提供了一种访问流量数据的仿真方法,包括:获取预设网站在预设时长内的多个访问流量数据;对各所述访问流量数据进行变异,对应获得若干变异数值,若干所述变异数值组合形成第一变异数据;确定若干所述变异数值和对应的所述访问流量数据之间的数据差异性;在所述数据差异性满足预设差异条件的情况下,将所述第一变异数据确定为流量仿真数据。

在上述实现过程中,通过在真实获取的访问流量数据上进行变异,能够使得产生的第一变异数据能够与真实情况较为相符。同时,由于是对每一个访问流量数据均进行变异以获得对应的变异数值,因此能够改变每一个时刻的访问流量数据,从而使得由若干变异数值组合形成的第一变异数据能够尽可能多的覆盖真实环境下可能出现的异常情况,即第一变异数据能够更全面的体现真实环境下的异常情况。再筛选满足预设差异条件的第一变异数据作为流量仿真数据,能够使得流量仿真数据更全面的体现真实环境下的异常情况,且流量仿真数据与真实的访问流量数据更相似。由于流量仿真数据能够更全面的体现真实环境下的异常情况,且与真实的访问流量数据更相似,在分析模型利用该流量仿真数据进行分析的情况下,能够更准确的评估分析模型的检测性能,进而便于根据检测结果优化分析模型,从而获得更优化的分析模型。

进一步地,对各所述访问流量数据进行变异,对应获得若干变异数值,包括:从均值为零且方差为常数的正态分布中获取变异参数;根据ES算法利用所述变异参数对各所述访问流量数据进行变异,获得对应的变异数值。

在上述实现过程中,由于均值为零且方差为常数的正态分布能够反应高斯噪声。由此,通过从均值为零且方差为常数的正态分布中获取变异参数,并利用该变异参数对访问流量数据进行变异,使得变异后的变异数值与现实中受到干扰的访问流量数据更相似,进而便于变异数值组合形成的第一变异数据更真实。

进一步地,所述变异参数包括第一变异参数、第二变异参数和第三变异参数;根据ES算法利用所述变异参数对各所述访问流量数据进行变异,获得对应的变异数值,包括:按照获取各所述访问流量数据的时间顺序对各所述访问流量数据排列,形成统计序列;针对所述统计序列中的每一个访问流量数据:获取该访问流量数据对应的第一变异系数,计算

进一步地,确定若干所述变异数值和对应的所述访问流量数据之间的数据差异性,包括:计算

在上述实现过程中,由于变异数值和对应的访问流量数据之间的余弦相似度相差较大的情况下,可能导致变异数值组成的第一变异数据与真实情况不符。因此,通过计算变异数值和对应的访问流量数据之间的余弦相似度,并将大于预设阈值的余弦相似度对应的第一变异数据确定为流量仿真数据,能够使得流量仿真数据与真实的访问流量数据相似且具备多样性。

进一步地,确定所述变异数值和对应的所述访问流量数据之间的数据差异性,包括:计算所述第一变异数据中多个变异数值之间的第一均值;计算所述第一变异数据中若干变异数值分别对应的各所述访问流量数据之间的第二均值;计算所述第一均值与所述第二均值之间的均值差异值,并将所述均值差异值作为数据差异性;相应地,所述预设差异条件包括所述均值差异值小于第一预设差异值。

在上述实现过程中,由于变异数值之间的第一均值和访问流量数据之间的第二均值相差较大的情况下,可能导致变异数值与真实的访问流量数据之间相差较大,从而使变异数值组成的第一变异数据与真实情况不符。因此,通过计算均值差异值,并将小于第一预设差异值的均值差异值对应的第一变异数据确定为流量仿真数据,能够使得流量仿真数据与真实的访问流量数据相似且具备多样性。

进一步地,确定所述变异数值和对应的所述访问流量数据之间的数据差异性,包括:计算所述第一变异数据中多个变异数值之间的第一方差;计算所述第一变异数据中若干变异数值分别对应的各所述访问流量数据之间的第二方差;计算所述第一方差与所述第二方差之间的方差差异值,并将所述方差差异值作为数据差异性;相应地,所述预设差异条件包括所述方差差异值小于第二预设差异值。

在上述实现过程中,由于变异数值之间的第一方差和访问流量数据之间的第二方差相差较大的情况下,可能导致变异数值与真实的访问流量数据之间相差较大,从而使变异数值组成的第一变异数据与真实情况不符。因此,通过计算方差差异值,并将小于第二预设差异值的方差差异值对应的第一变异数据确定为流量仿真数据,能够使得流量仿真数据与真实的访问流量数据相似且具备多样性。

进一步的,对所述访问流量数据进行变异,获得第一变异数据后,所述方法还包括:S11.对所述第一变异数据进行变异,获得第n变异数据,n=2;S12.对第n变异数据进行变异,获得第n+1变异数据并保存至预设的变异数据集;令n=n+1并执行步骤S12,直至n等于预设次数;确定所述变异数据集中每个变异数据和所述访问流量数据之间的数据差异性;在所述数据差异性满足预设差异条件的情况下,将所述变异数据确定为流量仿真数据。

在上述实现过程中,在第一变异数据的基础上再次进行变异,获得第n变异数据;并在第n变异数据的基础上再次进行变异获得新的第n+1变异数据。这样,由于是在变异后的数据上不断产生新的变异数据,能够使得流量仿真数据具备更丰富的多样性。同时,利用预设差异条件对新的变异数据进行筛选,从而获得流量仿真数据,能够使得流量仿真数据在与真实的访问流量数据相似的情况下,具备更丰富的多样性。

本申请实施例提供了一种分析模型的训练方法,包括:获取流量仿真数据;所述流量仿真数据通过以下方式获取:获取预设网站在预设时长内的多个访问流量数据;对各所述访问流量数据进行变异,对应获得若干变异数值,若干所述变异数值组合形成第一变异数据;确定若干所述变异数值和对应的所述访问流量数据之间的数据差异性;在所述数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据;利用所述流量仿真数据对预设的分析模型进行训练,获得训练后的分析模型;所述训练后的分析模型用于检测网站的访问流量数据是否异常,或检测网站是否被攻击。

在上述实现过程中,通过在真实获取的访问流量数据上进行变异,能够使得产生的第一变异数据能够与真实情况较为相符。筛选满足预设差异条件的第一变异数据作为流量仿真数据,能够使得流量仿真数据与真实的访问流量数据更相似且具备多样性。通过利用该流量仿真数据对预设的分析模型进行训练,由于用于训练分析模型的流量仿真数据相较于真实的访问流量数据能够更多样,从而使得训练出的分析模型能够更容易检测出访问流量数据是否异常或网站是否被攻击。

本申请实施例提供了一种访问流量数据的仿真装置,包括:第一获取模块,用于获取预设网站在预设时长内的多个访问流量数据;第一变异模块,用于对各所述访问流量数据进行变异,对应获得若干变异数值,若干所述变异数值组合形成第一变异数据;差异性确定模块,用于确定若干所述变异数值和对应的所述访问流量数据之间的数据差异性;仿真数据确定模块,用于在所述数据差异性满足预设差异条件的情况下,将所述第一变异数据确定为流量仿真数据。

本申请实施例提供了一种分析模型的训练装置,包括:第二获取模块,用于获取流量仿真数据;所述流量仿真数据通过以下方式获取:获取预设网站在预设时长内的多个访问流量数据;对各所述访问流量数据进行变异,对应获得若干变异数值,若干所述变异数值组合形成第一变异数据;确定若干所述变异数值和对应的所述访问流量数据之间的数据差异性;在所述数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据;训练模块,用于利用所述流量仿真数据对预设的分析模型进行训练,获得训练后的分析模型;所述训练后的分析模型用于检测网站的访问流量数据是否异常,或检测网站是否被攻击。

以上的总体描述和下文中的描述仅是示例性和解释性的,不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明,这些示例性说明和附图并不构成对实施例的限定,附图中具有相同参考数字标号的元件示为类似的元件,附图不构成比例限制,并且其中:

图1是本申请实施例提供的一个访问流量数据的仿真方法的示意图;

图2是本申请实施例提供的一个分析模型的训练方法的示意图;

图3是本申请实施例提供的一个访问流量数据的仿真装置的示意图;

图4是本申请实施例提供的一个分析模型的训练装置的示意图;

图5是本申请实施例提供的一个电子设备的示意图。

附图标记:

1:第一获取模块;2:第一变异模块;3:差异性确定模块;4:仿真数据确定模块;5:第二获取模块;6:训练模块;7:存储器;8:通信接口;9:总线;10:处理器。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。

除非另有说明,术语“多个”表示两个或两个以上。

术语“对应”可以指的是一种关联关系或绑定关系,A与B相对应指的是A与B之间是一种关联关系或绑定关系。

实施例一

本申请实施例中提供了一种访问流量数据的仿真方法。可以参见图1所示,图1为本申请实施例中提供的访问流量数据的仿真方法的基本流程示意图,包括:

步骤S101,获取预设网站在预设时长内的多个访问流量数据。

在本申请实施例中,预设网站可以是用户能够访问的网站,预设网站也可以是需要被分析模型进行分析的网站。访问流量数据可以是以下数据中的一种:访问网站的用户数、网站内用户访问的网页的数量、网站内网页的用户访问数量。

在一些实施例中,预设时长可以是较长的时长,例如:v天。预设时长也可以是较短的时长,例如:u分钟。其中,v和u均为正整数。

在一些实施例中,预设网站每隔设定记录时长会自动统计一次访问流量数据,获取预设网站在预设时长内的访问流量数据,即获取预设时长内预设网站内统计到的所有访问流量数据。其中,设定记录时长,例如:1分钟。

示例性的,假设访问流量数据为访问网站的用户数量。预设网站每隔1分钟会记录一次在这1分钟内访问网站的用户数量,例如:预设网站在21:00:00至21:01:00之间访问网站的用户数量为A,则在21:01:00记录访问网站的用户数量为A。21:01:00至21:02:00之间访问网站的用户数量为B,则在21:02:00记录访问网站的用户数量为B。获取预设网站在21:00:00至21:02:00之间的访问流量数据,即获取访问网站的用户数量为A和访问网站的用户数量为B。

在一些实施例中,在获取预设时长内的多个访问流量数据后,还可以按照获取各访问流量数据的时间顺序将各访问流量数据形成统计序列。

步骤S102,对各访问流量数据进行变异,对应获得若干变异数值,若干变异数值组合形成第一变异数据。

在一些实施例中,步骤S102包括:从均值为零且方差为常数的正态分布中获取变异参数;根据ES(Evolutionary Strategies,进化计算)算法利用变异参数对访问流量数据进行变异,获得对应的变异数值;若干变异数值组合形成第一变异数据。

其中,均值为零且方差为常数的正态分布,例如:N(0,2),N(0,1)等。本申请中均值为零且方差为常数的正态分布可以根据工程师的经验选取。例如:本申请中均值为零且方差为常数的正态分布选取N(0,1)。

在上述实施例的一种可选方式中,可以从均值为零且方差为常数的正态分布中随机选取数值作为变异参数。

在上述实施例的一种可选方式中,预设时长小于第一设定时长。变异参数包括第一变异参数、第二变异参数和第三变异参数;根据ES算法利用变异参数对各访问流量数据进行变异,获得对应的变异数值,可以是:按照获取各访问流量数据的时间顺序对各访问流量数据排列,形成统计序列;针对统计序列中的每一个访问流量数据:获取该访问流量数据对应的第一变异系数,计算

其中,

将变异获得变异数值的访问流量数据,称为变异数值对应的访问流量数据。例如:对访问流量数据W进行变异,获得变异数值w。则变异数值w对应的访问流量数据为访问流量数据W。

在上述可选方式中,第一设定时长可以根据工程师的经验选取。

在上述可选方式中,若干变异数值组合形成第一变异数据,可以是按照各变异数值对应的访问流量数据在统计序列的顺序将各变异数值组成第一变异数据。

在上述可选方式中,获取访问流量数据对应的变异系数,可以是在预设变异范围内随机选取一个数值作为变异系数。预设变异范围可以由工程师根据经验进行设置。例如:预设变异范围可以是0.5至1.5。

示例性的,预设时长小于或等于第一设定时长,假设按照访问流量数据被获取的时间顺序,在预设时长内获取的访问流量数据依次为1.0、2.1、1.3,则对应形成的统计序列为[1.0、2.1、1.3]。统计序列中访问流量数据的总个数为3。获取1.0对应的第一变异系数为1.0。假设从均值为零且方差为常数的正态分布中选取出p

在上述实施例的另一种可选方式中,变异参数包括第一变异参数、第二变异参数和第三变异参数;预设时长大于第二设定时长。根据ES算法利用变异参数对各访问流量数据进行变异,获得对应的变异数值,可以是:按照获取各访问流量数据的时间顺序对各访问流量数据排列,形成待分割序列;按照第三设定时长将待分割序列分割成1个或多个统计序列;针对统计序列中的每一个访问流量数据:获取该访问流量数据对应的第一变异系数,计算

在上述可选方式中,若干变异数值组合形成第一变异数据,可以是按照各变异数值对应的访问流量数据在统计序列的顺序将各变异数值组成第一变异数据。

在上述可选方式中,第二设定时长也可以根据工程师的经验选取。示例性的,第一设定时长为10分钟,第二设定时长为2天。

示例性的,将1天内的访问流量数据形成待分割序列。按第三设定时长将待分割序列切分成p个统计序列。假设预设切割时长为10分钟。则将待分割序列切分为144个统计序列。分割后长为10分钟的统计序列,例如:[103,145,167,189,234,200,321,245,239,323]。依次对103、145、167、189、234、200、321、245、239、323计算对应的变异数值。假设103的变异数值为a1、145的变异数值为a2、167的变异数值为a3、189的变异数值为a4、234的变异数值为a5、200的变异数值为a6、321的变异数值为a7、245的变异数值为a8、239的变异数值为a9、323的变异数值为a10。则,第一变异数据为[a1,a2,a3,a4,a5,a6,a7,a8,a9,a10]。

在上述实施例的另一种可选方式中,预设时长大于第二设定时长。变异参数包括第四变异参数、第五变异参数和第六变异参数。根据ES算法利用变异参数对各访问流量数据进行变异,获得对应的变异数值,可以是:针对预设时长内的每一个访问流量数据:获取该访问流量数据对应的第一变异系数;计算

其中,k

在上述可选方式中,若干变异数值组合形成第一变异数据可以是按照获取访问流量数据的时间顺序将第一预设个数的变异数值组成第一变异数据。可以理解,第一预设个数等于第一变异数据中的变异数值的总个数。

在另一些实施例中,预设时长小于或等于第一设定时长;将预设时长内的访问流量数据按照访问流量数据对应的获取时间顺序形成统计序列,步骤S102还可以是:在统计序列中选取第二预设个数的数值作为备选数值。针对每一个备选数值:在预设的样本集合中选取备选数值对应的样本数值作为备选数值对应的变异数值,利用变异数值替换对应的备选数值。将替换完的统计序列作为第一变异数据。其中,第二预设个数可以是统计序列中访问流量数据的总个数。

在上述实施例的一种可选方式中,样本集合存储有备选数值和样本数值之间的对应关系。其中,样本集合可以通过以下方式构成:获取预设的高斯噪声的均值和高斯噪声的标准差,并获取多个符合高斯分布的随机数;针对每一个随机数:样本数值=随机数×高斯噪声的标准差+高斯噪声的均值;将随机数和计算获得的样本数值之间的对应关系添加到样本集合。可以理解,将与备选数值相同的随机数对应的样本数值作为该备选数值对应的样本数值。

步骤S103,确定若干变异数值和对应的访问流量数据之间的数据差异性。

在一些实施例中,步骤S103包括:计算

其中,将包括参与计算的全部变异数值的第一变异数据,作为参与计算的变异数值对应的第一变异数据。

可以理解的是,数据差异性也可以是第一变异数据和访问流量数据之间的相似度。第一变异数据和访问流量数据之间的相似度可以通过现有技术中能够计算两个序列之间的相似度的方式进行计算,例如:欧几里得距离相似度算法。

示例性的,第一变异数据,例如:(1,1,1,0,1,1,1,1,1)。第一变异数据中若干变异数值分别对应的各访问流量数据,例如:(1,1,2,1,1,1,0,0,0)。

即Similarity(A,B)等于0.7071。

在另一些实施例中,步骤S103包括计算第一变异数据中多个变异数值之间的第一均值;计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二均值;计算第一均值与第二均值之间的均值差异值,并将均值差异值作为数据差异性;相应地,预设差异条件包括均值差异值小于第一预设差异值。

其中,第一预设差异值可以根据工程师的经验选取。例如:第一预设差异值可以为0.5。

在上述实施例的一种可选方式中,计算第一变异数据的第一均值,可以是

示例性的,假设第一变异数据为[2,3,2,5]。根据

在上述实施例的一种可选方式中,计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二均值,可以是

在上述实施例的一种可选方式中,第一均值与第二均值之间的均值差异值可以通过以下方式获取:均值差异值=(第一均值-第二均值)÷第二均值。

在另一些实施例中,步骤S103包括计算第一变异数据中多个变异数值之间的第一方差;计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二方差;计算第一方差与第二方差之间的方差差异值,并将方差差异值作为数据差异性;相应地,预设差异条件包括方差差异值小于第二预设差异值。

其中,第二预设差异值可以根据工程师的经验选取。例如:第二预设差异值可以为10。

在上述实施例的一种可选方式中,计算第一变异数据的第一方差可以是

在上述实施例的一种可选方式中,计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二方差,可以是

在上述实施例的一种可选方式中,第一方差与第二方差之间的方差差异值可以通过以下方式获取:方差差异值=(第一方差-第二方差)÷第二方差。

可以理解的,在不冲突的情况下,上述实施例中确定变异数值和访问流量数据之间的数据差异性的方式可以组合。例如:将余弦相似度和均值差异值均作为数据差异性,相应的,预设差异条件为余弦相似度大于预设阈值且均值差异值小于第一预设差异值。又例如:将余弦相似度、均值差异值和方差差异值均作为数据差异性,相应的,预设差异条件为余弦相似度大于预设阈值、均值差异值小于第一预设差异值且方差差异值小于第二预设差异值。还例如:将均值差异值和方差差异值均作为数据差异性,相应的,预设差异条件为均值差异值小于第一预设差异值且方差差异值小于第二预设差异值。

可以理解的,在本申请中,对余弦相似度、均值差异值和方差差异值的计算先后顺序不做限定。同时,也可以在其中一种类型的计算完成后,便判定该类型的计算结果是否满足预设差异条件,然后将筛选出来的第一变异数据再进行剩余类型的计算及判定。

示例性的,假设数据差异性包括余弦相似度、均值差异值和方差差异值。先计算变异数值和访问流量数据之间的余弦相似度,将大于预设阈值的余弦相似度对应的第一变异数据作为备选数据。计算各备选数据和访问流量数据之间的均值差异值,以及计算各备选数据和访问流量数据之间的方差差异值。将均值差异值小于第一预设差异值,且方差差异值小于第二预设差异值的备选数据确定为流量仿真数据。

步骤S104,在数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据。

在一些实施例中,对访问流量数据进行变异,获得第一变异数据后,访问流量数据的仿真方法还包括:S11.对第一变异数据进行变异,获得第n变异数据,n=2;S12.对第n变异数据进行变异,获得第n+1变异数据并保存至预设的变异数据集;令n=n+1并执行步骤S12,直至n等于预设次数;确定变异数据集中每个变异数据和访问流量数据之间的数据差异性;在数据差异性满足预设差异条件的情况下,将变异数据确定为流量仿真数据。

其中,对第一变异数据进行变异,获得第n变异数据。以及对第n变异数据进行变异获得第n+1变异数据的变异方法与对统计序列中的访问流量数据进行变异的操作类似。在对第一变异数据进行变异,获得第n变异数据时,仅需把进行计算的统计序列替换为第一变异数据。在第n变异数据进行变异,获得第n+1变异数据时,仅需把进行计算的统计序列替换为第n变异数据,在此不再赘述。

其中,预设次数可以根据工程师的需求进行设置。预设次数可以等于10,也可以等于100。

实施例二

基于同一发明构思,本申请实施例中提供了一种分析模型的训练方法。如图2所示,该方法包括:

步骤S201,获取流量仿真数据。

其中,流量仿真数据通过以下方式获取:获取预设网站在预设时长内的多个访问流量数据;对各访问流量数据进行变异,对应获得若干变异数值,若干变异数值组合形成第一变异数据;确定若干变异数值和对应的访问流量数据之间的数据差异性;在数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据。

其中,对各访问流量数据进行变异,对应获得若干变异数值,若干变异数值组合形成第一变异数据;确定若干变异数值和对应的访问流量数据之间的数据差异性的具体方式如实施例一中,在此不再一一赘述。

步骤S202,利用流量仿真数据对预设的分析模型进行训练,获得训练后的分析模型。

其中,训练后的分析模型用于检测网站的访问流量数据是否异常,或检测网站是否被攻击。

在一些实施例中,利用流量仿真数据对预设的分析模型进行训练,可以是将流量仿真数据添加到预设的用于训练模型的特征集或者测试集中,利用特征集或者测试集对预设的分析模型进行训练。

其中,对预设的分析模型进行训练的训练方式可以是采用已有的训练方式进行训练,在此不做限定。

采用本申请实施例提供的分析模型的训练方法,通过对真实获取的访问流量数据进行变异,能够使得产生的第一变异数据能够与真实情况较为相符。筛选满足预设差异条件的第一变异数据作为流量仿真数据,能够使得流量仿真数据与真实的访问流量数据更相似且具备多样性。通过利用该流量仿真数据对预设的分析模型进行训练,由于用于训练分析模型的流量仿真数据相较于真实的访问流量数据能够更多样,从而使得训练出的分析模型能够更容易检测出访问流量数据是否异常或网站是否被攻击。

实施例三

本申请实施例提供一种访问流量数据的仿真装置,如图3所示,访问流量数据的仿真装置包括:第一获取模块1、第一变异模块2、差异性确定模块3和仿真数据确定模块4。第一获取模块1,用于获取预设网站在预设时长内的多个访问流量数据;第一变异模块2,用于对各访问流量数据进行变异,对应获得若干变异数值,若干变异数值组合形成第一变异数据;差异性确定模块3,用于确定若干变异数值和对应的访问流量数据之间的数据差异性;仿真数据确定模块4,用于在数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据。

在一些实施例中,第一变异模块2用于通过以下方式对各访问流量数据进行变异,对应获得若干变异数值:从均值为零且方差为常数的正态分布中获取变异参数;根据ES算法利用变异参数对各访问流量数据进行变异,获得对应的变异数值。

在一些实施例中,第一变异模块2还用于通过以下方式根据ES算法利用变异参数对各访问流量数据进行变异,获得对应的变异数值:按照获取各访问流量数据的时间顺序将访问流量数据形成统计序列;针对统计序列中的每一个访问流量数据:获取该访问流量数据对应的第一变异系数,计算

在一些实施例中,差异性确定模块3可以用于通过以下方式确定若干变异数值和对应的访问流量数据之间的数据差异性:

方式一:计算

方式二:计算第一变异数据中多个变异数值之间的第一均值;计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二均值;将第一均值与第二均值之间的均值差异值作为数据差异性;相应地,预设差异条件包括均值差异值小于第一预设差异值。

方式三:计算第一变异数据中多个变异数值之间的第一方差;计算第一变异数据中若干变异数值分别对应的各访问流量数据之间的第二方差;将第一方差与第二方差之间的方差差异值作为数据差异性;相应地,预设差异条件包括方差差异值小于第二预设差异值。

在一些实施例中,访问流量数据的仿真装置,还包括:第二变异模块,用于在获得第一变异数据后,S11.对第一变异数据进行变异,获得第n变异数据,n=2;S12.对第n变异数据进行变异,获得第n+1变异数据并保存至变异数据集;令n=n+1并执行步骤S12,直至n等于预设次数;确定变异数据集中每个变异数据和访问流量数据之间的数据差异性;在数据差异性满足预设差异条件的情况下,将变异数据确定为流量仿真数据。

实施例四

本申请实施例提供一种分析模型的训练装置,如图4所示,分析模型的训练装置包括:第二获取模块5和训练模块6。第二获取模块5,用于获取流量仿真数据;流量仿真数据通过以下方式获取:获取预设网站在预设时长内的多个访问流量数据;对各访问流量数据进行变异,对应获得若干变异数值,若干变异数值组合形成第一变异数据;确定若干变异数值和对应的访问流量数据之间的数据差异性;在数据差异性满足预设差异条件的情况下,将第一变异数据确定为流量仿真数据;训练模块6,用于利用流量仿真数据对预设的分析模型进行训练,获得训练后的分析模型;训练后的分析模型用于检测网站的访问流量数据是否异常,或检测网站是否被攻击。

在一些实施例中,分析模型的训练装置还包括实施例四中的第一获取模块1、第一变异模块2、差异性确定模块3和仿真数据确定模块4。在此基础上,分析模型的训练装置还可以再包括实施例四中的第二变异模块。

实施例五

结合图5所示,本申请实施例提供一种电子设备,包括处理器10和存储器7。可选地,该装置还可以包括通信接口8和总线9。其中,处理器10、通信接口8、存储器7可以通过总线9完成相互间的通信。通信接口8可以用于信息传输。处理器10可以调用存储器7中的逻辑指令,以执行上述实施例的访问流量数据的仿真方法或分析模型的训练方法。

此外,上述的存储器7中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

存储器7作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序,如本申请实施例中的方法对应的程序指令/模块。处理器10通过运行存储在存储器7中的程序指令/模块,从而执行功能应用以及数据处理,即实现上述实施例中访问流量数据的仿真方法或分析模型的训练方法。

存储器7可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器7可以包括高速随机存取存储器,还可以包括非易失性存储器。

其中,电子设备可以为计算机或服务器等。

本申请实施例提供了一种存储介质,存储有计算机可执行指令,计算机可执行指令设置为执行上述访问流量数据的仿真方法或分析模型的训练方法。

本申请实施例提供了一种计算机程序产品,计算机程序产品包括存储在存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述访问流量数据的仿真方法或分析模型的训练方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。

本申请实施例的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括一个或多个指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质,包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

以上仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。同时,以上实施例在不冲突的情况下,可以互相结合,形成新的实施例。

相关技术
技术分类

06120116594854