掌桥专利:专业的专利平台
掌桥专利
首页

预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质

文献发布时间:2023-06-19 10:48:02


预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质

技术领域

本申请涉及互联网应用技术领域,具体而言,涉及一种预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质。

背景技术

随着互联网应用技术的快速发展,网络直播越来越受到广大用户的喜爱。在网络平台运营中,获取平台日常运营数据情况,对于直观分析平台运营状况十分重要。基于平台日常运营数据,可以对平台未来的运营情况进行合理的预测,从而为运营决策提供有效依据。而在平台日常运营中,主要涉及到两大类型的运营数据,常态化运营数据和非常态化运营数据,例如法定假日、寒假、暑假等节假日所产生的运营数据即为非常态化运营数据。非常态化运营数据往往是造成短期波动的因素,对于评估平台的真实用户规模和发展趋势造成不确定的影响。因此,为了还原平台真实运营情况、对平台未来运营数据进行合理预测,需要排除开平台中非常态化运营数据造成的影响。

现有技术中,为了解决上述场景中所存在的问题,往往是直接采用提取出历史数据中的非假期数据以训练得到相关模型,从而用于对未来的可反映平台常态化的运营状况进行预测。但是,在平台运营过程中,常态化数据和非常态化数据往往是相互交错的,两者之间对彼此可能产生影响。现有方式中采取单独提取出非假期数据以训练得到模型,得到的模型并未考虑常态化数据和非常态化数据之间所存在的关联,得到的模型的预测结果实则与平台的真实运营数据是存在差距的。

发明内容

本申请的目的包括,例如,提供了一种预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质,其能够获得可用于预测平台常态化运营状态的预测模型。

本申请的实施例可以这样实现:

第一方面,本申请实施例提供一种预测模型构建方法,所述方法包括:

采集平台上的历史运营数据,所述历史运营数据包括假期数据和非假期数据;

利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

在可选的实施方式中,所述预测模型为Prophet模型,所述第一拟合项包括用于表征历史运营数据线性变化状态的线性函数项和周期变化状态的三角周期函数项,所述第二拟合项包括用于表征假期数据异常变化影响力的拉普拉斯函数项。

在可选的实施方式中,所述利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合的步骤,包括:

将采集的各所述历史运营数据对应的日期信息代入所述线性函数项、所述三角周期函数项和所述拉普拉斯函数项,并根据对应的历史运营数据对各所述函数项中的拟合参数进行拟合。

在可选的实施方式中,所述预测模型还包括随机误差项,该随机误差项由所述历史运营数据与拟合得到的第一拟合项和第二拟合项表征的拟合运营数据之间的差值构成。

在可选的实施方式中,所述采集平台上的历史运营数据的步骤,包括:

采集平台上每日的历史运营数据;

将采集到的多个历史运营数据按设定划分周期进行划分,并计算划分出后的每组历史运营数据之和。

在可选的实施方式中,所述采集平台上的历史运营数据的步骤,还包括:

检测出采集到的多个历史运营数据中存在异常的历史运营数据;

获取存在异常的历史运营数据对应日期前后的设定时间区间内的历史运营数据;

根据所述设定时间区间内的历史运营数据对异常的历史运营数据进行修订处理。

在可选的实施方式中,所述检测出采集到的多个历史运营数据中存在异常的历史运营数据的步骤,包括:

根据采集到的多个历史运营数据计算得到数据均值和数据方差;

根据所述数据均值和所述数据方差计算得到异常阈值;

将各所述历史运营数据与所述异常阈值进行比较,检测出多个历史运营数据中存在异常的历史运营数据。

在可选的实施方式中,所述利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合的步骤之后,所述方法包括:

利用参数拟合后得到的预测模型对设定的测试日期下的运营数据进行预测,得到测试运营数据;

比对所述测试运营数据和所述测试日期下的真实运营数据以对所述预测模型的拟合参数进行调整,得到满足预设条件的预测模型。

第二方面,本申请实施例提供一种数据预测方法,所述方法包括:

获取所需的预测日期;

利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据;

其中,所述预测模型为利用预先采集的包含假期数据和非假期数据的多个历史运营数据进行拟合得到,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

在可选的实施方式中,所述利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据的步骤,包括:

利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测得到整体预测数据;

提取出所述预测模型中的第二拟合项针对所述预测日期计算得到的影响力数值;

利用所述整体预测数据减去所述影响力数值,得到表征非假期数据预测状态的预测运营数据。

第三方面,本申请实施例提供一种预测模型构建装置,所述装置包括:

采集模块,用于采集平台上的历史运营数据,所述历史运营数据包括假期数据和非假期数据;

拟合模块,用于利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

第四方面,本申请实施例提供一种数据预测装置,所述装置包括:

获取模块,用于获取所需的预测日期;

预测模块,用于利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据;

其中,所述预测模型为利用预先采集的包含假期数据和非假期数据的多个历史运营数据进行拟合得到,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

第五方面,本申请实施例提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述任意一项所述的方法步骤。

第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有机器可执行指令,所述机器可执行指令被执行时实现前述任意一项所述的方法步骤。

本申请实施例的有益效果包括,例如:

本申请提供一种预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质,通过采集平台上的历史运营数据,其中,历史运营数据包括假期数据和非假期数据。再利用采集到的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,预测模型包括第一拟合项和第二拟合项,历史运营数据中仅假期数据对第二拟合项产生影响力。本方案中的预测模型,以包含假期数据和非假期数据的历史运营数据进行拟合得到,整体上更加符合平台的真实运营情况。且内部包含可表征假期数据影响力的第二拟合项,使得到的预测模型既能够符合平台的真实运营情况,又能够体现其中假期数据所产生的影响信息,能够用于准确预测平台真实的常态化运营状态。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的预测模型构建方法的应用场景示意图;

图2为本申请实施例提供的预测模型构建方法的流程图;

图3为图2中步骤S210的子步骤的流程图;

图4为图2中步骤S210的子步骤的另一流程图;

图5为图4中步骤S213的子步骤的流程图;

图6为本申请实施例提供的预测模型构建方法的另一流程图;

图7为本申请实施例提供的数据预测方法的流程图;

图8为图7中步骤S420的子步骤的流程图;

图9为本申请实施例提供的电子设备的结构框图;

图10为本申请实施例提供的预测模型构建装置的功能模块框图;

图11为本申请实施例提供的数据预测装置的功能模块框图。

图标:100-服务器;110-存储介质;120-处理器;130-存储器;140-预测模型构建装置;141-采集模块;142-拟合模块;150-数据预测装置;151-获取模块;152-预测模块;200-终端设备。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1,为本申请实施例提供的预测模型构建方法的一种可能的应用场景示意图,该场景中包括可建立通信连接的服务器100和终端设备200。其中,终端设备200可为多个,各个终端设备200与服务器100之间通信连接,以实现数据、信息的交互。服务器100可为相关平台的后台服务器,例如,直播平台、购物平台、游戏平台等具体不限,终端设备200可为用户一端所持的用户端。用户可通过终端设备200与服务器100实现信息、数据交互,从而实现对相关平台业务的访问,以产生针对相关平台的运营数据。服务器100可基于产生的运营数据实现对相关平台的业务运营状况的分析,从而获得平台的例如用户状况、业务量等相关运营数据。

本实施例中,终端设备200可为智能手机、个人计算机、笔记本电脑等设备,服务器100可为单独的服务器,也可以是由多台服务器100构成的服务器集群,本实施例具体不作限制。

作为一种可能的应用场景,上述的相关平台可以为直播平台,则服务器100可为直播平台的直播服务器,终端设备200可包括直播提供端、直播接收端。直播服务器可与直播提供终端和直播接收终端通信连接,用于为直播提供终端以及直播接收终端提供直播服务。例如,直播提供终端可以将直播视频流发送给直播服务器,观众可以通过直播接收终端访问直播服务器以观看直播视频。

直播提供端和直播接收端在直播平台上的登录、操作信息将转化为直播平台的运营数据。基于直播平台的运营数据可实现直播平台数据的相关分析处理。

可以理解,图1所示的场景仅为一种可行的示例,在其它可行的实施例中,该场景也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

图2示出了本申请实施例提供的预测模型构建方法的流程示意图,该预测模型构建方法可由图1中所示的服务器100执行。应当理解,在其它实施例中,本实施例的预测模型构建方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该预测模型构建方法的详细步骤介绍如下。

步骤S210,采集平台上的历史运营数据,所述历史运营数据包括假期数据和非假期数据。

步骤S220,利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

历史运营数据可以是历史上已真实产生的平台的运营数据,例如,可以是以当前时间点为节点,过去的一历史时间段内的运营数据,例如当前时间点的前一年、前半年或前一个月等的运营数据等。采集的历史运营数据可以是,例如,在平台为购物平台时,历史运营数据可以是历史一段时间内的平台上用户的日访问时间均值、交易金额等相关数据。又如,在平台为直播平台时,历史运营数据可以是历史一段时间内的日活跃用户数量、直播最高在线数量等相关数据。具体地,本实施例不作限制,可根据对于平台的运营状况的分析需求,采集相应的运营数据以便后续的分析。

在平台日常运营中,涉及到假期时间段和非假期时间内的运营,例如,假期时间段可以是如法定节假日、寒假、暑假或者是其他的由于一些特殊原因导致的假期日等。而除开这类假期时间段之外的其他时间段即为非假期时间。

在假期时间段内,针对如直播平台、购物平台、游戏平台等相关平台而言,用户的访问量可能出现短期波动状况,例如短期的数据剧增。而在非假期时间内,用户的访问量往往较为平稳,一般不存在其他导致数据波动的因素。假期时间段内的平台运营数据的短期波动,往往是由于一些不确定的因素所导致数据的无规律的变动。对于平台的真实运营状态的分析,需要排除开不确定因素所导致的数据的波动,而利用平台上的常态化、规律化的数据予以体现。

而假期数据和非假期数据之间往往又存在相互的牵动关系,例如,两个相邻的非假期时间段和假期时间段,若该非假期时间内的运营数据可能较同等日期类型下的平均水平较高,则可能是由于该日存在一些特殊情况所导致的。在这种情况下,在其后的假期时间段内的运营数据,则可能相应地相较其相同日期类型下的运营数据有所降低。也就是说,由于假期时间段和非假期时间段是交替出现的,假期时间段和非假期时间段的运营数据之间可能存在相互之间的影响。

因此,在对平台的未来的运营状态进行预测时,如若仅仅单独抽取出历史运营数据中的非假期数据进行模型训练进而进行预测,则仅仅考虑了非假期数据的数据状态,并未综合考虑平台上的真实运营状态。平台的真实运营状态应当是由排除开假期数据的影响力的整体数据共同体现的。

因此,在本实施例中,预先构建有预测模型,该预测模型中包含第一拟合项和第二拟合项,其中,第一拟合项和第二拟合项均包含需要拟合确定的拟合参数。其中,第一拟合项和第二拟合项共同构成预测模型,例如,可以是第一拟合项和第二拟合项相加构成预测模型。

第一拟合项可以是用于表征平台上的运营数据的综合变化情况的拟合项,也即,历史运营数据中的假期数据和非假期数据均会对第一拟合项产生影响力,而第二拟合项可以是用于表征平台上的假期数据的变化情况的拟合项。即,历史运营数据中仅假期数据将对第二拟合项产生影响力。而历史运营数据中的非假期数据并不会对第二拟合项产生影响力。

基于此,则对于第二拟合项而言,假期数据将在第二拟合项中执行相关的拟合过程,而非假期数据则不对第二拟合项产生作用。因此,第二拟合项是可以体现历史运营数据中的假期数据的影响力的拟合项。

在利用采集到的所有历史运营数据对预测模型中的第一拟合项和第二拟合项中的拟合参数进行拟合时,将每个历史运营数据依次代入至预测模型中的第一拟合项和第二拟合项,第一拟合项和第二拟合项同时进行拟合训练。

本实施例所提供的预测模型构建方法,摒弃了传统方式中想要获得表征平台常态化的预测数据时,即采用单独抽取非假期数据作为样本以训练模型的方式,而采用可综合表征平台的真实运营状态的假期数据和非假期数据作为样本,并构建包含第一拟合项和第二拟合项的预测模型,利用假期数据和非假期数据对预测模型中的拟合参数进行拟合。得到的预测模型相较现有技术中单独采用假期数据训练得到的预测模型而言,更加符合平台的真实运营状态。而其中,在拟合过程中,假期数据将对第二拟合项产生影响力,而非假期数据对第二拟合项不产生影响力。也即,第二拟合项是可以体现假期数据影响力的拟合项。

基于此拟合训练得到的预测模型中包含可准确表征假期数据影响力的第二拟合项,使得到的预测模型既能够符合平台的真实运营情况,又能够体现出其中假期数据所产生的影响信息,能够用于准确预测平台真实的常态化运营状态。

也即,后续在基于该预测模型进行平台常态化状态预测时,只需将其中表征假期数据影响力的影响数值剔除,则可得到可准确表征平台常态化状态的预测数据。

由上述可知,在采集作为训练样本的历史运营数据时,可以是采用日活跃用户数量、日销售量、日最高在线人数等作为样本。而这类以日为单位的训练数据,由于统计的粒度太小,因此,数据之间变动可能较为频繁,难以体现出平稳表征一段时间的数据状态的问题。基于此考虑,请参阅图3,本实施例在上述采集平台上的历史运营数据时,可以通过以下方式进行采集和处理:

步骤S211,采集平台上每日的历史运营数据。

步骤S212,将采集到的多个历史运营数据按设定划分周期进行划分,并计算划分出后的每组历史运营数据之和。

本实施例中,可采集历史一段时间段内平台上每日的历史运营数据,如日活跃用户数量、日交易数据、日在线最高人数等。在此基础上,可设定划分周期,划分周期可以是如一周为一个周期、三天为一个周期、五天为一个周期等。为了贴合目前已有的惯有工作周期,本实施例中,划分周期可为一周。

如此,则可以将采集到的多个历史运营数据按周为周期进行划分。可以得到划分的每周内的多个历史运营数据。再将每周内的历史运营数据相加,则可以得到每个周期的总的历史运营数据。将每周总的历史运营数据作为一个单位进行模型的拟合训练。

基于此,本实施例中,在进行数据的假期数据和非假期数据的划分时,也可以以一周为单位进行划分。例如,针对寒假、暑假等节假期,则通过上述方式获得每个周的总的历史运营数据后,可根据各个周是否属于假期时间段,将相应的历史运营数据进行假期标记。

通过上述的将采集的粒度较小的历史运营数据,按照设定划分周期进行划分,从而可得到综合多个较小粒度的数据的和值作为训练单位,则可排除数据粒度太小所本身存在的波动频繁的问题。

此外,在本实施例中,考虑到平台的日常运营过程中,可能存在由于网络问题、平台系统问题等,可能导致的数据出现异常的状况,而异常数据将对模型的拟合训练造成影响,因此,本实施例在上述采集到平台上每日的历史运营数据之后,还可通过以下方式对其中可能存在的异常数据进行处理,以避免对训练结果造成的影响,请参阅图4:

步骤S213,检测出采集到的多个历史运营数据中存在异常的历史运营数据。

步骤S214,获取存在异常的历史运营数据对应日期前后的设定时间区间内的历史运营数据。

步骤S215,根据所述设定时间区间内的历史运营数据对异常的历史运营数据进行修订处理。

其中,在通过检测方式检测到存在异常的历史运营数据之后,可获取该异常的历史运营数据的相邻日期的前后一段时间内的历史运营数据。例如,可以获取该异常的历史运营数据的前一周内的历史运营数据以及后一周内的历史运营数据。再通过统计该前一周和后一周的历史运营数据的均值,利用该均值替换该异常的历史运营数据。

此外,作为另一种可能的实施方式,也可以采用获取该异常的历史运营数据的前一天的历史运营数据,利用该前一天的历史运营数据替换该异常的历史运营数据。

本实施例中,除了上述的对异常历史运营数据的处理方式之外,还可采用其他的处理方式,本实施例不作具体限制,可实现排除异常历史运营数据对预测模型拟合训练的影响即可。

在本实施例中,请参阅图5,在对各个历史运营数据进行检测,以确定各个历史运营数据是否为异常数据时,可以通过以下方式实现:

步骤S2131,根据采集到的多个历史运营数据计算得到数据均值和数据方差。

步骤S2132,根据所述数据均值和所述数据方差计算得到异常阈值。

步骤S2133,将各所述历史运营数据与所述异常阈值进行比较,检测出多个历史运营数据中存在异常的历史运营数据。

本实施例中,考虑到假期数据和非假期数据在整体上存在差别,因此,在检测各个历史运营数据是否为异常数据时,可以先对各个历史运营数据的类型进行区分,也即,确定各个历史运营数据为假期数据还是非假期数据。

针对历史运营数据中的每个假期数据,则可计算历史运营数据中的所有假期数据的第一数据均值和第一数据方差,再基于第一数据均值和第一数据方差计算得到第一异常阈值。将各个假期数据与第一异常阈值进行比较,若假期数据与第一异常阈值的差值超过一定范围,则可以确定该假期数据为异常数据。

此外,同样地,针对历史运营数据中的每个非假期数据,可计算历史运营数据中的所有非假期数据的第二数据均值和第二数据方差,再基于第二数据均值和第二数据方差计算得到第二异常阈值。将各个非假期数据与第二异常阈值进行比较,若非假期数据与第二异常阈值的差值超过一定范围,则可以确定该非假期数据为异常数据。

本实施例中,通过上述方式,在采集到历史运营数据后进行数据异常检测,并对异常数据进行修订处理,以避免异常数据对预测模型的预测准确性的影响。

本实施例中,在检测采集到的各个历史运营数据是否存在异常时,基于历史运营数据的类型,采用其相同类型下的多个数据进行综合判断,提高了数据异常判断的准确性。

本实施例中,再通过上述的采集历史运营数据、检测异常数据、对异常数据进行修订以及将历史运营数据进行周期性划分,以周期内的数据之和作为训练样本之后,则可执行上述的利用历史运营数据对预测模型进行拟合训练的过程。

本实施例中,由上述可知,预测模型包括第一拟合项和第二拟合项,其中,第二拟合项可表征假期数据的影响力,则相应地,第一拟合项可用于表征非假期数据的数据状态。需要说明的是,其中,第一拟合项和第二拟合项是利用各个历史运营数据同时进行拟合训练的,其两者所表征的数据的数据状态和假期数据的影响力构成了预测模型所表征的预测数据。

其中,预测模型可为Prophet模型,Prophet模型是一种针对时间序列的、可以利用历史的呈季节性等规律数据预测出数据的未来趋势走向的模型。本实施例所构建的预测模型中,其中,第一拟合项可包括用于表征历史运营数据线性变化状态的线性函数项和表征历史运营数据周期变化状态的三角周期函数项。而由于假期数据一般是短期波动数据,较常态化整体数据而言,存在突变的特性,因此,本实施例中,第二拟合项包括用于表征假期数据异常变化影响力的拉普拉斯函数项。

本实施例中,利用线性函数项和三角周期函数项可准确拟合表征历史运营数据的线性变化和周期变化状态,而拉普拉斯函数项可准确表征假期数据的异常突变特性。

本实施例中,构建的预测模型可表征如下:

y(t)=g(t)+s(t)+h(t)

其中,g(t)和s(t)可构成第一拟合项,g(t)可表示线性函数项,s(t)可表示三角周期函数项,h(t)可表示拉普拉斯函数项。

可选地,线性函数项g(t)可构建如下:

g(t)=(k+α(t)δ)·t+(m+α(t)

式中,k表示该线性函数的增长率,δ表示增长率的变化量,m表示偏移量参数,α(t)∈{0,1}

而上述的三角周期函数项可构建如下:

式中,a

此外,上述的拉普拉斯函数项可构建如下:

式中,L表示历史运营数据的总数,D

本实施例中,构建如上述的预测模型后,可将采集的各个历史运营数据对应的日期信息代入上述的线性函数项、三角周期函数项和拉普拉斯函数项,并根据对应的历史运营数据对各个函数项中的拟合参数进行拟合。

其中,代入各个函数项的日期信息例如可以如YYYY-MM-DD的形式。将各个日期信息带入函数项,并基于整体的模型值y(t),在大数据的情况下,可以拟合得到各个函数项中的未知参数,从而确定出预测模型。

本实施例中,采用直接代入日期信息的方式,可以具有直接关联关系的日期信息和各日期信息下的历史运营数据进行各函数项的拟合训练,简化拟合训练过程。

此外,本实施例中考虑到预测模型是采用如线性函数、三角周期函数和拉普拉斯函数拟合得到,拟合得到的曲线与真实的曲线之间还是存在一定的差异。为了进一步地消除由于拟合而产生的差异,因此,本实施例所构建的预测模型还包括随机误差项。该随机误差项可由历史运营数据与拟合得到的第一拟合项和第二拟合项表征的拟合运营数据之间的差值构成。

也即,作为一种可能的实施方式,构建的预测模型可如下所示:

y(t)=g(t)+s(t)+h(t)+p(t)

其中,p(t)为随机误差项。

在通过上述理由采集到的各个历史运营数据对进行预测模型的拟合训练后,为了对预测模型的预测情况进行检验,本实施例所提供的预测模型构建方法还可包括以下步骤,请参阅图6:

步骤S310,利用参数拟合后得到的预测模型对设定的测试日期下的运营数据进行预测,得到测试运营数据。

步骤S320,比对所述测试运营数据和所述测试日期下的真实运营数据以对所述预测模型的拟合参数进行调整,得到满足预设条件的预测模型。

本实施例中,所述的测试日期为相对当前时间而言的历史日期,也即测试日期为历史的已发生的日期,可采集得到测试日期下平台的真实运营数据。在拟合得到预测模型后,可利用预测模型进行测试日期下的运营数据的预测,得到测试运营数据。

而由于测试日期下的真实运营数据为已知,因此,可以通过比对真实运营数据和预测模型得到的测试运营数据,从而检测预测模型的准确率,以保障正式投入应用的预测模型的准确率。在预测模型的准确率达到标准时,则可以确定预测模型满足预设条件,可投入到平台后续的数据预测应用中。

本实施例中,判断预测模型的预测准确率是否达到标准,可以采用获得预测运营数据和真实运营数据之间的差值,利用差值除以真实运营数据,判断得到的商是否在一定范围内的方式以判断,该一定范围例如可为是否超过0.85。或者,也可以利用1减去得到的商,以判断得到的差值是否在一定范围内的方式以判断。

此外,为了增强检测判断的鲁棒性,测试日期可以是多个日期,例如,可以是一个月内的多个周日期,如此,可以利用预测模型预测得到多个测试运营数据,相应地,各个测试日期下具有真实运营数据。如此,可以利用得到的多个测试日期下的测试运营数据和真实运营数据按上述方式得到多个数值,再计算其平均值。通过检测计算得到的平均值是否在一定范围内从而确定预测模型的准确率是否满足要求。

本实施例中,通过测试日期下的运营数据以对预测模型进行检测,可通过获得预测模型的预测准确率,以不断调整预测模型的拟合参数,从而得到满足要求的预测模型。

本实施例中,在得到的预测模型满足预设要求时,则可以确定预测模型中包含的第一拟合项和第二拟合项即可达到预设要求,也即第一拟合项所体现的平台运营数据的影响力和第二拟合项所体现的假期数据的影响力的准确率可达到预设要求。

在上述基础上,本实施例所提供的预测模型构建方法还可包括以下过程:

获取所需的预测日期,利用预先拟合得到的预测模型对预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据。

其中,以当前时间为节点,所述的预测日期则可以是当前时间点的未来一个月或未来一周等不限。利用的预测模型即为上述所获得的预测模型。由于该预测模型中包含可准确体现假期数据影响力的第二拟合项,因此,基于该预测模型则可在得到可表征平台真实的整体水平的基础上,排除由假期数据影响力产生的影响力数值,从而得到可准确表征平台的常态化运营的运营数据。

可选地,本实施例中,具体可通过以下方式得到预测运营数据:

利用预先拟合得到的预测模型对预测日期下的运营数据进行预测得到整体预测数据。提取出预测模型中的第二拟合项针对预测日期计算得到的影响力数值。利用整体预测数据减去影响力数值,得到表征非假期数据影响力的预测运营数据。

由上述可知,在预测模型整体预测准确率达到要求时,其中的第二拟合项的准确率同样达到要求。可将预测日期代入至预测模型中,通过计算可以得到预测模型的整体值。同样地,内部地第二拟合项具有相应的输出值,也即第二拟合项表征的假期数据影响力的影响力数值。在预测模型整体准确率和第二拟合项的准确率均满足要求的情况下,则在整体预测数据的基础上减去预测的假期数据产生的影响力数值,则可以得到可准确表征未受假期数据影响的、平台常态化的预测运营数据。

本实施例中,以上述构建方案应用到直播平台为例,在应用到直播平台上多种不同的直播品类时,可以得到满足预设要求的预测模型。进而,可以用于预测剔除假期数据影响力的平台运营数据。

请参阅图7,图7所示为本申请实施例提供的数据预测方法的流程图,该数据预测方法可应用于图1所示的服务器100,该数据预测方法的详细步骤介绍如下。

步骤S410,获取所需的预测日期。

步骤S420,利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据。

其中,所述预测模型为利用预先采集的包含假期数据和非假期数据的多个历史运营数据进行拟合得到,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

本实施例所提供的数据预测方法,基于预先拟合得到的预测模型所预测得到,而该预测模型由假期数据和非假期数据共同训练得到,且预测模型包括仅由假期数据产生影响力的第二拟合项。则基于该预测模型得到的预测数据,是考虑了假期数据和非假期数据相互关系,体现平台真实整体水平,并且,可排除假期数据影响影响力对应的影响数值。可真实反映平台的常态化运营数据。

请参阅图8,本实施例中,上述步骤S420可以通过以下方式实现:

步骤S421,利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测得到整体预测数据。

步骤S422,提取出所述预测模型中的第二拟合项针对所述预测日期计算得到的影响力数值。

步骤S423,利用所述整体预测数据减去所述影响力数值,得到表征非假期数据预测状态的预测运营数据。

需要说明的是,本实施例所提供的数据预测方法的相关细节,可参见实施例上述的相关描述,本实施例在此不作赘述。

请参阅图9,为本申请实施例提供的电子设备的示例性组件示意图,该电子设备可为图1中所示的服务器100。该电子设备可包括一个或一个以上处理器120(例如,一个或一个以上中央处理器(Central Processing Units,CPU))和存储器130,一个或一个以上存储应用程序或数据的存储介质110(例如一个或一个以上海量存储设备)。其中,存储器130和存储介质110可以是短暂存储或持久存储。存储在存储介质110的程序可以包括一个或一个以上模块(例如预测模型构建装置或数据预测装置),其中,包含的每个模块可以包括对服务器100中的一系列指令操作。

更进一步地,处理器120可以设置为与存储介质110通信,在电子设备上执行存储介质110中的一系列指令操作。电子设备还可以包括一个或一个以上电源,一个或一个以上有线或无线网络接口,一个或一个以上输入输出接口,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本申请实施例上述任意实施方式中由服务器100所执行的步骤可以基于该图9所示的设备结构。

如图10所示,为本申请实施例提供的预测模型构建装置140的功能模块框图。该预测模型构建装置140可以包括采集模块141和拟合模块142。下面分别对该预测模型构建装置140的各个功能模块的功能进行详细阐述。

采集模块141,用于采集平台上的历史运营数据,所述历史运营数据包括假期数据和非假期数据;

可以理解,该采集模块141可以用于执行上述步骤S210,关于该采集模块141的详细实现方式可以参照上述对步骤S210有关的内容。

拟合模块142,用于利用采集的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

可以理解,该拟合模块142可以用于执行上述步骤S220,关于该拟合模块142的详细实现方式可以参照上述对步骤S220有关的内容。

在一种可能的实施方式中,所述预测模型为Prophet模型,所述第一拟合项包括用于表征历史运营数据线性变化状态的线性函数项和周期变化状态的三角周期函数项,所述第二拟合项包括用于表征假期数据异常变化影响力的拉普拉斯函数项。

在一种可能的实施方式中,上述拟合模块142可以用于通过以下方式实现拟合:

将采集的各所述历史运营数据对应的日期信息代入所述线性函数项、所述三角周期函数项和所述拉普拉斯函数项,并根据对应的历史运营数据对各所述函数项中的拟合参数进行拟合。

在一种可能的实施方式中,所述预测模型还包括随机误差项,该随机误差项由所述历史运营数据与拟合得到的第一拟合项和第二拟合项表征的拟合运营数据之间的差值构成。

在一种可能的实施方式中,上述采集模块141可以用于通过以下方式实现数据采集:

采集平台上每日的历史运营数据;

将采集到的多个历史运营数据按设定划分周期进行划分,并计算划分出后的每组历史运营数据之和。

在一种可能的实施方式中,上述采集模块141具体还可以用于:

检测出采集到的多个历史运营数据中存在异常的历史运营数据;

获取存在异常的历史运营数据对应日期前后的设定时间区间内的历史运营数据;

根据所述设定时间区间内的历史运营数据对异常的历史运营数据进行修订处理。

在一种可能的实施方式中,上述采集模块141具体可以用于通过以下方式检测出存在异常的历史运营数据:

根据采集到的多个历史运营数据计算得到数据均值和数据方差;

根据所述数据均值和所述数据方差计算得到异常阈值;

将各所述历史运营数据与所述异常阈值进行比较,检测出多个历史运营数据中存在异常的日活跃用户数据。

在一种可能的实施方式中,预测模型构建装置140还可以包括测试模块,该测试模块可以用于:

利用参数拟合后得到的预测模型对设定的测试日期下的运营数据进行预测,得到测试运营数据;

比对所述测试运营数据和所述测试日期下的真实运营数据以对所述预测模型的拟合参数进行调整,得到满足预设条件的预测模型。

如图11所示,为本申请实施例提供的数据预测装置150的功能模块框图。该数据预测装置150可以包括获取模块151和预测模块152。下面分别对该数据预测装置150的各个功能模块的功能进行详细阐述。

获取模块151,用于获取所需的预测日期;

可以理解,该获取模块151可以用于执行上述步骤S410,关于该获取模块151的详细实现方式可以参照上述对步骤S410有关的内容。

预测模块152,用于利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测,得到表征非假期数据预测状态的预测运营数据;

其中,所述预测模型为利用预先采集的包含假期数据和非假期数据的多个历史运营数据进行拟合得到,所述预测模型包括第一拟合项和第二拟合项,所述历史运营数据中仅假期数据对所述第二拟合项产生影响力。

可以理解,该预测模块152可以用于执行上述步骤S420,关于该预测模块152的详细实现方式可以参照上述对步骤S420有关的内容。

在一种可能的实施方式中,上述预测模块152具体可以用于通过以下方式实现预测:

利用预先拟合得到的预测模型对所述预测日期下的运营数据进行预测得到整体预测数据;

提取出所述预测模型中的第二拟合项针对所述预测日期计算得到的影响力数值;

利用所述整体预测数据减去所述影响力数值,得到表征非假期数据预测状态的预测运营数据。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

进一步地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的预测模型构建方法或数据预测方法。

具体地,该计算机可读存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该计算机可读存储介质上的计算机程序被运行时,能够执行上述预测模型构建方法或数据预测方法。关于计算机可读存储介质中的及其可执行指令被运行时,所涉及的过程,可以参照上述方法实施例中的相关说明,这里不再详述。

综上所述,本申请实施例提供的预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质,通过采集平台上的历史运营数据,其中,历史运营数据包括假期数据和非假期数据。再利用采集到的所有历史运营数据对构建的预测模型中的拟合参数进行拟合,预测模型包括第一拟合项和第二拟合项,历史运营数据中的假期数据对第二拟合项产生影响力。本方案中的预测模型,以包含假期数据和非假期数据的历史运营数据进行拟合得到,整体上更加符合平台的真实运营情况。且内部包含可表征假期数据影响力的第二拟合项,使得到的预测模型既能够符合平台的真实运营情况,又能够体现其中假期数据所产生的影响信息,能够用于准确预测平台真实的常态化运营状态。

在利用上述的预测模型进行运营数据的预测时,剔除第二拟合项所产生的影响力数值,则可得到准确体现平台真实的常态化运营的预测数据。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

相关技术
  • 预测模型构建方法、数据预测方法、装置、电子设备和可读存储介质
  • 数据预测方法、装置、电子设备和计算机可读存储介质
技术分类

06120112684024