掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、电子设备及介质

文献发布时间:2023-06-19 09:27:35


数据处理方法、电子设备及介质

技术领域

本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、电子设备及介质。

背景技术

数据处理领域是计算机领域的重要分支。在计算机领域中,根据呈现方式,数据可以包括文本数据、图像数据、音频数据、视频数据等多种;根据存储方式,数据可以被存储到数据库、文本文件、特定格式文件(例如.doc/.xls)等;根据数据形成的方式,可以包括静态数据和动态数据,动态数据尤其是随时间变化的数据,例如通过路由器交换机等网络设备获取的信息推送数据、通过GPS或北斗等采集的设备LBS数据、等。数据处理可以为“正向处理”,例如利用某种算法处理图像,使之更清晰,也可以为“逆向处理”,例如在已知合成图像的清楚下,通过计算机程序分离合成图像所使用的多个原始图像。再如,在信息推送场景中,信息通常可以通过多种通道进行推送,选择目标通道对信息进行推送时,需要根据已有的信息推送结果数据逆向获取到不同通道对于推送结果数据的权重,基于每一通道对于推送结果数据的权重选择目标通道。

静态数据的“逆向处理”相对容易。动态数据之间也会存在关联关系,但因为动态数据多是随时间变化的数据,需要考虑时间维度对关联关系的影响,不仅会占用较多的计算机存储资源、检索资源、运算处理资源,而且处理精度也不够理想,随着智能化时代的到来,信息推送应用越来越广泛,因此,如何高效准确地通过数据的“逆向处理”,获取到不同通道对于推送结果数据的权重,成为亟待解决的技术问题。

发明内容

本发明目的在于,提供一种数据处理方法、电子设备及介质,能够高效、准确地获取到不同通道对于推送结果数据的权重。

根据本发明第一方面,提供了一种数据处理方法,包括:

步骤S1、从预设的数据库中获取n条信息浏览数据{G

步骤S2、为预设的数据处理模型设定模型参数的初始值,所述模型参数包括呈现权重向量矩阵A

步骤S3、以

步骤S4、基于点击中间特征向量初始值s

步骤S5、基于所述呈现中间特征序列H

步骤S6、从预设的数据库获取q条信息浏览数据{Q

步骤S7、获取当前模型对应的通道呈现权重向量A

根据本发明第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明第一方面所述的方法。

根据本发明第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本发明第一方面所述的方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种数据处理方法、电子设备及介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:

本发明能够高效准确地通过数据的“逆向处理”,基于多条信息浏览数据获取到不同通道对于推送结果数据的权重。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

图1为本发明一实施例提供的数据处理方法示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数据处理方法、电子设备及介质的具体实施方式及其功效,详细说明如后。

本发明实施例提供了一种数据处理方法,如图1所示,包括以下步骤:

步骤S1、从预设的数据库中获取n条信息浏览数据{G

其中,每个信息浏览特征向量中对应一个通道向量,所述通道是指用于推送信息的传输路径。呈现特征向量用于表示该信息通道向量所呈现的信息特征,点击概率用于表示该通道所呈现的信息特征被点击的概率,可以理解的是,实际点击概率为0或者1,该通道呈现的信息未被点击,实际概率为0,该通道呈现的信息被点击,实际概率为1。

步骤S2、为预设的数据处理模型设定模型参数的初始值,所述模型参数包括呈现权重向量矩阵A

步骤S3、以

可以理解的是,输入的所述信息浏览特征向量X

步骤S4、基于点击中间特征向量初始值s

步骤S5、基于所述呈现中间特征序列H

其中,呈现权重向量A

步骤S6、从预设的数据库获取q条信息浏览数据{Q

这样可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大,导致模型精确度低。可以理解的是,为了进一步提高模型训练精确度,还可将通过集检测判断当前模型精确度和通过损失函数判断当前模型精确度两种方式结合来判断。

步骤S7、获取当前模型对应的通道呈现权重向量A

作为上述实施例的变形,步骤S6可替换为、根据L

从预设的数据库获取q条信息浏览数据{G

本发明实施例能够高效准确地通过数据的“逆向处理”,基于多条信息浏览数据获取到不同通道对于推送结果数据的权重,本发明实施例基于信息呈现和信息点击两种特征结合起来获取到不同通道对于推送结果数据的权重,提高了获取结果的可靠性和准确度。

作为一种示例,所述方法还包括:步骤S10、构建所述预设数据库,具体包括:

步骤S101、获取不同终端的信息呈现数据和信息推送结果数据,所述信息呈现数据包括呈现信息ID、呈现设备ID、通道ID、信息点击数据、呈现时间戳,所述信息推送结果包括“0”或“1”,“0”表示未达到预设信息推送目标,“1”表示达到预设信息推送目标;

其中,终端可以物理实现为智能手机、PAD等能够安装应用程序(例如APP)的移动设备。

步骤S102、根据用户ID与设备ID的关联关系获取每一用户ID对应的信息呈现数据和信息推送结果数据;

可以理解的是,一个用户ID可以对应多个设备ID,通过步骤S102可以将统一用户在不同设备上浏览的信息搜集起来,再通过步骤S103得到对应的信息浏览数据

步骤S103、根据呈现时间戳将每个信息推送结果对应的信息呈现数据按照时间先后的顺序组成时间序列,并存储在所述数据库的记录中,构建所述预设数据库。

模型训练过程中,正样本和负样本的比例设置对模型精确度会有直接影响,比例过高或过低均会降低模型的精确度,影响数据处理的结果,因此要将正样本和负样本的比例设置在合理范围,以提高模型训练的精确度,作为一种实施例,正样本和负样本的比例设置为(1:4,1:2),优选的,可将正所述步骤1中,所获取的n条信息浏览数据所述正样本数据和负样本数据的比例为1:3,其中,正样本数据对应的信息推送结果为“1”,负样本数据对应的推送结果为“0”。

在上述变形实施例中,测试集数据所选择的数量会影响模型训练的精确度和训练效率,如果测试集选择数据过多,会降低模型训练效率,过少,降低模型训练的精确度,因此可以将训练集和测试集数据的比例设置为(3:1,5:1),优选地,所述训练集数据条数与所述测试集条数比例为4:1,需要说明的是,所述训练集数据和所述测试集数据为不同的信息浏览数据,这样可以避免模型对大量相同数据的依赖性,提高模型训练的精度,从而提高了数据处理结果的准确性。

作为一种实施例,所述步骤S3包括:

步骤S301、基于信息浏览特征向量序列上一时刻的呈现中间特征向量h

h

其中,f

步骤S302、基于呈现中间特征向量h

作为一种实施例,所述步骤S4中、基于点击中间特征向量初始值s

步骤S401、基于信息浏览特征向量序列上一时刻的点击中间特征向量s

其中,f

步骤S402、基于点击中间特征向量s

步骤S4中、基于S

步骤S411、基于S

其中,g()为预设的感知机模型函数,其核心公式是激活方程为

上述过程中,编码函数采用上一时刻的呈现中间特征向量h

作为一种实施例,所述步骤S4中,基于所述n条信息浏览数据对应的所有的预测点击概率和实际点击概率确定第一损失函数L

作为一种实施例,所述步骤S5中,所述基于所述呈现中间特征序列H

步骤S501、基于呈现中间特征序列H

C

步骤S502、基于点击中间特征序列S

C

步骤S503、基于呈现参数和点击参数获取预测信息推送结果概率

作为一种实施例,所述基于所述n条信息浏览数据的预测信息推送结果概率

作为一种实施例,所述步骤S6中,所述包括:

步骤S611、将测试集中的每条信息浏览数据中的信息浏览特征向量序列输入当前的数据处理模型,得到对应的预测信息推送结果概率;

步骤S612、基于每条信息浏览数据对应的预测信息推送结果概率和实际信息推送结果概率确定该条信息浏览数据对应的模型精确度;

步骤S613、基于所述测试集中所有信息浏览数据对应的模型精确度确定当前模型的精确度。

通过构建测试集来判断当前模型的精度,可以避免仅通过测试集进行训练造成的对测试集的数据依赖过大,导致模型精确度低,提高模型训练结果的精确度,从而提高数据处理结果的精确度。

在上述变形实施例中,所述步骤S6中包括:

步骤S601、连续获取M个L

步骤S602、基于L

基于L

作为一种实施例,所述步骤S7中,获取当前模型对应的通道呈现权重向量A

Attr

其中,Attr

本发明实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本发明实施例所述的方法。

本发明实施例还提供一种计算机可读存储介质,所述计算机指令用于执行本发明实施例所述的方法。

在一种具体应用场景中,所述信息可以为广告信息,通过本发明实施例可以获取到不同的信息通道对推送广告信息达到预设目标的权重,为下一步广告推送提供有力参考。

以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

相关技术
  • 应用于电子设备的数据处理方法、电子设备及介质
  • 数据处理方法、装置、电子设备及存储介质
技术分类

06120112169430