掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、计算机可读存储介质和计算机设备

文献发布时间:2023-06-19 18:35:48


数据处理方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及互联网技术领域,具体涉及一种数据处理方法、装置、计算机可读存储介质和计算机设备。

背景技术

小程序上线之前需要通过相关审核平台的审核,审核通过之后才可以进行上线。其中,平台审核主要审核小程序的代码服务内容是否合规以及类目是否匹配服务内容。

在现有的审核流程中,需要完全的由人工进行审核,耗费大量人力成本,并且审核时间较长,此外,还存在大量因缺少类目被驳回审核的情况,造成人力资源的浪费以及审核周期的延长,小程序的审核效率较低,数据处理效率较低。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机可读存储介质和计算机设备,可以提升数据处理效率,进而提高应用程序的审核效率。

本申请实施例提供一种数据处理方法,包括:

获取应用程序中每一页面的页面数据;

对每一页面数据进行特征提取,得到所述应用程序的目标文本向量;

统计所述应用程序中每一应用程序接口的出现次数,得到接口统计数据;

对所述接口统计数据进行特征转换,得到所述应用程序的接口统计向量;

对所述目标文本向量和所述接口统计向量进行融合,得到目标融合向量;

对所述目标融合向量进行分类处理,得到所述应用程序的类目结果。

相应的,本申请实施例提供一种数据处理装置,包括:

获取单元,用于获取应用程序中每一页面的页面数据;

提取单元,用于对每一页面数据进行特征提取,得到所述应用程序的目标文本向量;

统计单元,用于统计所述应用程序中每一应用程序接口的出现次数,得到接口统计数据;

转换单元,用于对所述接口统计数据进行特征转换,得到所述应用程序的接口统计向量;

融合单元,用于对所述目标文本向量和所述接口统计向量进行融合,得到目标融合向量;

分类单元,用于对所述目标融合向量进行分类处理,得到所述应用程序的类目结果。

在一实施例中,所述数据处理装置,还包括:

样本获取单元,用于获取每一页面的页面数据样本以及对应的接口统计数据样本;

样本输入单元,用于将每一页面数据样本以及对应的接口统计数据样本输入到混合模型中,得到每一类目的分类概率;

样本计算单元,用于计算每一类目的分类概率与对应的真实概率之间的差异;

样本训练单元,用于根据所述差异对混合模型进行迭代训练,得到训练后的混合模型。

在一实施例中,所述样本输入单元,包括:

样本输入子单元,用于将每一页面数据样本输入到预设深层子模型中,将所述接口统计数据样本输入到预设浅层子模型中;

样本融合子单元,用于对样本输入后的预设深层子模型和预设浅层子模型的输出结果进行融合,得到目标融合向量样本;

样本分类子单元,用于对所述目标融合向量样本进行分类处理,得到每一类目的分类概率。

在一实施例中,所述数据处理装置,还包括:

抽取模块,用于通过所述预设深层子模型抽取每一页面数据样本中的文本数据,并对所述文本数据进行特征提取,得到每一页面的文本向量样本;

全连接模块,用于对所述每一页面的文本向量样本进行全连接处理,得到目标文本向量样本。

在一实施例中,所述抽取模块,用于:

对每一页面数据样本中的文本数据进行特征提取,得到每一页面的词嵌入向量;

计算每一页面的词嵌入向量的注意力得分,并对所述注意力得分做归一化处理,得到每一页面的词嵌入向量的权值;

根据每一页面的词嵌入向量的权值计算每一页面的文本向量样本。

在一实施例中,所述样本输入子单元,用于:

通过所述预设浅层子模型对所述接口统计数据样本进行特征转换,得到接口统计向量样本;

将所述接口统计向量样本进行归一化处理,将归一化处理后的接口统计向量样本输入到预设浅层子模型中。

在一实施例中,所述融合单元,包括:

第一输入子单元,用于将所述目标文本向量输入至训练后的混合模型中的深层子模型;

第二输入子单元,用于将所述接口统计向量输入至训练后的混合模型中的浅层子模型;

融合子单元,用于基于所述深层子模型和浅层子模型的输出结果,得到目标融合向量。

在一实施例中,所述提取单元,包括:

第三输入子单元,用于将所述页面数据输入到训练后的混合模型中的深层子模型;

提取子单元,用于通过所述深层子模型对所述页面数据中的文本数据进行特征提取,得到每一页面的文本向量;

全连接子单元,用于对每一页面的文本向量进行全连接处理,得到所述应用程序的目标文本向量。

在一实施例中,所述分类单元,包括:

导入子单元,用于对所述目标融合向量导入到多层感知器中,通过所述多层感知器对所述目标融合向量进行分类处理,得到所述应用程序属于每一类目的分类概率;

确定子单元,用于获取概率值大于预设阈值的分类概率对应的目标类目,将所述目标类目确定为所述应用程序的类目结果。

此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法中的步骤。

此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的数据处理方法。

本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的数据处理方法中的步骤。

本申请实施例通过获取应用程序中每一页面的页面数据;对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;对接口统计数据进行特征转换,得到应用程序的接口统计向量;对目标文本向量和接口统计向量进行融合,得到目标融合向量;对目标融合向量进行分类处理,得到应用程序的类目结果。以此,通过获取应用程序的页面数据以及接口统计数据,进而融合页面数据对应的目标文本向量以及接口统计数据对应的接口统计向量,对融合结果进行分类得到应用程序匹配的类目,以此结合了应用程序的文本内容以及应用程序接口的统计特征来对应用程序匹配的类目进行更准确的预测,使得开发人员可以在提交审核之前获知影响应用程序通过审核的问题并进行修改,以此缩短了审核时间,提升了数据处理效率,提高了应用程序的审核效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理方法实施场景示意图;

图2是本申请实施例提供的一种数据处理方法的流程示意图;

图3是本申请实施例提供的一种数据处理方法的混合模型的训练示意图;

图4是本申请实施例提供的一种数据处理方法的另一流程示意图;

图5是本申请实施例提供的数据处理装置的结构示意图;

图6是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供一种数据处理方法、装置、计算机可读存储介质和计算机设备。其中,该数据处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。

为了更好的说明本申请实施例,请参照以下名词进行参考:

小程序:一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或者搜一下即可打开应用。也体现了“用完即走”的理念,用户不用关心是否安装太多应用的问题。应用将无处不在,随时可用,但又无需安装卸载。

快应用:快应用是九大手机厂商基于硬件平台共同推出的新型应用生态。用户无需下载安装,即点即用,享受原生应用的性能体验。

API(Application Programming Interface,应用程序接口):是一些预先定义的接口(如函数、超文本传输协议接口),或指软件系统不同组成部分衔接的约定。用来提供应用程序与开发人员基于某软件或硬件得以访问的一组例程,而又无需访问源码,或理解内部工作机制的细节。

MLP(Multi-Layer Perceptron):也称多层感知器,是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。

Wide&Deep模型:一种融合浅层模型(Wide)和深层模型(Deep)进行联合训练的框架,综合利用浅层模型的记忆能力和深层模型的泛化能力,实现单模型对推荐系统准确性和多样性的兼顾。

请参阅图1,以数据处理装置集成在服务器中为例,图1为本申请实施例所提供的数据处理方法的实施场景示意图,包括服务器A以及终端B,其中,服务器A可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器A可以获取应用程序中每一页面的页面数据;对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;对接口统计数据进行特征转换,得到应用程序的接口统计向量;对目标文本向量和接口统计向量进行融合,得到目标融合向量;对目标融合向量进行分类处理,得到应用程序的类目结果。

终端B可以是智能手机、平板电脑、笔记本电脑、台式计算机等各种可以进行数据输入的计算机设备,但并不局限于此。终端B以及服务器A可以通过有线或无线通信方式进行直接或间接地连接,服务器A可以获取终端B上传的数据以执行相应的数据处理操作,本申请在此不做限制。

需要说明的是,图1所示的数据处理方法的实施环境场景示意图仅仅是一个示例,本申请实施例描述的数据处理方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着数据处理的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。

以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从数据处理装置的角度进行描述,该数据处理装置具体可以集成在计算机设备中,该计算机设备可以是服务器,本申请在此不作限制。

请参阅图2,图2是本申请实施例提供的数据处理方法的流程示意图。该数据处理方法包括:

在步骤101中,获取应用程序中每一页面的页面数据。

其中,本申请提供的数据处理方法可以适用于任一待审核应用程序的审核,例如,可以适用于应用商店、应用市场等应用程序管理平台中应用程序APP(Application,简称APP)的审核,也可以适用于小程序以及快应用等免安装的应用程序的审核,等等。为了便于对本申请实施例提供的数据处理方法进行说描述,下面以该应用程序为小程序为例进行具体的说明。

随着互联网技术的发展,越来越多各种各样的小程序出现在人们的日常生活中,在各种领域中方便并同时丰富人们的生活。小程序在进行上线之前,需要通过相关小程序审核平台的审核,审核通过之后才可以进行后续的开发上线。其中,审核平台主要审核小程序的代码服务内容是否符合规定,以及小程序确定的服务类目是否匹配服务内容,服务类目可以包括视频广场、社交、医疗、教育等等类目。

在现有的审核流程中,需要完全的由人工对小程序进行审核,耗费了大量人力成本,并且审核时间较长,此外,还存在大量因缺少类目被驳回审核的情况,造成人力资源的浪费以及审核周期的延长,数据处理的效率较差,小程序的审核效率较低。

为了解决以上的问题,本申请实施例提供了一种数据处理方法,通过获取待审核的小程序对应的代码中的每一页面的文本数据以及应用程序接口的统计数据,根据每一页面的文本数据以及应用程序接口的统计数据来对应用程序匹配的类目进行预测,实现在提交审核之前对小程序的类目合规性进行检测,使得开发人员提前获知影响小程序通过审核的问题并进行修改,以此缩短了审核时间,提升了数据处理的效率,进而提高了小程序审核的效率。下面对本申请提供的数据处理方法进行详细描述。

首先,可以获取应用程序中每一页面的页面数据,其中,该应用程序可以为APP,也可以为小程序以及快应用等免安装的应用程序等,该页面数据可以包括应用程序页面中的文本数据,该文本数据可以为每一页面中的文本、句子、词或者字等数据。一个应用程序往往具有很多不同的页面,不同页面具有不同的内容,因此每一页面涉及的类目也会不相同。而类目只要涉及到,便需要进行申请。因此,需要获取应用程序中每一页面的页面数据来进行后续的数据处理操作,以得到该应用程序匹配的类目结果。

在一实施例中,为了可以将应用程序的检测结果进行实时反馈到用户,可以针对应用程序非编译非渲染后的结果进行检测,因此,该页面数据可以为应用程序对应的源代码中的每一页面的页面数据。

在步骤102中,对每一页面数据进行特征提取,得到该应用程序的目标文本向量。

其中,该目标文本向量可以为根据应用程序中每一页面的页面数据得到的向量。具体的,可以抽取应用程序中每一页面数据中的文本数据,并对抽取到的文本数据进行特征提取,进而将提取到的特征转换为嵌入(Embedding)向量,以此得到应用程序的目标文本向量。

Embedding是一种将文本特征转换成数字向量的方法,嵌入过程就是把一个高维空间嵌入到一个维数低得多的连续向量空间中,每一文本数据在预定义的向量空间中被表示为实数向量,每一文本数据都映射到一个向量上。因此,通过嵌入将文本数据转换为向量,机器便可对文本数据进行计算,例如,可以通过计算不同文本向量之间夹角的余弦值得出文本数据之间的相似度,以此得到文本数据之间的关系。其中,对于中文的文本数据,预料是直接以字为单位的,可以转换得到该文本数据的字向量。

在一实施例中,可以通过语言模型对每一页面数据进行特征提取,得到该应用程序的目标文本向量,具体的,可以将该页面数据输入到训练后的预设模型,通过该训练后的预设模型对该页面数据中的文本数据进行特征提取,得到每一页面的文本向量,其中,该训练后的预设模型可以为Albert模型,通过Albert模型对每一页面数据提取出其中的文字,进而转换为Albert模型的input_ids向量,该input_ids向量为句子中每一文字的标识(Identity document,简称id)组成的张量(Tensor)。例如,假设对一页面数据提取出文本“广东省广州市”,可以将该文本转换为input_ids向量:[101,2408,691,4689,2408,2336,2356,102],其中,“101”是向量的起始标识,“102”是向量的结束标识。

一个应用程序的服务内容可能会对应匹配多个服务类目,此外,也可能存在应用程序中的多个页面的服务内容共同匹配某一服务类目的情况,因此,需要综合考虑多个页面的内容来确定应用程序匹配的服务类目。为此,可以对每一页面的文本向量进行全连接处理,得到该应用程序的目标文本向量,该目标文本向量可以为应用程序中每一页面的文本向量全连接后得到的向量,基于该目标文本向量可以综合考虑每一页面的关联关系。具体的,可以通过深度神经网络中的全连接层(Full Connect Layer,简称Fc层)将每一页面的文本向量进行全连接处理,以融合提取到的每一页面的文本向量,得到应用程序的目标文本向量。

在一实施例中,由于类目属性是由应用程序提供的内容决定的,也即是由应用程序中的文本数据与文本数据之间的关联关系确定的,因此每一页面的文本数据之间的关联关系会影响服务类目的确定,为了提高应用程序匹配的类目结果的准确性,可以在albert模型的隐藏层(Hidden Layer)之后添加一个自注意力(Self-attention)层,通过自注意力机制来考虑每一页面中每一的文本数据之间的关联关系,以此提高同一页面中的文本数据之间的紧密程度,进而提高应用程序匹配的类目结果的准确性。

在步骤103中,统计该应用程序中每一应用程序接口的出现次数,得到接口统计数据。

除了文本数据可以体现应用程序的类目属性之外,应用程序接口的使用情况也可以作为反映应用程序的类目属性的因素。例如,视频类的应用程序会用到VideoContext.play和VideoContext.pause等控件,而服务于外卖平台的应用程序会用到wx.getLocation等等,因此,可以通过应用程序使用的应用程序接口的情况来进一步确定应用程序匹配的类目,此外,结合应用程序的每一页面的文本内容以及应用程序使用的应用程序接口的情况来确定应用程序匹配的类目,可以进一步提高类目结果的准确性。

具体的,可以统计该应用程序中每一应用程序接口的出现次数,得到接口统计数据,该接口统计数据可以为应用程序中每一应用程序接口的出现次数,例如,假设应用程序中使用了应用程序接口a、应用程序接口b和应用程序接口c,同时可以假设应用程序接口a与服务类目一有关联关系,应用程序接口b与服务类目二有关联关系,应用程序接口c与服务类目三有关联关系,进而可以统计应用程序接口a、b、c在该应用程序中的出现次数,根据该出现次数来计算应用程序匹配每一服务类目的可能性,例如,可以假设应用程序接口a出现次数最多,则该应用程序的类别属性包括服务类目一的可能性就最大。

在步骤104中,对该接口统计数据进行特征转换,得到该应用程序的接口统计向量。

具体的,可以通过线性模型对该接口统计数据进行特征转换,得到该应用程序的接口统计向量。

在一实施例中,为了加快收敛的速度,可以将转换得到的接口特征向量进行归一化,具体的,可以通过归一化层(Batch Normalization Layer)将输入的接口统计向量进行归一化,使其服从均值为0,方差为1的分布。从而使得输入的统计特征向量具有相同的均值和方差,固定了每一层的输入分布,从而加速了深度神经网络的收敛。

在步骤105中,对该目标文本向量和该接口统计向量进行融合,得到目标融合向量。

为了提高应用程序的类目结果的准确性,可以结合应用程序的每一页面的文本数据以及应用程序使用的应用程序接口的情况来确定应用程序匹配的类目,因此,可以对应用程序的目标文本向量以及接口统计向量进行融合,得到目标融合向量。

在一实施例中,可以通过训练后的混合模型(Wide&Deep模型)来对应用程序的目标文本向量以及接口统计向量进行融合,其中,Wide&Deep模型用于分类和回归,核心思想是结合线性模型的记忆能力(Memorization)和深度神经网络(Deep Neural Networks,简称DNN)模型的泛化能力(Generalization),在训练过程中同时优化浅层子模型(Wide)和深层子模型(Deep)的参数,从而达到整体模型的预测能力最优,浅层子模型可以通过利用交叉特征高效的实现记忆能力。

其中,记忆(Memorization)即从历史数据中发现物品(Item)或者特征之间的相关性。泛化(Generalization)即相关性的传递,发现在历史数据中很少或者没有出现的新的特征组合。因此,可以将具有泛化能力的目标文本向量输入至训练后的混合模型中的深层子模型,将具有记忆能力的接口统计向量输入至训练后的混合模型中的浅层子模型,并联合深层子模型和浅层子模型进行训练,基于该深层子模型和浅层子模型的输出结果,可以得到目标融合向量。其中,训练后的预设模型可以为该深层子模型,也即该深层子模型可以为Albert模型。

在步骤106中,对该目标融合向量进行分类处理,得到该应用程序的类目结果。

具体的,可以将该目标融合向量导入到多层感知器中,通过该多层感知器对该目标融合向量进行分类处理,得到该应用程序属于每一类目的分类概率,进而可以获取概率值大于预设阈值的分类概率对应的目标类目,将该目标类目确定为该应用程序的类目结果。其中,该预设阈值可以为一个临界值,当该分类概率的概率值大于这个临界值时,可以将该分类概率对应的类目确定为目标类目,该预设阈值可以为0.5,也可以0.9等等,具体取值可以根据实际情况进行确定,在此不做限定,该目标类目为应用程序的服务内容匹配的服务类目。

例如,假设通过多层感知器对该目标融合向量进行分类处理之后,得到该应用程序属于服务类目一的分类概率为0.5,属于服务类目二的分类概率为0.7,属于服务类目三的分类概率为0.9,同时可以假设该预设阈值为0.6,因此,可以确定服务类目二以及服务类目三为目标类目,也即服务类目二以及服务类目三为该应用程序对应的服务类目结果。以此,用户可以通过本申请实施例提供的数据处理方法得到待审核应用程序的类目检测结果,并根据该检测结果对应用程序所匹配的服务类目进行修改或者补充,进而可以在修改之后继续进行应用程序的审核,这种提前进行类目合规性检测的方法,可以缩短应用程序的审核时间,提高审核效率。

由以上可知,本申请通过获取应用程序中每一页面的页面数据;对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;对接口统计数据进行特征转换,得到应用程序的接口统计向量;对目标文本向量和接口统计向量进行融合,得到目标融合向量;对目标融合向量进行分类处理,得到应用程序的类目结果。以此,通过获取应用程序的页面数据以及接口统计数据,进而融合页面数据对应的目标文本向量以及接口统计数据对应的接口统计向量,对融合结果进行分类得到应用程序匹配的类目,以此结合了应用程序的文本内容以及应用程序接口的统计特征来对应用程序匹配的类目进行更准确的预测,使得开发人员可以在提交审核之前获知影响应用程序通过审核的问题并进行修改,以此缩短了审核时间,提升了数据处理效率,提高了应用程序的审核效率。

根据上面实施例所描述的方法,以下将举例作进一步详细说明。

在本实施例中,将以该数据处理装置具体集成在计算机设备为例进行说明。其中,该数据处理方法以服务器为执行主体,并以该应用程序为小程序为例进行具体的描述。具体的,请参考图3,图3为本申请实施例提供的一种数据处理方法的混合模型的训练示意图。

为了更好的描述本申请实施例,请一并参阅图3和图4。如图4所示,图4为本申请实施例提供的数据处理方法的另一流程示意图。具体流程如下:

在步骤201中,服务器获取每一页面的页面数据样本以及对应的接口统计数据样本,将每一页面数据样本输入到预设深层子模型中,通过预设深层子模型抽取每一页面数据样本中的文本数据,对每一页面数据样本中的文本数据进行特征提取,得到每一页面的词嵌入向量。

其中,请继续参考图3,服务器可以获取每一小程序样本的每一页面的页面数据样本以及对应的接口统计数据样本,并将每一页面数据样本输入到预设深层子模型中,该预设深层子模型可以为预设模型(Albert模型),通过该预设深层子模型抽取每一页面数据样本中的文本数据,对每一页面数据样本中的文本数据进行特征提取,得到每一页面的词嵌入向量。其中,该词嵌入向量也可以为字向量,该页面数据样本可以包括小程序页面中的文本数据,该文本数据可以为每一页面中的文本、句子、词或者字等数据。一个小程序往往具有很多不同的页面,不同页面具有不同的内容,因此每一页面涉及的类目也会不相同。而类目只要涉及到,便需要进行申请。因此,需要获取小程序中每一页面的页面数据来进行后续的数据处理操作,以得到该小程序匹配的类目结果。

为了可以将小程序的检测结果进行实时反馈到用户,服务器可以针对小程序非编译非渲染后的结果进行检测,因此,该页面数据可以为小程序对应的非编译非渲染后的源代码中的每一页面的页面数据。

在步骤202中,服务器计算每一页面的词嵌入向量的注意力得分,并对该注意力得分做归一化处理,得到每一页面的词嵌入向量的权值,根据每一页面的词嵌入向量的权值计算每一页面的文本向量样本,对该每一页面的文本向量样本进行全连接处理,得到目标文本向量样本。

其中,服务器可以通过在预设深层子模型的隐藏层之后添加一个自注意力层,来计算每一页面的词嵌入向量的注意力得分,并对该注意力得分做归一化处理,得到每一页面的词嵌入向量的权值,进而可以根据每一页面的词嵌入向量的权值计算每一页面的文本向量样本,以此来考虑每一页面中不同的文本数据之间的紧密程度,以此提高同一页面中的文本数据之间的关联关系,提高小程序匹配的类目结果的准确性。

小程序可能会匹配多个服务类目,此外,也可能存在多个页面的服务内容共同匹配某一类目的情况,因此,需要综合考虑多个页面的内容来确定应用程序匹配的服务类目。为此,服务器可以对每一页面的文本向量样本进行全连接处理,得到该小程序样本的目标文本向量样本,该目标文本向量样本可以为小程序中每一页面的文本向量样本全连接后得到的向量,基于该目标文本向量样本可以综合考虑每一页面的关联关系。具体的,可以通过深度神经网络中的全连接层将每一页面的文本向量样本进行全连接处理,以融合提取到的每一页面的文本向量样本,得到小程序的目标文本向量样本。

在一实施例中,由于一个小程序的服务内容极大可能会匹配多个服务类目,因此,该混合模型可以为一个多标签的分类模型,为了适配多标签的训练任务,可以将损失函数设置为激活函数(Sigmoid函数)来对混合模型进行多标签的训练。

在步骤203中,服务器对该接口统计数据样本进行特征转换,得到接口统计向量样本,将该接口统计向量样本进行归一化处理,将归一化处理后的接口统计向量样本输入到预设浅层子模型中。

Wide&Deep模型是一种融合浅层子模型和深层子模型进行联合训练的框架,综合利用浅层子模型的记忆能力和深层子模型的泛化能力,实现单模型对分类预测的准确性和多样性的兼顾,因此,服务器可以将具有泛化能力的目标文本向量样本输入到预设深层子模型中,同时,可以对接口统计数据样本进行特征转换,得到接口统计向量样本,为了加快模型收敛的速度,服务器可以通过归一化层将接口统计向量样本进行归一化处理,并将归一化处理后的具有记忆能力的接口统计向量样本输入到预设浅层子模型中进行联合训练。

在步骤204中,服务器对样本输入后的预设深层子模型和预设浅层子模型的输出结果进行融合,得到目标融合向量样本,对该目标融合向量样本进行分类处理,得到每一类目的分类概率。

其中,该分类概率可以为将小程序样本中的每一页面的页面数据样本以及对应的接口统计数据样本输入到混合模型中从而输出得到的该小程序样本属于某一类目的概率,具体的,服务器可以基于混合模型将预设深层子模型中的目标文本向量样本以及预设浅层子模型中的统计特征向量样本进行拼接,并进行联合训练,进而根据预设深层子模型和预设浅层子模型的联合训练的输出结果进行融合,得到目标融合向量样本,从而可以对该目标融合向量样本进行分类处理,得到小程序样本匹配每一类目的分类概率。

在步骤205中,服务器计算每一类目的分类概率与对应的真实概率之间的差异,根据该差异对混合模型进行迭代训练,得到训练后的混合模型。

其中,服务器可以通过损失函数计算每一类目的分类概率与对应的真实概率之间的差异,根据该差异对混合模型进行迭代训练,得到训练后的混合模型,具体的,可以基于预设深层子模型和预设浅层子模型的联合训练得到的混合模型的输出结果向预设深层子模型和预设浅层子模型两部分进行梯度的反向传播(back propagating)来对模型进行迭代训练,也即服务器可以根据差异计算梯度值,将梯度值反向传播到Albert模型中进行迭代训练,当差异满足收敛条件时,也即损失函数收敛时,可以根据训练参数得到训练后的混合模型,也即得到训练后的深层子模型以及训练后的浅层子模型。

在步骤206中,服务器获取应用程序中每一页面的页面数据,将该页面数据输入到训练后的混合模型中的深层子模型,通过深层子模型对该页面数据中的文本数据进行特征提取,得到每一页面的文本向量。

其中,服务器可以获取小程序中每一页面的页面数据,并将该页面数据输入到训练后的混合模型中的深层子模型中,进而可以通过该训练后的混合模型中的深层子模型对该页面数据中的文本数据进行特征提取,得到每一页面的文本向量。

在步骤207中,服务器对每一页面的文本向量进行全连接处理,得到该应用程序的目标文本向量。

具体的,服务器可以通过深度神经网络中的全连接层将每一页面的文本向量进行全连接处理,以融合提取到的每一页面的文本向量,得到小程序所有页面的目标文本向量。

在步骤208中,服务器统计该应用程序中每一应用程序接口的出现次数,得到接口统计数据,对该接口统计数据进行特征转换,得到该应用程序的接口统计向量,将该接口统计向量输入至训练后的混合模型中的浅层子模型。

具体的,服务器可以统计该小程序中每一应用程序接口的出现次数,得到接口统计数据,该接口统计数据可以为小程序中每一应用程序接口的出现次数,例如,假设小程序中使用了应用程序接口a、应用程序接口b和应用程序接口c,同时可以假设应用程序接口a与服务类目一有关联关系,应用程序接口b与服务类目二有关联关系,应用程序接口c与服务类目三有关联关系,进而可以统计应用程序接口a、b、c在该小程序中的出现次数,根据该出现次数来计算小程序匹配每一服务类目的可能性,例如,可以假设应用程序接口a出现次数最多,则该小程序的类别属性包括服务类目一的可能性就最大。进而服务器可以对该接口统计数据进行特征转换,得到该应用程序的接口统计向量,将该接口统计向量输入至训练后的混合模型中的浅层子模型。

在步骤209中,服务器基于该深层子模型和浅层子模型的输出结果,得到目标融合向量,对该目标融合向量导入到多层感知器中,通过该多层感知器对该目标融合向量进行分类处理,得到该应用程序属于每一类目的分类概率。

具体的,服务器可以基于该深层子模型和浅层子模型的输出结果,得到目标融合向量,对该目标融合向量导入到多层感知器中,通过该多层感知器对该目标融合向量进行分类处理,来得到该小程序属于每一类目的分类概率。

在步骤210中,服务器获取概率值大于预设阈值的分类概率对应的目标类目,将该目标类目确定为该应用程序的类目结果。

其中,服务器可以获取概率值大于预设阈值的分类概率对应的目标类目,将该目标类目确定为该小程序的类目结果。其中,该预设阈值可以为一个临界值,当该分类概率的概率值大于这个临界值时,可以将该分类概率对应的类目确定为目标类目,该预设阈值可以为0.5,也可以0.9等等,具体取值可以根据实际情况进行确定,在此不做限定,该目标类目为小程序的服务内容匹配的服务类目。

例如,假设通过多层感知器对该目标融合向量进行分类处理之后,得到该小程序属于服务类目一的分类概率为0.5,属于服务类目二的分类概率为0.7,属于服务类目三的分类概率为0.9,同时可以假设该预设阈值为0.6,因此,可以确定服务类目二以及服务类目三为目标类目,也即服务类目二以及服务类目三为该小程序对应的服务类目结果。

由以上可知,本申请实施例通过服务器获取每一页面的页面数据样本以及对应的接口统计数据样本,将每一页面数据样本输入到训练后的混合模型中的深层子模型中,通过该深层子模型抽取每一页面数据样本中的文本数据,对每一页面数据样本中的文本数据进行特征提取,得到每一页面的词嵌入向量;服务器计算每一页面的词嵌入向量的注意力得分,并对该注意力得分做归一化处理,得到每一页面的词嵌入向量的权值,根据每一页面的词嵌入向量的权值计算每一页面的文本向量样本,对该每一页面的文本向量样本进行全连接处理,得到目标文本向量样本;服务器对该接口统计数据样本进行特征转换,得到接口统计向量样本,将该接口统计向量样本进行归一化处理,将归一化处理后的接口统计向量样本输入到预设浅层子模型中;服务器对样本输入后的预设深层子模型和预设浅层子模型的输出结果进行融合,得到目标融合向量样本,对该目标融合向量样本进行分类处理,得到每一类目的分类概率;服务器计算每一类目的分类概率与对应的真实概率之间的差异,根据该差异对混合模型进行迭代训练,得到训练后的混合模型;服务器获取应用程序中每一页面的页面数据,将该页面数据输入到训练后的混合模型中的深层子模型,通过该深层子模型对该页面数据中的文本数据进行特征提取,得到每一页面的文本向量;服务器对每一页面的文本向量进行全连接处理,得到该应用程序的目标文本向量;服务器统计该应用程序中每一应用程序接口的出现次数,得到接口统计数据,对该接口统计数据进行特征转换,得到该应用程序的接口统计向量,将该接口统计向量输入至训练后的混合模型中的浅层子模型;服务器基于该深层子模型和浅层子模型的输出结果,得到目标融合向量,对该目标融合向量导入到多层感知器中,通过该多层感知器对该目标融合向量进行分类处理,得到该应用程序属于每一类目的分类概率;服务器获取概率值大于预设阈值的分类概率对应的目标类目,将该目标类目确定为该应用程序的类目结果。以此,通过获取应用程序的页面数据以及接口统计数据,进而通过混合模型融合页面数据对应的目标文本向量以及接口统计数据对应的接口统计向量,对融合结果进行分类得到应用程序匹配的类目,以此结合了应用程序的文本内容以及应用程序接口的统计特征来对应用程序匹配的类目进行更准确的预测,使得开发人员可以在提交审核之前获知影响小程序通过审核的问题并进行修改,以此缩短了审核时间,提升了数据处理效率,提高了应用程序的审核效率。

为了更好地实施以上方法,本发明实施例还提供一种数据处理装置,该数据处理装置可以集成在计算机设备中,该计算机设备可以为服务器。

例如,如图5所示,为本申请实施例提供的数据处理装置的结构示意图,该数据处理装置可以包括获取单元301、提取单元302、统计单元303、转换单元304、融合单元305和分类单元306,如下:

获取单元301,用于获取应用程序中每一页面的页面数据;

提取单元302,用于对每一页面数据进行特征提取,得到该应用程序的目标文本向量;

统计单元303,用于统计该应用程序中每一应用程序接口的出现次数,得到接口统计数据;

转换单元304,用于对该接口统计数据进行特征转换,得到该应用程序的接口统计向量;

融合单元305,用于对该目标文本向量和该接口统计向量进行融合,得到目标融合向量;

分类单元306,用于对该目标融合向量进行分类处理,得到该应用程序的类目结果。

在一实施例中,该数据处理装置,还包括:

样本获取单元,用于获取每一页面的页面数据样本以及对应的接口统计数据样本;

样本输入单元,用于将每一页面数据样本以及对应的接口统计数据样本输入到混合模型中,得到每一类目的分类概率;

样本计算单元,用于计算每一类目的分类概率与对应的真实概率之间的差异;

样本训练单元,用于根据该差异对混合模型进行迭代训练,得到训练后的混合模型。

在一实施例中,该样本输入单元,包括:

样本输入子单元,用于将每一页面数据样本输入到预设深层子模型中,将该接口统计数据样本输入到预设浅层子模型中;

样本融合子单元,用于对样本输入后的预设深层子模型和预设浅层子模型的输出结果进行融合,得到目标融合向量样本;

样本分类子单元,用于对该目标融合向量样本进行分类处理,得到每一类目的分类概率。

在一实施例中,该数据处理装置,还包括:

抽取模块,用于通过预设深层子模型抽取每一页面数据样本中的文本数据,并对该文本数据进行特征提取,得到每一页面的文本向量样本;

全连接模块,用于对该每一页面的文本向量样本进行全连接处理,得到目标文本向量样本;

在一实施例中,该抽取模块,用于:

对每一页面数据样本中的文本数据进行特征提取,得到每一页面的词嵌入向量;

计算每一页面的词嵌入向量的注意力得分,并对该注意力得分做归一化处理,得到每一页面的词嵌入向量的权值;

根据每一页面的词嵌入向量的权值计算每一页面的文本向量样本。

在一实施例中,该样本输入子单元,用于:

对该接口统计数据样本进行特征转换,得到接口统计向量样本;

将该接口统计向量样本进行归一化处理,将归一化处理后的接口统计向量样本输入到预设浅层子模型中。

在一实施例中,该融合单元305,包括:

第一输入子单元,用于将该目标文本向量输入至训练后的混合模型中的深层子模型;

第二输入子单元,用于将该接口统计向量输入至训练后的混合模型中的浅层子模型;

融合子单元,用于基于该深层子模型和浅层子模型的输出结果,得到目标融合向量。

在一实施例中,该提取单元302,包括:

第三输入子单元,用于将该页面数据输入到训练后的混合模型中的深层子模型;

提取子单元,用于通过该深层子模型对该页面数据中的文本数据进行特征提取,得到每一页面的文本向量;

全连接子单元,用于对每一页面的文本向量进行全连接处理,得到该应用程序的目标文本向量。

在一实施例中,该分类单元306,包括:

导入子单元,用于对该目标融合向量导入到多层感知器中,通过该多层感知器对该目标融合向量进行分类处理,得到该应用程序属于每一类目的分类概率;

确定子单元,用于获取概率值大于预设阈值的分类概率对应的目标类目,将该目标类目确定为该应用程序的类目结果。

具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。

由以上可知,本申请实施例通过获取单元301获取应用程序中每一页面的页面数据;提取单元302对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计单元303统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;转换单元304对接口统计数据进行特征转换,得到应用程序的接口统计向量;融合单元305对目标文本向量和接口统计向量进行融合,得到目标融合向量;分类单元306对目标融合向量进行分类处理,得到应用程序的类目结果。以此,通过获取应用程序的页面数据以及接口统计数据,进而融合页面数据对应的目标文本向量以及接口统计数据对应的接口统计向量,对融合结果进行分类得到应用程序匹配的类目,以此结合了应用程序的文本内容以及应用程序接口的统计特征来对应用程序匹配的类目进行更准确的预测,使得开发人员可以在提交审核之前获知影响小程序通过审核的问题并进行修改,以此缩短了审核时间,提升了数据处理效率,提高了应用程序的审核效率。

本申请实施例还提供一种计算机设备,如图6所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是服务器,具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:

获取应用程序中每一页面的页面数据;对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;对接口统计数据进行特征转换,得到应用程序的接口统计向量;对目标文本向量和接口统计向量进行融合,得到目标融合向量;对目标融合向量进行分类处理,得到应用程序的类目结果。

以上各个操作的具体实施可参见前面的实施例,在此不作赘述。应当说明的是,本申请实施例提供的计算机设备与上文实施例中的适用于数据处理方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种数据处理方法中的步骤。例如,该指令可以执行如下步骤:

获取应用程序中每一页面的页面数据;对每一页面数据进行特征提取,得到应用程序的目标文本向量;统计应用程序中每一应用程序接口的出现次数,得到接口统计数据;对接口统计数据进行特征转换,得到应用程序的接口统计向量;对目标文本向量和接口统计向量进行融合,得到目标融合向量;对目标融合向量进行分类处理,得到应用程序的类目结果。

其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种数据处理方法、装置、计算机可读存储介质和计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

技术分类

06120115627168