掌桥专利:专业的专利平台
掌桥专利
首页

一种关键词的确定方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 10:05:17


一种关键词的确定方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机信息技术领域,具体而言,涉及一种关键词的确定方法、装置、电子设备及存储介质。

背景技术

实际中,在进行互联网线上销售活动时,为了提高产品的辨识度以及购买率,通常会使用关键词标记待售产品,比如,将某品牌洗衣液标记为好爸爸的选择。

现阶段,通常采用如下方式确定用于标记待售产品的关键词:记录在线上或者线下已进行的销售活动中使用过的每个关键词的投放效果,在开展新的销售活动时,查找与新的销售活动相类似的历史销售活动,将历史销售活动的关键词作为新的销售活动的关键词。

但是,采用该种关键词的确定方式,选取出的关键词只能是历史上投放过的关键词,对于未在历史销售活动中使用过的新的关键词,无法预测新的关键词的投放效果,该种关键词的确定方式灵活度低,准确度低。

发明内容

有鉴于此,本申请实施例的目的在于提供一种关键词的确定方法、装置、电子设备及存储介质,采用编码器和投放效果预测模型,对每个目标分词的投放效果进行预测,基于预测得到的投放效果确定用于标记待售产品的关键词,提高了确定关键词的灵活度和准确性。

第一方面,本申请实施例提供了一种关键词的确定方法,所述方法包括:

获取目标分词对应的第一词向量;

将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量;

将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值;

将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。

在一种可能的实施方式中,通过如下方式对所述编码器进行训练:

获取多个第一样本分词,以及所述多个第一样本分词中每个第一样本分词对应的第三词向量;

针对每个第一样本分词,将该第一样本分词对应的第三词向量输入至初始编码器中,获取所述初始编码器输出的该第一样本分词的第四词向量;

将该第一样本分词的第四词向量输入至与所述初始编码器相匹配的初始解码器中,获取所述初始解码器输出的该第一样本分词的第五词向量;

根据该第一样本分词分别对应的第三词向量和第五词向量,确定该第一样本分词对应的第一损失值,若存在任意一个第一样本分词对应的第一损失值大于第一预设阈值,则继续对所述初始编码器和所述初始解码器进行训练,若每个第一样本分词对应的第一损失值均小于等于所述第一预设阈值,则将当前的初始编码器确定为所述预先训练好的编码器。

在一种可能的实施方式中,通过如下方式对所述投放效果预测模型进行训练:

获取多个第二样本分词,以及所述多个第二样本分词中每个第二样本分词对应的第六词向量和第一投放值;

针对每个第二样本分词,将该第二样本分词对应的第六词向量输入至所述预先训练好的编码器中,获取所述编码器输出的该第二样本分词的第七词向量;

将该第二样本分词的第七词向量输入初始投放效果预测模型中,获取所述初始投放效果预测模型输出的该第二样本分词的第二投放值;

根据该第二样本分词分别对应的第一投放值和第二投放值,确定该第二样本分词对应的第二损失值,若存在任意一个第二样本分词对应的第二损失值大于第二预设阈值,则继续对所述初始投放效果预测模型进行训练,若每个第二样本分词对应的第二损失值均小于等于所述第二预设阈值,则将当前的初始投放效果预测模型确定为所述预先训练好的投放效果预测模型。

在一种可能的实施方式中,所述获取目标分词对应的第一词向量,包括:

对所述目标分词进行分词处理,得到所述目标分词的多个词根;

根据分词与向量的对应关系,查找所述目标分词的每个词根对应的词根向量;

根据所述目标分词的每个词根对应的词根向量,确定所述目标分词对应的第一词向量。

在一种可能的实施方式中,所述方法还包括:

获取所述目标分词所在的投放环境的环境特征向量;

根据所述目标分词分别对应的第二词向量和环境特征向量,确定所述目标分词的第八词向量;

将所述第八词向量输入至所述投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第二目标投放值。

在一种可能的实施方式中,所述编码器对应有多层神经网络,所述将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量,包括:

根据所述多层神经网络中每层神经网络对应的变换矩阵和非线性函数,以及所述目标分词的第一词向量,确定所述目标分词对应的平均值向量和方差向量;

基于所述目标分词对应的平均值向量和方差向量,构建所述目标分词对应的高斯分布函数,并确定所述目标分词的第二词向量。

在一种可能的实施方式中,所述方法还包括:

根据多个目标分词中的每个目标分词对应的第一目标投放值,从所述多个目标分词中选取关键词。

第二方面,本申请实施例提供了一种关键词的确定装置,所述装置包括:

第一获取模块,用于获取目标分词对应的第一词向量;

第二获取模块,用于将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量;

第三获取模块,用于将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值;

发送模块,用于将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。

第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面任一项所述的关键词的确定方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面任一项所述的关键词的确定方法的步骤。

本申请实施例提供的一种关键词的确定方法、装置、电子设备及存储介质,其中,该关键词的确定方法包括:获取目标分词对应的第一词向量;将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量;将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值;将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。本申请实施例基于预测得到的投放效果确定用于标记待售产品的关键词,提高了确定关键词的灵活度和准确性。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种关键词的确定方法的流程图;

图2示出了本申请实施例提供的另一种关键词的确定方法的流程图;

图3示出了本申请实施例提供的另一种关键词的确定方法的流程图;

图4示出了本申请实施例提供的另一种关键词的确定方法的流程图;

图5示出了本申请实施例提供的另一种关键词的确定方法的流程图;

图6示出了本申请实施例提供的另一种关键词的确定方法的流程图;

图7示出了本申请实施例提供的一种关键词的确定装置的结构示意图;

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

现阶段,通常采用如下方式确定用于标记待售产品的关键词:记录在线上或者线下已进行的销售活动中使用过的每个关键词的投放效果,在开展新的销售活动时,查找与新的销售活动相类似的历史销售活动,将历史销售活动的关键词作为新的销售活动的关键词。

但是,采用该种关键词的确定方式,选取出的关键词只能是历史上投放过的关键词,对于未在历史销售活动中使用过的新的关键词,无法预测新的关键词的投放效果,该种关键词的确定方式灵活度低,准确度低。

基于上述问题,本申请实施例提供的一种关键词的确定方法、装置、电子设备及存储介质,其中,该关键词的确定方法包括:获取目标分词对应的第一词向量;将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量;将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值;将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。本申请实施例基于预测得到的投放效果确定用于标记待售产品的关键词,提高了确定关键词的灵活度和准确性。

针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解,首先对本申请实施例所公开的一种关键词的确定方法进行详细介绍。

参见图1所示,图1为本申请实施例提供的一种关键词的确定方法的流程图,该方法包括以下步骤:

S101、获取目标分词对应的第一词向量。

实际中,在进行互联网线上销售活动时,通常会使用关键词对待售产品进行标记,以提高待售产品的关注度和购买率,比如,将某品牌洗衣液标记为好爸爸的选择,这里,目标分词为候选关键词,通过预测每个目标分词在待举办的销售活动中的销售指标,比如,点击量、展现量,从多个目标分词中选取最终用于标记待售产品的关键词,其中,使用投放值表征销售指标的好坏,投放值高,则销售指标好,投放值低,则销售指标差。

目标分词是一种非结构化的表示,为了便于对目标分词进行相关处理,需要将非结构化的目标分词转换为结构化的第一词向量,第一词向量用于表征目标分词的语义特征。

S102、将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量。

该步骤中,使用编码器对目标分词对应的第一词向量的语义特征进行深度挖掘,同时降低第一词向量的维度,以提高目标分词在后续的处理过程中的处理精度和处理速度。

在使用与目标分词相关联的第一样本分词对初始编码器进行训练完成后,得到预先训练好的编码器,将目标分词对应的第一词向量输入到编码器中,编码器输出目标分词对应的第二词向量,其中,第二词向量的维度低于第一词向量的维度,第二词向量的维度是编码器中预设的维度,将不同的目标分词输入至同一编码器中,该编码器输出的每个目标分词的第二词向量的维度是相同的。

具体的,参见图2所示,图2为本申请实施例提供的另一种关键词的确定方法的流程图,所述编码器对应有多层神经网络,在步骤102中,将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量,包括:

S1021、根据所述多层神经网络中每层神经网络对应的变换矩阵和非线性函数,以及所述目标分词的第一词向量,确定所述目标分词对应的平均值向量和方差向量。

编码器对应有多层神经网络,每层神经网络均对应有变换矩阵和非线性函数,神经网络的层数根据用户的实际需求进行设置,这里,以两层神经网络为例,对编码器的处理过程进行说明,其中,第一层神经网络对应有第一变换矩阵和第一非线性函数,第二层神经网络对应有第二变换矩阵和第二非线性函数。将目标分词的第一词向量输入至编码器中,即将第一词向量输入至第一层神经网络,计算第一词向量与第一变换矩阵的乘积,得到第一中间词向量,这里,第一变换矩阵的列数小于等于第一变换矩阵的行数,以使第一中间词向量的列数小于等于第一词向量的列数,再使用第一非线性函数对第一中间词向量进行处理,以实现对第一中间词向量的语义特征的深度挖掘,得到第二中间词向量。

并将第二中间词向量输入至第二层神经网络,计算第二中间词向量与第二变换矩阵的乘积,得到第三中间词向量,这里,第二变换矩阵的列数小于等于第二变换矩阵的行数,以使第三中间词向量的列数小于等于第二中间词向量的列数,再使用第二非线性函数对第三中间词向量进行处理,以实现对第三中间词向量的语义特征的深度挖掘,得到第四中间词向量。

需要说明的是,第二变换矩阵的列数为偶数,即第四中间词向量的列数为偶数,将包括N个元素的第四中间词向量的第1个~第N/2个元素组成的向量作为目标分词的平均值向量,将第N/2+1个~第N个元素组成的向量作为目标分词的方差向量。

S1022、基于所述目标分词对应的平均值向量和方差向量,构建所述目标分词对应的高斯分布函数,并确定所述目标分词的第二词向量。

基于所述目标分词对应的平均值向量和方差向量,以及编码器中预存的初始高斯分布函数,构建目标分词对应的高斯分布函数,这里,高斯分布函数即为概率分布函数,在确定目标分词对应的高斯分布函数之后,抽样得到目标分词对应的第二词向量,编码器将目标分词的第二词向量输出。

S103、将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值。

该步骤中,第一目标投放值用于表征目标分词在待举办的销售活动(投放环境)中的销售指标,比如,点击量、展现量等,在使用与目标分词相关联的第二样本分词对初始投放效果预测模型进行训练完成后,得到预先训练好的投放效果预测模型,将目标分词对应的第二词向量输入至投放效果预测模型中,将投放效果预测模型输出的投放值,确定为目标分词对应的第一目标投放值。

可选的,投放效果预测模型为DNN模型,即回归模型。

S104、将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。

该步骤中,预设条件为第一目标投放值大于预设阈值,在确定目标分词的第一目标投放值后,将第一目标投放值与预设阈值进行比较,若第一目标投放值大于预设阈值,确定第一目标投放值符合预设条件,将目标分词确定为关键词。

作为另一种可选的实施方式,所述关键词的确定方法还包括:根据多个目标分词中的每个目标分词对应的第一目标投放值,从所述多个目标分词中选取关键词。

在确定每个目标分词的第一目标投放值后,对每个目标分词的第一目标投放值进行排序,将排在前几位的目标分词确定为关键词,比如,将排在第一位的目标分词确定为关键词;或者,将排在前三位的目标分词确定为关键词,选取多个关键词,供对应的用户进行选择。

在确定了关键词之后,将关键词发送给对应的用户终端,比如,出售待售产品的商家的用户终端,或者,生产待售产品的商家的用户终端,或者,为待售产品提供出售平台的第三方平台的用户终端。

本申请实施例提供的关键词的确定方法,采用编码器和投放效果预测模型,对每个目标分词的投放效果进行预测,基于预测得到的投放效果确定用于标记待售产品的关键词,提高了确定关键词的灵活度和准确性。

进一步的,参见图3所示,图3为本申请实施例提供的另一种关键词的确定方法的流程图,通过如下方式对所述编码器进行训练:

S301、获取多个第一样本分词,以及所述多个第一样本分词中每个第一样本分词对应的第三词向量。

该步骤中,考虑到目标分词用于在销售活动中标记待售产品,第一样本分词使用阿里历史推荐的热词榜数据,其词量要远远超过投放过的关键词数量,使用大量的第一样本分词对编码器进行训练,能够提高编码器的准确度。

在从阿里历史推荐的热词榜数据中获取多个第一样本分词后,将非结构化的第一样本分词转换为结构化的第三词向量,即确定多个第一样本分词中每个第一样本分词对应的第三词向量。

S302、针对每个第一样本分词,将该第一样本分词对应的第三词向量输入至初始编码器中,获取所述初始编码器输出的该第一样本分词的第四词向量。

该步骤中,初始编码器为未训练的编码器,或者,未训练完成的编码器,将多个第一样本分词中的每个第一样本分词的第三词向量,逐个输入至初始编码器中,将初始编码器输出的向量,确定为第一样本分词的第四词向量。

S303、将该第一样本分词的第四词向量输入至与所述初始编码器相匹配的初始解码器中,获取所述初始解码器输出的该第一样本分词的第五词向量。

该步骤中,编码器对应有与之相匹配的解码器,编码器用于对向量进行降维处理和特征挖掘,解码器用于将编码器编码得到的向量恢复至原来的状态,在训练编码器的时候,结合解码器实现编码器和解码器的共同训练。

获取与初始编码器相对应的初始解码器,这里,初始解码器为未训练的解码器,或者,未训练完成的解码器,共同对初始编码器和初始解码器进行训练,将初始编码器输出的第一样本分词的第四词向量输入至初始解码器中,将初始解码器输出的向量,确定为第一样本分词的第五词向量,即对编码器编码得到的向量恢复后的向量。

S304、根据该第一样本分词分别对应的第三词向量和第五词向量,确定该第一样本分词对应的第一损失值,若存在任意一个第一样本分词对应的第一损失值大于第一预设阈值,则继续对所述初始编码器和所述初始解码器进行训练,若每个第一样本分词对应的第一损失值均小于等于所述第一预设阈值,则将当前的初始编码器确定为所述预先训练好的编码器。

该步骤中,若初始编码器和初始解码器训练完成,输入初始编码器的向量与初始解码器输出的向量相一致,因此,根据输入初始编码器的第三词向量,以及初始解码器输出的第五词向量,确定模型在训练当前的第一样本分词时的第一损失值,若存在任意一个第一样本分词对应的第一损失值大于第一预设阈值,说明该第一样本分词的第三词向量和第五词向量不一致,或者,差距较大,此时的初始编码器和/或初始解码器不准确,需要继续对这两个模型进行训练,若每个第一样本分词对应的第一损失值均小于等于第一预设阈值,说明每个第一样本分词的第三词向量和第五词向量相一致,或者,差距较小,此时的初始编码器和初始解码器是准确的,将当前的初始编码器确定为预先训练好的编码器。

进一步的,参见图4所示,图4为本申请实施例提供的另一种关键词的确定方法的流程图,通过如下方式对所述投放效果预测模型进行训练:

S401、获取多个第二样本分词,以及所述多个第二样本分词中每个第二样本分词对应的第六词向量和第一投放值。

该步骤中,考虑到目标分词用于在销售活动中标记待售产品,第二样本分词为投放过的关键词,第二样本分词的第一投放值,为该第二样本分词在已举办的销售活动中的真实的销售指标对应的投放值,并将非结构化的第二样本分词转换为结构化的第六词向量,即确定多个第二样本分词中每个第二样本分词对应的第六词向量。

S402、针对每个第二样本分词,将该第二样本分词对应的第六词向量输入至所述预先训练好的编码器中,获取所述编码器输出的该第二样本分词的第七词向量。

该步骤中,在编码器训练完成后,再对投放效果预测模型进行训练,使用预先训练好的编码器,对每个第二样本分词的第六词向量进行降维处理,并对其特征进行深度挖掘,得到每个第二样本分词的第七词向量。

S403、将该第二样本分词的第七词向量输入初始投放效果预测模型中,获取所述初始投放效果预测模型输出的该第二样本分词的第二投放值。

该步骤中,初始投放效果预测模型为未训练的投放效果预测模型,或者,未完成训练的投放效果预测模型,将每个第二样本分词的第七词向量逐个输入至初始投放效果预测模型中,将初始投放效果预测模型输出的投放值,确定为第二样本分词的第二投放值。

S404、根据该第二样本分词分别对应的第一投放值和第二投放值,确定该第二样本分词对应的第二损失值,若存在任意一个第二样本分词对应的第二损失值大于第二预设阈值,则继续对所述初始投放效果预测模型进行训练,若每个第二样本分词对应的第二损失值均小于等于所述第二预设阈值,则将当前的初始投放效果预测模型确定为所述预先训练好的投放效果预测模型。

该步骤中,第一投放值为第二样本分词在已举办的销售活动中的真实的投放值,第二投放值为初始投放效果预测模型预测出的投放值,根据第一投放值与第二投放值之间的差异,确定初始投放效果预测模型预测每个第二样本分词的第二投放值时的第二损失值,若存在任意一个第二样本分词对应的第二损失值大于第二预设阈值,说明该第二样本分词的第一投放值与第二投放值不一致,或者,差距较大,此时的初始投放效果预测模型不准确,需要继续对模型进行训练,若每个第二样本分词对应的第二损失值均小于等于第二预设阈值,说明每个第二样本分词的第一投放值与第二投放值相一致,或者,差距较小,此时的初始投放效果预测模型是准确的,将当前的初始投放效果预测模型确定为预先训练好的投放效果预测模型。

进一步的,参见图5所示,图5为本申请实施例提供的另一种关键词的确定方法的流程图,所述获取目标分词对应的第一词向量,包括:

S501、对所述目标分词进行分词处理,得到所述目标分词的多个词根。

该步骤中,考虑到目标分词是历史上未投放过的分词,无法获取目标分词的向量表示,首先对目标分词进行分词处理,得到目标分词的多个词根,比如,目标分词“牛奶沐浴露”的词根为“牛奶”和“沐浴露”。

S502、根据分词与向量的对应关系,查找所述目标分词的每个词根对应的词根向量。

该步骤中,在获取每个目标分词的多个词根之后,根据预设的分词与向量的对应关系,确定目标分词的每个词根的词根向量。

可选的,使用word2vec等语言模型,或者,GCN模型(图卷积神经网络)获取每个词根的词根向量,具体的,将词根输入至对应的模型中,获取模型输出的该词根的词根向量。

S503、根据所述目标分词的每个词根对应的词根向量,确定所述目标分词对应的第一词向量。

该步骤中,对目标分词的每个词根的词根向量进行拼接,得到目标分词的第一词向量,比如,“牛奶沐浴露”中的词根“牛奶”和“沐浴露”对应的词根向量分别为(1、2、3)和(4、5、6),“牛奶沐浴露”的第一词向量为(1、2、3、4、5、6)。

相应的,通过如下方式获取每个第一样本分词对应的第三词向量:对所述第一样本分词进行分词处理,得到所述第一样本分词的多个词根;根据分词与向量的对应关系,查找所述第一样本分词的每个词根对应的词根向量;根据所述第一样本分词的每个词根对应的词根向量,确定所述第一样本分词对应的第三词向量。

通过如下方式获取每个第二样本分词对应的第六词向量:对所述第二样本分词进行分词处理,得到所述第二样本分词的多个词根;根据分词与向量的对应关系,查找所述第二样本分词的每个词根对应的词根向量;根据所述第二样本分词的每个词根对应的词根向量,确定所述第二样本分词对应的第六词向量。

进一步的,参见图6所示,图6为本申请实施例提供的另一种关键词的确定方法的流程图,所述方法还包括:

S601、获取所述目标分词所在的投放环境的环境特征向量。

该步骤中,投放环境为待举办的销售活动,投放环境的环境特征包括销售活动的活动类型,比如,大促、日常、聚划算、双十一等,以及销售活动的品牌、品类等特征。根据每种环境特征与向量的对应关系,确定目标分词所在的投放环境的环境特征向量。

S602、根据所述目标分词分别对应的第二词向量和环境特征向量,确定所述目标分词的第八词向量。

该步骤中,将目标分词的第二词向量,与目标分词所在的投放环境的环境特征向量进行拼接,得到目标分词的第八词向量。

这里,将目标分词所在的投放环境的环境特征引入目标分词的第八词向量,即基于目标分词的语义特征和目标分词所在的投放环境的环境特征,确定目标分词的词向量,进一步丰富了目标分词的第八词向量涵盖的特征。

S603、将所述第八词向量输入至所述投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第二目标投放值。

该步骤中,将目标分词对应的第八词向量输入至投放效果预测模型中,将投放效果预测模型输出的投放值,确定为目标分词对应的第二目标投放值,并基于第二目标投放值,确定目标分词中的关键词,将关键词发送给对应的用户终端。

基于同一发明构思,本申请实施例中还提供了与关键词的确定方法对应的关键词的确定装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述关键词的确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参见图7所示,图7为本申请一实施例提供的一种关键词的确定装置的结构示意图,该装置包括:

第一获取模块701,用于获取目标分词对应的第一词向量;

第二获取模块702,用于将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量;其中,所述第二词向量的维度低于所述第一词向量;

第三获取模块703,用于将所述第二词向量输入至预先训练好的投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第一目标投放值;

发送模块704,用于将所述第一目标投放值符合预设条件的目标分词确定为关键词,将所述关键词发送给对应的用户终端。

在一种可能的实施方式中,所述装置还包括:

第四获取模块,用于获取多个第一样本分词,以及所述多个第一样本分词中每个第一样本分词对应的第三词向量;

第五获取模块,用于针对每个第一样本分词,将该第一样本分词对应的第三词向量输入至初始编码器中,获取所述初始编码器输出的该第一样本分词的第四词向量;

第六获取模块,用于将该第一样本分词的第四词向量输入至与所述初始编码器相匹配的初始解码器中,获取所述初始解码器输出的该第一样本分词的第五词向量;

第一确定模块,用于根据该第一样本分词分别对应的第三词向量和第五词向量,确定该第一样本分词对应的第一损失值,若存在任意一个第一样本分词对应的第一损失值大于第一预设阈值,则继续对所述初始编码器和所述初始解码器进行训练,若每个第一样本分词对应的第一损失值均小于等于所述第一预设阈值,则将当前的初始编码器确定为所述预先训练好的编码器。

在一种可能的实施方式中,所述装置还包括:

第七获取模块,用于获取多个第二样本分词,以及所述多个第二样本分词中每个第二样本分词对应的第六词向量和第一投放值;

第八获取模块,用于针对每个第二样本分词,将该第二样本分词对应的第六词向量输入至所述预先训练好的编码器中,获取所述编码器输出的该第二样本分词的第七词向量;

第九获取模块,用于将该第二样本分词的第七词向量输入初始投放效果预测模型中,获取所述初始投放效果预测模型输出的该第二样本分词的第二投放值;

第二确定模块,用于根据该第二样本分词分别对应的第一投放值和第二投放值,确定该第二样本分词对应的第二损失值,若存在任意一个第二样本分词对应的第二损失值大于第二预设阈值,则继续对所述初始投放效果预测模型进行训练,若每个第二样本分词对应的第二损失值均小于等于所述第二预设阈值,则将当前的初始投放效果预测模型确定为所述预先训练好的投放效果预测模型。

在一种可能的实施方式中,所述第一获取模块701,在获取目标分词对应的第一词向量时,包括:

对所述目标分词进行分词处理,得到所述目标分词的多个词根;

根据分词与向量的对应关系,查找所述目标分词的每个词根对应的词根向量;

根据所述目标分词的每个词根对应的词根向量,确定所述目标分词对应的第一词向量。

在一种可能的实施方式中,所述装置还包括:

第十获取模块,用于获取所述目标分词所在的投放环境的环境特征向量;

第三确定模块,用于根据所述目标分词分别对应的第二词向量和环境特征向量,确定所述目标分词的第八词向量;

第十一获取模块,用于将所述第八词向量输入至所述投放效果预测模型中,获取所述投放效果预测模型输出的所述目标分词对应的第二目标投放值。

在一种可能的实施方式中,所述编码器对应有多层神经网络,所述第二获取模块702,在将所述第一词向量输入至预先训练好的编码器中,获取所述编码器输出的所述目标分词的第二词向量时,包括:

根据所述多层神经网络中每层神经网络对应的变换矩阵和非线性函数,以及所述目标分词的第一词向量,确定所述目标分词对应的平均值向量和方差向量;

基于所述目标分词对应的平均值向量和方差向量,构建所述目标分词对应的高斯分布函数,并确定所述目标分词的第二词向量。

在一种可能的实施方式中,所述装置还包括:

选取模块,用于根据多个目标分词中的每个目标分词对应的第一目标投放值,从所述多个目标分词中选取关键词。

本申请实施例提供的关键词的确定装置,采用编码器和投放效果预测模型,对每个目标分词的投放效果进行预测,基于预测得到的投放效果确定用于标记待售产品的关键词,提高了确定关键词的灵活度和准确性。

参见图8所示,图8为本申请实施例提供的一种电子设备的结构示意图,该电子设备800包括:处理器801、存储器802和总线803,所述存储器802存储有所述处理器801可执行的机器可读指令,当电子设备运行时,所述处理器801与所述存储器802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行如上述关键词的确定方法的步骤。

具体地,上述存储器802和处理器801能够为通用的存储器和处理器,这里不做具体限定,当处理器801运行存储器802存储的计算机程序时,能够执行上述关键词的确定方法。

对应于上述关键词的确定方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述关键词的确定方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种关键词的确定方法、装置、电子设备和存储介质
  • 一种关键词的确定方法、装置、电子设备和存储介质
技术分类

06120112409631