掌桥专利:专业的专利平台
掌桥专利
首页

一种文案生成方法、装置、设备及存储介质

文献发布时间:2023-06-19 19:30:30


一种文案生成方法、装置、设备及存储介质

技术领域

本公开涉及深度学习技术领域,尤其涉及一种文案生成方法、装置、设备及存储介质。

背景技术

近年来,通过网络直播展示商品、出售商品的现象越来越普遍。用户在直播的过程中,针对商品展示的直播文案毫无疑问会影响观看直播的人员对商品特性的认知。因此,如何为商品配置适合的直播文案至关重要。

目前主要通过人工编写直播文案或者通过文案模板生成直播文案。然而,由于商品种类繁多,为每种商品人工编写直播文案会消耗大量的时间和人工资源。而通过文案模板生成的直播文案千篇一律缺乏新颖性,使用这种缺乏新颖性的直播文案也会影响观看直播的人员对商品特性的认知。

因此,如何在减少人工资源消耗的同时提高生成文案的新颖性成为了一个亟待解决的问题。

发明内容

本公开提供了一种文案生成方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。

根据本公开的第一方面,提供了一种文案生成方法,所述方法包括:

获取目标商品的标题信息、属性信息和商品图片;

基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征;

提取所述商品图片的图片特征;

对所述图片特征、所述描述文本特征和所述目标商品对应的提示模板特征进行拼接,得到目标拼接特征;

将所述目标拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的描述文案;其中,所述文案生成模型为预先根据多个样本商品对应的拼接特征和标准文案,对待训练神经网络进行训练得到的。

在一可实施方式中,在所述将所述拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的目标文案之后,所述方法还包括:

从所述描述文案中提取出表征所述目标商品的属性信息的预测属性文本;

将所述预测属性文本与所述属性信息进行对比,确定所述描述文案中是否存在缺失的属性文本和/或多余的预测属性文本和/或错误的预测属性文本;

如果所述描述文案中存在缺失的属性文本,从所述属性信息中获取该缺失的属性文本并添加到所述描述文案中,和/或,如果所述描述文案中存在多余的预测属性文本,剔除所述描述文案中该多余的预测属性文本,和/或,如果所述描述文案中存在错误的预测属性文本,用所述属性信息中与该错误的属性文本相对应的属性信息替换该错误的属性文本,得到修改后的描述文案。

在一可实施方式中,所述从所述描述文案中提取出表征所述目标商品的属性信息的预测属性文本,包括:

将所述描述文案输入预先训练的属性提取模型中,得到表征所述目标商品的属性信息的预测属性文本。

在一可实施方式中,所述文案生成模型的训练方式,包括:

将样本商品对应的拼接特征输入待训练的深度学习模型,得到预测文案;其中,所述拼接特征为所述样本商品的描述文本特征、所述样本商品的商品图片的图片特征和提示模板特征所拼接得到的特征;

基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值;

基于所述交叉熵损失函数值调整待训练的深度学习模型的参数;

当模型迭代次数达到预设迭代次数时,结束训练,并将保存的深度学习模型中对应的交叉熵损失函数的值最小的模型确定为所述文案生成模型;

当模型迭代次数未达到所述预设迭代次数时,返回执行所述将样本商品对应的拼接特征输入待训练的深度学习模型的步骤。

在一可实施方式中,所述基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值,包括:

采用如下公式,基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值:

其中,L表示所述预测文案中单个字符位置对应的交叉熵损失函数值,p(x

在一可实施方式中,所述基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征,包括:

根据预设标题模板处理所述标题信息,得到目标商品标题文本;

基于预设属性模板,将所述属性信息转化为非结构化文本,得到目标商品属性文本;

将所述目标商品标题文本和所述目标商品属性文本拼接后得到的目标拼接文本,输入预先训练的文本特征提取模块,得到针对所述目标商品的描述文本特征。

在一可实施方式中,所述提取所述商品图片的图片特征,包括:

对所述商品图片进行归一化处理,得到归一化处理后的商品图片;

将所述归一化处理后的商品图片输入预先训练的图片视觉特征提取模型,得到所述商品图片的图片特征。

根据本公开的第二方面,提供了一种文案生成装置,所述装置包括:

商品信息获取模块,用于获取目标商品的标题信息、属性信息和商品图片;

文本特征提取模块,用于基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征;

图片特征提取模块,用于提取所述商品图片的图片特征;

特征融合模块,用于对所述图片特征、所述描述文本特征和所述目标商品对应的提示模板特征进行拼接,得到目标拼接特征;

文案生成模块,用于将所述目标拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的描述文案;其中,所述文案生成模型为预先根据多个样本商品对应的拼接特征和标准文案,对待训练神经网络进行训练得到的。

根据本公开的第三方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。

本公开的文案生成方法、装置、设备及存储介质,获取目标商品的标题信息、属性信息和商品图片;基于标题信息和属性信息提取针对目标商品的描述文本特征;提取商品图片的图片特征;对图片特征、描述文本特征和目标商品对应的提示模板特征进行拼接,得到目标拼接特征;将目标拼接特征输入预先训练的文案生成模型,得到目标商品对应的描述文案。本公开利用多个样本商品对应的拼接特征和标准文案,预先对待训练神经网络进行训练得到了文案生成模型,利用文案生成模型生成商品的描述文案信息,较大程度上减少了生成商品文案的人工资源消耗。并且,本公开利用了商品的标题信息、属性信息和商品图片用于生成描述文案,这使得生成的描述文案较为全面地包含了商品的各类信息,因此,采用本公开的方法提高了生成文案的新颖性,生成的描述文案更能反映商品的特点。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1示出了本公开实施例提供的文案生成方法的一种实现流程示意图;

图2示出了本公开提供的提取描述文本特征的一种流程图;

图3示出了本公开提供的商品的属性信息的一种示意图;

图4示出了本公开提供的一种基于预设属性模板确定商品属性文本的示意图;

图5示出了本公开提供的一种图像特征提取方法的流程图;

图6示出了本公开提供的生成描述文案的一种示意图;

图7示出了本公开提供的一种图片编码器结构图;

图8示出了本公开提供的一种拼接特征示意图;

图9示出了本公开提供的一种文案生成模型的训练流程图;

图10为本公开提供的一种文案生成示意图;

图11为本公开提供的校正描述文案的一种流程图;

图12示出了本公开实施例提供的文案生成装置的一种结构示意图;

图13示出了本公开实施例一种电子设备的组成结构示意图。

具体实施方式

为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

由于现有的通过人工编写直播文案的方式会消耗大量的时间和人工资源,通过文案模板生成直播文案的方式会导致生成的文案千篇一律缺乏新颖性,进而影响观看直播的人员对商品特性的认知。因此,为了在减少人工资源消耗的同时提高生成文案的新颖性,本公开提供了一种文案生成方法、装置、设备及存储介质。本公开提供的方法可以应用于手机、个人电脑和服务器等电子设备。

本公开提供的文案生成方法、装置、设备及存储介质,可以应用于通过网络直播展示商品、出售商品的应用场景,商品可以是任何能够通过网络直播出售的产品,例如衣服、数码产品和电器等。

下面将结合本公开实施例中的附图,对本公开实施例的技术方案进行描述。

图1示出了本公开实施例提供的文案生成方法的一种实现流程示意图,如图1所示,所述方法包括:

S101,获取目标商品的标题信息、属性信息和商品图片。

目标商品指需要通过直播展示或出售的商品。

本公开中,可以通过商品厂家提供的商品说明书获取目标商品名称作为目标商品的标题信息,从商品说明书中直接获取目标商品的属性信息和商品图片。例如,目标商品A的商品说明书中包括文字内容“商品:XX长裙,图案:纯色,颜色:牛油果绿,材质成分:聚酯纤维,袖长:长袖”,以及商品XX的正面展示图。则可以根据商品说明书获取到目标商品A的标题信息为:XX长裙;目标商品A的属性信息为:图案为纯色、颜色为牛油果绿、材质成分为聚酯纤维、袖长为长袖;商品图片为商品XX的正面展示图。

本公开中,也可以从各个电商网站直接获取目标商品的标题信息、属性信息和商品图片。

S102,基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征。

在一可实施方式中,图2示出了本公开提供的提取描述文本特征的一种流程图,如图2所示,所述基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征,可以包括:

S201,根据预设标题模板处理所述标题信息,得到目标商品标题文本。

本公开中,预设标题模板可以为“产品是title”和“商品是title”等,用目标商品的标题信息替换掉预设标题模板中的“title”后,得到的文本作为目标商品标题文本。例如,预设标题模板为“产品是title”,目标商品A的标题信息为XX长裙,则用目标商品A的标题信息替换掉预设标题模板中的title,可以得到目标商品A的目标商品标题文本为“产品是XX长裙”。

S202,基于预设属性模板,将所述属性信息转化为非结构化文本,得到目标商品属性文本。

图3示出了本公开提供的商品的属性信息的一种示意图,如图3所示,商品的属性信息都是(key,value)这样的结构化数据,其中,key表示属性类型,value表示具体属性值,如图3中属性类型包括“图案”、“领型”……“裙长”,每个属性类型右侧的文字为该属性类型对应的具体属性值。

本公开中,预设属性模板是可以将结构化文本转化为非结构化文本的模板,例如,预设属性模板可以为“A是B”和“A的具体值是B”。用目标商品的属性信息中的属性类型文本替换掉预设属性模板中的A,以及用目标商品的属性信息中的具体属性值文本替换掉预设属性模板中的B,可以得到目标商品对应的目标商品属性文本。

图4示出了本公开提供的一种基于预设属性模板确定商品属性文本的示意图,如图4所示左侧方框中为目标商品的结构化的属性信息,预设属性模板为“A是B”,用目标商品的属性信息中的属性类型文本替换掉预设属性模板为“A是B”中的A,以及用目标商品的属性信息中的具体属性值文本替换掉预设属性模板为“A是B”中的B,得到的右侧方框的中的非结构化的自然语言文本即为目标商品对应的目标商品属性文本。

S203,将所述目标商品标题文本和所述目标商品属性文本拼接后得到的目标拼接文本,并基于所述目标拼接文本提取针对所述目标商品的描述文本特征。

本公开中,可以直接将目标商品标题文本和目标商品属性文本依序拼接,得到非结构化的自然语言文本作为目标拼接文本。例如,目标商品B的目标商品标题文本为“产品是XY长裤”,目标商品B的目标商品属性文本为“图案是纯色,腰型为高腰,裤长为七分裤”,则将目标商品B的目标商品标题文本和目标商品属性文本拼接后得到的目标拼接文本为“产品是XY长裤,图案是纯色,腰型为高腰,裤长为七分裤”。

本公开中,token是指文本经过分词模型后得到的每个分词,如果目标拼接文本可以通过分词模型拆分为n个token,则将目标拼接文本输入预先训练的文本特征提取模块,得到的针对目标商品的描述文本特征的维度为[n,M],即每个token对应一个M维的向量,M的取值取决于文本特征提取模型的结构,例如,对于bert(Bidirectional EncoderRepresentations from Transformers,变压器的双向编码表示)基础模型,M的取值为768。

本公开中,可以利用GPT2(Generative Pre-trained Transformer 2,多任务训练器)的embedding(嵌入)层从目标拼接文本中提取针对目标商品的描述文本特征。

在另一可实施方式中,所述基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征,可以包括如下步骤A1-A3:

步骤A1,将标题信息确定为目标商品标题文本,以及,将所述属性信息转化为非结构化文本,作为目标商品属性文本;

步骤A2,将所述目标商品标题文本输入预先训练的文本特征提取模块,得到标题文本特征,以及,将所述目标商品属性文本输入预先训练的文本特征提取模块,得到属性文本特征。

步骤A3,将所述标题文本特征和所述属性文本特征进行拼接,得到针对所述目标商品的描述文本特征。

其中,预先训练的文本特征提取模块为可以为GPT2(Generative Pre-trainedTransformer 2,多任务训练器)的embedding(嵌入)层。

S103,提取所述商品图片的图片特征。

在一可实施方式中,图5示出了本公开提供的一种图像特征提取方法的流程图,如图5所示,所述提取所述商品图片的图片特征,可以包括:

S501,对所述商品图片进行归一化处理,得到归一化处理后的商品图片。

本公开中,可以将商品图片转化为RGB格式,然后将商品图片裁剪到预设尺寸,预设尺寸可以根据实际需求进行设定,例如可以设定为214*214的尺寸。然后针对裁剪后的商品图片进行归一化处理,具体的,可以将归一化处理的mean(均值)设置为[0.5,0.5,0.5],std(Standard Deviation,标准差)设置为[0.5,0.5,0.5],针对裁剪后的商品图片的每像素点采用如下公式计算归一化后的像素值:

X*=(X-mean)/std

其中,X*是像素点归一化后的像素值,X为像素点的原始像素值。

最后,裁剪后的商品图片被处理为了一个维度为[3,z1,z2]的特征张量,其中z1和z2为预设尺寸,z1和z2取值可以为214,则裁剪后的商品图片被处理为了一个维度为[3,214,214]的特征张量。

S502,将所述归一化处理后的商品图片输入预先训练的图片视觉特征提取模型,得到所述商品图片的图片特征。

本公开中,预先训练的图片视觉特征提取模型可包括图片编码器、MLP(Multilayer Perceptron,多层感知机)和Resize(尺寸调整)模块。图片编码器可以采用预训练的Clip(Contrastive Language–Image Pre-training,多模态预训练的算法)模型。

图片编码器可以对归一化处理后的商品图片进行特征抽取,得到归一化处理后的商品图片映射到向量空间的图片特征向量,该图片特征向量量包括图片的视觉特征。

由于图片和文本不在同一个语义空间,为了更好地生成描述文本,可以继续使用MLP和Resize模块对该图片特征向量进行映射到文本语义空间,得到维度为[m,M]的特征向量作为商品图片的图片特征。如果M取值为768,则商品图片的图片特征为m个768维的token构成的特征向量。

S104,对所述图片特征、所述描述文本特征和所述目标商品对应的提示模板特征进行拼接,得到目标拼接特征。

本公开中,预先给每一类商品定义了一个prompt(提示模板特征),作为文案生成的提示词。每一类商品对应的prompt向量一开始随机初始化,然后再随着文案生成模型的迭代而更新。

目标商品对应的提示模板特征由k个token的向量组成,每个token对应一个M维的向量,即目标商品对应的提示模板特征为维度为[k,768]的特征向量。

举例说明,如果目标商品的图片特征为[m,M]的向量、目标商品的描述文本特征为[n,M]的向量、目标商品对应的提示模板特征为[k,M]的向量,则对图片特征、描述文本特征和目标商品对应的提示模板特征进行拼接,得到的目标拼接特征为[k+n+m,M]的向量。

S105,将所述目标拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的描述文案。

其中,所述文案生成模型为预先根据多个样本商品对应的拼接特征和标准文案,对待训练神经网络进行训练得到的。

本公开中,可以使用训练好的GPT2解码器作为文案生成模型,将目标拼接特征输入GPT2解码器,得到目标商品对应的描述文案。

图6示出了本公开提供的生成描述文案的一种示意图,如图6所示,基于获取到的目标商品的标题信息和属性信息601确定针对目标商品的描述文本特征;然后提取目标商品的商品图片602的图片特征;对图片特征、描述文本特征和目标商品对应的提示模板特征进行拼接,得到目标拼接特征;将目标拼接特征输入预先训练的文案生成模型,得到目标商品对应的描述文案603。

采用本公开提供的方法,获取目标商品的标题信息、属性信息和商品图片;基于标题信息和属性信息提取针对目标商品的描述文本特征;提取商品图片的图片特征;对图片特征、描述文本特征和目标商品对应的提示模板特征进行拼接,得到目标拼接特征;将目标拼接特征输入预先训练的文案生成模型,得到目标商品对应的描述文案。本公开利用多个样本商品对应的拼接特征和标准文案,预先对待训练神经网络进行训练得到了文案生成模型,利用文案生成模型生成商品的描述文案信息,较大程度上减少了生成商品文案的人工资源消耗。并且,本公开利用了商品的标题信息、属性信息和商品图片用于生成描述文案,这使得生成的描述文案较为全面地包含了商品的各类信息,因此,采用本公开的方法提高了生成文案的新颖性,生成的描述文案更能反映商品的特点。

本公开中,可以预先训练得到文案生成模型。而在训练文案生成模型之前,需要进行数据获取、数据预处理、图形编码、文本编码、Prompt初始化和特征融合等准备步骤。具体参见如下第一步至第六步的处理步骤。

第一步,数据获取是指获取用于训练得到文案生成模型的样本商品所对应的商品信息。具体的,本公开中可以从各类电商网站上爬取多种类别的样本商品的商品信息。商品信息包括:商品标题、商品属性信息、商品图片以及商品宣传信息。

其中,商品宣传信息可以用于确定样本商品对应的标准文案。具体的,针对商品宣传信息可以过滤掉不包含在商品标题、商品属性信息和商品图片中的信息,使商品的商品宣传信息与商品标题、商品属性信息及商品图片中的信息保持一致。

具体的,可以按标点符号将商品宣传信息切分成短句。然后可以选取一部分的样本商品,针对该部分的样本商品的商品宣传信息然后人工标注部分短句。将与商品标题、商品属性信息和商品图片中的信息商品无关的短句标注为0,相关的短句标注为1。

例如,样本商品A的商品宣传信息为“可以简简单单就给你美丽一身的优雅长裙,撞色的木耳大翻领,青春有活力感。收腰小A版型,显瘦遮胯不挑人。这款我们家卖的特别好,需要的亲们赶紧下单”;样本商品A的商品标题是“xy长裙”,样本商品A的商品属性信息如图3所示的信息。

则可以根据标点符号将样本商品A的商品宣传信息切分为短句“可以简简单单就给你美丽一身的优雅长裙”、“撞色的木耳大翻领”、“青春有活力感”、“收腰小A版型”、“显瘦遮胯不挑人”、“这款我们家卖的特别好”、“需要的亲们赶紧下单”。

则可以将样本商品A的商品宣传信息中“这款我们家卖的特别好”、“需要的亲们赶紧下单”这类与与商品标题、商品属性信息和商品图片中的商品信息无关的短句标注为0,其他与商品信息相关且正确的短句标注为1。然后,可以利用标注好的商品宣传信息训练Bert(二分类)模型。然后利用训练好的Bert模型对其他未标注的商品宣传信息的短句进行预测,保留预测为1的短句,过滤掉预测为0的短句,最后将保留的短句拼接起来,作为该样本商品对应的标准文案。

第二步,在获取到样本商品的商品标题、商品属性信息和商品图片后,需要对商品标题、商品属性信息和商品图片进行数据预处理。

针对样本商品的商品属性信息的预处理,具体是指将结构化的商品属性信息转化为非结构化的自然语言文本。

样本商品的各种属性信息从不同维度对样本商品进行了全面刻画,但由于样本商品的属性信息繁多并非每种属性信息都是有价值的,因此需要对样本商品的属性信息进行筛选,筛选出能体现样本商品特色的属性信息,过滤掉其它无关紧要的属性信息。具体的,可以通过设定关键词的方式保留重要的属性。例如可以设置”款式”、“版型”、“领型”、“材质成分”、“袖长”、“衣长”等关键词,则只保留这些属性,其他属性过滤掉。也可以通过工作人员人工筛选出不重要的属性过滤掉。

然后针对保留下来的商品属性信息进行格式转换。具体的,由于商品的属性都是(key,value)这样的结构化数据,在输入模型前需要将其转化为非结构化的自然语言文本。因此采用预设属性模板,例如“key是value”的预设属性模板,将所有的属性信息(key,value)转化为非结构化的文本并拼接起来,作为样本商品的属性文本,具体可以参见图4。

针对样本商品的商品标题的预处理:由于商品标题中通常包含丰富的商品信息,可以补充商品属性信息中缺失的商品信息,因此商品标题对生成样本商品的描述文案也具有十分重要的作用。例如,服装类商品的商品标题中通常包含了服装的款式、版型、尺码、厚薄和风格等信息。

具体的,可以采用预设标题模板,将样本商品的商品标题转化为标题文本。例如,预设标题模板为“产品是title”,则将模板中的“title”替换为具体的商品标题后所得到的文本即为样本商品的商品标题对应的标题文本。

针对样本商品的商品图片的预处理:可以将商品图片转化为RGB格式,然后将商品图片裁剪到预设尺寸,预设尺寸可以根据实际需求进行设定,例如可以设定为214*214的尺寸。然后针对裁剪后的商品图片进行归一化处理,具体的,可以将归一化处理的mean(均值)设置为[0.5,0.5,0.5],std(Standard Deviation,标准差)设置为[0.5,0.5,0.5],针对裁剪后的商品图片的每像素点采用如下公式计算归一化后的像素值:

X*=(X-mean)/std

其中,X*是像素点归一化后的像素值,X为像素点的原始像素值。

最后,裁剪后的商品图片被处理为了一个维度为[3,z1,z2]的特征张量,其中z1和z2为预设尺寸,z1和z2取值可以为214,则裁剪后的商品图片被处理为了一个维度为[3,214,214]的特征张量。

第三步,图形编码是指利用预处理后的商品图片,训练图片视觉特征提取模型。

图片视觉特征提取模型可以为图片编码器。本公开中可以通过构建图片编码器,对样本商品的商品图片进行特征提取。具体的,图7示出了本公开提供的一种图片编码器结构图,如图7所示,图片视觉特征提取模型可以包括预训练的CLip模型作为图片编码器、MLP和Resize模块。图片编码器可以将每张商品图片image编码成一个512维的图片特征向量,该图片特征向量中包含了商品的视觉特征。由于图片和文本不在同一个语义空间,为了更好地生成描述文本,可以继续使用MLP和Resize模块将图片特征向量映射到文本语义空间,得到维度为[m,M]的特征向量作为商品图片的图片特征。如果M取值为768,则商品图片的图片特征为m个768维的token构成的特征向量。

第四步,文本编码是指利用样本商品的标题文本和属性文本,提取针对目标商品的描述文本特征。

具体的,以GPT2的embedding层为文本编码器为例,可以用GPT2的embedding层从样本商品的属性文本和标题文本的拼接文本中提取文本特征向量,作为目标商品的描述文本特征,该文本特征向量中包含了样本商品的语义特征。假设拼接文本共为n个token,则最终得到的文本特征向量的维度为[n,M],每个文本token对应一个M维的向量,M的取值可以为768。

第三步和第四步的顺序不做限定。

第五步,Prompt初始化:本公开中可以为每一类商品定义一个可学习的prompt作为文案生成的提示词,该prompt由k个token组成,每个token对应一个M维的向量,则prompt特征向量的维度为[k,M]。该prompt特征向量随机初始化,并随着对文案生成模型的训练不断更新。

第六步,特征融合:将通过上述步骤得到的图片特征向量、文本特征向量和prompt特征向量在token维度拼接起来,进行特征融合,图8示出了本公开提供的一种拼接特征示意图,如图8所示,prompt特征向量的维度为[k,768],文本特征向量的维度为[n,768],图片特征向量的维度为[m,768],则拼接特征的维度为[k+n+m,768]。

经过上述第一步至第六步的处理步骤后,可以利用样本商品对应的拼接特征和标准文案训练文案生成模型。具体的,在一可实施方式中,图9示出了本公开提供的一种文案生成模型的训练流程图,如图9所示,所述文案生成模型的训练方式,包括:

S901,将样本商品对应的拼接特征输入待训练的深度学习模型,得到预测文案。

其中,所述拼接特征为所述样本商品的描述文本特征、所述样本商品商品图片的图片特征和提示模板特征所拼接得到的特征。

其中,提示模板特征是prompt特征,prompt特一开始是随机初始化的prompt特征向量,之后可以随着文案生成模型的训练进行更新。

具体的,待训练深度学习模型可以为GPT2解码器。图10为本公开提供的一种文案生成示意图,如图10所示,将样本商品对应的拼接特征输入待训练的深度学习模型后,可以得到对应生成的文案的特征为图10中的“caption tokens”。

S902,基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值。

具体的,本公开中可以采用如下公式,基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值:

其中,L表示所述预测文案中单个字符位置对应的交叉熵损失函数值,p(x

S903,基于所述交叉熵损失函数值调整待训练的深度学习模型的参数。

基于所述交叉熵损失函数值调整待训练的深度学习模型的参数的原则是:调整待训练的深度学习模型中与交叉熵损失函数值相关的参数的值,并通过调整参数降低交叉熵损失函数值。

S904,当模型迭代次数达到预设迭代次数时,结束训练,并将保存的深度学习模型中对应的交叉熵损失函数的值最小的模型确定为所述文案生成模型。

其中,预设迭代次数可以根据实际应用场景进行设定,例如设定为500或1000等,此处不做具体限定。

本公开中,可以将每次训练后得到的待训练的深度学习模型进行保存,然后可以利用验证集计算保存的每个待训练的深度学习模型对应的交叉熵损失函数的值。然后,当模型迭代次数达到预设迭代次数时,结束训练,并将保存的深度学习模型中对应的交叉熵损失函数的值最小的模型确定为所述文案生成模型。

S905,当模型迭代次数未达到所述预设迭代次数时,返回执行所述将样本商品对应的拼接特征输入待训练的深度学习模型的步骤。

采用本公开提供的方法,利用多个样本商品对应的拼接特征和标准文案,预先对待训练神经网络进行训练得到了文案生成模型,利用文案生成模型生成商品的描述文案信息,较大程度上减少了生成商品文案的人工资源消耗。并且,本公开利用了商品的标题信息、属性信息和商品图片用于生成描述文案,这使得生成的描述文案较为全面地包含了商品的各类信息,因此,采用本公开的方法提高了生成文案的新颖性,生成的描述文案更能反映商品的特点。

在一可实施方式中,由于文案生成模型的不可控,生成的描述文案可能或存在丢失关键信息或生成了不符合实际情况的信息等问题。为了解决这些问题,需要对生成的描述文案进行校正。

具体的,图11为本公开提供的校正描述文案的一种流程图,如图11所示,在所述将所述拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的目标文案之后,所述方法还包括:

S1101,从所述描述文案中提取出表征所述目标商品的属性信息的预测属性文本。

本公开中可以通过属性提取模型提取所述目标商品的属性信息的预测属性文本。具体的,可以将所述描述文案输入预先训练的属性提取模型中,得到表征所述目标商品的属性信息的预测属性文本。

本公开中,可以预先利用样本商品的商品宣传信息训练属性提取模型,具体的,可以利用BIO(三位标注)标注符号将样本商品的商品宣传信息中描述样本属性的属性信息标注为实体,其他字符标注为“O”,得到该商品宣传语的标准标注序列。然后利用商品宣传信息和标准标注序列训练NER(命名实体识别)模型,具体采用的NER模型可以为Bert-BiLSTM-CRF模型。

具体的,训练Bert-BiLSTM-CRF模型的过程可以包括:将样本商品的商品宣传信息和标准标注序列输入到待训练的Bert-BiLSTM-CRF模型中,利用最后的CRF模块计算极大似然损失,然后再利用该损失更新模型参数。当模型在验证集上的损失值不再降低时,停止训练。

本公开中也可以通过人工筛选的方式提取出所述描述文案中提取出表征所述目标商品的属性信息的预测属性文本。

S1102,将所述预测属性文本与所述属性信息进行对比,确定所述描述文案中是否存在缺失的属性文本和/或多余的预测属性文本和/或错误的预测属性文本。

S1103,如果所述描述文案中存在缺失的属性文本,从所述属性信息中获取该缺失的属性文本并添加到所述描述文案中,和/或,如果所述描述文案中存在多余的预测属性文本,剔除所述描述文案中该多余的预测属性文本,和/或,如果所述描述文案中存在错误的预测属性文本,用所述属性信息中与该错误的属性文本相对应的属性信息替换该错误的属性文本,得到修改后的描述文案。

将所述预测属性文本与所述属性信息进行对比,如果所述描述文案中存在缺失的属性文本,即该属性文本出现在了目标商品的属性信息中而没出现在所述描述文案中,因此可以通过预设属性模板,将该缺失的属性文本并添加到所述描述文案中。

如果所述描述文案中存在多余的预测属性文本,即该属性文本出现在了所述描述文案中而没有出现在目标商品的属性信息中,则该属性文本为凭空生成的内容,因此为了保证生成的描述文案的可靠性,可以将该属性文本从描述文案中删除。

如果所述描述文案中存在错误的预测属性文本,即该预测属性文本同时出现所述描述文案中和目标商品的属性信息中,但属性值存在冲突,因此需要用所述属性信息中与该错误的属性文本相对应的属性信息替换该错误的属性文本,保证生成的描述文案的准确性。

经过上述校正后的描述文案作为修改后的描述文案,用于在通过网络直播展示商品或出售商品时,作为直播内容展示给用户,供用户了解商品特性。

采用本公开提供的方法,还可以对文案生成模型生成的描述文案进行校正,进一步保证了生成的描述文案的准确性。

基于同一发明构思,根据本公开上述实施例提供的文案生成方法,相应地,本公开另一实施例还提供了一种上文案生成装置,其结构示意图如图12所示,具体包括:

商品信息获取模块1201,用于获取目标商品的标题信息、属性信息和商品图片;

文本特征提取模块1202,用于基于所述标题信息和所述属性信息提取针对所述目标商品的描述文本特征;

图片特征提取模块1203,用于提取所述商品图片的图片特征;

特征融合模块1204,用于对所述图片特征、所述描述文本特征和所述目标商品对应的提示模板特征进行拼接,得到目标拼接特征;

文案生成模块1205,用于将所述目标拼接特征输入预先训练的文案生成模型,得到所述目标商品对应的描述文案;其中,所述文案生成模型为预先根据多个样本商品对应的拼接特征和标准文案,对待训练神经网络进行训练得到的。

采用本公开提供的装置,获取目标商品的标题信息、属性信息和商品图片;基于标题信息和属性信息确定针对目标商品的描述文本特征;提取商品图片的图片特征;对图片特征、描述文本特征和目标商品对应的提示模板特征进行拼接,得到目标拼接特征;将目标拼接特征输入预先训练的文案生成模型,得到目标商品对应的描述文案。本公开利用多个样本商品对应的拼接特征和标准文案,预先对待训练神经网络进行训练得到了文案生成模型,利用文案生成模型生成商品的描述文案信息,较大程度上减少了生成商品文案的人工资源消耗。并且,本公开利用了商品的标题信息、属性信息和商品图片用于生成描述文案,这使得生成的描述文案较为全面地包含了商品的各类信息,因此,采用本公开的装置提高了生成文案的新颖性,生成的描述文案更能反映商品的特点。

在一可实施方式中,所述装置还包括:

文案校正模块(图中未示出),用于从所述描述文案中提取出表征所述目标商品的属性信息的预测属性文本;将所述预测属性文本与所述属性信息进行对比,确定所述描述文案中是否存在缺失的属性文本和/或多余的预测属性文本和/或错误的预测属性文本;如果所述描述文案中存在缺失的属性文本,从所述属性信息中获取该缺失的属性文本并添加到所述描述文案中,和/或,如果所述描述文案中存在多余的预测属性文本,剔除所述描述文案中该多余的预测属性文本,和/或,如果所述描述文案中存在错误的预测属性文本,用所述属性信息中与该错误的属性文本相对应的属性信息替换该错误的属性文本,得到修改后的描述文案。

在一可实施方式中,所述文案校正模块,具体用于将所述描述文案输入预先训练的属性提取模型中,得到表征所述目标商品的属性信息的预测属性文本。

在一可实施方式中,所述装置还包括:

模型训练模块(图中未示出),用于将样本商品对应的拼接特征输入待训练的深度学习模型,得到预测文案;其中,所述拼接特征为所述样本商品的描述文本特征、所述样本商品的商品图片的图片特征和提示模板特征所拼接得到的特征;基于所述样本商品对应的标准文案和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值;基于所述交叉熵损失函数值调整待训练的深度学习模型的参数;当模型迭代次数达到预设迭代次数时,结束训练,并将保存的深度学习模型中对应的交叉熵损失函数的值最小的模型确定为所述文案生成模型;当模型迭代次数未达到所述预设迭代次数时,返回执行所述将样本商品对应的拼接特征输入待训练的深度学习模型的步骤。

在一可实施方式中,所述模型训练模块,具体用于采用如下公式,基于预设词表和所述预测文案,计算待训练的深度学习模型的交叉熵损失函数值:

其中,L表示所述预测文案中单个字符位置对应的交叉熵损失函数值,p(x

在一可实施方式中,所述文本特征提取模块1202,具体用于根据预设标题模板处理所述标题信息,得到目标商品标题文本;基于预设属性模板,将所述属性信息转化为非结构化文本,得到目标商品属性文本;将所述目标商品标题文本和所述目标商品属性文本拼接后得到的目标拼接文本,输入预先训练的文本特征提取模块,得到针对所述目标商品的描述文本特征。

在一可实施方式中,所述图片特征提取模块1203,具体用于对所述商品图片进行归一化处理,得到归一化处理后的商品图片;将所述归一化处理后的商品图片输入预先训练的图片视觉特征提取模型,得到所述商品图片的图片特征。

采用本公开提供的装置,利用多个样本商品对应的拼接特征和标准文案,预先对待训练神经网络进行训练得到了文案生成模型,利用文案生成模型生成商品的描述文案信息,较大程度上减少了生成商品文案的人工资源消耗。并且,本公开利用了商品的标题信息、属性信息和商品图片用于生成描述文案,这使得生成的描述文案较为全面地包含了商品的各类信息,因此,采用本公开的装置提高了生成文案的新颖性,生成的描述文案更能反映商品的特点。并且,还可以对文案生成模型生成的描述文案进行校正,进一步保证了生成的描述文案的准确性。

根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示,设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306,例如键盘、鼠标等;输出单元1307,例如各种类型的显示器、扬声器等;存储单元1308,例如磁盘、光盘等;以及通信单元1309,例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理,例如文案生成方法。例如,在一些实施例中,文案生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时,可以执行上文描述的文案生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文案生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

技术分类

06120115930862