文案生成方法、装置、电子设备及存储介质

文献发布时间：2024-07-23 01:35:21

技术领域

本申请涉及计算机技术领域，具体涉及一种文案生成方法、装置、电子设备及存储介质。

背景技术

目前，电商客户为了扩大产品的知名度，通常会在多个社交媒体平台投放对产品的宣传文案，电商客户在原平台上有丰富的对产品进行宣传的产品信息。因此，当电商客户想将原平台上的产品投放在新平台上进行宣传时，为了适配不同平台的文案风格与特点，往往会通过人工基于原平台上的产品信息，比如图文信息等，生成新的宣传文案，再将新的宣传文案发布在新平台上以对产品进行宣传，但是，这种通过人工改写生成文案的效率较低，因此，亟需一种高效生成文案的方法。

发明内容

本申请实施例提供了一种文案生成方法、装置、电子设备及存储介质，基于目标产品的第一文本和图像，就能直接自动为目标产品生成文案，提高了文案生成的效率。

第一方面，本申请实施例提供一种文案生成方法，该方法包括：

获取目标产品的第一文本和图像；

对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；

获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；

基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。

第二方面，本申请实施例提供一种文案生成装置，该装置包括：收发单元、处理单元以及显示单元；

所述收发单元，用于获取目标产品的第一文本和图像；

所述处理单元，用于对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；

所述处理单元，用于获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；

所述处理单元，用于基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。

第三方面，本申请实施例提供一种电子设备，包括：处理器和存储器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施例提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，通过获取目标产品的第一文本和图像；对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。当目标对象想将原平台上的目标产品投放在新平台上进行宣传时，为了适配新平台的文案风格与特点，可以直接通过目标产品在原平台上的宣传内容，即第一文本和图像，就可以为目标产品生成新的文案。具体地，获取目标产品的第一文本和图像，其中，第一文本和图像就是在原平台上对目标产品进行宣传的内容；基于原平台上对目标产品进行宣传的内容，为目标产品生成新的文案，具体地，对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。也即，只需要基于第一文本和图像，就可以自动的为目标产品生成文案，不仅提升了文案生成效率，而且还提升了用户体验。

进一步地，在生成文案时，不仅基于在原平台上对目标产品进行宣传的文本，还基于在原平台上对目标产品进行宣传的图像，基于文本和图像共同生成目标产品的文案，提升生成文案的准确度和全面性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文案生成系统的示意图；

图2为本申请实施例提供的一种文案生成系统的场景示意图；

图3为本申请实施例提供的一种文案生成方法的流程示意图；

图4为本申请实施例提供的另一种文案生成方法的流程示意图；

图5为本申请实施例提供的一种对预训练模型训练示意图；

图6为本申请实施例提供的一种第一图像示意图；

图7为本申请实施例提供的一种文本框与主体框重合区域的示意图；

图8为本申请实施例提供的再一种文案生成方法的流程示意图；

图9为本申请实施例提供的一种文案生成装置的功能单元组成框图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了便于理解本申请的技术方案，首先对本申请涉及到的相关技术术语进行解释。

统一资源定位符(Uniform Resource Locator，URL)：URL用于标识互联网上的资源。它包括协议、主机名、端口、路径、查询参数和片段标识符等，是互联网上标准的资源的地址。目标对象和搜索引擎通过URL访问相应的页面，因此，URL可以看作是一种特殊的链接，用于指向互联网上的某个具体资源统一链接URL。因此，在本申请中，URL也可以称为链接，本申请在此不做区分。

大语言模型(Large Language Model，LLM)：指使用大量文本数据训练的深度学习生成模型，可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务，如文本分类、问答、对话等，是通向人工智能的一条重要途径。应说明，在本申请中，在利用大语言模型生成待更换标题之前，会根据不同的应用软件平台的语料信息，对大语言模型进行有监督的微调，大语言模型可以部署在服务器中，也可以部署在终端设备中。

Prompt(提示词)：提示文本，表示命令或者指令，用于指示大语言模型需要执行动作或者生成输出。

最先进模型：(State-of-the-Art，SOTA)模型，指的是当前领域中被公认为最优秀、最先进的模型。在本申请中，SOTA模型可以是CogVLM模型。

CogVLM：是一种新的视觉语言模型，它通过在每个Transformer层的注意力层和前馈网络层中添加一个视觉专家模块来深度融合视觉和语言信息，同时保持自然语言处理任务的性能。这种模型设计使得CogVLM在视觉语言任务上表现出色，例如图像字幕、视觉问答以及视觉定位等。CogVLM模型的结构包括四个基本组件：ViT encoder(视觉转换编码器)、MLP适配器、预训练的大型语言模型和一个视觉专家模块。

ViT encoder(视觉转换编码器)：是一种基于Transformer架构的模型，用于图像分类等视觉任务。它将图像分割成多个不重叠的区域(patch)，然后通过TransformerEncoder进行特征提取和处理。将输入的图像信息转换成模型能够处理的形式。ViT编码器通过一系列的计算，将图像数据编码成可供后续处理的特征向量。

MLP adpter(MLP适配器)：是在图像和文本特征之间建立联系。它通过一个多层感知机(MLP)结构，帮助模型更好地理解和对齐视觉和语言信息。

视觉专家模块：深度融合视觉与语言信息，视觉专家模块通过结合QKV矩阵和MLP的结构，使得视觉信息能够与语言信息进行更深层次的交互和整合，确保了模型在处理视觉语言任务时的效果和效率。

预训练的大型语言模型：这是CogVLM模型的核心之一，它基于Transformer架构，能够处理和生成自然语言文本。其中，每层Transformer中都有一个视觉专家模块，每层预训练阶段通过大量文本数据学习语言规律，为后续的多模态学习打下基础。应说明，在本申请中，通过数据微调预训练模型可以指通过数据微调CogVLM模型中的预训练的大型语言模型。

Word embedding(词嵌入)：是自然语言处理(NLP)中的一项技术，用于将单词或短语从原始文本形式转换为实数向量的形式，这些向量能够捕捉单词之间的语义关系。

目标对象：本申请中的目标对象可以为用户、虚拟人、机器人以及数字人等，在本申请中以目标对象是用户为例进行说明。

应说明，在本申请中，产品是指被人们使用和消费，并能满足人们某种需求的任何东西，包括有形的物品、无形的服务、组织、观念或它们的组合。本申请中的目标产品指的是待生成文案的产品，目标产品可以看做是一个待生成文案的产品的集合。

标准化产品单元：(Standard Product Unit，SPU)，在产品管理中，SPU代表的是一个产品的基本属性一致的集合，它通常指的是产品的款式或型号，而不区分颜色或尺寸。例如，一个特定的衣服款式，不论其颜色或尺码，都属于同一个SPU。这是因为SPU作为一个信息聚合的最小单位，旨在描述一组可复用、易检索的标准化信息，这些信息集合描述了产品的特性。在电商平台上，SPU通常由后台类目和一组关键类目属性唯一确定。这意味着同一SPU的产品在平台上会被视为同一款产品，尽管它们可能在颜色、尺寸或其他细节上有所不同。这种分类方式有助于消费者更快地找到他们想要的产品类型，并且也方便商家管理和组织库存。

参阅图1，图1为本申请实施例提供的一种文案生成系统的示意图。文案生成系统包括用户端101和文案生成装置102。

如图1所示，用户端101部署有应用程序，该应用程序为目标对象提供文案生成功能。用户可以通过应用程序的界面，进行一系列的操作，目标对象通过用户端101上传目标产品的链接，用户端101向文案生成装置102发送目标产品的链接；文案生成装置102获取目标产品的链接；文案生成装置102获取目标产品的第一文本和图像，其中，第一文本和图像是该链接对应的网页内容中的第一文本和图像；文案生成装置102对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；文案生成装置102获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；文案生成装置102基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案；在文案生成装置102为目标产品生文案之后，文案生成装置102向用户端101发送文案；用户端101显示目标产品的文案。

进一步地，文案生成装置102获取目标产品的链接，包括：响应于目标对象输入目标产品的链接的操作，得到链接，或者，响应于目标对象上传目标产品的文件的操作，得到链接，其中，文件中包括链接。应说明，目标对象可以输入多个目标产品的链接，文案生成装置102解析出每个目标产品的链接，分别为每个目标产品生成文案。目标对象上传的文件里面也可以包括多个链接，每个链接对应不同的目标产品，文案生成装置102解析出每个目标产品的链接，分别为每个目标产品生成文案。

应说明，在实际应用中，也可将文案生成的功能进行用户端的本地化，在这种情况下，用户端101可以在不与文案生成装置102交互的情况下，就可以为目标产品生成文案。即，目标对象在用户端101上传目标产品的链接，用户端101获取目标产品的链接；用户端101获取目标产品的第一文本和图像，用户端101对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；用户端101获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；用户端101基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案；用户端101显示目标产品的文案。应说明，在本申请实施例中，主要以文案生成装置102生成文案为例进行说明。

应理解，本申请中的用户端可以包括智能手机(如Android手机、iOS手机、WindowsPhone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile InternetDevices，简称：MID)或穿戴式设备或者服务器、边缘计算节点等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。本申请的文案生成装置可以为服务器，或者其他计算设备，其中，该服务器可以为云计算服务器、内容分发网络(Content Delivery Network，CDN)服务器、网络时间协议(Network Time Protocol，NTP)、域名解析系统(Domain Name System，DNS)服务器，等其他各种类型的服务器。上述服务器仅是举例，而非穷举，包含但不限于上述服务器。

可以看出，在本申请实施例中，文案生成装置102获取目标产品的第一文本和图像；对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。当目标对象想将原平台上的目标产品投放在新平台上进行宣传时，为了适配新平台的文案风格与特点，可以直接通过目标产品在原平台上的宣传内容，即第一文本和图像，就可以通过文案生成装置102为目标产品生成新的文案。具体地，获取目标产品的第一文本和图像，其中，第一文本和图像就是在原平台上对目标产品进行宣传的内容；基于原平台上对目标产品进行宣传的内容，为目标产品生成新的文案，具体地，对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。也即，只需要基于第一文本和图像，就可以自动的为目标产品生成文案，不仅提升了文案生成效率，而且还提升了用户体验。

进一步地，文案生成装置102在生成文案时，不仅基于在原平台上对目标产品进行宣传的文本，还基于在原平台上对目标产品进行宣传的图像，基于文本和图像共同生成目标产品的文案，提升生成文案的准确度和全面性。

参阅图2，图2为本申请实施例提供的一种文案生成系统的场景示意图。

示例性的，如图2所示，目标对象在上传界面上传目标产品的链接，应说明，目标对象在上传目标产品的链接时，既可以通过在上传界面的URL输入框中输入目标产品的链接，又可以通过在上传界面上传目标产品的文件，其中，文件包括目标产品的链接。文案生成装置获取目标产品的链接。具体地，目标对象上传的文件中可以包括多个链接，每个链接对应一个目标产品。文案生成装置通过对文件进行解析，得到每一个链接的网络内容，分别为每一个链接对应的目标产品生成文案。如图2所示，目标对象可以在上传界面中点击“文件上传”虚拟控件，上传需要进行文案生成的链接，例如，目标对象上传了包含三个链接的文件，进一步地，目标对象点击“立即生成”虚拟控件，文案生成装置对文件进行解析，分别解析出链接一、链接二以及链接三，分别为链接一、链接二以及链接三生成文案。可选地，用户也可以在URL输入框中输入目标产品的链接，可以输入一个也可以输入多个，当输入多个时，每个链接之间用逗号隔开，文案生成装置对分别将多个链接中的每一个链接作为生成文案。在本申请中，以目标对象上传目标产品的文件为例，对文案生成方法进行说明。

更进一步地，文案生成装置获取目标产品的第一文本和图像，其中，其中，第一文本和图像是目标产品的链接对应的网页内容中的第一文本和图像。继续沿用上述例子，文案生成装置解析出链接一、链接二以及链接三，分别为链接一、链接二以及链接三生成文案。具体地，获取链接一、链接二以及链接三分别对应的目标产品的图像和第一文本，对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性，基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。基于上述方法，分别为链接一、链接二以及链接三对应的目标产品生成文案。

最后，文案生成装置通过用户端在发布界面显示目标产品的文案。图2所示，继续沿用上述例子，文案生成装置分别为链接一、链接二以及链接三对应的目标产品生成文案，每个链接对应的文案都包括标题(如图2中的发布界面显示的标题一、标题二以及标题三)、正文以及标签。目标对象可以直接在发布界面点击“发布”虚拟控件，对生成的文案进行直接发布，也可以对生成的文案进行编辑后再发布，也可以对生成的文案进行下载等，本申请在此不做限制。

可以看出，在本申请实施例中，目标对象上传或者输入的链接可以为多个，当为多个时，文案生成装置分别将每一个链接解析出来，为每个链接都生成文案，并批量返回，目标对象在获得批量返回的文案之后，可以直接进行发布。也就是说，目标对象只需要批量的上传或者输入产品链接，就可以批量的得到每个链接对应的文案，文案的生成过程无需用户参与，可以节省人工成本，并提高文案生成效率。

参阅图3，图3为本申请实施例提供的一种文案生成方法的流程示意图，该方法包括但不限于步骤301-304：

301：获取目标产品的第一文本和图像。

应说明，获取目标产品的第一文本和图像，具体包括：获取所述目标产品的链接；获取所述链接对应的与所述目标产品相关的第一文本和图像。可选地，获取目标产品的链接，响应于目标对象输入目标产品的链接的操作，得到链接；或者，响应于目标对象上传目标产品的文件的操作，得到链接，其中，文件中包括链接。也就是说，目标对象在上传目标产品的链接时，既可以通过在上传界面的链接输入框中输入目标产品的链接，又可以通过在上传界面上传目标产品的文件，其中，文件包括目标产品的链接。应说明，文件中可以包括多个链接，每个链接对应一个目标产品。文案生成装置通过对文件进行解析，得到每一个链接对应的与目标产品相关的产品信息，分别为每一个链接对应的目标产品生成文案，也就是说，本申请可以批量的为文件中的多个链接生成文案，提高文案的生成效率。在本申请中，以基于一个链接为该链接对应的目标产品生成文案为例进行说明，当存在多个链接时，参照一个链接的文案生成方法。

可选地，获取所述链接对应的与所述目标产品相关的第一文本和图像，其中，其中，第一文本和图像是该链接对应的网页内容中的第一文本和图像。具体地，先获取链接对应的网页内容，从该网页内容中获取与目标产品相关的产品信息(即图像和第一文本)。也即，产品信息为目标产品的链接对应的网页内容中的产品信息，图像和第一文本是从网页内容中得到的。应说明，第一文本可以包括网页内容中与目标产品相关的所有文本，包括目标产品的标题，对目标产品的详情、目标产品参与的优惠活动等，本申请在此不做限制；图像可以为多个与目标产品相关的图像。在本申请中，链接对应的与目标产品相关的产品信息，可以理解为在原平台上对目标产品进行宣传或者说明的信息。

302：对第一文本进行筛选，生成目标产品的第一卖点信息。

可选地，对第一文本进行筛选，生成目标产品的第一卖点信息。由于目标产品的网页内容中的第一文本包括了网页内容中的多个文本部分的文本，具体包括目标产品的标题，目标产品的详情等，因此，不同文本部分的文本可能会存在重叠；其次，电商商家为了目标产品能在目标对象的搜索过程中得到更多的召回，可能会在标题或其他文本部分中重复使用相同涵义且流量高的词语，造成词语堆叠，冗余信息增加。故，为了将第一文本中的重叠词、堆叠词等冗余信息去除，可以通过大语言模型对第一文本进行筛选和精练。具体地，基于第一文本和第四提示词模板，生成第一卖点信息。举例说明，可以通过第一文本和第四提示词模板生成第一提示词，将第一提示词输入大语言模型，大语言模型基于第一提示词所提供的上下文和语义信息，生成第一卖点信息。进一步地，第一提示词的构建方法包括：基于第一文本和第四提示词模板生成第一提示词，通过输入第一提示词，利用大语言模型的信息提取能力与知识泛化能力，激活大语言模型输出第一卖点信息。

示例性的，第四提示词模板包括：指引信息和第一文本，其中，指引信息用于指示大语言模型需要具备的功能，并引导大语言模型输出目标结果；在本实施例中，第一文本可以是网页内容中的所有文本，目标结果可以是与第一文本对应的第一卖点信息，指引信息可以是：

你是一个出色的广告文案策划师，现在需要你将给定的一段文本，理解并归纳出包含的产品的名称(至少一个)及其对应的品牌(可能没有)，并通过{"名称":name,"品牌":brand,"卖点":[attribute1,attribute2,...]}的json的形式返回。

要求：

1.名称应该是SPU粒度，需要通过该名称能确定一个产品。

2.属性是对产品卖点、特性的一些描述，是一组关键词。

3.答案必须包含产品名称，当某个维度的信息缺失时，请在对应位置填"无"。

输入：#content；

你的输出是：

将指引信息中的content替换成第一文本，便可以得到第一提示词，将第一提示词输入大语言模型，得到第一卖点信息。

举例说明，第一文本可以是：年货节特惠；雨神骆驼户外冲锋衣男女三合一2023新款暴雨级三防冲锋衣；经典款杜邦；24小时内300+人已买；超3千回头客；冲锋衣好价榜第一名；年货节限时特惠，满200减30；全程价保，假一赔四，升级版运费险、极速退款。

第一卖点信息可以是：产品名称：经典款杜邦冲锋衣；品牌：骆驼；产品卖点：年货节特惠；满200减30、三防冲锋衣、三合一冲锋衣以及全程价保。

可以看出，在本申请实施例中，通过对第一文本进行筛选，生成目标产品的第一卖点信息，将第一文本和第四提示词模板组成第一提示词输入到大语言模型中，生成第一卖点信息。通过大语言模型对第一文本中的重叠词、堆叠词等冗余信息去除，对第一文本进行筛选和精练后得到第一卖点信息，可以提高后续基于第一卖点信息生成文案的效率以及准确度。

303：获取图像中与目标产品相关的第二卖点信息。

可选地，获取图像中与目标产品相关的第二卖点信息，其中，第二卖点信息用于描述目标产品的特性。电商商家在设计网页内容中的图像时，往往会在图像中添加一些产品的特性用以宣传，吸引消费者的购买欲望。因此，在为目标产品生成文案的时候，不仅仅只需要考虑网页内容中的文本信息，还需要融合网页内容中图像上的文本信息。但是，由于有些产品上可能存在大量文字，例如，瓶饮类的产品上可能存在配料表等大量的文字信息，服装类的产品上也可能存在文字信息等，这些文字信息是产品本身具有的，并不是电商商家为了吸引消费者购买后期添加上去的，因此，需要把产品上本身具有的文字信息剔除，把图像中除去产品之外的区域电商商家后期添加的文字保留，构成第二卖点信息。应说明，若网页内容中的与目标产品相关的图像的数量为多个，分别获取每个图像中与目标产品相关的第二卖点信息，然后将全部的第二卖点信息进行融合，得到最终的目标产品对应的第二卖点信息。示例性的，在本申请中，以多个图像中的任意一个图像为例，对获取该图像中与目标产品相关的第二卖点信息为例进行说明。

应说明，如图4所示步骤303包括步骤3031和步骤3032。

3031：对图像进行主体识别，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别。

具体地，对该图像进行主体识别，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别；基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息，包括：若至少一个类别中包括预设类别，将预设类别对应的主体框作为目标主体框；若至少一个类别中均不包括预设类别，将每个文本框中的第二文本作为第二卖点信息。

可选地，对该图像进行主体识别，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，包括：将该图像输入到训练好的SOTA大模型中，对该图像进行主体识别，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别。进一步地，对得到训练好的SOTA大模型进行说明。在本申请中，利用SOTA大模型的泛化能力，通过数据微调了预训练模型(SOTA大模型)，得到训练好的SOTA大模型。其中，SOTA大模型可以是CoGVLM模型。通过数据微调预训练模型包括，构造微调训练集，微调训练集包括i组微调训练数据，每组微调训练数据包括样本图像、样本图像对应的图像描述以及样本图像的样本结果，其中，图像描述可以通过人工标注或者人工智能模型对样本图像进行图像描述，具体要描述图像中主体的类别，主体的位置，文字的位置以及文字的内容。

示例性的，以构造第一微调训练数据为例，对构造微调训练集进行说明。将第一样本图像输入预训练模型，识别出第一样本图像中的至少一个主体框，并对每个主体框中的主体进行分类，得到主体的类别，其中，该类别可以为人物类、服饰类、瓶饮类、食品类、化妆品类等粗类别。将第一样本图像输入OCR检测模型，OCR检测模型识别出第一样本图像中的文字位置，即得到至少一个文本框，输出文本框的坐标信息，通常以文本框的形式表示。将通过OCR检测模型得到的至少一个文本框输入到OCR识别模型，OCR识别模型将文本框中的图像转换成机器编码的文本，以字符串或者格式化文本的形式呈现出每个文本框中的文本。应说明，本申请中的训练好的SOTA大模型主要用于检测电商场景下的图像，因此，在选择第一样本图像时，应该尽量包括多样化的电商场景下的图像，以便模型可以学习到不同电商场景下不同产品的图像特征。将第一样本图像的至少一个主体框、每个主体框中的主体的类别、至少一个文本框以及每个文本框的文本内容作为第一样本图像的第一样本结果。进一步地，获取第一样本图像的第一图像描述，由第一样本图像、第一图像描述以及第一样本结果构成第一微调训练数据。

进一步地，基于具体的需求调整预训练模型中的训练参数，包括调整学习率、训练周期等，将第一样本图像和第一图像描述输入到调整训练参数后的预训练模型中，得到第一预测结果，确定第一预测结果和第一样本结果的第一损失，其中，第一损失可以基于均方误差、交叉熵损失以及平均绝对误差进行确定，本申请在此不做限制。在确定损失时，需要确定第一预测结果和第一样本结果中的每一个特征的损失，其中，第一预测结果和第一样本结果中都包括四个特征，即至少一个主体框、每个主体框中的主体的类别、至少一个文本框以及每个文本框的文本内容。具体地，确定第一预测结果中的至少一个主体框和第一样本结果中的至少一个主体框的第二损失，确定第一预测结果中的每个主体框中的主体的类别和第一样本结果中的每个主体框中的主体的类别的第三损失，确定第一预测结果中的至少一个文本框和第一样本结果中的至少一个文本框的第四损失，以及确定第一预测结果中的每个文本框的文本内容和第一样本结果中的每个文本框的文本内容的第五损失，可以根据不同的需求对第二损失、第三损失、第四损失以及第五损失赋予不同的权重，或者将第二损失、第三损失、第四损失以及第五损失进行平均，得到第一损失。基于每个微调训练数据对应的损失对与预训练模型进行训练，得到训练好的SOTA大模型。以第一微调训练数据为例，利用第一微调训练数据对应的第一损失调整预训练模型的网络参数，直至模型收敛，得到训练好的SOTA大模型。在实际应用中，可以将多个微调训练数据对应的损失加权得到加权后的损失，利用加权后的损失调整预训练模型的网络参数；也可以逐一利用每个微调训练数据的损失调整预训练模型的网络参数，本申请在此不做限定。举例说明，如图5所示，图5中包括ViT encoder(视觉转换编码器)、MLP adpter(MLP适配器)、Word embedding(词嵌入)、视觉专家模块以及预训练模型，其中，预训练模型基于Transformer架构，每层Transformer中都有一个视觉专家模块。以通过确定第一微调训练数据的损失对预训练模型进行训练为例，对训练过程进行说明。在图5中，第一图像描述为第一微调训练数据中的第一图像描述，第一样本图像为第一微调训练数据中的第一样本图像，将第一样本图像输入到视觉转换编码器，得到第一样本图像对应的图像特征，进一步地，通过MLP适配器的图像特征对齐到与文本特征相同维度的特征空间；将第一图像描述进行词嵌入，得到第一图像描述对应的文本特征，将对齐后的图像特征和文本特征拼接后输入到预训练模型。经过预训练模型得到第一预测结果，确定第一预测结果与第一样本结果之间的第一损失，作为第一训练数据的损失，利用第一训练数据对应的损失调整预训练模型的网络参数，直至预训练模型收敛，得到训练好的SOTA大模型。

具体地，将与目标产品相关的图像输入到训练好的SOTA大模型中，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别。以图6示出的第一图像为例，对得到该第一图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别进行说明。应说明，图6示出的第一图像是网页内容中与目标产品相关的多个图像中的任意一个图像，为了便于描述，将该图像称为第一图像，本申请不对第一图像和图像进行区分。具体地，将第一图像输入到训练好的SOTA大模型中，得到六个文本框(图6中的第一文本框(x

可以看出，在本申请实施例中，通过对预训练模型进行训练，得到训练好的SOTA大模型使得训练好的SOTA大模型可以通过视觉抽取，实现端到端的直接输出图像中的主体框、主体框中主体的类别、文本框以及文本框中的文字内容，提高了数据处理的效率。将这个训练好的SOTA大模型应用到本申请的文案生成方法中，可以提高对网页内容中的图片的识别效率，从而加快第二卖点信息的生成效率，进一步地加快文案生成效率。

3032：基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息。

示例性的，基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息，包括：若至少存在一个主体框中的主体的类别为预设类别，将主体的类别为预设类别的主体框作为目标主体框；基于至少一个文本框、每个文本框中的第二文本以及目标主体框，得到第二卖点信息，具体地，确定每个文本框和目标主体框的重合区域；基于重合区域和每个文本框，确定每个文本框和主体框的重合度；基于每个文本框与目标主体框之间的重合度，确定目标文本框，具体地，若每个文本框与目标主体框之间的重合度小于第一阈值，将该文本框作为目标文本框；将目标文本框的第二文本作为第二卖点信息。若任意一个主体框中的主体的类别均不为预设类别，将每个文本框中的第二文本作为第二卖点信息。

可选地，若至少存在一个主体框中的主体的类别为预设类别，将主体的类别为预设类别的主体框作为目标主体框；其中，预设类别可以是服饰类、食品类以及瓶饮类等，本申请在此不做限定。图像中的目标主体框可以为多个，本申请在此不做限定，在本申请中以目标图像中存在一个目标主体框为例进行说明，图像中的目标主体框可以为多个的处理方法与图像中的目标主体框可以为一个的处理方法类似。如图6所示，继续沿用上述例子，图6中的主体的类别包括人物类和服饰类，因此，第一图像中的类别包括“人物类”和“服饰类”，第一图像中至少存在一个主体框中的主体的类别为预设类别，因此，将“服饰类”对应的主体(服饰)的第二主体框(x

进一步地，基于至少一个文本框、每个文本框中的第二文本以及目标主体框，得到第二卖点信息。具体地，确定每个文本框和目标主体框的重合区域；基于重合区域和每个文本框，确定每个文本框和主体框的重合度。具体地，继续沿用图6所示的例子，确定每个文本框和目标主体框的重合区域，如图7所示，第一文本框(x

其中，第i个文本框是至少一个文本框中的任意一个。

基于上述记载的方法，可以确定出第二文本框、第三文本框、第四文本框以及第五文本框与目标主体框的重合度均为零，第六文本框与目标主体框的重合度为100％。

可选地，基于每个文本框与目标主体框之间的重合度，确定目标文本框；若每个文本框与目标主体框之间的重合度小于第一阈值，将该文本框作为目标文本框。将目标文本框的第二文本作为第二卖点信息。具体地，第一阈值可以为90％，继续沿用上述例子可得，因为第一文本框、第二文本框、第三文本框、第四文本框以及第五文本框与目标主体框的重合度均小于第一阈值，因此，将第一文本框、第二文本框、第三文本框、第四文本框以及第五文本框作为目标文本框，将第一文本框、第二文本框、第三文本框、第四文本框以及第五文本框对应的第二文本“三防羽绒冲锋衣”、“应变湿冷多变气候”、“防风雪”、“防大风”以及“防油污”作为第二卖点信息。

可选地，若任意一个主体框中的主体的类别均不为预设类别，将每个文本框中的第二文本作为第二卖点信息。

可以看出，在本申请实施例中，通过判断每个主体框的类别，若至少存在一个主体框中的主体的类别为预设类别，将主体的类别为预设类别的主体框作为目标主体框，基于至少一个文本框、每个文本框中的第二文本以及目标主体框，得到第二卖点信息。具体地，确定每个文本框和目标主体框的重合区域；基于重合区域和每个文本框，确定每个文本框和主体框的重合度；基于每个文本框与目标主体框之间的重合度，确定目标文本框，若每个文本框与目标主体框之间的重合度小于第一阈值，将该文本框作为目标文本框；将目标文本框的第二文本作为第二卖点信息。电商商家在设计网页内容中的图像时，往往会在图像中添加一些产品的特性用以宣传，吸引消费者的购买欲望，但是，由于有些产品本身上可能存在大量文字，例如，瓶饮类的产品上可能存在配料表等大量的文字信息，服装类的产品上也可能存在文字信息等，这些文字信息是产品本身具有的，并不是电商商家为了吸引消费者购买后期添加上去的，因此，需要把产品上本身具有的文字信息剔除，把图像中除去产品之外的区域电商商家后期添加的文字保留，构成第二卖点信息。在本申请中，通过判断文本框与目标主体框的重合度，将与目标主体框的重合度小于第一阈值的文本框作为目标文本框，然后把目标文本框中的第二文本进行剔除就可以实现将产品上本身具有的文字信息剔除，而将图像中电商商家为了吸引消费者购买后期添加上去的文字进行保留的效果，可以使得生成的第二卖点信息更加准确精练，提升生成文案的准确度。

示例性的，若网页内容中的图像的数量为多个，不同图像中可能会存在相同的文字信息，因此，为了加快第二卖点信息的提取效率，可以提前对图像进行去重。鉴于在本申请中针对的目标产品是进行线上售卖的电商产品，电商商家在对同一种电商产品进行展示时往往是将电商产品的不同颜色的图片，以及不同角度的图片通过图片展示出来，因此，在对图像进行筛选时，可以仅关注图像中目标主体框的颜色特征和形状特征。也就是说，若两个图像中目标主体框中的主体的颜色特征以及形状特征的相似度大于第二阈值时，可以确定出图像中主体框中的主体具有一致性，因此，图像中用于对主体的特性进行描述的文本的内容也具有很高的一致性，仅需要保留该两个图像中的任意一个图像。

具体地，获取第i个图像中的第一目标主体框中的主体的第一形状特征和第一颜色特征，其中，形状特征是目标主体框中的主体的轮廓对应的特征，颜色特征是目标主体框中的主体的颜色对应的特征，第i个图像是多个图像中的任意一个。举例说明，对于服装类主体的形状特征指的是目标主体框中服饰的形状特征，若通过不同图像展示服饰的不同角度时，服饰的形状特征也不相同。应说明，可以通过边缘检测算法、轮廓检测算法等获取目标主体框中主体的形状特征，可以通过颜色矩灰度共生矩阵等算法获取目标主体框中主体的颜色特征，本申请在此不对具体的算法实现方式进行限制。

获取第j个图像中的第二目标主体框中的主体的第二形状特征和第二颜色特征，其中，第j个图像是指多个图像中除第i个图像外的任意一个图像；基于第一形状特征、第一颜色特征、第二形状特征以及第二颜色特征，对第i个图像和第j个图像进行去重，得到至少一个目标图像。具体地，将第一形状特征和第一颜色特征融合成第一目标主体框中的主体的第一主体特征；将第二形状特征和第二颜色特征融合成第二目标主体框中的主体的第二主体特征，其中，具体地融合方法可以是拼接。确定第一主体特征和第二主体特征的相似度，其中，可以通过余弦相似度、欧氏距离等方法确定第一主体特征和第二主体特征的相似度；若相似度大于第二阈值，将第i个图像和第j个图像中的任意一个图像剔除，得到至少一个目标图像；若相似度小于第二阈值，将第i个图像和第j个图像作为至少一个目标图像。

进一步地，去重后的至少一个目标图像中任意两个图像中的目标主体框中的主体特征之间的相似度均小于第二阈值。基于去重后的每个目标图像的至少一个文本框、每个文本框中的第二文本以及目标主体框，得到第二卖点信息，应说明，可以先确定每个目标图像的第二卖点信息，然后再将每个目标图像的第二卖点信息进行拼接，得到至少一个目标图像的第二卖点信息。其中，确定每个目标图像的第二卖点信息的方法与步骤3032记载的，基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息方法类似，本申请在此不再赘述。

可以看出，在本申请实施例中，若网页内容中的图像的数量为多个，通过图像中目标主体框中的主体的颜色特征和形状特征对多个图像进行去重，得到去重后的目标图像。使得去重后的多个图像中任意两个图像中的目标主体框中的主体特征之间的相似度小于第二阈值，以去除重复的目标主体框对应的图像，进一步地，将重复的目标主体框对应的图像中的文本信息也一并剔除，加快数据处理效率，以加快文案生成效率。

304：基于第一卖点信息和第二卖点信息为目标产品生成文案。

示例性的，基于第一卖点信息、第二卖点信息以及第一提示词模板，生成文案的标题；基于第一卖点信息、第二卖点信息以及第二提示词模板，生成文案的正文；基于正文和第三提示词模板，生成文案的标签；基于标题、正文以及标签生成文案。

可选地，基于第一卖点信息、第二卖点信息以及第一提示词模板，生成文案的标题；举例说明，可以通过第一卖点信息、第二卖点信息以及第一提示词模板生成第二提示词，将第二提示词输入大语言模型，大语言模型基于第二提示词所提供的上下文和语义信息，生成文案的标题。第一提示词模板包括：指引信息、第一卖点信息以及第二卖点信息，其中，指引信息用于指示大语言模型需要具备的功能，并引导大语言模型输出目标结果；在本实施例中，第一卖点信息和第二卖点信息可以是通过上述步骤302和步骤303描述的方法得到的第一卖点信息和第二卖点信息，目标结果可以文案的标题，指引信息可以是：

你是XXX社交平台爆款写作专家，请你用以下步骤来进行创作，产出3-5个标题(含适当的emoji表情)；

在XXX社交平台标题方面，你会以下技能：

1.采用二极管标题法进行创作；

2.你善于使用标题吸引人的特点；

3.你使用爆款关键词，写标题时，从这个列表中随机选1-2个；

4.你了解XXX社交平台的标题特性；

5.你XXX社交平台懂得创作的规则；

你得到的信息如下，请做相应的理解和归纳使用：

{第一卖点信息和第二卖点信息}；

请返回你的创作结果：

具体地，将步骤302和步骤303得到的第一卖点信息和第二卖点信息填充到指引信息中，得到第二提示词，其中，第一卖点信息可以是：产品名称：经典款杜邦冲锋衣；品牌：骆驼；产品卖点：年货节特惠；满200减30、三防冲锋衣、三合一冲锋衣以及全程价保；第二卖点信息可以是：三防羽绒冲锋衣、应对湿冷多变气候、防风雪、防大风、防油污。将第二提示词输入到大语言模型中，得到的标题可以为：骆驼三防冲锋衣，户外必备神器；年货节特惠，还不快快购入骆驼冲锋衣；骆驼三防冲锋衣，户外小暖阳，你值得拥有。本申请仅对输出的标题进行举例，不构成对输出标题的限制。

可选地，基于第一卖点信息、第二卖点信息以及第二提示词模板，生成文案的正文。举例说明，可以通过第一卖点信息、第二卖点信息以及第一提示词模板生成第三提示词，将第三提示词输入大语言模型，大语言模型基于第三提示词所提供的上下文和语义信息，生成文案的正文。第二提示词模板包括：指引信息、第一卖点信息以及第二卖点信息，其中，指引信息用于指示大语言模型需要具备的功能，并引导大语言模型输出目标结果；在本实施例中，第一卖点信息和第二卖点信息可以是通过步骤302和步骤303描述的方法得到的第一卖点信息和第二卖点信息，目标结果可以文案的正文，指引信息可以是：

你是XXX社交平台爆款写作专家，请你用以下步骤来进行创作，产出1个正文(每一个段落含有适当的emoji表情)。

在XXX社交平台正文方面，你会以下技能：

1.具有XXX社交平台的写作风格；

2.写作开篇方法，开场白一定要引人入胜，让大家一看就知道你要分享的是超高效的干货，然后就能忍不住继续往下看了；

3.了解XXX社交平台的文本结构；

4.了解XXX社交平台的互动引导方法；

5.具有XXX社交平台的一些小技巧；

6.从预设的数据库中寻找合适的爆款关键词；

8.文章的每句话都尽量口语化、简短；

9.在每段话的开头使用表情符号，在每段话的结尾使用表情符号，在每段话的中间插入表情符号。

你得到的信息如下，请做相应的理解和归纳使用：

{第一卖点信息和第二卖点信息}；

请返回你的创作结果：

具体地，将步骤302和步骤303得到的第一卖点信息和第二卖点信息填充到指引信息中，得到第三提示词，将第三提示词输入到大语言模型中，可以得到如图8中的正文。

可选地，基于正文和第三提示词模板，生成文案的标签。举例说明，可以通过正文和第三提示词模板生成第四提示词，将第四提示词输入大语言模型，大语言模型基于第四提示词所提供的上下文和语义信息，生成文案的标签。第三提示词模板包括：指引信息和正文，其中，指引信息用于指示大语言模型需要具备的功能，并引导大语言模型输出目标结果；在本实施例中，正文可以是通过上述内容描述的方法得到文案的正文，目标结果可以是文案的标签，指引信息可以是：

你是XXX社交平台爆款写作专家，请你用以下步骤来进行创作，产出3-6个标签。

从正文中，抽取3-6个搜索引擎优化关键词(Search Engine Optimization，SEO)，生成#标签。

具体地，将上述示例得到的正文填充到指引信息中，得到第四提示词，将第四提示词输入到大语言模型中，可以得到如图8中的标签。

进一步地，基于标题、正文以及标签生成文案。将通过上述方法得到的文案的标题、正文以及标题组合成目标产品的文案。

在本申请的一种实施例中，还提供另一种文案生成方法。

示例性的，基于第一卖点信息、第二卖点信息以及第五提示词模板，构建第五提示词，将第五提示词输出到大语言模型中，直接生成目标产品的文案，其中，文案包括3-5个标题、正文以及3-6个标签。第五提示词模板包括：第一卖点信息、第二卖点信息以及指引信息，其中，指引信息用于指示大语言模型需要具备的功能，并引导大语言模型输出目标结果；在本实施例中，第一卖点信息和第二卖点信息可以是通过步骤302和步骤303描述的方法得到的第一卖点信息和第二卖点信息，目标结果可以是目标产品的文案，指引信息可以是：

你是XXX社交平台爆款写作专家，请你用以下步骤来进行创作，首先产出3-5个标题(含适当的emoji表情)，其次产出1个正文(每一个段落含有适当的emoji表情，文末有合适的标签)

一、在XXX社交平台标题方面，你会以下技能：

1.采用二极管标题法进行创作；

2.你善于使用标题吸引人的特点；

3.你使用爆款关键词，写标题时，从这个列表中随机选1-2个；

4.你了解XXX社交平台的标题特性；

5.你XXX社交平台懂得创作的规则；

二、在XXX社交平台正文方面，你会以下技能：

1.具有XXX社交平台的写作风格；

2.写作开篇方法，开场白一定要引人入胜，让大家一看就知道你要分享的是超高效的干货，然后就能忍不住继续往下看了；

3.了解XXX社交平台的文本结构；

4.了解XXX社交平台的互动引导方法；

5.具有XXX社交平台的一些小技巧；

6.从预设的数据库中寻找合适的爆款关键词；

7.从你生成的稿子中，抽取3-6个SEO关键词，生成#标签并放在文章最后；

8.文章的每句话都尽量口语化、简短；

9.在每段话的开头使用表情符号，在每段话的结尾使用表情符号，在每段话的中间插入表情符号。

三、结合我给你输入的信息，以及你掌握的标题和正文的技巧，产出内容。请按照如下格式输出内容，只需要格式描述的部分，如果产生其他内容则不输出：

一.标题

[3-5个标题]

[换行]

二.正文

[正文]

标签：[标签]

四、你得到的信息如下，请做相应的理解和归纳使用：

{第一卖点信息和第二卖点信息}；

请返回你的创作结果：

具体地，将通过步骤302和步骤303得到的第一卖点信息和第二卖点信息，填充到第五提示词模板中，得到第五提示词，将第五提示词输入到大语言模型中得到图8中的文案。

可以看出，在本申请实施例中，基于第一卖点信息、第二卖点信息以及第一提示词模板，生成文案的标题；基于第一卖点信息、第二卖点信息以及第二提示词模板，生成文案的正文；基于正文和第三提示词模板，生成文案的标签；基于标题、正文以及标签生成文案。在为目标产品生成文案的时候，不仅仅只考虑基于网页内容中的文本信息生成的第一卖点信息，还融合了基于网页内容中图像生成的第二卖点信息，将电商商家想要展现的卖点信息综合全面地展现在为目标产品生成的文案中，提升文案的准确度和全面性。

参阅图8，图8为本申请实施例提供的再一种文案生成方法的流程示意图。

801：获取目标产品的链接。

应说明步骤801中的获取目标产品的链接的方法和步骤301中获取目标产品的链接的方法类似，本身在此不再赘述。

802：获取目标产品的第一文本和图像。

应说明，步骤802中的获取目标产品的第一文本和图像方法和步骤301中获取目标产品的第一文本和图像的方法类似，本身在此不再赘述。

803：通过大语言模型对第一文本进行文本抽取，得到第一卖点信息。

应说明，第一文本可以是步骤302中的第一文本：年货节特惠；雨神骆驼户外冲锋衣男女三合一2023新款暴雨级三防冲锋衣；经典款杜邦；24小时内300+人已买；超3千回头客；冲锋衣好价榜第一名；年货节限时特惠，满200减30；全程价保，假一赔四，升级版运费险、极速退款。步骤803中的通过大语言模型对第一文本进行文本抽取，得到第一卖点信息方法和步骤302中：对第一文本进行筛选，生成目标产品的第一卖点信息方法的类似，本身在此不再赘述。

804：通过训练好的SOTA大模型对图像进行视觉抽取。

应说明，图像可以是步骤3031中的第一图像，通过训练好的SOTA大模型对图像进行视觉抽取，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，其中，得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别的方法与步骤3031中得到图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别的方法类似，本申请在此不再赘述。

805：对抽取到的文字进行过滤，得到第二卖点信息。

应说明，对抽取到的文字进行过滤，得到第二卖点信息，包括：基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息，与步骤3032中记载的基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到第二卖点信息的方法类似，本申请在此不再赘述。

806：基于第一卖点信息、第二卖点信息以及大语言模型生成文案。

应说明，步骤806中的基于第一卖点信息、第二卖点信息以及大语言模型生成文案的方法，与步骤304中记载的基于第一卖点信息和第二卖点信息为目标产品生成文案的方法类似，本申请在此不再赘述。生成的文案可以为图8中的文案，文案内容具体可以为：

标题：骆驼三防冲锋衣，户外必备神器；年货节特惠，还不快快购入骆驼冲锋衣；骆驼三防冲锋衣，户外小暖阳，你值得拥有。

正文：“第一表情”随着年货节限时特惠，为户外爱好者带来了一个绝佳的购物机会——骆驼户外三防冲锋衣外套的特惠活动；每消费满200元就可以享受30元的直减优惠，更有全程价保承诺，确保以最优惠的价格购得心仪的装备。“第二表情”

“第三表情”这款冲锋衣外套融合了防风雪、防大风、防油污等多重功能，是冬季户外活动的理想选择，无论是郊游、野餐、登山还是徒步，它都能提供全面的保护，使您在寒冷和多变的天气条件下也能保持舒适和温暖。“第四表情”

标签：#骆驼冲锋衣#特惠#三防冲锋衣#户外冲锋衣。

应说明，文案中的第一表情、第二表情、第三表情以及第四表情可以是基于大语言模型生成的，大语言模型可以根据不同的社交平台风格生成不同的表情，然后将表情插入到正文内容中的对应位置，可以是每个段落的开始位置和结束位置，如上述文案中将第一表情和第二表情分别插入到正文的第一段落中的开始位置和结束位置，将第三表情和第四表情分别插入到正文的第二段落中的开始位置和结束位置，本申请对表情的生成方法和拆入位置不做限定。

参阅图9，图9为本申请实施例提供的一种文案生成装置的功能单元组成框图。文案生成装置900包括：收发单元901和处理单元902；

收发单元901，用于获取目标产品的第一文本和图像；

处理单元902，用于对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；

处理单元902，用于获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；

处理单元902，用于基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。

在本申请的一个实施方式中，在获取目标产品的第一文本和图像方面，处理单元902，具体用于：

获取所述目标产品的链接；

获取所述链接对应的与所述目标产品相关的第一文本和图像。

在本申请的一个实施方式中，在获取所述图像中与所述目标产品相关的第二卖点信息方面，处理单元902，具体用于：

对所述图像进行主体识别，得到所述图像中的至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别；

基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到所述第二卖点信息。

在本申请的一个实施方式中，在基于至少一个文本框、至少一个主体框、每个文本框中的第二文本以及每个主体框中的主体的类别，得到所述第二卖点信息方面，处理单元902，具体用于：

若至少存在一个主体框中的主体的类别为预设类别，将主体的类别为预设类别的主体框作为目标主体框；

基于所述至少一个文本框、每个文本框中的第二文本以及所述目标主体框，得到所述第二卖点信息；

若任意一个主体框中的主体的类别均不为预设类别，将每个文本框中的第二文本作为所述第二卖点信息。

在本申请的一个实施方式中，在基于所述至少一个文本框、每个文本框中的第二文本以及所述目标主体对应的目标主体框，得到所述第二卖点信息方面，处理单元902，具体用于：

确定每个文本框和所述目标主体框的重合区域；

基于所述重合区域和每个文本框，确定每个文本框和所述主体框的重合度；

基于每个文本框与所述目标主体框之间的重合度，确定目标文本框；

将所述目标文本框的第二文本作为所述第二卖点信息。

在本申请的一个实施方式中，在所述基于每个文本框与每个目标主体框之间的重合度，确定目标文本框方面，处理单元902，具体用于：

若每个文本框与所述目标主体框之间的重合度小于第一阈值，将该文本框作为所述目标文本框。

在本申请的一个实施方式中，若所述图像的数量为多个；所述基于所述至少一个文本框、每个文本框中的第二文本以及所述目标主体框，得到所述第二卖点信息，处理单元902，具体用于：

获取第i个图像中的第一目标主体框中的主体的第一形状特征和第一颜色特征，其中，形状特征是目标主体框中的主体的轮廓对应的特征，颜色特征是目标主体框中的主体的颜色对应的特征，所述第i个图像是多个图像中的任意一个；

获取第j个图像中的第二目标主体框中的主体的第二形状特征和第二颜色特征，其中，所述第j个图像是指所述多个图像中除所述第i个图像外的任意一个图像；

基于所述第一形状特征、所述第一颜色特征、所述第二形状特征以及所述第二颜色特征，对所述第i个图像和所述第j个图像进行去重，得到至少一个目标图像；

基于每个目标图像的至少一个文本框、每个文本框中的第二文本以及目标主体框，得到所述第二卖点信息。

在本申请的一个实施方式中，在所述基于所述第一形状特征、所述第一颜色特征、所述第二形状特征以及所述第二颜色特征，对所述第i个图像和所述第j个图像进行去重，得到至少一个目标图像方面，处理单元902，具体用于：

将所述第一形状特征和所述第一颜色特征融合成所述第一目标主体框中的主体的第一主体特征；

将所述第二形状特征和所述第二颜色特征融合成所述第二目标主体框中的主体的第二主体特征；

确定所述第一主体特征和所述第二主体特征的相似度；

若所述相似度大于第二阈值，将所述第i个图像和所述第j个图像中的任意一个图像剔除，得到所述至少一个目标图像；

若所述相似度小于第二阈值，将所述第i个图像和所述第j个图像作为所述至少一个目标图像。

在本申请的一个实施方式中，在基于所述第一卖点信息和所述第二卖点信息生成文案方面，处理单元902，具体用于：

基于所述第一卖点信息、所述第二卖点信息以及第一提示词模板，生成文案的标题；

基于所述第一卖点信息、所述第二卖点信息以及第二提示词模板，生成文案的正文；

基于所述正文和第三提示词模板，生成文案的标签；

基于所述标题、所述正文以及所述标签生成所述文案。

参阅图10，图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，电子设备1000包括收发器1001、处理器1002和存储器1003。它们之间通过总线1004连接。存储器1003用于存储计算机程序和数据，并可以将存储器1003存储的数据传输给处理器1002。

处理器1002用于读取存储器1003中的计算机程序执行以下操作：

控制收发器1001获取目标产品的第一文本和图像；

对所述第一文本进行筛选，生成所述目标产品的第一卖点信息；

获取所述图像中与所述目标产品相关的第二卖点信息，其中，所述第二卖点信息用于描述所述目标产品的特性；

基于所述第一卖点信息和所述第二卖点信息为所述目标产品生成文案。

具体地，上述收发器1001可为图9的实施例的文案生成装置900的收发单元901，上述处理器1002可以为图9的实施例的文案生成装置900的处理单元902。

具体地，上述收发器1001可为图9的实施例的文案生成装置900的收发单元901，上述处理器1002可以为图9的实施例的文案生成装置900的处理单元902。因此，上述处理器1002的具体功能可以参照上述处理单元902的具体功能，上述收发器1001的具体功能可以参照上述收发单元901的具体功能。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种文案生成方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种文案生成方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：小红书科技有限公司;

上一篇：文本生成模型训练方法、文本生成方法、装置及电子设备
下一篇：一种指令生成方法、装置、存储介质和电子设备