导航：首页> 机床；其他类目中不包括的金属加工>一种内容生成方法、装置、计算机设备及存储介质

一种内容生成方法、装置、计算机设备及存储介质

文献发布时间：2024-04-18 19:58:26

技术领域

本公开涉及计算机应用技术领域，具体而言，涉及一种内容生成方法、装置、计算机设备及存储介质。

背景技术

随着自媒体的不断崛起，内容的快速生成也成为很多用户当前的迫切需求。利用神经网络模型生成内容是当前实现内容快速生成的一种重要方式，预先训练的神经网络模型能够基于用户输入的文本信息，生成对应的多媒体内容。

当前基于神经网络模型的内容生成方式中，需要用户按照固定的格式，提供对应的文本内容，然后将文本内容输入至神经网络模型中。神经网络模型在接收到文本内容后，直接基于文本内容输出对应的多媒体内容。若用户需要对神经网络模型输出的多媒体内容进行修改，则需要对输入的文本内容进行调整，生成过程可控性较差。

发明内容

本公开实施例至少提供一种内容生成方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种内容生成方法，包括：

获取目标文本，所述目标文本包括对目标角色和/或对目标场景进行描述的描述内容；

基于所述目标文本，生成提示词；所述提示词包括：所述目标角色对应的角色提示词和/或所述目标场景的场景提示词；

将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像；其中，不同预览图像关联的提示词至少部分不同；

响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像；

基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

这样，在获取目标文本后，基于目标文本生成提示词，提示词中包括了目标角色对应的角色提示词和/或目标场景对应的场景提示词。然后将上述提示词输入至内容生成模型中，生成与目标文本对应的至少一帧预览图像；由于不同的预览图像关联的提示词至少部分不同，若用户需要对其中某一帧预览图像进行修改，则只需要对该帧预览图像对应的提示词进行第一修改操作，并将修改后的提示词输入至内容生成模型中，生成与该帧预览图像对应的新的预览图像即可，进而提升多媒体内容生成过程中的可控性，并提升内容生成的效率。

此外，本公开实施例直接将场提示词输入至内容生成模型，以使得内容生成模型能够根据上述提示词直接生成预览图像，所生成的预览图像和上述提示词之间具有更高的匹配度，较之相关技术中采用现有的素材拼接得到多媒体内容的方式，本公开实施例提供的利用内容生成模型基于提示词生成的多媒体内容，和目标文本之间具有更高的匹配度。

一种可能的实施方式中，所述基于所述目标文本，生成提示词，包括：

对所述目标文本进行拆分处理，得到多个文本片段；其中，任一文本片段包括：对所述目标角色的至少部分第一描述内容、和/或对所述目标场景的至少部分第二描述内容；

针对多个文本片段中的每个文本片段，对所述每个文本片段进行语义分析，得到每个所述文本片段对应的提示词。

一种可能的实施方式中，所述将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像，包括：

将多个所述文本片段分别对应的提示词输入至所述内容生成模型，得到与每个所述文本片段对应的预览图像。

一种可能的实施方式中，所述响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像，包括：

响应于对任一文本片段对应的提示词的修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一文本片段对应的新的预览图像。

一种可能的实施方式中，还包括：基于所述修改后的提示词，从除所述任一帧预览图像外的其他预览图像中，确定关联预览图像；

基于所述修改后的提示词，对所述关联预览图像进行修改，得到与所述关联预览图像对应的新的预览图像。

一种可能的实施方式中，所述基于所述预览图像，生成与所述目标文本对应的目标多媒体内容之前，还包括：

生成所述目标文本对应的字幕信息、和/或确定与所述目标文本对应的目标音色；

所述基于所述预览图像，生成与所述目标文本对应的目标多媒体内容，包括：

基于所述字幕信息和所述目标音色中至少一种，并基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

一种可能的实施方式中，确定所述目标文本对应目标音色，包括：

基于目标文本，确定所述目标角色的声音特征，并基于所述声音特征，为所述目标角色匹配对应的目标音色；或者，

接收用户从多种备选音色中确定的目标音色。

一种可能的实施方式中，所述方法还包括：

获取所述预览图像的画风信息、和/或图像比例信息；

所述将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像，包括：

将所述画风信息和所述图像比例信息中至少一种、以及将所述提示词输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，所述生成与所述目标文本对应的预览图像之前，还包括：

对所述目标文本进行角色特征解析，得到所述目标角色对应的外形特征信息、和/或，接收用户输入的所述目标角色对应的外形特征信息；

将所述外形特征输入至所述内容生成模型，得到所述目标角色的角色图像；

所述将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像，包括：

将所述提示词、和所述角色图像输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，所述方法还包括：响应于对所述目标角色对应的外形特征信息的第二修改操作，基于修改后的外形特征，生成所述目标角色的新的角色图像；

从多帧预览图像中，确定与所述目标角色对应的预览图像；

基于所述新的角色图像，对所述目标角色对应的预览图像中的目标角色进行修改，得到新的目标预览图像。

第二方面，本公开实施例还提供一种内容生成装置，包括：

获取模块，用于获取目标文本，所述目标文本包括对目标角色和/或对目标场景进行描述的描述内容；

第一生成模块，用于基于所述目标文本，生成提示词；所述提示词包括：所述目标角色对应的角色提示词和/或所述目标场景的场景提示词；

第二生成模块，用于将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像；其中，不同预览图像关联的提示词至少部分不同；

修改模块，用于响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像；

第三生成模块，关于基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

一种可能的实施方式中，所述第二生成模块，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将多个所述文本片段分别对应的提示词输入至所述内容生成模型，得到与每个所述文本片段对应的预览图像。

一种可能的实施方式中，所述修改模块，在响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像时，用于：

响应于对任一文本片段对应的提示词的修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一文本片段对应的新的预览图像。

一种可能的实施方式中，所述修改模块，还用于：基于所述修改后的提示词，从除所述任一帧预览图像外的其他预览图像中，确定关联预览图像；

基于所述修改后的提示词，对所述关联预览图像进行修改，得到与所述关联预览图像对应的新的预览图像。

一种可能的实施方式中，还包括：处理模块，用于生成所述目标文本对应的字幕信息、和/或确定与所述目标文本对应的目标音色；

所述第三生成模块，在基于所述预览图像，生成与所述目标文本对应的目标多媒体内容时，用于：

基于所述字幕信息和所述目标音色中至少一种，并基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

一种可能的实施方式中，所述处理模块，在确定所述目标文本对应目标音色时，用于：

基于目标文本，确定所述目标角色的声音特征，并基于所述声音特征，为所述目标角色匹配对应的目标音色；或者，

接收用户从多种备选音色中确定的目标音色。

一种可能的实施方式中，所述处理模块，还用于：

获取所述预览图像的画风信息、和/或图像比例信息；

所述第二生成模块，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将所述画风信息和所述图像比例信息中至少一种、以及将所述提示词输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，还包括：第四生成模块，用于：

对所述目标文本进行角色特征解析，得到所述目标角色对应的外形特征信息、和/或，接收用户输入的所述目标角色对应的外形特征信息；

将所述外形特征输入至所述内容生成模型，得到所述目标角色的角色图像；

所述第二生成模块，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将所述提示词、和所述角色图像输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，所述修改模块，还用于：响应于对所述目标角色对应的外形特征信息的第二修改操作，基于修改后的外形特征，生成所述目标角色的新的角色图像；

从多帧预览图像中，确定与所述目标角色对应的预览图像；

基于所述新的角色图像，对所述目标角色对应的预览图像中的目标角色进行修改，得到新的目标预览图像。

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述内容生成装置、计算机设备、及计算机可读存储介质的效果描述参见上述内容生成方法的说明，这里不再赘述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开一些实施例所提供的内容生成方法的流程图；

图2示出了本公开一些实施例所提供的交互控制页面的示例之一；

图3示出了本公开一些实施例所提供的基于目标文本生成提示词的流程图；

图4示出了本公开一些实施例所提供的交互控制页面的示例之二；

图5示出了本公开一些实施例所提供的交互控制装置的示意图；

图6示出了本公开一些实施例所提供的计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，当前利用神经网络模型生成多媒体内容的方式通常有下述两种：

其一：用户输入文本信息。神经网络模型通过对文本信息进行特征提取，得到与文本信息对应的特征数据；然后根据该特征数据，从预先构建的素材库中，为文本信息匹配对应的目标素材，并将匹配到的目标素材按照一定的方式组织到一起，得到与文本信息对应的多媒体内容。这种生成方式生成的多媒体内容的质量往往依赖于素材库的丰富程度，且生成的多媒体内容和文本信息的匹配程度通常都比较低。

其二：用户输入文本信息。神经网络模型对文本信息进行特征提取，并基于提取到的特征，直接进行画面的生成。这种方式生成的多媒体内容的质量往往依赖于用户输入的文本信息；为了能够满足用户的需求，往往要求用户输入多维度的描述信息，才可以生成对应多媒体内容的生成；而用户一旦遗漏某些信息、或者不满意当前的多媒体内容，需要对生成的多媒体内容进行进一步的修改，就需要重新输入文本信息，并利用神经网络模型重新生成多媒体内容，造成了生成多媒体内容过程的可控性较差，且生成效率较低。

基于上述研究，本公开提供了一种内容生成方法，能够提升在多媒体内容生成过程中的可靠性，提升生成的效率，同时生成的多媒体内容和用户输入的文本信息之间具有更高的匹配度。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。例如，具体可以是通过页面中弹窗、信息推送等方式，向用户发送请求授权的提示信息，用户同意后，使用上述信息。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种内容生成方法进行详细介绍，本公开实施例所提供的内容生成方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该内容生成方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面对本公开实施例提供的内容生成方法加以说明。

参见图1所示，为本公开实施例提供的内容生成方法的流程图，所述方法包括步骤S101～S105，其中：

S101：获取目标文本，所述目标文本包括对目标角色和/或对目标场景进行描述的描述内容。

S102：基于所述目标文本，生成提示词；所述提示词包括：所述目标角色对应的角色提示词和/或所述目标场景的场景提示词。

S103：将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像；不同预览图像关联提示词至少部分不同。

S104：响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像；

S105：基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

本公开实施例在获取目标文本后，基于目标文本生成提示词，提示词中包括了目标角色对应的角色提示词和/或目标场景对应的场景提示词。然后将上述提示词输入至内容生成模型中，生成与目标文本对应的至少一帧预览图像；由于不同的预览图像关联的提示词至少部分不同，若用户需要对其中某一帧预览图像进行修改，则只需要对该帧预览图像对应的提示词进行第一修改操作，并将修改后的提示词输入至内容生成模型中，生成与该帧预览图像对应的新的预览图像即可，进而提升多媒体内容生成过程中的可控性，并提升内容生成的效率。

下面对上述S101～S104分别加以详细说明。

针对上述S101：

目标文本例如可以包括：小说、剧本、或者基于任意形式的演出如歌曲、相声、话剧、电影电视等具有音频或字幕的多媒体内容转换生成的文本内容。

目标文本不同，生成的目标多媒体内容的用途和分类也有所区别。

示例性的，针对目标文本包括小说的情况，生成的多媒体内容例如包括：小说的插画、与小说对应的动画视频、解说视频等中的任一种。

针对目标文本包括剧本的情况，生成的多媒体内容例如包括：剧本的分镜、或者能够更直观的被演员理解的与剧本对应的简单动画、或视频等。

针对目标文本包括歌曲的情况，生成的多媒体内容例如包括：歌曲的音乐短片(Music Video，MV)、歌曲发布的封面、宣传海报等。

针对目标文本包括：相声、话剧、电影电视等的情况，所生成的多媒体内容例如包括：上述任一种形式演出的海报、内容预告、解说视频等。

在目标文本中，通常包括了对目标角色和/或目标场景进行描述的描述内容。

其中，目标角色对应的描述内容例如可以包括：目标角色的外貌、行为、身份、性格、情绪等进行描述的内容。

对目标场景的描述内容例如包括：目标场景的类型、景色、布局、时间、天气、事件等进行描述的内容。

在目标文本中，可以仅包括对目标角色的描述内容，也可以仅包括对目标场景的描述内容，也可以包括上述两者。

一种可能的实施方式中，针对目标文本中包括对目标角色和目标场景的描述内容的情况下，目标场景例如包括目标角色所在的场景。

此外，在另一种可能的实施方式中，还提供一种获取目标文本的具体方式，包括：

展示交互控制页面；所述交互控制页面包括：用于接收所述目标文本的输入控件；所述输入控件包括：文本输入框、文本导入按钮、以及确认按钮；

响应于对所述文本导入按钮的触发操作，跳转至目标页面，并将所述目标页面中的文本内容导入到所述文本输入框中；

响应于对所述确认按钮的触发操作，将所述文本输入框中的文本内容作为所述目标内容。

此外，也可以利用输入设备，直接在文本输入框中输入文本内容，并将输入的文本内容作为目标文本。

在该实施例中，目标页面例如包括：阅读应用程序对应的小说内容展示页面、文本编辑程序对应的编辑页面等。根据不同的应用，该目标页面也有所区别。

如图2所示，本公开实施例还提供一种交互控制页面的具体示例。该交互控制页面中包括：文本输入框s1、文本导入按钮s2、以及确认按钮s3；

其中，在文本输入框s1中未写入文本内容时，会向用户显示目标文本的提示信息，在该示例中，该提示信息例如包括：“请输入视频标题”、以及“请输入视频文稿，文稿内容要求如下：内容长度建议最少2000子以上；文稿内容可以是具体的故事情节，或者是对整篇小说的总结概述，能够向读者清晰传达故事内容。”提提示用户输入的具体目标内容。

此外，用户可以通过文本导入按钮s2跳转到目标页面，将目标页面中包括的文本信息直接导入到文本输入框s1中。在导入到文本输入框s1之后，用户还可以进一步对文本输入框s1中的文本信息进行修改；在用户确认了文本输入框中的文本信息无误后，即可以通过点击确认按钮s3，以使得执行本公开实施例提供的内容生成方法的设备得到目标文本。

针对上述S102：

在具体实施中，基于目标文本生成提示词(prompt)，例如可以是对目标文本进行关键词提取，得到提示词，也可以是对目标文本中的内容进行概括总结后得到的提示词。该提示词可以出现在目标文本中，也可以并未出现在目标文本中，而是能够在一定程度上表征目标文本所描述的内容。

角色提示词包括：在多种角色描述维度上对目标角色进行描述的词汇，其能够表示目标角色在多种角色描述维度下的特征。多种角色描述维度例如包括：性别、年龄、外貌、动作行为、身份、性格、情绪等中至少一种。

场景提示词例如包括：在多种场景描述维度上对目标场景进行描述的词汇，其能够表示目标场景在多种场景描述维度下的特征，多种场景描述维度例如包括：目标场景的类型、景色、布局、时间、天气、事件等至少一种。

如图3所示，还提供另外一种基于目标文本生成提示词的具体方法，包括：

S301：对所述目标文本进行拆分处理，得到多个文本片段；其中，任一文本片段包括：对所述目标角色的至少部分第一描述内容、和/或对所述目标场景的至少部分第二描述内容；

在具体实施中，在对目标文本进行拆分处理时，例如可以采用下述方式中至少一种：

a1：基于目标文本所包含的标点符号对目标文本进行拆分处理，得到多个文本片段。

示例性的，目标文本通常是基于由多个句子构成；而标点符号则能够表示出句子之间的相互关系。如以逗号衔接的两个句子，通常所表达的含义是具有较强关联性的；而以句号衔接的两个句子，所表达的含义的关联性通常较小。进而，本公开实施例中，在基于目标文本所包含的标点符号对目标文本进行拆分处理时，例如可以按照一定的拆分粒度，确定拆分位置对应的目标标点符号，然后根据目标文本中所包含的标点符号，将目标文本拆分为多个文本片段。

此处，拆分粒度例如可以是用户预先确定的、或根据用户生成的目标多媒体内容的具体情况确定。

示例性的，针对拆分粒度较大的情况，例如可以将句号作为目标标点符号，对目标文本进行拆分；针对拆分粒度较小的情况，例如可以将逗号和句号作为目标标点符号，将目标文本进行拆分。此外，还可以设置更大的拆分粒度，例如针对目标文本包括多个段落的情况下，也可以以段落为拆分的粒度，对目标文本进行拆分处理。

此外，也可以根据目标文本所包含的数据量、成的目标多媒体内容的视频持续时长、生成的目标多媒体内容中图像的帧刷新率等中至少一种，自适应的为目标文本确定拆分粒度。

示例性的，在目标多媒体内容的该拆分粒度的大小、和生成的目标多媒体内容的持续时长负相关。也即，针对某一目标文本，在该目标文本的文本长度不变的情况下，要生成的目标多媒体内容的持续时长越久，则拆分粒度越小，保证能够得到更多的文本片段，从而生成更多的预览图像。

目标多媒体内容的拆分粒度的大小、和目标文本所包含的数据量正相关。也即，目标文本所包含的数据量越大，则在某些情况下，为了控制生成的目标多媒体内容的数据量，可以为其设置较大的拆分粒度，以保证能够生成数量恰当的预览图像。

拆分粒度的大小、和目标多媒体内容中图像的帧刷新率负相关。也即，针对某一目标文本，在该目标文本的文本长度不变的情况下，要生成的目标多媒体内容中图像的帧刷新率越高，需要的预览图像的数量越多，进而对目标文本进行拆分的拆分粒度也就越小，以保证能够得到尽量多的预览图像，满足帧刷新率的需求。

在本公开实施例中，上述目标多媒体内容的持续时长、帧刷新率，均可以作为在生成目标多媒体内容过程中，用户可控的输入参数，以对目标多媒体内容的生成进行更加精细化的控制，满足用的需求。

a2：基于目标数量区间，对目标文本进行拆分处理。

此处，例如用户可以设置具体的目标数量区间；该目标数量区间，表征每个文本片段所包含的文字的数量所处的区间。

在一个文本片段内，可以包括至少一个句子，且该文本片段所包含的所有文字的数量属于目标数量区间内。

a3：对目标文本进行关键词提取处理，获取目标文本所包括的关键词序列。然后根据关键词序列中包括的各个关键词，先对关键词进行分组；其中，属于相同分组中的不同关键词在关键词序列中的位置通常是相邻的；然后根据关键词在目标文本中具体位置，将同一分组中的不同关键词分别所在的句子，划分至同一个文本片段中。

在将关键词序列中包括的多个关键词进行分组时，例如可以为各个关键词分别标注所属的句子；在分组时，可以基于位置相邻的两个句子中的关键词，确定位置相邻的两个句子之间的相关度。若位置相邻的两个句子之间的相关度大于一定的相关度阈值，则表示该位置相邻的两个句子在描述同一个场景、或同一个事件，此时，可以将该位置相邻的两个句子分别包括的关键词划分到同一个分组中。

此外，还可以有其他的将目标分文划分为文本片段的方式，本公开实施例不再赘述。

S302：针对多个文本片段中的每个文本片段，对所述每个文本片段进行语义分析，得到每个所述文本片段对应的提示词。

此处，在任意一个文本片段中，可能仅包括目标角色的至少部分第一描述内容，此时，所得到的与该文本片段对应的提示词，仅包括角色提示词。此处，目标角色的第一描述内容，可能被包含在多个文本片段中；此时，则某个文本片段，可能仅包括目标角色的部分第一描述内容；若目标角色的第一描述内容仅被包含在一个文本片段中，则该文本片段包括了目标角色的所有第一描述内容。

在该任意一个文本片段中，也可能仅包括对目标场景的至少部分第二描述内容，进而，该任意一个文本片段对应的提示词，也仅包括场景提示词。相似度的，目标场景的第二描述内容，可能被包含在多个文本片段中；此时，则某个文本片段，可能仅包括目标场景的部分第二描述内容；若目标场景的第二描述内容仅被包含在一个文本片段中，则该文本片段包括了目标场景的所有第二描述内容。

此外，在该任意一个文本片段中，还可以既包括对目标角色的至少部分第一描述内容，又包括对目标场景的至少部分第二描述内容，进而，该文本片段对应的提示词可以包括角色提示词和场景提示词。

在对文本片段进行语义分析时，例如可以将文本片段输入至预先训练的神经语言程序学(Neuro-Linguistic Programming，NLP)模型中，得到每个文本片段对应的提示词。

针对上述S103：

在得到提示词之后，可以将提示词输入至内容生成模型，生成与目标文本对应的至少一帧预览图像。其中，不同预览图像关联提示词至少部分不同。

一种可能的实施方式中，针对直接对目标文本进行关键词提取、或者语义分析处理，得到提示词的情况，例如可以根据目标文本的内容描述逻辑，形成提示词的序列，然后按照该序列，将提示词输入至内容生成模型中。语义生成模型在生成预览图像的时候，例如可以根据提示词构成的序列，依次生成多帧预览图像。其中，相邻两帧预览图像分别对应的提示词，可以在由提示词构成的序列中具有相邻、或位置相近的关系(甚至可能存在一部分相同的提示词)。这样，使得形成的多帧预览图像也能够按照目标文本的内容描述逻辑，存在和内容描述逻辑一致的逻辑性。

另外一种可能的实施方式中，针对将目标文本切分为多个文本片段，并获取与每个文本片段对应的提示词的情况，例如是将多个所述文本片段分别对应的提示词输入至所述内容生成模型，得到与每个所述文本片段对应的预览图像。

此时，每个文本片段对应的预览图像、和与该文本片段对应的提示词之间具有关联关系。

具体地，针对同一段目标文本，内容生成模型在利用多个文本片段分别对应的提示词，得到与多个文本片段分别对应的预览图像时，若目标文本中描述的目标场景仅有一个，则多帧预览图像中呈现的目标场景可以是相同场景，具有相同或相似的场景布局特征；若目标文本中描述的目标角色也仅有一个，多帧预览图像中呈现的目标角色也可以是相同角色，通常具有相同的外貌特征。

本公开另一实施例中，在生成预览图像之前，还包括：

获取所述预览图像的画风信息、和/或图像比例信息。

则在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，具体包括：将所述画风信息和所述图像比例信息中至少一种、以及将所述提示词输入至内容生成模型，生成与所述目标文本对应的预览图像。

此处，画风信息例如包括生成的预览图像的具体风格，例如包括下述至少一种：古风水墨、A类漫画、B类漫画、油画、写实白描等等。具体可以根据实际的需要进行选择。

此外，图像比例信息用于描述预览图像的长宽比例，其例如包括下述至少一种：3:4、4:3、9:16、以及16:9。

上述画风信息、以及图像比例信息，均可以根据实际的需要进行确定，本公开实施例不做限定。

在展示上述画风信息、图像比例信息、备选音色的时候，例如还可以向用户展示具体的示例，以使得用户能够从视觉上对相关信息有更多的了解，方便用户做出选择。

本公开另一实施例中，在生成预览图像后，还可以包括：在交互控制页面中展示预览图像。

在展示预览图像时，例如可以在交互控制页面中按照文本片段之间的先后顺序，展示预览图像的缩小图。用户可以通过点击预览图像的缩小图，触发放大展示预览图像。

另一实施例中，在展示多帧预览图像的时候，还可以关联展示与预览图像对应的文本片段和/或提示词。

此处，在某个预览图像关联的提示词包括了场景提示词和角色提示词的情况下，在展示提示词的时候，可以将场景提示词和角色提示词区分开，分别进行展示，以使得用户能够对目标场景和目标角色分别对应的特征有更好的了解。

此外，在另一实施例中，还可以对目标角色的外貌特征进行提前设置，而并不仅仅基于目标文本解析得到目标角色的外貌特征。

进而，本公开实施例提供的内容生成方法中，在生成与所述目标文本对应的预览图像之前，还包括：

对所述目标文本进行角色特征解析，得到所述目标角色对应的外形特征信息、和/或，接收用户输入的所述目标角色对应的外形特征信息；

将所述外形特征输入至所述内容生成模型，得到所述目标角色的角色图像；

所述将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像，包括：

将所述提示词、和所述角色图像输入至内容生成模型，生成与所述目标文本对应的所述预览图像。

这样，示例性的，目标角色的外形特征信息例如包括：角色A：方脸大眼，神态阳刚，双眉粗长、鼻梁高挺，嘴唇薄而清秀，胡子拉碴。

这样，在将外形特征信息输入到内容生成模型后，内容生成模型能够基于上述外形特征信息生成目标角色的人设图形，其能够与上述外形特征信息相贴合。这样，使得用户可以直接对目标角色进行人设的设定，以确定目标角色的外貌，以能够增加用户对内容生成过程中的交互控制。

此外，本公开实施例提供的方法还包括：

响应于对所述目标角色对应的外形特征信息的第二修改操作，基于修改后的外形特征，生成所述目标角色的新的角色图像；

从多帧预览图像中，确定与所述目标角色对应的预览图像；

基于所述新的角色图像，对所述目标角色对应的预览图像中的目标角色进行修改，得到新的目标预览图像。

这样，既可以实现对角色图像的快速修改，满足用户在生成目标多媒体内容之前，就方便对目标角色的人设进行修改。

如图4所示的示例中，示出一种交互控制页面在展示预览图像时的具体示例。在该示例中，为目标文本确定的预览图像有5帧，5帧预览图像对应的缩小图在交互控制页面的第一区域s4依次排布展示。

此外，为了能够让用户看清楚预览图像的细节，还可以通过触发任一帧预览图像进行放大展示。

当用户触发其中第3帧预览图像s5的缩小图后，将该第3帧预览图像s5突出显示(该示例中通过添加标记进行突出显示，还可以高亮、异色等方式，将用户触发的预览图像进行突出显示)，并将与第3帧预览图像关联的提示词s6展示在交互控制页面的第一区域。

其中提示词s6显示在一个可以编辑的控件中，以方便接收用户对提示词的修改，以实现对当前选中的预览图像进行针对性的调整。

此外，在显示提示词的控件中，还可以显示字幕信息，该字幕信息例如可以是可编辑的内容。

此外，交互控制页面的第二区域，还展示有音色选择控件s7、画风选择控件s8、比例选择控件s9、以及人物设定控件s10。

其中，音色选择控件s7包括了多个备选音色，包括：清纯女、清亮男、甜美女、磁性男。用户可以从中选择，以为目标多媒体内容确定配音的音色。具体的可参见下述S105的描述，在此不再赘述。

画风选择控件s8包括了多个备选画风，其中包括：古风水墨、A类漫画、B类漫画、写实白描四个；用户可以从中选择目标多媒体内容的画风信息。

比例选择控件s9包括了多个备选比例；分别包括：3:4、4:3、9:16、以及16:9。用户可以从中选择预览图像的比例信息。

人物设定控件s10是用户能够进行内容输入以及编辑的控件，方便用户对目标角色的人物设定记性调整。

另一种可能的实施方式中，在展示预览图像时，也可以仅展示一张预览图像；同时，在交互控制页面中还设置有预览图像的更换控件；用户可以通过触发该更换控件，将当前展示的预览图像更换为展示其他的预览图像。

针对上述S104：

对任一帧文本片段对应的提示词的第一修改操作，例如可以存在下述几种情况：

b1：要进行修改的预览图像仅关联有角色提示词，则此时仅可以对角色提示词进行第一修改操作。

b2：要进行修改的预览图像仅关联有场景提示词，则此时仅可以对场景提示词进行第一修改操作。

b3：要进行修改的预览图像既关联了角色提示词，又关联有场景提示词，可以只对其中的角色提示词进行第一修改操作，也可以仅对其中的场景提示词进行第一修改操作；此外，还可以对角色提示词和场景提示词均进行第一修改操作。

在得到修改后的提示词后，将修改后的提示词输入至内容生成模型，生成与该帧要修改的预览图像对应的新的预览图像。

针对将多个所述文本片段分别对应的提示词输入至所述内容生成模型，得到与每个所述文本片段对应的预览图像的情况，例如可以采用下述方式：

响应于对任一文本片段对应的提示词的修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一文本片段对应的新的预览图像。

然后，可以在交互控制页面中为用户显示新的预览图像，并关联显示修改后的提示词。

此处，在显示修改后的提示词时，为了能够让用户能够更加清楚的展示出提示词的修改情况，还可以在展示的修改后的提示词中标记出修改的具体位置和/或修改的具体内容。

此外，还可以在交互控制页面中显示撤销按钮；响应于对撤销按钮的触发操作，撤销对所述任一文本片段对应的预览图像的修改，使得修改后的预览图像恢复至修改之前的状态。

在该种情况下，还可以保留对该任一文本片段对应的预览图像进行修改的修改记录，该修改记录中，包括历次对该各个文本片段对应的预览图像进行修改时，新生成的预览图像、以及与新生成的预览图像对应的提示词。通过交互页面将修改记录罗列展示出来，用户可以从中选择在生成目标多媒体内容时要采用的预览图像。

另外，对于同一目标文本的不同预览图像，在很多情况下是存在较大的关联性的。因此，在某些情况下，用户不仅仅是需要对其中的一帧预览图像进行修改，而是需要对其中具有关联性的多帧预览图像进行统一修改。因此，为了实现对具有关联性的多帧预览图像进行统一的修改，在本公开另一实施例中还包括：

基于所述修改后的提示词，从除所述任一帧预览图像外的其他预览图像中，确定关联预览图像；

基于所述修改后的提示词，对所述关联预览图像进行修改，得到与所述关联预览图像对应的新的预览图像。

此处，在确定关联预览图像时，示例性的，修改后的提示词较之修改前的提示词，修改了目标角色的外貌，如将外貌表述中的“红色头发”修改为“蓝色头发”，或者修改了目标场景的布局，如事件发生的目标场景由“沙漠中的小绿洲”修改为“沙漠中的胡杨林”，则该与该事件对应的所有目标场景，均需要进行预览图像的修改。此时，可以基于上述过程，自动确定关联预览图像，并基于修改后的提示词，对关联预览图像也进行修改。

此外，为了进一步增加内容生成过程中用户的可控性，在确定了关联预览图像后，还可以在交互控制页面中将关联预览图像向用户标记出来；用户可以根据标记，进行关联预览图像的进一步调整，例如可以将关联预览图像调整为非关联预览图像，或者将非关联预览图像调整为关联预览图像。之后，响应于用户确认修改的操作，才会对关联预览图像进行修改，得到与所述关联预览图像对应的新的预览图像。

在基于修改后的提示词，对关联预览图像进行修改时，例如可以基于上述任一帧预览图像对应的修改后的提示词，对关联预览图像对应的提示词进行调整，得到关联预览图像对应的修改后的提示词。然后将关联预览图像对应的修改后的提示词输入至内容生成模型，得到与关联预览图像对应的新的预览图像。

具体地，在基于上述任一帧预览图像对应的修改后的提示词，对关联预览图像对应的提示词进行调整，得到关联预览图像对应的修改后的提示词时，例如可以将上述任一帧预览图像对应的修改前的提示词和关联预览图像对应的提示词进行匹配，得到两者的相同提示词或者相似提示词；然后基于上述任一帧预览图像对应的修改后的提示词，同步给相同提示词或者相似提示词，进而得到关联预览图像对应的修改后的提示词。

针对上述S105：

在基于预览图像，生成与目标文本对应的目标多媒体内容时，例如可以将预览图像插入到预先配置的多媒体内容模板中，得到目标多媒体内容。

在本公开另一实施例中，在基于所述预览图像，生成与所述目标文本对应的目标多媒体内容之前，例如还可以包括：

生成所述目标文本对应的字幕信息、和/或确定与所述目标文本对应的目标音色。

则在生成目标多媒体内容时，例如可以基于所述字幕信息和所述目标音色中至少一种，并基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

在具体实施中，在生成字幕信息时，例如可以直接将各个文本片段作为字幕信息，

此外，还对各个文本片段进行人称视角的转换处理、语言的提炼处理、冗余信息的过滤处理等操作，得到字幕信息。

d1：针对人称视角的转换处理：

目标文本的描述人称视角，例如可以包括第一人称视角，或者第三人称视角。在目标文本为第一人称视角的情况下，可以根据实际的应用需求，将各个文本片段从第一人称视角转换为第三人称视角；或者在目标文本为第三人称视角的情况下，可以根据实际的应用需求，将各个文本片段从第三人称视角转换为第一人称视角，以得到字幕信息。

d2：针对语言的提炼处理：

例如可以将较大篇幅的文本片段进行语言的提炼，得到能够更加精准的、凝练的表达该文本片段完整语义的一段文字，并将该段文字作为字幕信息。

d3：冗余信息的过滤处理：

例如针对目标文本包括脚本的情况，会有很多对场景布局、角色走位等进行描述的内容。而这些内容更多的用于指导多预览画面的生成，而字幕内容则是要更多的体现不同角色之间的对话、某个角色的独白等，此时，可以将其中的多对场景布局、角色走位等进行描述的内容作为需要过滤的冗余信息过滤掉，利用脚本中包括的对话内容、或者独白内容，生成字幕信息。

在确定目标音色时，例如可以采用但不限于下述方式中至少一种：

e1：基于目标文本，确定所述目标角色的声音特征，并基于所述声音特征，为所述目标角色匹配对应的目标音色。

具体地，声音特征例如可以根据目标角色在年龄、性别、性格等维度的特征来体现。可以预先设置多种备选音色，可以预先为每种备选音色确定多个标签，标签所记录的内容用于表示备选音色对应的角色所应该具备的特征。

在基于目标文本，确定了目标角色的声音特征后，可以将声音特征分别和各个备选音色的标签进行匹配，从中选择和音色特征最为匹配的备选音色作为目标音色。

e2：接收用户从多种备选音色中确定的目标音色。

具体地，例如可以在交互控制页面中为用户显示多种目标音色。在生成目标多媒体内容之前，用户可以从显示的多种目标音色中，选择其中的任一种作为目标音色。

此外，还可以有其他的目标音色的确定方式，本公开实施例不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与内容生成方法对应的内容生成装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述内容生成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种内容生成装置的示意图，所述装置包括：

获取模块51，用于获取目标文本，所述目标文本包括对目标角色和/或对目标场景进行描述的描述内容；

第一生成模块52，用于基于所述目标文本，生成提示词；所述提示词包括：所述目标角色对应的角色提示词和/或所述目标场景的场景提示词；

第二生成模块53，用于将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像；其中，不同预览图像关联的提示词至少部分不同；

修改模块54，用于响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像；

第三生成模块55，关于基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

一种可能的实施方式中，所述第二生成模块53，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将多个所述文本片段分别对应的提示词输入至所述内容生成模型，得到与每个所述文本片段对应的预览图像。

一种可能的实施方式中，所述修改模块54，在响应于对任一帧预览图像关联的提示词的第一修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一帧预览图像对应的新的预览图像时，用于：

响应于对任一文本片段对应的提示词的修改操作，将修改后的提示词输入至所述内容生成模型，生成与所述任一文本片段对应的新的预览图像。

一种可能的实施方式中，所述修改模块54，还用于：基于所述修改后的提示词，从除所述任一帧预览图像外的其他预览图像中，确定关联预览图像；

基于所述修改后的提示词，对所述关联预览图像进行修改，得到与所述关联预览图像对应的新的预览图像。

一种可能的实施方式中，还包括：处理模块56，用于生成所述目标文本对应的字幕信息、和/或确定与所述目标文本对应的目标音色；

所述第三生成模块55，在基于所述预览图像，生成与所述目标文本对应的目标多媒体内容时，用于：

基于所述字幕信息和所述目标音色中至少一种，并基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

一种可能的实施方式中，所述处理模块56，在确定所述目标文本对应目标音色时，用于：

基于目标文本，确定所述目标角色的声音特征，并基于所述声音特征，为所述目标角色匹配对应的目标音色；或者，

接收用户从多种备选音色中确定的目标音色。

一种可能的实施方式中，所述处理模块56，还用于：

获取所述预览图像的画风信息、和/或图像比例信息；

所述第二生成模块53，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将所述画风信息和所述图像比例信息中至少一种、以及将所述提示词输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，还包括：第四生成模块57，用于：

对所述目标文本进行角色特征解析，得到所述目标角色对应的外形特征信息、和/或，接收用户输入的所述目标角色对应的外形特征信息；

将所述外形特征输入至所述内容生成模型，得到所述目标角色的角色图像；

所述第二生成模块53，在将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像时，用于：

将所述提示词、和所述角色图像输入至内容生成模型，生成与所述目标文本对应的预览图像。

一种可能的实施方式中，所述修改模块54，还用于：响应于对所述目标角色对应的外形特征信息的第二修改操作，基于修改后的外形特征，生成所述目标角色的新的角色图像；

从多帧预览图像中，确定与所述目标角色对应的预览图像；

基于所述新的角色图像，对所述目标角色对应的预览图像中的目标角色进行修改，得到新的目标预览图像。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图6所示，为本公开实施例提供的计算机设备结构示意图，包括：

处理器61和存储器62；所述存储器62存储有处理器61可执行的机器可读指令，处理器61用于执行存储器62中存储的机器可读指令，所述机器可读指令被处理器61执行时，处理器61执行下述步骤：

获取目标文本，所述目标文本包括对目标角色和/或对目标场景进行描述的描述内容；

基于所述目标文本，生成提示词；所述提示词包括：所述目标角色对应的角色提示词和/或所述目标场景的场景提示词；

将所述提示词输入至内容生成模型，生成与所述目标文本对应的至少一帧预览图像；其中，不同预览图像关联的提示词至少部分不同；

基于所述预览图像，生成与所述目标文本对应的目标多媒体内容。

上述存储器62包括内存621和外部存储器622；这里的内存621也称内存储器，用于暂时存放处理器61中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器61通过内存621与外部存储器622进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中所述的内容生成方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的内容生成方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的内容生成方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京字跳网络技术有限公司;

上一篇：地图要素生成方法、装置、计算机设备和存储介质
下一篇：一种花键半轴浮动水平对中机构