掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本说明书涉及人工智能领域,尤其涉及一种内容生成方法和系统。

背景技术

人工智能生成内容(Artificial Intelligence Generated Content,AIGC)是一种基于人工智能的方式在已有数据中寻找规律,并自动生成内容的生产方式。其已在众多应用中被广泛应用。为了使得AIGC生成的内容更加符合用户需求,用户通常采用人工调整内容提示数据的方式来调整AIGC生成的内容,或者采用参考图像的方式来使得AIGC生成的内容更加符合用户需求。然而,该些方式所生成的内容仍然与用户的个性化的匹配度较低,可能无法满足应用要求。

综上,需要提供一种新的内容生成方法及系统,能够提高AIGC内容与用户个性化的匹配度。

背景技术部分的内容仅仅是发明人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领域,也不代表其可以成为本公开的现有技术。

发明内容

本说明书提供一种与用户个性化的匹配度更高的内容生成方法和系统。

第一方面,本说明书提供一种内容生成方法,包括:获取目标用户输入的内容提示数据和其对应的目标关联用户,所述目标关联用户为与所述目标用户具有类似内容偏好的关联用户;获取所述目标用户的目标特征和所述目标关联用户的目标关联特征;基于所述内容提示数据、所述目标特征和所述目标关联特征,确定所述目标用户对应的个性化目标内容,所述个性化目标内容与所述内容提示数据相匹配;以及输出所述个性化目标内容。

在一些实施例中,所述目标特征包括所述目标用户的画像特征和历史内容特征中的至少一种,所述目标关联特征包括所述目标关联用户的画像特征和历史内容特征中的至少一种,所述历史内容特征包括历史内容提示数据特征及其对应的历史采纳内容特征。

在一些实施例中,所述获取目标用户输入的内容提示数据和其对应的目标关联用户,包括:获取所述目标用户对应的M个候选关联用户及其对应的M个候选关联特征,所述M为正整数;基于所述目标用户与所述M个候选关联用户之间的关联关系,和所述目标特征与所述M个候选关联特征之间的比对,确定所述目标用户与所述M个候选关联用户之间的M个关联度;以及基于所述M个关联度,在所述M个候选关联用户中筛选出所述目标用户对应的目标关联用户。

在一些实施例中,所述获取所述目标用户对应的M个候选关联用户及其对应的M个候选关联特征,包括:确定所述目标特征与用户数据库中多个用户的用户特征之间的多个相似度;对所述多个相似度按照由高到低的顺序进行排序,得到相似度排序结果;以及选取所述相似度排序结果中排序靠前的M个相似度对应的用户作为所述M个候选关联用户。

在一些实施例中,所述关联关系包括共用设备关系、共用网络关系以及信息传输关系中的至少一种,所述目标用户的画像特征和所述M个候选关联用户的画像特征包括关系特征,所述关系特征包括设备特征、网络特征以及信息传输特征中的至少一种。

在一些实施例中,所述画像特征为基于画像数据得到的特征,所述画像数据包括个人信息数据、近期浏览文本、近期浏览图像和近期浏览视频中至少一项;所述画像数据还包括设备数据、网络数据以及信息传输数据中的至少一种。

在一些实施例中,所述基于所述目标用户与所述M个候选关联用户之间的关联关系,和所述目标画像特征和所述M个候选关联画像特征之间的比对,确定所述目标用户与所述M个候选关联用户之间的M个关联度,包括:将所述目标特征和所述M个候选关联特征输入至关联用户预测模型,得到所述目标用户与所述M个候选关联用户之间的M个关联度;所述关联用户预测模型的训练目标包括约束样本用户对之间的预测关联度与真实关联度之间的差异小于第一预设差异阈值。

在一些实施例中,所述基于所述M个关联度,在所述M个候选关联用户中筛选出所述目标用户对应的目标关联用户,包括:对所述M个关联度按照由高到低的顺序进行排序;以及在排序结果中选取所述关联度大于预设关联度阈值,或者排序靠前的L个候选关联用户确定为所述目标关联用户,所述L为小于或等于所述M的正整数。

在一些实施例中,所述基于所述内容提示数据、所述目标特征和所述目标关联特征,确定所述目标用户对应的个性化目标内容,包括:对所述目标特征和所述目标关联特征进行融合,得到所述目标用户的个性化特征;以及将所述个性化特征作为内容生成的扩散方向,并基于所述内容提示数据进行内容生成,得到所述个性化目标内容。

在一些实施例中,所述个性化目标内容采用内容生成模型进行内容生成得到,所述内容生成模型的训练数据包括多个样本用户对应的样本内容提示数据以及样本个性化特征,所述样本个性化特征是基于其对应的样本用户以及关联的样本关联用户的样本画像特征得到的,训练目标包括约束基于所述样本内容提示数据以及所述样本个性化特征输出的预测生成内容与真实生成内容之间的差异小于第二预设差异阈值。

在一些实施例中,所述训练目标还包括:约束预测生成内容特征与其对应的样本用户的样本历史内容特征之间的差异小于第三预设差异阈值,其中,所述预测生成内容特征是基于所述预测生成内容得到的。

在一些实施例中,所述样本历史内容特征包括其对应的样本用户以及关联的样本关联用户的平均历史内容提示数据特征及其对应的平均历史采纳内容特征中的至少一种。

第二方面,本说明书还提供一种内容生成系统,包括:至少一个存储介质,存储有至少一个指令集,用于进行内容生成;以及至少一个处理器,同所述至少一个存储介质通信连接,其中,当所述内容生成系统运行时,所述至少一个处理器读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书第一方面所述的内容生成方法。

由以上技术方案可知,本说明书提供的内容生成方法和系统,在获取目标用户输入的内容提示数据之后,进一步获取与目标用户对应的目标关联用户,以及目标用户对应的目标特征和目标关联用户对应的目标关联特征,并在基于内容提示数据对目标用户生成目标内容时,利用目标关联特征对目标特征进行补充,从而获得更加准确的用户个性化特征,以指导内容生成过程朝着用户个性化特征的方向发展,生成符合用户个性化特点的目标内容,提高目标内容与用户个性化特点之间的匹配度。

本说明书提供的内容生成方法和系统的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的内容生成方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种内容生成系统的应用场景示意图;

图2示出了根据本说明书的实施例提供的一种计算设备的硬件结构图;

图3示出了根据本说明书的实施例提供的一种内容生成方法流程图;

图4示出了根据本说明书的实施例提供的预设关联用户预测网络的训练过程的数据流向示意图;以及

图5示出了根据本说明书的实施例提供的预设冷启动内容生成网络的训练过程中的数据流向示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述,本说明书将对以下描述将会出现的术语进行如下解释:

AIGC:指利用人工智能(Artificial Intelligence,AI)技术生成内容的方法。内容可以包括文字内容、音频内容、图像内容以及视频内容等等。

关联用户:指和当前用户有相同或类似内容偏好的用户。

个性化内容生成:指不同的用户输入同一个内容提示数据(prompt),会生成不同的个性化内容。

在对本说明书具体实施例说明之前,先对本说明书的应用场景进行如下介绍:

本说明书提供的内容生成方法可以应用在任意的需要进行内容生成的场景中,比如,在文本生成场景中,可以利用AIGC模型快速生成初始文本内容,比如文章、新闻报道、广告文案和创意写作等内容,从而为撰稿人和编辑提供高效的创作方式,快速生成初稿,提高文本创作效率;在图像生成场景中,可以根据用户输入的关键词或真实图像,自动生成初始图像内容,比如,利用AIGC模型生成红包封面;在视频生成场景中,可以利用AIGC模型自动生成初始视频内容,比如短视频、动画、电影预告等,从而通过自动化处理来加速视频创作的过程,此外,还可以自动生成字幕和视频描述,以及自动化的视频剪辑和渲染,从而提高视频制作的效率和质量;在音频生成场景中,还可以利用AIGC模型生成多种初始音频内容,比如手机导航语音、文案朗读、虚拟人声音等,从而提供高效的音频制作方式。

在生成初始内容之后,若用户对初始内容不满意,可以自行调整内容提示数据,比如扩展内容提示数据、调整风格、同义词替换等等。但是这类方法对于用户而言门槛较高,并且需要依赖于大量的人工经验。用户还可以提供一张参考图像,并使得AIGC模型根据参考图像的特定线索(比如轮廓、深度或分割图谱等等)生成新的AIGC内容。但是这种方法需要人工指定线索类型,以及需要用户人工挑选参考图像,同样需要依赖于大量的人工经验。因此,本说明书提供一种新的内容生成方法,在内容生成过程中,引入与当前用户相关联的用户的个性化数据,对当前用户进行画像,从而丰富当前用户的画像特征,使得基于当前用户的画像特征所生成的内容与用户的个性化匹配度更高。本说明书的内容生成方法还可以应用在任意的内容生成场景中,在此就不再一一赘述。为了方便描述,本申请中将以内容生成方法应用在图像生成场景中对AIGC模型生成的初始图像进行优化为例进行描述。

本领域技术人员应当明白,本说明书所述的内容生成方法及系统应用于其他使用场景也在本说明书的保护范围内。

图1示出了根据本说明书的实施例提供的一种内容生成系统001的应用场景示意图。内容生成系统001(以下简称系统001)可以应用于任意场景的内容生成,比如,文本内容、图像内容、音频内容和视频内容生成等场景下的内容生成,如图1所示,系统001可以包括终端设备200。在一些实施例中,系统001可以包括服务器300。系统001的应用场景可以包括目标用户100、系统001以及网络400。

目标用户100可以为需要进行内容生成的用户,或者正在进行内容生成的用户。

终端设备200可以为对目标用户100进行内容生成的设备。在一些实施例中,所述内容生成方法可以在终端设备200上执行。此时,终端设备200可以存储有执行本说明书描述的内容生成方法的数据或指令,并可以执行或用于执行所述数据或指令。在一些实施例中,终端设备200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。在一些实施例中,终端设备200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容,或其任意组合。在一些实施例中,所述移动设备可包括智能家居设备、智能移动设备、虚拟现实设备、增强现实设备或类似设备,或其任意组合。在一些实施例中,所述智能家居装置可包括智能电视、台式电脑等,或任意组合。在一些实施例中,所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等,或其任意组合。在一些实施例中,所述虚拟现实设备或增强现实设备可能包括虚拟现实头盔、虚拟现实眼镜、虚拟现实补丁、增强现实头盔、增强现实眼镜、增强现实补丁或类似内容,或其中的任何组合。例如,所述虚拟现实设备或所述增强现实设备可能包括谷歌眼镜、头戴式显示器、VR等。在一些实施例中,所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中,终端设备200可以是具有定位技术的设备,用于定位终端设备200的位置。

在一些实施例中,终端设备200可以安装有一个或多个应用程序(APP)。所述APP能够为目标用户100提供通过网络400同外界交互的能力以及界面。所述APP包括但不限于:网页浏览器类APP程序、搜索类APP程序、聊天类APP程序、购物类APP程序、视频类APP程序、理财类APP程序、即时通信工具、邮箱终端设备、社交平台软件等等。在一些实施例中,终端设备200上可以安装有目标APP。所述目标APP能够为终端设备200采集目标用户输入的内容提示数据。在一些实施例中,所述目标用户100还可以通过所述目标APP触发内容生成的请求。所述目标APP可以响应于内容生成的请求,执行本说明书描述的内容生成方法。所述内容生成方法将在后面的内容中详细介绍。

如图1所示,终端设备200可以与服务器300进行通信连接。在一些实施例中,服务器300可以与多个终端设备200进行通信连接,并接收终端设备200发送的数据。在一些实施例中,终端设备200可以通过网络400与服务器300交互,以接收或发送消息等。服务器300可以是提供各种服务的服务器,例如对多个终端设备200上部署的内容生成方法提供支持的后台服务器。在一些实施例中,所述内容生成方法可以在服务器300上执行。此时,服务器300可以存储有执行本说明书描述的内容生成方法的数据或指令,并可以执行或用于执行所述数据或指令。在一些实施例中,服务器300可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。

网络400用以在终端设备200和服务器300之间提供通信连接的介质。网络400可以促进信息或数据的交换。如图1所示,终端设备200和服务器300可以同网络400连接,并且通过网络400互相传输信息或数据。在一些实施例中,网络400可以是任何类型的有线或无线网络,也可以是其组合。比如,网络400可以包括电缆网络,有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络

应该理解,图1中的终端设备200、服务器300和网络400的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备200、服务器300和网络400。

需要说明的是,所述内容生成方法可以完全在终端设备200上执行,也可以完全在服务器300上执行,还可以部分在终端设备200上执行,部分在服务器300上执行。后面的描述中将以内容生成方法在终端设备200和服务器300上执行为例进行说明。

图2示出了根据本说明书的实施例提供的一种计算设备600的硬件结构图。计算设备600可以执行本说明书描述的内容生成方法。所述内容生成方法在本说明书中的其他部分介绍。当所述内容生成方法在终端设备200上执行时,计算设备600可以是终端设备200。当所述内容生成方法在服务器300上执行时,计算设备600可以是服务器300。当所述内容生成方法部分在终端设备200上执行,部分在服务器300上执行时,计算设备600既可以是终端设备200,也可以是服务器300。

如图2所示,计算设备600可以包括至少一个存储介质630和至少一个处理器620。在一些实施例中,计算设备600还可以包括通信端口650和内部通信总线610。同时,计算设备600还可以包括I/O组件660。

内部通信总线610可以连接不同的系统组件,包括存储介质630、处理器620和通信端口650。

I/O组件660支持计算设备600和其他组件之间的输入/输出。

通信端口650用于计算设备600同外界的数据通信,比如,通信端口650可以用于计算设备600同网络400之间的数据通信。通信端口650可以是有线通信端口也可以是无线通信端口。

存储介质630可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘632、只读存储介质(ROM)634或随机存取存储介质(RAM)636中的一种或多种。存储介质630还包括存储在所述数据存储装置中的至少一个指令集。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的内容生成方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器620可以同至少一个存储介质630以及通信端口650通过内部通信总线610通信连接。至少一个处理器620用以执行上述至少一个指令集。当计算设备600运行时,至少一个处理器620读取所述至少一个指令集,并且根据所述至少一个指令集的指示,执行本说明书提供的内容生成方法。处理器620可以执行内容生成方法包含的所有步骤。处理器620可以是一个或多个处理器的形式,在一些实施例中,处理器620可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(RISC),专用集成电路(ASIC),特定于应用的指令集处理器(ASIP),中心处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑器件(PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中计算设备600中仅描述了一个处理器620。然而,应当注意,本说明书中计算设备600还可以包括多个处理器,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中计算设备600的处理器620执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器620联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种内容生成方法P100的流程图。如前,计算设备600可以执行本说明书的内容生成方法P100。具体地,处理器620可以读取存储在其本地存储介质中的指令集,然后根据指令集的规定,执行本说明书的内容生成方法P100。如图3所示,方法P100可以包括:

S120:获得目标用户输入的内容提示数据和其对应的目标关联用户。

内容提示数据(Prompt)是一种输入引导,用来引导用户输入合适的关键词,以准确描述用户意图生成的目标内容,使得机器能够准确理解用户意图,从而生成符合用户意图的高质量的内容。内容可以包括文字内容、音频内容、图像内容和视频内容等等。计算设备600通过获取目标用户的内容提示数据,可以帮助AIGC模型理解目标用户的意图并生成与其匹配的内容。内容提示数据可以是一段文字、至少一个问题、至少一个关键词或者至少一张图像等等。比如,内容提示数据是发型、脸型、服装风格、衣服颜色、表情等形容一个女孩子的关键词。再比如,内容提示数据还可以是目标用户输入的真实图像和所选择的参考图像。参考图像有不同的图像类型可以选择。图像类型可以是图像风格,比如漫画或电影中的一些人物角色等等。

在一些实施例中,当计算设备600为终端设备时,由计算设备600直接获取目标用户100在终端设备上输入的内容提示数据。在一些实施例中,当计算设备600包括终端设备和服务器时,则终端设备在获取目标用户输入的内容提示数据之后,再将其发送至服务器。

目标关联用户是指与目标用户具有类似内容偏好的关联用户。其中,类似内容偏好包括相同内容偏好或者相似度较高的内容偏好。内容偏好是指用户对于内容的某一方面特性的偏好。以内容是图像为例,内容偏好可以是用户偏好的图像风格,或者对于某一些图像参数的偏好等等。图像参数可以是图像的锐度、亮度等等。

目标关联用户可以基于用户数据库获得。用户数据库中包括多个用户及其对应的用户特征。该多个用户可以是在AIGC平台注册的用户,也可以是在AIGC平台浏览过内容的用户,还可以是在AIGC平台生成过历史内容的用户。用户特征可以采用如下方式获得:在一些实施例中,计算设备600可以获得多个用户对应的画像数据,并对多个用户对应的画像数据进行特征编码,得到多个用户对应的中间用户特征,以及对多个用户对应的中间用户特征进行特征压缩,得到多个用户对应的用户特征。也就是说,画像特征为基于画像数据得到的特征。其中,画像数据可以包括个人信息数据、用户近期在AIGC平台浏览过的文本内容、用户近期在AIGC平台浏览过的图像内容及用户近期在AIGC平台浏览过的视频内容中至少一项。相应地,中间用户特征可以包括多个中间子用户特征,多个中间子用户特征也可以称为多个子画像特征。多个子画像特征可以包括中间个人信息画像特征、中间文本画像特征、中间图像画像特征和中间视频画像特征中至少一项。相应地,用户特征可以包括多个子用户特征。多个子用户特征可以包括个人信息画像特征、文本画像特征、图像画像特征和视频画像特征中至少一项。

在一些实施例中,计算设备600还可以获得多个用户对应的画像数据及历史内容生成数据,并对多个用户对应的画像数据和历史内容生成数据进行特征编码,得到多个用户对应的中间用户特征,以及对多个用户对应的中间用户特征进行特征压缩,得到多个用户对应的用户特征。其中,历史内容生成数据可以包括历史内容提示数据和历史采纳内容。

也就是说,用户特征可以包括画像特征和历史内容特征中至少一种。

中间用户特征可以采用如下方式获得:例如,针对个人信息数据,计算设备600可以基于规则编码方式将其编码成数据特征向量,从而得到中间个人信息画像特征。针对文本内容,计算设备600可以采用大语言模型(Large Language Model,LLM)对用户近期在AIGC平台浏览过的文本内容进行编码,从而得到中间文本画像特征。针对图像内容,计算设备600可以采用对比语言-图像预训练(Contrastive Language-Image Pre-Training,CLIP)模型对用户近期浏览过的图像内容进行编码,从而得到中间图像画像特征。针对视频内容,计算设备600可以采用CLIP模型对用户近期浏览过的视频内容进行编码,从而得到中间视频画像特征。

在获得中间个人信息画像特征、中间文本画像特征、中间图像画像特征和中间视频画像特征之后,计算设备600还可以对上述四个中间画像特征进行特征压缩,将其压缩至预设维度,从而得到用户特征。预设维度可以是128维度、64维度等等。特征压缩可以采用自回归模型来实现。

计算设备600在获得多个用户对应的用户特征之后,便可以基于多个用户的标识及对应的用户特征生成映射关系表,并存储在用户数据库中,以在后续进行内容生成时,便于检索有类似内容偏好的用户。计算设备600可以采用如下方式存储用户特征:比如,对于用户A,可以将其对应的用户特征记为fA,对于用户B,可以将其对应的用户特征记为Fb,以此类推,用户数据库中的多个用户均可以进行标记,以便区分不同的用户及其对应的初始用户特征。其中,用户的标识是表征用户身份的数据,能够唯一识别用户,用来区分不同的用户。用户的标识可以是用户在AIGC平台上的注册的账号、手机号等等。

计算设备600在获得上述映射关系表之后,便可以基于目标用户和映射关系表从多个用户中筛选出目标关联用户。计算设备600可以在多个用户中进行粗粒度筛选,也可以进行细粒度筛选,还可以同时进行粗粒度筛选和细粒度筛选。为了保证筛选速度和筛选精度,计算设备600可以在多个用户中进行粗粒度筛选,缩小筛选范围,进而在缩小后的筛选范围内进行细粒度筛选。以下将粗粒度筛选和细粒度筛选分别记为第一阶段和第二阶段。在第一阶段筛选过程中,计算设备600可以确定目标用户的用户特征与多个用户的用户特征之间的相似度,得到多个用户特征相似度,并对多个用户特征相似度按照由高到低的顺序进行排序,得到相似度排序结果,以及选取相似度排序结果中排序靠前的M个用户特征对应的M个用户作为M个候选关联用户。其中,目标用户与多个用户的用户特征的相似度可以采用余弦相似度、欧式距离或者曼哈顿距离等等来计算。为了方便描述,以下将M个候选关联用户的用户特征记为M个候选关联特征。目标用户对应的用户特征记为目标特征。也就是说,目标特征包括目标用户的画像特征和历史内容特征中的至少一种。

在第一阶段筛选过程中,由于对中间用户特征进行了压缩,降低了特征维度,能够提高第一阶段的筛选效率。即第一阶段的筛选过程能够高效率地保证关联用户的召回率。为了进一步提高筛选精度,将第一阶段筛选出来的M个候选关联用户中可能存在的关联度较低的噪声用户排除,计算设备600可以进行进一步的细粒度筛选。因此,计算设备600通过第二阶段筛选来提高筛选精度,旨在筛选出来关联度较高(可以理解为关联度大于预设关联度)的候选关联用户,即目标关联用户。第二阶段筛选可以采用如下方式实现:例如,计算设备600获取目标用户对应的M个候选关联用户及其对应的M个候选关联特征,M为正整数;基于目标用户与M个候选关联用户之间的关联关系,和目标用户对应的中间用户特征与M个候选关联用户对应的中间用户特征之间的比对,确定目标用户与M个候选关联用户之间的M个关联度;以及基于M个关联度,在M个候选关联用户中筛选出目标用户对应的目标关联用户。

计算设备600基于目标用户与M个候选关联用户之间的关联关系,和目标用户对应的中间用户特征与M个候选关联用户对应的中间用户特征之间的比对,确定目标用户与M个候选关联用户之间的M个关联度时,可以有多种实现方式,具体可以如下:

在一些实施例中,计算设备600可以将中间用户特征的多个子特征中每一个子特征依次记为目标子特征,并将目标子特征与M个候选关联特征中相对应的子特征进行比对,得到目标子特征与M个候选关联特征中相对应的子特征之间的M个相似度,之后再将M个相似度加权求和,得到目标子特征与M个候选关联特征中相对应的M个目标子相似度。对多个子特征中每个子特征重复上述过程,便可以得到多个子特征中每个子特征对应的M个目标子相似度,之后,计算设备600将多个子特征中每个子特征对应的M个目标子相似度进行加权求和,便可以得到目标用户与M个候选关联用户之间的M个关联度。

在一些实施例中,计算设备600还可以获取目标用户对应的M个候选关联用户及其对应的M个候选关联特征;基于目标用户与M个候选关联用户之间的关联关系,和目标特征与M个候选关联特征之间的比对,确定目标用户与M个候选关联用户之间的M个关联度;以及基于所述M个关联度,在所述M个候选关联用户中筛选出所述目标用户对应的目标关联用户。

计算设备600在获取目标用户对应的M个候选关联用户及其对应的M个候选关联特征时,可以采用如下方式:比如,计算设备600确定目标特征与用户数据库中多个用户的用户特征之间的多个相似度;对多个相似度按照由高到低的顺序进行排序,得到相似度排序结果;以及选取相似度排序结果中排序靠前的M个相似度对应的用户作为M个候选关联用户。

关联关系可以包括共用设备关系、共用网络关系以及信息传输关系中的至少一种。目标用户的画像特征和M个候选关联用户的画像特征包括关系特征。关系特征包括设备特征、网络特征以及信息传输特征中的至少一种。画像数据中还可以包括关系特征对应的数据,比如设备数据、网络数据以及信息传输数据中的至少一种。其中,共用设备关系是指不同的用户共用一台设备进行内容生成。共用网络关系是指不同的用户共用同一个网络进行内容生成。信息传输关系是指信息共享,比如用户A分享一个链接给用户B,用户A和用户B经常聊天,或者用户A和用户B之间存在转账等等涉及到用户A和用户B之间的数据流转关系。

比如,在上述介绍的画像数据的基础上,当用户A和用户B共用一台设备进行内容生成,或者用户A和用户B共用同一个网络进行内容生成,或者用户A和用户B之间存在信息传输关系,或者用户A和用户B为同事、家人、共用地址关系、消息互通关系等等,计算设备600可以确定用户A和用户B之间存在关联关系。上述关联关系可以基于用户之间的关系网拓扑图获得。关系网拓扑图中包括多个节点,每个节点代表一个用户,当两个用户之间存在关联关系时,二者之间采用直线连接;当两个用户之间不存在关联关系时,二者之间没有连接关系。

计算设备600基于目标用户与M个候选关联用户之间的关联关系,和目标特征与M个候选关联特征之间的比对,确定目标用户与M个候选关联用户之间的M个关联度时,可以借助神经网络模型来确定。例如,计算设备600获取样本数据集,并基于样本数据集对预设关联用户预测网络进行训练,得到训练好的关联用户预测模型。其中,样本数据集可以包括多个样本用户对。每个样本用户对中的两个用户分别记为当前样本用户及其对应的样本关联用户。每个样本用户对具有对应的真实关联度。真实关联度为样本用户对的标签,表征样本关联用户是当前样本用户的高关联度用户或者非高关联度用户。真实关联度可以采用人工标注的方式来获得。

计算设备600在获得样本数据集之后,便可以基于样本数据集对预设关联用户预测网络进行训练,以获得关联用户预测模型。样本数据集中的每个样本用户可以对应一个样本高关联用户,也可以对应多个样本高关联用户,也可以对应有噪声样本用户(即关联度小于预设关联度阈值的关联用户)。噪声用户是指非高关联样本用户。下面结合附图对预设关联用户预测网络的训练过程进行介绍:

图4示出了根据本说明书的实施例提供的预设关联用户预测网络的训练过程的数据流向示意图。如图4所示,该预设关联用户预测网络可以包括预设目标用户特征编码网络、预设关联用户特征编码网络和关联匹配网络。

为了提高训练效率,计算设备600可以将样本用户对的用户特征作为训练数据。为了方便描述,以下将当前样本用户对应的用户特征记为第一样本用户特征,以及将当前样本用户对应的样本关联用户的用户特征记为第一样本关联用户特征。

其中,预设目标用户特征编码网络可以是Transform网络。计算设备600将第一样本用户特征输入至预设目标用户特征编码网络中,以使预设目标用户特征编码网络对第一样本用户特征进行特征编码,得到与其对应的预测第二样本用户特征。

预设关联用户特征编码网络可以是Transform网络。与预设目标用户特征编码网络的原理类似,计算设备600可以将第一样本关联用户特征输入至预设关联用户特征编码网络中,以使预设关联用户特征编码网络对第一样本关联用户特征进行特征编码,得到预测第二样本关联用户特征。

预设关联匹配网络可以是多层感知机(Multilayer Perceptron,MLP)或者Transform网络。计算设备600可以将预测第二样本用户特征和预测第二样本关联用户特征输入至预设关联匹配网络,以使其预测当前样本用户与其对应的关联样本用户之间的关联度,从而得到预测关联度。

其中,预测关联度表征当前样本用户与其对应的关联样本用户之间的关联度的预测结果。预测关联度可以采用概率来表示。计算设备600基于预测关联度还可以确定预测关联分类结果。预测关联分类结果表征样本用户对中的样本关联用户是否为当前样本用户的高关联用户。

计算设备600在获得预测关联度之后,便可以基于预测关联分类结果与真实关联分类结果之间的差异确定关联分类损失,并基于关联分类损失对预设关联用户预测网络进行收敛,从而得到训练好的关联用户预测模型,并将目标用户的目标特征和其对应的M个候选关联用户的M个候选关联特征输入至关联用户预测模型中,从而得到目标用户与M个候选关联用户之间的M个关联度。

关联分类损失小于第一预设差异阈值为关联用户预测模型的训练目标。

M个关联度表征目标用户与M个候选关联用户之间的关联度大小。计算设备600在获得M个关联度之后,可以对M个关联度按照由高到低的顺序进行排序,并在排序结果中选取关联度大于预设关联度阈值,或者排序靠前的L个候选关联用户确定为目标关联用户,L为小于或等于M的正整数。

继续参阅图3,在步骤S120之后,所述方法P100还可以包括如下步骤S140。

S140:获取目标用户的目标特征和目标关联用户的目标关联特征。

目标用户特征是指目标用户对应的用户特征。目标关联特征是指目标关联用户对应的用户特征。目标特征可以包括目标用户的画像特征和历史内容特征中至少一种。目标关联特征可以包括目标关联用户的画像特征和历史内容特征中的至少一种。历史内容特征可以包括历史内容提示数据特征及其对应的历史采纳内容特征。如前所述,用户数据库中存储有映射关系表。计算设备600可以基于目标用户的标识,在映射关系表中通过查表的方式获得目标用户的目标特征。类似地,计算设备600也可以基于目标关联用户的标识,在映射关系表中通过查表的方式获得目标关联用户的目标关联特征。

S160:基于内容提示数据、目标特征和目标关联特征,确定目标用户对应的个性化目标内容。

其中,个性化目标内容与内容提示数据相匹配。目标特征代表目标用户对于内容的偏好。目标关联特征代表目标关联用户对于内容的偏好。在内容生成过程中,计算设备600可以利用目标关联用户的用户特征对目标用户的用户特征进行补充,从而得到更加符合目标用户的内容偏好的个性化特征,以提高对于目标用户的画像准确度,进而实现不同的用户即使是采用相同的内容提示数据,也会生成不同的个性化内容的效果。

计算设备600基于内容提示数据、目标特征和目标关联特征,确定目标用户对应的个性化目标内容时,可以对目标特征和目标关联特征进行特征融合,得到目标用户的个性化特征,并将个性化特征作为内容生成的扩散方向,基于内容提示数据进行内容生成,从而得到个性化目标内容。

其中,计算设备600可以采用特征融合方式将目标特征和目标关联特征融合为目标用户的个性化特征。特征融合可以采用特征拼接、特征求和、对应元素相乘等方式来实现。目标关联特征相较于目标特征,包含着更加丰富的特征信息,对于目标用户的个性化描述更加全面,且更加精准。

计算设备600在获得个性化特征之后,便可以基于个性化特征和内容提示数据进行内容生成。具体的,计算设备600可以将个性化特征作为内容生成的扩散方向,使得基于内容提示数据生成内容的过程中,其能够引导所生成的内容朝着目标用户的个性化特征的方向发展,使得最终生成的目标内容符合用户的个性化特点。

计算设备600在基于内容提示数据和个性化特征对目标用户生成个性化的目标内容时,可以借助神经网络模型来实现。神经网络模型可以为内容生成模型,即个性化目标内容采用内容生成模型进行内容生成得到。基于目标用户的用户类型,计算设备600可以采用与用户类型相对应的神经网络模型来进行内容生成。目标用户的用户类型包括新用户和老用户。新用户是指目标用户第一次来到AIGC平台进行内容生成,没有历史内容生成数据可以参考。老用户是指目标用户已经多次在AIGC平台进行内容生成,有历史内容生成数据可以参考。新用户对应的神经网络模型可以称为冷启动内容生成模型。老用户对应的神经网络模型可以称为非冷启动内容生成模型。

计算设备600可以基于目标用户是否在AIGC平台生成过历史内容,来确定目标用户的用户类型。计算设备600在基于目标用户的用户类型生成内容时,当目标用户为新用户时,计算设备600可以采用冷启动内容生成模型对目标用户进行内容生成,从而得到个性化目标内容。当目标用户为老用户时,计算设备600可以采用非冷启动内容生成模型对目标用户进行内容生成,从而得到个性化目标内容。

其中,冷启动内容生成模型的训练数据包括多个样本用户对应的样本内容提示数据以及样本个性化特征,样本个性化特征是基于其对应的样本用户以及关联的样本关联用户的样本画像特征得到的,训练目标包括约束基于样本内容提示数据以及样本个性化特征输出的预测生成内容与真实生成内容之间的差异小于第二预设差异阈值。冷启动内容生成模型的训练目标还包括:约束预测生成内容特征与其对应的样本用户的样本历史内容特征之间的差异小于第三预设差异阈值,其中,预测生成内容特征是基于预测生成内容得到的。其中,样本历史内容特征包括其对应的样本用户以及关联的样本关联用户的平均历史内容提示数据特征及其对应的平均历史采纳内容特征中的至少一种。下面结合附图对冷启动内容生成模型的训练过程进行介绍:

图5示出了根据本说明书的实施例提供的预设冷启动内容生成网络的训练过程中的数据流向示意图。如图5所示,该预设冷启动内容生成网络包括预设用户特征编码网络、预设扩散网络和CLIP模型。

为了方便描述,我们将当前样本用户对应的用户特征记为样本用户特征,以及将当前样本用户对应的高关联用户的用户特征记为样本高关联用户特征。当前样本用户可能对应一个高关联用户,也可能对应多个高关联用户,这里将当前样本用户对应的高关联用户称为至少一个高关联用户。计算设备600还可以将样本用户的历史内容生成数据对应的历史内容生成特征和至少一个样本高关联用户的历史内容生成数据对应的历史内容生成特征进行加权求和,得到历史内容生成特征。其中,历史内容生成数据可以包括历史内容提示数据和历史采纳内容。历史内容生成特征可以包括历史内容提示数据特征和历史采纳内容特征。计算设备600可以对当前样本用户的历史内容提示数据特征和至少一个高关联用户的历史内容提示数据特征进行加权求和,得到历史内容提示数据特征。类似地,计算设备600还可以对当前样本用户的历史采纳内容特征和至少一个高关联用户的历史采纳内容特征进行加权求和,得到历史采纳内容特征。

其中,预设用户特征编码网络可以是Transform网络或者MLP。计算设备600可以将样本用户特征和其对应的至少一个高关联用户特征输入至预设用户特征编码网络中,以使预设用户特征编码网络对样本用户特征和其对应的至少一个高关联用户特征进行特征编码,得到预测样本用户个性化特征。

预设扩散网络可以是Unet网络。计算设备600可以将预测样本用户个性化特征和样本内容提示数据输入至预设扩散网络,以使预设扩散网络以预测样本用户个性化特征为扩散方向,并基于样本内容提示数据进行内容生成,得到预测生成内容。

计算设备600还可以将预测生成内容输入至CLIP模型进行特征提取,得到预测内容特征。

计算设备600在获得预测样本用户个性化特征、预测生成内容和预测内容特征之后,便可以基于上述三者确定综合损失,并基于综合损失对预设冷启动内容生成网络进行收敛,从而得到冷启动内容生成模型。综合损失可以包括图像预测损失和个性化损失。

图像预测损失可以基于预测生成内容与历史采纳内容之间的差异确定。历史采纳内容是指内容提示数据对应的最终被当前样本用户采纳的历史生成内容。

个性化损失可以基于预测内容特征与历史内容生成特征之间的差异确定。个性化损失旨在约束预测内容特征和历史内容提示数据特征之间的欧式距离尽量接近,以及约束预测内容特征和历史采纳内容特征之间的欧式距离尽量接近。个性化损失能够保证冷启动内容生成模型生成的目标内容符合目标用户及目标关联用户的内容偏好,体现出目标用户的个性化特点。

对于非冷启动内容生成模型的训练过程,与冷启动内容生成模型的训练过程类似。其区别在于在确定个性化损失时,历史内容提示数据特征是基于至少一个样本高关联用户的历史内容生成数据对应的历史内容生成特征进行加权求和得到的。以及历史采纳内容特征是基于至少一个样本高关联用户的历史采纳内容对应的历史采纳内容特征进行加权求和得到的。

需要注意的是,在训练过程中,CLIP模型不进行参数更新。

计算设备600在获得冷启动内容生成模型和非冷启动内容生成模型之后,便可以基于确定的用户类型,选取与其匹配的内容生成模型对其进行内容生成。比如,当目标用户的用户类型为新用户时,计算设备600可以采用冷启动内容生成模型对目标用户进行个性化目标内容生成。当目标用户的用户类型为老用户时,计算设备600可以采用非冷启动内容生成模型对目标用户进行个性化目标内容生成。

需要说明的是,当目标用户为新用户时,由于目标用户未在AIGC平台具有历史浏览内容,因此,目标特征中不包括文本画像特征、图像画像特征和视频画像特征。此时,计算设备600可以基于目标用户在AIGC平台上注册的个人信息生成个人信息画像特征。也就是说,当目标用户为新用户时,目标特征包括个人信息画像特征。而目标用户为老用户时,目标特征不仅包括个人信息画像特征,还包括文本画像特征、图像画像特征和视频画像特征中至少一项。

继续参阅图3,在步骤S160之后,所述方法P100还可以包括如下步骤S180。

S180:输出个性化目标内容。

输出个性化目标内容的方式可以有多种,比如,计算设备600可以直接将个性化目标内容返回至终端设备,或者还可以可视化展示该个性化目标内容。其中,可视化展示该个性化目标内容的方式可以有多种,比如,计算设备600可以通过显式器显式该个性化目标内容,或者还可以通过声光的方式发出该个性化目标内容的提示信息等等。

综上所述,本说明书提供的内容生成方法P100和系统001,针对待进行内容生成的目标用户,筛选出与其具有类似内容偏好的关联度较高的目标关联用户,并利用目标关联用户的目标关联特征和目标用户的目标特征,以及目标用户输入的内容提示数据共同对目标用户进行画像,生成与内容提示数据相匹配且符合目标用户个性化特点的个性化目标内容。该方案中,通过利用目标关联特征对目标用户进行特征画像,能够丰富目标用户的个性化特征,从而在基于内容提示数据对目标用户生成目标内容时,能够达到所生成的目标内容符合目标用户的个性化特点的效果。

需要说明的是,本实施例中的画像数据并不是针对某一特定用户的画像数据,并不能反映出某一特定用户的个人信息。

本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

本说明书另一方面提供一种非暂时性存储介质,存储有至少一组用来进行内容生成的可执行指令。当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本说明书所述的内容生成方法P100的步骤。在一些可能的实施方式中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在计算设备600上运行时,所述程序代码用于使计算设备600执行本说明书描述的内容生成方法P100的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码,并可以在计算设备600上运行。然而,本说明书的程序产品不限于此,在本说明书中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备600上执行、部分地在计算设备600上执行、作为一个独立的软件包执行、部分在计算设备600上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。

综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本说明书提出,并且在本说明书的示例性实施例的精神和范围内。

此外,本说明书中的某些术语已被用于描述本说明书的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本说明书的至少一个实施例中。因此,可以强调并且应当理解,在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解,在本说明书的实施例的前述描述中,为了帮助理解一个特征,出于简化本说明书的目的,本说明书将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说,本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,可以通过引用结合于此。用于所有目的全部内容,除了与其相关的任何起诉文件历史,可能与本文件不一致或相冲突的任何相同的,或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。

最后,应理解,本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后实施例也在本说明书的范围内。因此,本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此,本说明书的实施例不限于申请中被精确地描述过的实施例。

相关技术
  • 二维码的码内容生成方法、二维码生成方法及识别方法
  • 一种联合文本和图像内容的缩略图生成方法及系统
  • 一种工作日记的生成方法、监理日志的生成方法及系统
  • 内容生成装置、内容分发系统、内容生成方法以及内容生成程序
  • 内容生成系统、内容生成装置以及内容生成方法
技术分类

06120116486501