掌桥专利:专业的专利平台
掌桥专利
首页

一种图文关联度确定方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 19:30:30


一种图文关联度确定方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域,具体而言,涉及一种图文关联度确定方法、装置、计算机设备及存储介质。

背景技术

随着自媒体技术的发展,越来越多的用户可以在网上发表自己撰写的文章,而随着自媒体的入门门槛越来越低,导致互联网上出现越来越多的低质文章,造成严重的信息泛滥。

图文关联度是一种判断文章质量的重要量化指标,在目前的一些线上检测文章中的图文关联度模型中,只能处理单张图片与一段文本的关联度,这种图文关联度模型的处理效率较低,需要消耗的时间成本较高,不适宜在线上部署。

发明内容

本公开实施例至少提供一种图文关联度确定方法、装置、计算机设备及存储介质第一方面,本公开实施例提供了一种图文关联度确定方法,包括:

获取待处理图片序列、以及待处理文本;

对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列;

将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据;

基于所述融合特征数据,确定所述待处理图片序列和所述待处理文本之间的图文关联度。

这样,通过分别对待处理图片序列以及待处理文本进行特征提取处理,得到图片序列和文本分别对应的特征向量序列,之后再对两者的特征向量序列进行融合处理,得到融合特征数据,根据融合特征数据,可以一次性处理多张图片以及多段文本,进而输出待处理图片序列和待处理文本整体的图文关联度的处理结果,从而提高图文关联度的处理效率、减少消耗的时间成本,有利于线上部署。

一种可选的实施方式中,所述待处理图片序列和所述待处理文本来源于同一文章;

所述获取待处理图片序列、以及待处理文本,包括:

从所述文章中,获取各帧待处理图片,并按照各帧待处理图片在所述文章中的顺序,构成所述待处理图片序列;

以及从所述文章中,获取各段文本,并按照各段文本在所述文章中的顺序,将各段文本拼接生成所述待处理文本。

这样,通过对一篇文章中的多张图片和多段文本进行处理,可以得到该篇文章的整体的图文关联度的处理结果,从而能够迅速判断一篇文章中的多帧图片和多段文本之间的关联度,处理效率高,满足线上部署需求。

一种可选的实施方式中,所述方法还包括:

确定所述待处理图片序列和所述待处理文本之间的图文关联度是否大于或等于预设图文关联度阈值;

响应于所述图文关联度大于或等于预设图文关联度阈值,生成所述文章的推送信息。

这样,通过预设图文关联度阈值,可以筛选待处理图片序列和待处理文本之间的图文关联度,进而推送一些图文关联度较高的文章,在一些应用场景中,提升为用户推送的信息的质量。

一种可选的实施方式中,所述获取待处理图片序列,包括:

获取所述待处理文本的语义信息;

基于所述语义信息,从多帧备选图片中,筛选多帧待处理图片;

基于筛选的多帧待处理图片,生成所述待处理图片序列。

这样,通过待处理文本的语义信息可以从多帧备选图片中筛选出待处理图片,可以为用户快速的确定满足用户输入的文本的语义信息的待处理图片,满足用户对图片的筛选需求。

一种可选的实施方式中,所述待处理图片序列有多个;所述方法还包括:

基于多个待处理图片序列分别和所述待处理文本之间的图文关联度,从多个所述待处理图片序列中,确定目标图片序列;

基于所述目标图片序列和所述待处理文本,生成文章。

这样,通过多个待处理图片序列与待处理文本的图文关联度,确定目标图片序列,在一些应用场景中,可以具有更高的效率、和准确度为待处理文本确定与文本关联度较高图片,并与图片和文本,生成对应的文章。

一种可选的实施方式中,所述对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列,包括:

对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列;其中,所述第一数据序列中包括各帧所述图片分别对应的原始特征数据;所述第一目标特征向量序列中包括各帧所述图片分别对应的第一目标特征向量;以及

将所述待处理文本转换为第二数据序列,并对所述第二数据序列进行自注意力处理,得到所述待处理文本对应的所述第二目标特征向量序列;其中,所述第二数据序列中包括所述待处理文本中各个词汇分别对应的编码数据;所述第二目标特征向量序列中包括多个词汇分别对应的第二目标特征向量。

一种可选的实施方式中,所述对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列,包括:

利用预训练的图片处理模型对所述待处理图片序列中的各帧图片分别进行处理,得到各帧所述图片分别对应的原始特征数据;

基于各帧所述图片分别对应的原始特征数据构成所述第一数据序列;

对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列;所述第一中间特征序列中包括多帧图片分别对应的第一中间特征向量;所述第二中间特征序列中包括多帧图片分别对应的第二中间特征向量;

对所述第二中间特征序列进行至少一次全连接处理,得到所述第一目标特征向量序列。

一种可选的实施方式中,所述对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列,包括:

利用自注意力网络,确定所述第一数据序列中多个原始特征数据分别对应的自注意力权重;

利用每个所述原始特征数据对应的自注意力权重对每个所述原始特征数据进行加权处理,得到每个所述原始特征数据对应的第一中间特征向量;

基于多个所述原始特征数据分别对应的第一中间特征向量,构成所述第一中间特征序列;

将所述第一数据序列中的各个原始特征数据、和所述第一中间特征序列中的第一中间特征向量分别进行对位相加,得到第三中间特征序列;所述第三中间特征序列中包括多帧所述图片分别对应的第三中间特征向量;

对所述第三中间特征序列进行层归一化处理,得到所述第二中间特征序列。

一种可选的实施方式中,所述将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据,包括:

对所述第一目标特征向量序列进行第一数据映射处理,得到第一数据矩阵、以及第二数据矩阵;以及对所述第二目标特征向量序列进行第二数据映射处理,得到第三数据矩阵;

基于所述第一数据矩阵、第二数据矩阵、以及所述第三数据矩阵进行交叉注意力处理,得到所述融合特征数据。

第二方面,本公开实施例还提供一种图文关联度确定装置,包括:

获取模块,用于获取待处理图片序列、以及待处理文本;

特征提取模块,用于对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列;

融合模块,用于将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据;

确定模块,用于基于所述融合特征数据,确定所述待处理图片序列和所述待处理文本之间的图文关联度。

一种可选的实施方式中,所述待处理图片序列和所述待处理文本来源于同一文章;

所述获取模块用于:

从所述文章中,获取各帧待处理图片,并按照各帧待处理图片在所述文章中的顺序,构成所述待处理图片序列;

以及从所述文章中,获取各段文本,并按照各段文本在所述文章中的顺序,将各段文本拼接生成所述待处理文本。

一种可选的实施方式中,所述装置还包括生成模块,用于:

确定所述待处理图片序列和所述待处理文本之间的图文关联度是否大于或等于预设图文关联度阈值;

响应于所述图文关联度大于或等于预设图文关联度阈值,生成所述文章的推送信息。

一种可选的实施方式中,所述获取模块在获取待处理图片序列时,用于:

获取所述待处理文本的语义信息;

基于所述语义信息,从多帧备选图片中,筛选多帧待处理图片;

基于筛选的多帧待处理图片,生成所述待处理图片序列。

一种可选的实施方式中,所述待处理图片序列有多个,所述获取模块还用于:

基于多个待处理图片序列分别和所述待处理文本之间的图文关联度,从多个所述待处理图片序列中,确定目标图片序列;

基于所述目标图片序列和所述待处理文本,生成文章。

一种可选的实施方式中,所述特征提取模块,用于:

对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列;其中,所述第一数据序列中包括各帧所述图片分别对应的原始特征数据;所述第一目标特征向量序列中包括各帧所述图片分别对应的第一目标特征向量;以及

将所述待处理文本转换为第二数据序列,并对所述第二数据序列进行自注意力处理,得到所述待处理文本对应的所述第二目标特征向量序列;其中,所述第二数据序列中包括所述待处理文本中各个词汇分别对应的编码数据;所述第二目标特征向量序列中包括多个词汇分别对应的第二目标特征向量。

一种可选的实施方式中,所述特征提取模块在所述对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列时,还用于:

利用预训练的图片处理模型对所述待处理图片序列中的各帧图片分别进行处理,得到各帧所述图片分别对应的原始特征数据;

基于各帧所述图片分别对应的原始特征数据构成所述第一数据序列;

对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列;所述第一中间特征序列中包括多帧图片分别对应的第一中间特征向量;所述第二中间特征序列中包括多帧图片分别对应的第二中间特征向量;

对所述第二中间特征序列进行至少一次全连接处理,得到所述第一目标特征向量序列。

一种可选的实施方式中,所述特征提取模块在所述对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列时,还用于:

利用自注意力网络,确定所述第一数据序列中多个原始特征数据分别对应的自注意力权重;

利用每个所述原始特征数据对应的自注意力权重对每个所述原始特征数据进行加权处理,得到每个所述原始特征数据对应的第一中间特征向量;

基于多个所述原始特征数据分别对应的第一中间特征向量,构成所述第一中间特征序列;

将所述第一数据序列中的各个原始特征数据、和所述第一中间特征序列中的第一中间特征向量分别进行对位相加,得到第三中间特征序列;所述第三中间特征序列中包括多帧所述图片分别对应的第三中间特征向量;

对所述第三中间特征序列进行层归一化处理,得到所述第二中间特征序列。

这样,将原始特征数据与第一中间特征向量分别进行对位相加避免原始特征信息的遗失。

一种可选的实施方式中,所述融合模块用于:

对所述第一目标特征向量序列进行第一数据映射处理,得到第一数据矩阵、以及第二数据矩阵;以及对所述第二目标特征向量序列进行第二数据映射处理,得到第三数据矩阵;

基于所述第一数据矩阵、第二数据矩阵、以及所述第三数据矩阵进行交叉注意力处理,得到所述融合特征数据。

第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。

关于上述图文关联度确定装置、计算机设备、及计算机可读存储介质的效果描述参见上述图文关联度确定方法的说明,这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开一些实施例所提供的一种图文关联度确定方法的流程图;

图2示出了本公开一些实施例所提供的一种获取第一目标特征向量序列的流程图;

图3示出了本公开一些实施例所提供的一种图文关联度预测模型的具体示例图;

图4示出了本公开一些实施例所提供的另一种图文关联度预测模型的具体示例图;

图5示出了本公开一些实施例所提供的又一种图文关联度预测模型的具体示例图;

图6示出了本公开一些实施例所提供的又一种图文关联度预测模型的具体示例图;

图7示出了本公开实施例所提供的一种图文关联度确定装置的示意图;

图8示出了本公开实施例所提供的一种计算机设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

经研究发现,当前随着自媒体的入门门槛越来越低,导致互联网上出现大量的低质文章,这些低质文章中的文本内容和图片内容的语义不匹配,用户在浏览时往往会被这些低质文章干扰,导致用户难以获取自己想要的信息,降低用户的使用体验。

针对上述这种情况,目前一些常见的方法是引入图文关联度模型来计算文章中的图片与文本的语义是否匹配,进而将分析得到的量化数据作为判断低质文章的判断依据。

但是,在目前的一些线上图文关联度模型中,其只能处理单张图片与一段文本的关联度,当想要计算一篇文章内部的图文关联度时,只能把每张图片和上下文分别导入目前的图文关联度模型中,再通过加权平均等操作获得整篇文章的图文关联度,用上述图文关联度模型来对文章进行图文关联度计算往往存在计算效率较低,需要消耗的时间成本较高等问题,不适宜在线上部署。

另外,在生成文章时,除了文本外,在很多场景下还需要为文章匹配相应的多张插图;当前利用图文关联度的方式自动从图片库中筛选插图的方式大大的方便了用户的使用;然而也是由于图文关联度确定方式的限制,导致为文本确定多张图片的效率较低,进而造成生成文章的效率较低。

基于上述研究,本公开提供了一种图文关联度确定方法、装置、计算机设备及存储介质。可以一次性处理多张图片以及多段文本,进而输出待处理图片序列和待处理文本整体的图文关联度的处理结果。提高确定多帧图片、和多段文本的图文关联度的处理效率、减少消耗的时间成本,有利于线上部署。

针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

另外,在使用本公开下述各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。

为便于对本实施例进行理解,首先对本公开实施例所公开的一种图文关联度确定方法进行详细介绍,本公开实施例所提供的交互控制方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备例如包括触控终端和个人计算机(personal computer,PC)终端。触控终端例如包括:智能手机、平板电脑等;PC终端例如包括台式电脑、笔记本电脑等。

下面对本公开实施例提供的一种图文关联度确定方法加以说明。

参见图1所示,为本公开实施例提供的一种图文关联度确定方法的流程图,所述方法包括步骤S101~S104,其中:

S101,获取待处理图片序列、以及待处理文本;

这里,针对获取待处理图片序列以及待处理文本的方式,包括但不限于从用户上传的文章中获取、或者是从一些开源的数据集中获取。

其中,一些开源的数据集包括在互联网上的一些可下载的图片数据集和文本数据集等。

在本公开提供的一些实施例中,所述待处理图片序列和所述待处理文本来源于同一文章;从所述文章中,获取各帧待处理图片,并按照各帧待处理图片在所述文章中的顺序,构成所述待处理图片序列;以及从所述文章中,获取各段文本,并按照各段文本在所述文章中的顺序,将各段文本拼接生成所述待处理文本。

示例性的,例如在搭载了本公开提供的图文关联度确定方法的自媒体平台中,用户通过平台提供的发布功能上传撰写的文章,平台对用户上传的文章进行内容审核,当对文章进行图文关联度的审核阶段时,获取文章的排版信息,根据排版信息确定文章中的图片数量并按照图片在文章中的排版顺序生成待处理图片序列。同时,根据排版信息确定文章中的文本段落信息,将多段文本按照文章中的排版顺序生成待处理文本。在得到待处理图片序列和待处理文本后,分别将待处理图片序列和待处理文本输入图文关联度模型中,得到用户上传的文章的图文关联度。进一步的,可以将图文关联度作为判断文章质量的重要判据,若文章的图文关联度较低,平台则返回给用户审核不通过的信息,退回用户发布的文章。

在本公开提供的一些实施例中,确定所述待处理图片序列和所述待处理文本之间的图文关联度是否大于或等于预设图文关联度阈值;响应于所述图文关联度大于或等于预设图文关联度阈值,生成所述文章的推送信息。

此处,预设图文关联度阈值可以利用深度学习算法确定,例如,先确定一个待训练阈值,然后向图文关联度模型中输入一些训练样本使其输出训练样本对应的图文关联度的评分,根据训练样本的图文关联度评分以及待训练阈值确定训练样本的预测结果,得到关联与不关联两种预测结果,再将预测结果与训练样本的标准结果进行比较,得到四种训练结果,如第一种训练结果为:训练样本的标准结果为关联、预测结果为关联;第二种训练结果为:训练样本的标准结果为关联、预测结果为非关联;第三种训练结果为:训练样本的标准结果为不关联、预测结果为关联;第四种训练结果为:训练样本的标准结果为不关联、预测结果为不关联。经过多轮训练修正待训练阈值,使得第一种训练结果和第四种训练结果占总的训练结果的比例增高,得到最终的预设图文关联度阈值。

示例性的,在确定了预设图文关联度阈值后,将用户上传的文章输入到图文关联度模型中,得到图文关联度评分,将图文关联度评分与预设图文关联度阈值进行比较,若图文关联度的评分大于或等于预设图文关联度阈值时,并且在其他审核阶段没有发现问题后,确定该篇文章审核通过,生成推送信息,发布该篇文章。

图文关联度模型在本公开下述的一些实施例中进行详细描述,在此不多赘述。

在本公开提供的一些实施例中,获取所述待处理文本的语义信息;

基于所述语义信息,从多帧备选图片中,筛选多帧待处理图片;

基于筛选的多帧待处理图片,生成所述待处理图片序列。

示例性的,可以根据用户输入的待处理文本,获取待处理文本的语义信息,根据待处理文本的语义信息从一些开源的图片数据集中查找并导出图片,生成待处理图片序列。这里的待处理文本的语义信息可以包括多个语义,根据每一个语义在图片数据集中查找并导出至少一个与其对应的图片。若每一个语义在图片数据集中查找并导出多个与其对应的图片时,可以对这些图片进行分类生成多个待处理图片序列。每一个待处理图片序列中的图片都对应有一个不重复的语义。例如,待处理文本的语义信息包括语义1、语义2、语义3,根据语义信息在图片数据集中查找并导出与语义1对应的图片A1、图片A2、图片A3;与语义2对应的图片B1、图片B2、图片B3;与语义3对应的图片C1、图片C2、图片C3。则相应的生成待处理图片序列1,包括:图片A1、图片B1图片C1;待处理图片序列2,包括图片A2、图片B2、图片C2;待处理图片序列3,包括:图片A3、图片B3、图片C3。这里,根据待处理文本的语义信息从图片数据集中获取图片可能会出现获取大量的图片的情况,这样就会生成大量的待处理图片序列,增加运算资源和存储资源的消耗,因此可以设定一个获取阈值,使得待处理文本的语义信息中的每一个语义能够获取的图片控制在一定数量内,从而控制生成待处理图片序列的数量;并且还可以使得每一个待处理图片序列中的图片数量与语义一一对应,避免在某一些待处理图片序列中出现没有与语义对应的图片的情况。

在一个可能想到的实施方式中,也可以根据用户输入的待处理图片序列中的图片的语义信息从一些开源的文本库中查找并导出文本,具体处理过程与上述根据待处理文本的语义信息获取待处理图片序列的过程类似,本公开不再赘述。

在本公开提供的一些实施例中,所述待处理图片序列有多个;基于多个待处理图片序列分别和所述待处理文本之间的图文关联度,从多个所述待处理图片序列中,确定目标图片序列;基于所述目标图片序列和所述待处理文本,生成文章。

示例性的,在一个可能想到的应用场景中,用户在创作文章时需要为文章配图,此时用户可以将撰写好的文章输入到搭载了本方法的目标应用中,目标应用根据用户输入的文章的文本段落信息,生成待处理文本输入到图文关联度预测模型中,另一边将预先准备好的根据待处理文本的语义信息从图片数据集中导出的多个待处理图片序列依次输入到图文关联度预测模型中,模型输出每一个待处理图片序列与待处理文本的图文关联度的评分,在存在多个待处理图片序列与待处理文本的图文关联度的评分大于或者等于预设图文关联度阈值的情况下,可以为用户输出预测结果,由用户在多个待处理图片序列中选择一个目标图片序列,也可以直接在多个待处理图片序列中选择一个与待处理文本图文关联度评分最高的待处理图片序列作为目标图片序列。在确定了目标图片序列后根据该目标图片序列与待处理文本的语义关系生成一篇文章。

承接上述S101,在获取待处理图片序列、以及待处理文本后,还包括:

S102,对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列。

示例性的,在图文关联度预测模型中包括图片特征提取单元和文本特征提取单元,图片特征提取单元用于对待处理图片序列进行第一特征提取处理,得到由图片特征数据组成的第一数据序列,文本特征提取单元用于对待处理文本进行第二特征提取处理,得到由文本特征数据组成的第二数据序列,在提取了数据序列后,对第一数据序列和第二数据序列的后续处理过程类似,下面对待处理图片序列的特征提取过程以及得到第一目标特征向量序列的过程详细说明。

具体的,在本公开提供的一些实施例中,对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列;其中,所述第一数据序列中包括各帧所述图片分别对应的原始特征数据;所述第一目标特征向量序列中包括各帧所述图片分别对应的第一目标特征向量。

示例性的,在将待处理图片序列导入图文关联度预测模型后,首先是将待处理图片序列导入特征提取单元进行特征提取处理。特征提取单元可以采用预先训练好的神经网络模型对待处理图片序列进行第一特征提取处理,例如采用对比语言图片预训练(Contrastive Language-Image Pre-training,CLIP)模型作为图片编码器模型,可以将待处理图片序列中的图片用一个512维的向量来表示,在对待处理图片序列中的所有图片分别进行第一特征提取处理后,得到待处理图片序列对应的第一数据序列。

此处,CLIP模型的预先训练好的神经网络模型,在本公开提供的一些实施例中仅作为对待处理图片序列进行第一特征提取处理,在得到第一数据序列后,将第一数据序列发送到自注意力处理单元后,并不参与后续处理过程。CLIP模型是现有技术,512维的向量仅作为举例说明,在实际应用中维度越高计算量越大、维度越低损失的信息就越多,可以根据实际应用设置其他维度的向量,本公开不对如何将图片转换为向量展开描述。

在一个可能的实施方式中,也可以采用其他待训练的卷积神经网络模型对待处理图片序列进行第一特征提取处理,若采用其他待训练的卷积神经网络模型则需要参与到后续的处理过程。

接着,自注意力处理单元在接收到特征提取单元发送的第一数据序列后,将第一数据序列发送到自注意力处理模型中进行自注意力处理。

具体的,参见图2所示的一种获取第一目标特征向量序列的流程图,得到待处理图片序列对应的第一目标特征向量序列至少包括下述S201~S204:

S201,利用预训练的图片处理模型对所述待处理图片序列中的各帧图片分别进行处理,得到各帧所述图片分别对应的原始特征数据。

S202,基于各帧所述图片分别对应的原始特征数据构成所述第一数据序列。

此处,预训练的图片处理模型可以是上述的CLIP模型,具体获取过程不在本公开中展开描述。

S203,对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列;所述第一中间特征序列中包括多帧图片分别对应的第一中间特征向量;所述第二中间特征序列中包括多帧图片分别对应的第二中间特征向量。

其中,对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列,至少包括下述S2031~S2034:

S2031,利用自注意力网络,确定所述第一数据序列中多个原始特征数据分别对应的自注意力权重。

此处,第一数据序列中的原始特征数据可以用键值对(Key-Value)来表示。Key可以看做是Value的地址。通过Key与Query的相似度为Value确定自注意力权重。

示例性的,例如Query为看书,那么根据在第一数据序列中的Key与看书的相似度来确定自注意力权重,例如,在第一数据序列中的Key1为报纸,其自注意力权重为0.2;Key2为论文,其自注意力权重为0.15;Key3为书,其自注意力权重为0.65,通过这种方式为第一数据序列中多个原始特征数据分别匹配对应的自注意力权重。

这里的Query可以为多个,每一个Query都会为第一数据序列中的多个原始特征数据分别确定自注意力权重。

S2032,利用每个所述原始特征数据对应的自注意力权重对每个所述原始特征数据进行加权处理,得到每个所述原始特征数据对应的第一中间特征向量。

示例性的,在确定了第一数据序列中的多个原始特征数据分别对应的自注意力权重后,对原始特征数据进行加权处理得到第一中间特征向量,例如,以上述S2031中的示例举例,第一中间特征向量则可以表示为0.2*Value1,0.15*Value2,0.65*Value3,这里的Value1对应于Key1、Value2对应于Key2、Value3对应于Key3。

S2033,基于多个所述原始特征数据分别对应的第一中间特征向量,构成所述第一中间特征序列。

S2034,将所述第一数据序列中的各个原始特征数据、和所述第一中间特征序列中的第一中间特征向量分别进行对位相加,得到第三中间特征序列;所述第三中间特征序列中包括多帧所述图片分别对应的第三中间特征向量。

示例性的,将原始特征数据与第一中间特征向量进行对位相加,避免原始特征数据的遗失。例如,以上述S2032中的示例举例,得到Value1+(0.2*Value1),Value2+(0.15*Value12),Value3+(0.65*Value3)。也即,得到第三中间特征向量。

S2035,对所述第三中间特征序列进行层归一化处理,得到所述第二中间特征序列。

此处,对第三中间特征序列进行层归一化处理,缩小不同的第三中间特征向量的数量级,便于计算。例如,将第三中间特征向量经过层归一化处理得到的结果限制在0和1之间,得到第二中间特征序列。

S204,对所述第二中间特征序列进行至少一次全连接处理,得到第一目标特征向量序列。

此处,对第二中间特征序列进行全连接处理来拟合第二中间特征向量的分布,增加鲁棒性。为了达到较好的鲁棒性,可以对第二中间特征序列进行两次全连接处理为宜。经过两次全连接处理后,得到第一目标特征向量序列。

接着S102,对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列;

示例性的,在将待处理文本导入图文关联度预测模型后,首先是将待处理文本进行分词处理,获取64维的分词向量序列,将分词向量序列导入特征提取单元进行特征提取处理。特征提取单元可以采用嵌入式查找(Embedding Look-Up)获取待处理文本的分词嵌入序列,将分词嵌入序列发送至待处理文本对应的文本自注意力处理单元。

这里在将分词嵌入序列发送至待处理文本对应的文本自注意力处理单元后,得到第二目标特征向量序列,这里,由于其处理过程与上述S203~S204中的对待处理图片序列的处理过程类似,本公开在此不做过多赘述。

承接上述S102,在得到待处理图片序列的第一目标特征向量序列和待处理文本的第二目标特征向量序列后,还包括:

S103,将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据。

具体的,在本公开提供的一个实施例中,对所述第一目标特征向量序列进行第一数据映射处理,得到第一数据矩阵K、以及第二数据矩阵V;以及对所述第二目标特征向量序列进行第二数据映射处理,得到第三数据矩阵Q;基于所述第一数据矩阵K、第二数据矩阵V以及所述第三数据矩阵Q进行交叉注意力处理,得到所述融合特征数据。

示例性的,将第一目标特征向量序列分别进行一次不同参数的全连接处理,得到维度相同的第一数据矩阵K和第二数据矩阵V;将第二目标特征向量序列进行一次全连接处理得到第三数据矩阵Q,将K、Q、V矩阵作为输入,输入到交叉注意力处理单元中,得到交叉注意力权重,对交叉注意力权重与K、Q、V矩阵中的原始特征数据进行加权处理,得到K、Q、V矩阵的第一中间特征序列,再将第一中间特征序列与第二目标特征向量序列中的数据进行对位相加,之后经过两个全连接处理得到处理后的目标矩阵,将目标矩阵中的目标特征数据经过全局平局池化层后再经过全连接层输出图文关联度预测结果。

承接上述S103,本公开实施例提供的图文关联度确定方法中,在利用上述S103得到融合特征数据后,还包括:

S104,基于所述融合特征数据,确定所述待处理图片序列和所述待处理文本之间的图文关联度。

示例性的,在确定待处理图片序列和待处理文本之间的图文关联度时,可以根据损失函数来修正图文关联度预测模型与参考模型之间的差异。例如,若最终图文关联度预测模型输出的是图文关联相关的分数时,可以选择MSE Loss来衡量图文关联度预测模型输出的值与目标值之间的差异,根据差异修正图文关联度预测模型。

又例如,若最终图文关联度预测模型输出的是相关或者不相关的判断结果时,可以选择Log-Loss或者Binary Cross-Entropy来衡量图文关联度预测模型的损失。根据损失修正图文关联度预测模型。

另外,本公开还提供一个图文关联度确定方法的具体示例,参见图3所述的一种图文关联度预测模型的示例图,在图3中,所述图文关联度预测模型包括图片特征提取单元、图片自注意力处理单元、文本特征提取单元、文本自注意力处理单元、交叉注意力处理单元。

图片特征提取单元响应于接收到待处理图片序列,将待处理图片序列中的图片转换为一个512维的向量;在将待处理图片序列中的所有图片都分别转换成512维的向量后,生成图片向量对应的第一数据序列发送到图片自注意力处理单元。参见图4所示的另一种图文关联度预测模型的示例图,图片自注意力处理单元接收到第一数据序列,第一数据序列分别经过自注意力层X1、自注意力层X2、自注意力层X3得到与每个自注意力层对应的自注意力权重,根据每个自注意力层对应的自注意力权重对第一数据序列进行加权处理得到加权后的第一数据序列,再将加权后的第一数据序列进行拼接得到第一数据序列的第一中间特征序列;将第一中间特征序列中的特征数据与第一数据序列中的特征数据进行残差连接得到第三中间特征序列,再经过层归一化以及全连接层A1和全连接层A2输出第一目标特征向量序列。

文本特征提取单元响应于接收到待处理文本的分词序列,将分词序列,转换为64维的词向量,生成词向量对应的第二数据序列,将第二数据序列发送到文本自注意力处理单元。参见图5所示的又一种图文关联度预测模型的示例图,文本自注意力处理单元接收到第二数据序列,第二数据序列分别经过自注意力层Y1、自注意力层Y2、和自注意力层Y3得到与每个自注意力层分别对应的自注意力权重,根据每个自注意力层对应的自注意力权重对第二数据序列进行加权处理得到加权后的第二数据序列,再将加权后的第二数据序列进行拼接得到第二数据序列的第一中间特征序列;将第一中间特征序列中的特征数据与第一数据序列中的特征数据进行残差连接得到第三中间特征序列,再经过层归一化、全连接层B1,全连接层B2之后输出第二目标特征向量序列。

根据第一目标特征向量序列生成矩阵K、矩阵V;根据第二目标特征向量序列生成矩阵Q,参见图6所示的又一种图文关联度预测模型的示例图,K、Q、V矩阵的特征数据,分别经过交叉注意力处理单元的交叉注意力层Z1、交叉注意力层Z2、交叉注意力层Z3,得到与每个交叉注意力层分别对应的交叉注意力权重,根据每个交叉注意力层对应的交叉注意力权重对K、Q、V矩阵中的原始特征数据进行加权处理得到加权后的特征数据,再将加权后的特征数据进行拼接得到K、Q、V矩阵的第一中间特征序列;将第一中间特征序列中的数据与第二目标特征向量序列中的数据进行残差连接得到第三中间特征序列,再经过层归一化以及全连接层C1和全连接层C2输出目标矩阵,将目标矩阵中的目标特征数据经过全局平均池化层后再经过全连接层D输出图文关联度预测结果。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与一种图文关联度确定方法对应的图文关联度确定装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图文关联度确定方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参照图7所示,为本公开实施例提供的一种图文关联度确定方法的示意图,所述装置包括:获取模块71、特征提取模块72、融合模块73、以及确定模块74;其中,

获取模块71,用于获取待处理图片序列、以及待处理文本;

特征提取模块72,用于对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列;

融合模块73,用于将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据;

确定模块74,用于基于所述融合特征数据,确定所述待处理图片序列和所述待处理文本之间的图文关联度。

一种可选的实施方式中,所述待处理图片序列和所述待处理文本来源于同一文章;

所述获取模块71用于:

从所述文章中,获取各帧待处理图片,并按照各帧待处理图片在所述文章中的顺序,构成所述待处理图片序列;

以及从所述文章中,获取各段文本,并按照各段文本在所述文章中的顺序,将各段文本拼接生成所述待处理文本。

一种可选的实施方式中,所述装置还包括生成模块75,用于:

确定所述待处理图片序列和所述待处理文本之间的图文关联度是否大于或等于预设图文关联度阈值;

响应于所述图文关联度大于或等于预设图文关联度阈值,生成所述文章的推送信息。

一种可选的实施方式中,所述获取模块71在获取待处理图片序列时,用于:

获取所述待处理文本的语义信息;

基于所述语义信息,从多帧备选图片中,筛选多帧待处理图片;

基于筛选的多帧待处理图片,生成所述待处理图片序列。

一种可选的实施方式中,所述待处理图片序列有多个,所述获取模块71还用于:

基于多个待处理图片序列分别和所述待处理文本之间的图文关联度,从多个所述待处理图片序列中,确定目标图片序列;

基于所述目标图片序列和所述待处理文本,生成文章。

一种可选的实施方式中,所述特征提取模块72,用于:

对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列;其中,所述第一数据序列中包括各帧所述图片分别对应的原始特征数据;所述第一目标特征向量序列中包括各帧所述图片分别对应的第一目标特征向量;以及

将所述待处理文本转换为第二数据序列,并对所述第二数据序列进行自注意力处理,得到所述待处理文本对应的所述第二目标特征向量序列;其中,所述第二数据序列中包括所述待处理文本中各个词汇分别对应的编码数据;所述第二目标特征向量序列中包括多个词汇分别对应的第二目标特征向量。

一种可选的实施方式中,所述特征提取模块72在所述对所述待处理图片序列中的各帧图片分别进行特征提取处理,得到与所述待处理图片序列对应的第一数据序列,并对所述第一数据序列进行自注意力处理,得到待处理图片序列对应的所述第一目标特征向量序列时,还用于:

利用预训练的图片处理模型对所述待处理图片序列中的各帧图片分别进行处理,得到各帧所述图片分别对应的原始特征数据;

基于各帧所述图片分别对应的原始特征数据构成所述第一数据序列;

对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列;所述第一中间特征序列中包括多帧图片分别对应的第一中间特征向量;所述第二中间特征序列中包括多帧图片分别对应的第二中间特征向量;

对所述第二中间特征序列进行至少一次全连接处理,得到所述第一目标特征向量序列。

一种可选的实施方式中,所述特征提取模块72在所述对所述第一数据序列进行自注意力处理,得到第一中间特征序列,并对所述第一数据序列和所述第一中间特征序列进行融合,得到第二中间特征序列时,还用于:

利用自注意力网络,确定所述第一数据序列中多个原始特征数据分别对应的自注意力权重;

利用每个所述原始特征数据对应的自注意力权重对每个所述原始特征数据进行加权处理,得到每个所述原始特征数据对应的第一中间特征向量;

基于多个所述原始特征数据分别对应的第一中间特征向量,构成所述第一中间特征序列;

将所述第一数据序列中的各个原始特征数据、和所述第一中间特征序列中的第一中间特征向量分别进行对位相加,得到第三中间特征序列;所述第三中间特征序列中包括多帧所述图片分别对应的第三中间特征向量;

对所述第三中间特征序列进行层归一化处理,得到所述第二中间特征序列。

一种可选的实施方式中,所述融合模块73用于:

对所述第一目标特征向量序列进行第一数据映射处理,得到第一数据矩阵、以及第二数据矩阵;以及对所述第二目标特征向量序列进行第二数据映射处理,得到第三数据矩阵;

基于所述第一数据矩阵、第二数据矩阵、以及所述第三数据矩阵进行交叉注意力处理,得到所述融合特征数据。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

本公开实施例还提供了一种计算机设备,如图8所示,为本公开实施例提供的计算机设备结构示意图,包括:

处理器81和存储器82;所述存储器82存储有处理器81可执行的机器可读指令,处理器81用于执行存储器82中存储的机器可读指令,所述机器可读指令被处理器81执行时,处理器81执行下述步骤:

获取待处理图片序列、以及待处理文本;

对所述待处理图片序列进行第一特征提取处理,得到第一目标特征向量序列;以及对所述待处理文本进行第二特征提取处理,得到第二目标特征向量序列;

将所述第一目标特征向量序列和所述第二目标特征向量序列进行融合处理,得到融合特征数据;

基于所述融合特征数据,确定所述待处理图片序列和所述待处理文本之间的图文关联度。

上述存储器82包括内存821和外部存储器822;这里的内存821也称内存储器,用于暂时存放处理器81中的运算数据,以及与硬盘等外部存储器822交换的数据,处理器81通过内存821与外部存储器822进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中所述的一种图文关联度确定方法的步骤,此处不再赘述。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的一种图文关联度确定方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的一种图文关联度确定方法的步骤,具体可参见上述方法实施例,在此不再赘述。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

本公开涉及增强现实领域,通过获取现实环境中的目标对象的图片信息,进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理,从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的,目标对象可涉及与人体相关的脸部、肢体、手势、动作等,或者与物体相关的标识物、标志物,或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图片注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景,还可以涉及与人相关的特效处理,比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。可通过卷积神经网络,实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

技术分类

06120115932917