掌桥专利:专业的专利平台
掌桥专利
首页

属性信息的获取方法和装置、电子设备和存储介质

文献发布时间:2023-06-19 11:39:06


属性信息的获取方法和装置、电子设备和存储介质

技术领域

本申请涉及计算机领域,尤其涉及一种属性信息的获取方法和装置、电子设备和存储介质。

背景技术

在电商场景中,产品属性信息对于诸如客服、商品推荐、商品检索等任务均需比较重要。然而,由于信息录入等原因,有些产品的产品属性信息缺失现象非常严重。例如,当用户询问客服人员服饰的领型时,如果商品属性表中并没有领型的描述,那么,客服人员将很难对此问题作出回答。

目前,产品属性值补齐的方式大多集中于使用产品的描述信息进行补齐。然而,由于产品描述方式等原因,上述属性值补齐的方式存在由于信息提取不准确导致的属性信息补齐的效率低的问题。

发明内容

本申请提供了一种属性信息的获取方法和装置、电子设备和存储介质,以至少解决相关技术中的属性值补齐的方式存在由于信息提取不准确导致的属性信息补齐的效率低的问题。

根据本申请实施例的一个方面,提供了一种属性信息的获取方法,包括:获取目标对象的目标文本数据和与所述目标文本数据具有关联关系的目标图像数据;提取所述目标文本数据的目标语义特征,以及提取所述目标图像数据的目标图像特征;使用所述目标图像特征和所述目标语义特征对所述目标对象的目标属性进行预测,得到所述目标属性的目标属性信息。

可选地,提取所述目标文本数据的所述目标语义特征包括:使用目标双向语言模型对所述目标文本数据进行编码处理,得到所述双向语言模型输出的所述目标语义特征,其中,所述目标双向语言模型为预训练的、用于提取输入文本数据中的每个文本单元的语义表示的语言表示模型。

可选地,提取所述目标图像数据的所述目标图像特征包括:将所述目标图像数据输入到目标卷积神经网络中,其中,所述目标卷积神经网络为预训练的、用于提取输入图像的图像特征的残差网络;提取所述目标卷积神经网络的全连接层的前一个卷积层所输出的特征,得到所述目标图像特征。

可选地,使用所述目标图像特征和所述目标语义特征对所述目标对象的所述目标属性进行预测,得到所述目标属性的所述目标属性信息包括:将所述目标图像特征与所述目标语义特征进行跨模态注意力融合,得到目标融合特征;将所述目标融合特征输入到目标属性预测模型,得到所述目标属性预测模型输出的所述目标属性信息。

可选地,所述目标语义特征包含所述目标文本数据中的每个文本单元的第一编码向量;将所述目标图像特征与所述目标语义特征进行跨模态注意力融合,得到所述目标融合特征包括:使用所述目标图像特征对所述目标语义特征进行跨模态注意力编码,得到所述每个文本单元的第二编码向量;使用跨模态注意力过滤器对所述每个文本单元的所述第二编码向量进行过滤,得到所述每个文本单元的第三编码向量,其中,所述跨模态注意力过滤器用于按位过滤与所述目标图像数据无关的文本单元的所述第二编码向量中的图像信息;将所述每个文本单元的所述第一编码向量与所述每个文本单元的所述第三编码向量进行拼接,得到所述每个文本单元的目标编码向量,其中,所述目标融合特征包括所述每个文本单元的所述目标编码向量。

可选地,使用所述目标图像特征对所述目标语义特征进行跨模态注意力编码,得到所述每个文本单元的所述第二编码向量包括:根据第一注意力向量、第二注意力向量和跨模态映射矩阵,确定所述每个文本单元的所述第二编码向量,其中,所述第一注意力向量为与所述目标语义特征对应的文本模态的注意力向量,所述第二注意力向量为与所述目标语义特征和所述目标图像特征对应的文本与图片模态的跨模态注意力向量,所述跨模态映射矩阵用于将所述第二注意力向量从视觉语义空间映射到文本语义空间。

可选地,将所述目标融合特征输入到目标属性预测模型,得到所述目标属性预测模型输出的所述目标属性信息包括:将所述每个文本单元的所述目标编码向量输入到所述目标属性预测模型,得到与所述每个文本单元对应的属性预测结果;根据与所述每个文本单元对应的属性预测结果,确定出所述目标属性的所述目标属性信息。

根据本申请实施例的另一个方面,还提供了一种属性信息的获取装置,包括:获取单元,用于获取目标对象的目标文本数据和与所述目标文本数据具有关联关系的目标图像数据;提取单元,用于提取所述目标文本数据的目标语义特征,以及提取所述目标图像数据的目标图像特征;预测单元,用于使用所述目标图像特征和所述目标语义特征对所述目标对象的目标属性进行预测,得到所述目标属性的目标属性信息。

可选地,所述提取单元包括:第一提取模块,用于使用目标双向语言模型对所述目标文本数据进行编码处理,得到所述双向语言模型输出的所述目标语义特征,其中,所述目标双向语言模型为预训练的、用于提取输入文本数据中的每个文本单元的语义表示的语言表示模型。

可选地,所述提取单元包括:第一输入模块,用于将所述目标图像数据输入到目标卷积神经网络中,其中,所述目标卷积神经网络为预训练的、用于提取输入图像的图像特征的残差网络;提取模块,用于提取所述目标卷积神经网络的全连接层的前一个卷积层所输出的特征,得到所述目标图像特征。

可选地,所述预测单元包括:融合模块,用于将所述目标图像特征与所述目标语义特征进行跨模态注意力融合,得到目标融合特征;第二输入模块,用于将所述目标融合特征输入到目标属性预测模型,得到所述目标属性预测模型输出的所述目标属性信息。

可选地,所述目标语义特征包含所述目标文本数据中的每个文本单元的第一编码向量;所述融合模块包括:编码子模块,用于使用所述目标图像特征对所述目标语义特征进行跨模态注意力编码,得到所述每个文本单元的第二编码向量;过滤子模块,用于使用跨模态注意力过滤器对所述每个文本单元的所述第二编码向量进行过滤,得到所述每个文本单元的第三编码向量,其中,所述跨模态注意力过滤器用于按位过滤与所述目标图像数据无关的文本单元的所述第二编码向量中的图像信息;拼接模块,用于将所述每个文本单元的所述第一编码向量与所述每个文本单元的所述第三编码向量进行拼接,得到所述每个文本单元的目标编码向量,其中,所述目标融合特征包括所述每个文本单元的所述目标编码向量。

可选地,所述编码子模块包括:确定子单元,用于根据第一注意力向量、第二注意力向量和跨模态映射矩阵,确定所述每个文本单元的所述第二编码向量,其中,所述第一注意力向量为与所述目标语义特征对应的文本模态的注意力向量,所述第二注意力向量为与所述目标语义特征和所述目标图像特征对应的文本与图片模态的跨模态注意力向量,所述跨模态映射矩阵用于将所述第二注意力向量从视觉语义空间映射到文本语义空间。

可选地,所述第二输入模块包括:输入子模块,用于将所述每个文本单元的所述目标编码向量输入到所述目标属性预测模型,得到与所述每个文本单元对应的属性预测结果;确定子模块,用于根据与所述每个文本单元对应的属性预测结果,确定出所述目标属性的所述目标属性信息。

根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中,采用使用文本数据结合图像数据进行属性信息提取的方式,通过获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息,由于将文本数据与图像信息进行结合,可以通过融合多种信息进行属性信息的获取,达到提升信息提取的准确性、提高属性信息补齐的效率的技术效果,进而解决了相关技术中的属性值补齐的方式存在由于信息提取不准确导致的属性信息补齐的效率低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的属性信息的获取方法的硬件环境的示意图;

图2是根据本申请实施例的一种可选的属性信息的获取方法的流程示意图;

图3是根据本申请实施例的一种可选的属性信息的获取方法的示意图;

图4是根据本申请实施例的另一种可选的属性信息的获取方法的流程示意图;

图5是根据本申请实施例的一种可选的属性信息的获取装置的结构框图;

图6是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一个方面,提供了一种属性信息的获取方法。可选地,在本实施例中,上述属性信息的获取方法可以应用于如图1所示的由终端102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端102进行连接,可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务。

上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端102可以并不限定于为PC、手机、平板电脑等。

本申请实施例的属性信息的获取方法可以由服务器104来执行,也可以由终端102来执行,还可以是由服务器104和终端102共同执行。其中,终端102执行本申请实施例的属性信息的获取方法也可以是由安装在其上的客户端来执行。

以由服务器104来执行本实施例中的属性信息的获取方法为例,图2是根据本申请实施例的一种可选的属性信息的获取方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:

步骤S202,获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据。

本实施例中的属性信息的获取方法可以应用于具有属性信息获取需求的场景,例如,电商场景,也可以是其他场景。以电商场景为例,对于如图3所示的服饰,该服饰的介绍页面中包含了一段产品描述文本(例如,“这是一款金色立领T恤衫”)和一个产品图片,该服饰的列表中未包含领型、颜色等属性的属性信息,需要提取这些缺失的属性信息进行补齐。

对于目标对象,该目标对象可以是一件产品(例如,服饰、餐具等),也可以是其他类型的物件,服务器可以从本地、终端设备、另一台服务器、或者其他设备处获取该目标对象的目标文本数据和与目标图像数据。目标图像数据与目标文本数据具有关联关系,也就是说,目标文本数据所描述的是目标图像数据中所包含的目标对象。

步骤S204,提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征。

服务器可以对目标文本数据进行语义特征提取,得到目标语义特征。目标文本数据的语义特征的提取方式可以有多种,例如,使用双向语言模型或者其他能够进行语义特征提取的模型进行语义特征提取,本实施例中对此不作具体限定。

在提取目标文本数据的语义特征时,可以以文本单元为单位进行编码处理,得到与每个文本单元对应的编码向量。每个文本单元可以对应于一个编码向量,目标语义特征包含了每个文本单元的编码向量。编码处理所依据的可以是本文本单元之前的文本单元、本文本单元之前和之后的文本单元(使用的可以是双向语言模型)、本文本单元之后的文本单元。文本单元可以是字、词语或者其他类型的文本单元。

服务器可以对目标图像数据进行图像特征提取,得到目标图像特征。目标图像数据的图像特征的提取方式可以有多种,例如,使用卷积神经网络或者其他能够进行图像特征提取的模型进行图像特征提取,卷积神经网络可以是残差网络,例如,ResNet-50、ResNet-101等,本实施例中对此不作具体限定。

步骤S206,使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息。

服务器可以将目标图像特征和目标语义特征进行融合,从而可以基于融合特征进行目标属性的属性信息预测,预测的结果为目标属性信息。将目标图像特征和目标语义特征进行融合的方式可以有多种,例如,使用一种特征辅助另一种特征进行属性信息预测,又例如,使用两者特征共同进行属性信息预测,本实施例中对此不作限定。

目标属性的数量可以有一个或多个,其可以是从目标文本数据中提取出的,也可以是预先配置好的。在目标属性的数量为多个时,不同的目标属性的属性信息可以分别进行预测,例如,使用不同的属性预测模型进行多种属性信息的预测,又例如,使用同一属性预测模型进行多种属性信息预测,该属性预测模型可以同时对多种属性信息预测,也可以在同一时间仅对一个属性信息进行预测。

得到的目标属性信息可以用来补齐缺失的属性信息,例如,将目标对象的属性列表中该目标属性的属性信息补齐。补齐属性信息的操作可以是由服务器执行的,也可以是由终端设备执行的,还可以是由两者共同执行的。

需要说明的是,本实施例中的属性信息的获取方法也可以是由终端设备执行的,比如,终端设备可以通过从本地选取、从另一终端设备或者服务器处获取等方式得到目标文本数据和与目标图像数据,并使用得到的目标文本数据和与目标图像数据进行目标属性的属性信息的预测,预测过程与前述类似,在此不做赘述。

通过上述步骤S202至步骤S206,通过获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息,解决了相关技术中的属性值补齐的方式存在由于信息提取不准确导致的属性信息补齐的效率低的问题,提升了信息提取的准确性,提高了属性信息补齐的效率。

作为一种可选的实施例,提取目标文本数据的目标语义特征包括:

S11,使用目标双向语言模型对目标文本数据进行编码处理,得到双向语言模型输出的目标语义特征,其中,目标双向语言模型为预训练的、用于提取输入文本数据的每个文本单元的语义表示的语言表示模型。

服务器可以使用目标双向语言模型对目标文本数据进行编码处理,即,服务器可以将目标文本数据输入到目标双向语言模型中。该目标双向语言模型是预先训练好的语言表示模型,该语言表示模型可以用于提取输入文本数据的每个文本单元的语义表示(即,文本向量),从而得到目标语义特征。

例如,对于如图3所示的产品,终端设备可以使用BERT(Bidirectional EncoderRepresentations from Transformers,基于转换器的双向编码表征)模型对该产品的自然语言描述文本(上述目标文本数据的一种示例)进行编码处理,得到文本的语义表示h=(h

通过本实施例,通过双向语言模型进行文本数据的语义特征提取,可以提高语义特征提取的准确性。

作为一种可选的实施例,提取目标图像数据的目标图像特征包括:

S21,将目标图像数据输入到目标卷积神经网络中,其中,目标卷积神经网络为预训练的、用于提取输入图像的图像特征的残差网络;

S22,提取目标卷积神经网络的全连接层的前一个卷积层所输出的特征,得到目标图像特征。

服务器可以使用目标卷积神经网络提取图像数据的图像特征,该卷积神经网络可以是任意能够进行图像特征提取的卷积神经网络。可选地,该目标卷积神经网络可以是预训练的残差网络,该残差网络可以用于提取输入图像的图像特征。

目标卷积神经网络可以是包含多个层(例如,卷积层、全连接层等)的残差网络。服务器可以将目标图像数据输入到目标卷积神经网络中,然后提取该目标卷积神经网络的最后一个卷积层(也就是,全连接层的前一个卷积层)所输出的特征,从而得到目标图像特征。

例如,服务器可以使用预训练的卷积神经网络ResNet-101对产品图片(目标图像数据的一种示例)编码,提取conv5层的特征,即,v=(v

通过本实施例,通过使用残差网络进行图像的图像特征提取,可以提高图像特征提取的准确性。

作为一种可选的实施例,使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息包括:

S31,将目标图像特征与目标语义特征进行跨模态注意力融合,得到目标融合特征;

S32,将目标融合特征输入到目标属性预测模型,得到目标属性预测模型输出的目标属性信息。

在得到目标图像特征和目标语义特征之后,服务器可以将目标图像特征与目标语义特征进行跨模态注意力融合,得到目标融合特征。由于进行了目标图像特征和目标语义特征的跨模态注意力融合,可以更加全面、准确的表征目标对象。

服务器可以将目标融合特征输入到预先训练好的目标属性预测模型,在将目标融合特征输入到目标属性预测模型之后,服务器可以获取到该目标属性预测模型输出的该目标属性的目标属性信息。

该目标属性预测模型可以进行一种或多种目标属性的属性信息的预测。每个属性预测模型能够预测的属性的类型可以是预先配置好的,每种属性可以对应于多种候选属性信息。根据输入信息,属性预测模型的全连接层可以输出每种候选属性信息所对应的概率,从而可以根据每种候选属性信息所对应的概率确定出该属性的属性信息。

通过本实施例,对目标图像特征和目标语义特征进行跨模态注意力融合,可以提高属性信息预测的准确性。

作为一种可选的实施例,目标语义特征可以包含目标文本数据中的每个文本单元的第一编码向量,而目标融合特征可以包括每个文本单元的目标编码向量。。对应地,将目标图像特征与目标语义特征进行跨模态注意力融合,得到目标融合特征包括:

S41,使用目标图像特征对目标语义特征进行跨模态注意力编码,得到每个文本单元的第二编码向量;

S42,使用跨模态注意力过滤器对每个文本单元的第二编码向量进行过滤,得到每个文本单元的第三编码向量,其中,跨模态注意力过滤器用于按位过滤与目标图像数据无关的文本单元的第二编码向量中的图像信息;

S43,将每个文本单元的第一编码向量与每个文本单元的第三编码向量进行拼接,得到每个文本单元的目标编码向量,其中,目标融合特征包括每个文本单元的目标编码向量。

在本实施例中,可以使用图像数据辅助文本数据进行目标属性的属性信息提取。在得到每个文本单元的第一编码向量之后,服务器可以使用目标图像特征对目标语义特征进行跨模态注意力编码,例如,使用全局跨模态注意力机制对文本的语义表示进行二次编码,得到每个文本单元的第二编码向量(可以用h

文本数据中可能包含某些与图像信息无关的文本,计算这些文本的二次编码向量时不应使用图像信息。对此,服务器可以预先配置跨模态注意力过滤器,跨模态注意力过滤器可以用于过滤(例如,对输入向量按位进行过滤)与目标图像数据无关的文本单元的第二编码向量中的图像信息。

在得到每个文本单元的第二编码向量之后,服务器可以使用跨模态注意力过滤器(g

通过本实施例,通过使用全局跨模态注意力机制对目标语义特征进行跨模态注意力编码,

作为一种可选的实施例,使用目标图像特征对目标语义特征进行跨模态注意力编码,得到每个文本单元的第二编码向量包括:

S51,根据第一注意力向量、第二注意力向量和跨模态映射矩阵,确定每个文本单元的第二编码向量,其中,第一注意力向量为与目标语义特征对应的文本模态的注意力向量,第二注意力向量为与目标语义特征和目标图像特征对应的文本与图片模态的跨模态注意力向量,跨模态映射矩阵用于将第二注意力向量从视觉语义空间映射到文本语义空间。

在使用全局跨模态注意力机制对文本的语义表示进行二次编码时,服务器可以分别获取与目标语义特征对应的文本模态的注意力向量(单模态注意力向量),即,第一注意力向量,与目标语义特征和目标图像特征对应的文本与图片模态的跨模态注意力向量(跨模态注意力向量),即,第二注意力向量,以及用于将第二注意力向量从视觉语义空间映射到文本语义空间的跨模态映射矩阵。

可选地,第一注意力向量可以是使用公式(1)计算得到的:

其中,

其中,

可选地,第二注意力向量可以是使用公式(3)计算得到的:

其中,

其中,

在得到第一注意力向量和第二注意力向量之后,服务器可以使用公式(5)计算得到的第二编码向量:

其中,

可选地,对于按照上述方式确定的第三编码向量,对其进行过滤的图片信息过滤器(即,前述跨模态注意力过滤器)可以如公式(6)所示:

其中,W

通过本实施例,通过使用单模态的注意力向量、跨模态的注意力向量以及跨模态映射矩阵生成每个文本单元的跨模态编码向量,可以提高语义特征与图像特征跨模态融合的效率。

作为一种可选的实施例,将目标融合特征输入到目标属性预测模型,得到目标属性预测模型输出的目标属性信息包括:

S61,将每个文本单元的目标编码向量输入到目标属性预测模型,得到与每个文本单元对应的属性预测结果;

S62,根据与每个文本单元对应的属性预测结果,确定出目标属性的目标属性信息。

在对目标属性的属性信息进行预测时,服务器可以将每个文本单元的目标编码向量输入到目标属性预测模型,得到与每个文本单元对应的属性预测结果。通过综合与每个文本单元对应的属性预测结果,服务器可以确定出目标属性的目标属性信息。

例如,将最终的文本编码向量(即,目标编码向量)输入到属性预测模型中,计算输入文本对应的产品属性,计算公式如公式(7)所示:

其中,W

通过本实施例,通过使用每个文本单元的目标编码向量对目标对象的目标属性的属性信息进行预测,可以提高属性信息预测的准确性。

下面结合可选示例对本申请实施例中的属性信息的获取方法进行解释说明。针对多模态产品属性信息抽取任务,在本示例中,在产品图片的辅助下,从产品描述文本中抽取产品的属性及其对应的属性值。

如图4所示,本可选示例中的属性信息的获取方法的流程可以包括以下步骤:

步骤S402,获取产品的产品描述文本和产品图片。

步骤S404,使用BERT对产品描述文本进行编码处理,得到文本的语义表示,即,文本的原始编码。

步骤S406,使用预训练的卷积神经网络ResNet-101对产品图片编码,提取conv5层的特征,得到产品图片的编码向量。

步骤S408,根据图片的编码向量使用全局跨模态注意力机制对文本的语义表示进行二次编码,并对跨模特注意力编码过后的编码向量进行多模态过滤,得到多模态过滤后的编码。

步骤S410,将原始编码和多模态过滤后的编码进行拼接,得到最终的文本编码向量,将最终的文本编码向量输入到属性预测模型中,计算输入文本对应的产品属性。

以如图3为例,通过使用商品图片辅助产品描述文本补齐产品属性信息,可以输出该产品描述文本中包含的产品属性信息,可以包含“属性:属性值”,例如,“领型:立领”,“颜色:金色”。

通过本实施例,使用图片辅助补齐产品属性信息,可以提高产品属性信息补齐的效率;使用全局跨模态注意力机制构造文本二次编码向量,可以提高文本编码向量表征目标对象的能力;使用跨模态注意力过滤器,过滤文本和图片信息无关的信息,可以提高产品属性信息补齐的准确性。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面,还提供了一种用于实施上述属性信息的获取方法的属性信息的获取装置。图5是根据本申请实施例的一种可选的属性信息的获取装置的结构框图,如图5所示,该装置可以包括:

获取单元502,用于获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;

提取单元504,与获取单元502相连,用于提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;

预测单元506,与提取单元504相连,用于使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息。

需要说明的是,该实施例中的获取单元502可以用于执行上述步骤S202,该实施例中的提取单元504可以用于执行上述步骤S204,该实施例中的预测单元506可以用于执行上述步骤S206。

通过上述模块,通过获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息,解决了相关技术中的属性值补齐的方式存在由于信息提取不准确导致的属性信息补齐的效率低的问题,提升了信息提取的准确性,提高了属性信息补齐的效率。

作为一种可选的实施例,提取单元504包括:

第一提取模块,用于使用目标双向语言模型对目标文本数据进行编码处理,得到双向语言模型输出的目标语义特征,其中,目标双向语言模型为预训练的、用于提取输入文本数据中的每个文本单元的语义表示的语言表示模型。

作为一种可选的实施例,提取单元504包括:

第一输入模块,用于将目标图像数据输入到目标卷积神经网络中,其中,目标卷积神经网络为预训练的、用于提取输入图像的图像特征的残差网络;

提取模块,用于提取目标卷积神经网络的全连接层的前一个卷积层所输出的特征,得到目标图像特征。

作为一种可选的实施例,预测单元506包括:

融合模块,用于将目标图像特征与目标语义特征进行跨模态注意力融合,得到目标融合特征;

第二输入模块,用于将目标融合特征输入到目标属性预测模型,得到目标属性预测模型输出的目标属性信息。

作为一种可选的实施例,目标语义特征包含目标文本数据中的每个文本单元的第一编码向量;融合模块包括:

编码子模块,用于使用目标图像特征对目标语义特征进行跨模态注意力编码,得到每个文本单元的第二编码向量;

过滤子模块,用于使用跨模态注意力过滤器对每个文本单元的第二编码向量进行过滤,得到每个文本单元的第三编码向量,其中,跨模态注意力过滤器用于按位过滤与目标图像数据无关的文本单元的第二编码向量中的图像信息;

拼接模块,用于将每个文本单元的第一编码向量与每个文本单元的第三编码向量进行拼接,得到每个文本单元的目标编码向量,其中,目标融合特征包括每个文本单元的目标编码向量。

作为一种可选的实施例,编码子模块包括:

确定子单元,用于根据第一注意力向量、第二注意力向量和跨模态映射矩阵,确定每个文本单元的第二编码向量,其中,第一注意力向量为与目标语义特征对应的文本模态的注意力向量,第二注意力向量为与目标语义特征和目标图像特征对应的文本与图片模态的跨模态注意力向量,跨模态映射矩阵用于将第二注意力向量从视觉语义空间映射到文本语义空间。

作为一种可选的实施例,第二输入模块包括:

输入子模块,用于将每个文本单元的目标编码向量输入到目标属性预测模型,得到与每个文本单元对应的属性预测结果;

确定子模块,用于根据与每个文本单元对应的属性预测结果,确定出目标属性的目标属性信息。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。

根据本申请实施例的又一个方面,还提供了一种用于实施上述属性信息的获取方法的电子设备,该电子设备可以是服务器、终端、或者其组合。

图6是根据本申请实施例的一种可选的电子设备的结构框图,如图6所示,包括处理器602、通信接口604、存储器606和通信总线608,其中,处理器602、通信接口604和存储器606通过通信总线608完成相互间的通信,其中,

存储器606,用于存储计算机程序;

处理器602,用于执行存储器606上所存放的计算机程序时,实现如下步骤:

S1,通过获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;

S2,提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;

S3,使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息。

可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例,上述存储器606中可以但不限于包括上述属性信息的获取装置中的获取单元502、提取单元504以及预测单元506。此外,还可以包括但不限于上述属性信息的获取装置中的其他模块单元,本示例中不再赘述。

上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

本领域普通技术人员可以理解,图6所示的结构仅为示意,实施上述属性信息的获取方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图6中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图6所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项属性信息的获取方法的程序代码。

可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:

S1,通过获取目标对象的目标文本数据和与目标文本数据具有关联关系的目标图像数据;

S2,提取目标文本数据的目标语义特征,以及提取目标图像数据的目标图像特征;

S3,使用目标图像特征和目标语义特征对目标对象的目标属性进行预测,得到目标属性的目标属性信息。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

相关技术
  • 属性信息的获取方法和装置、电子设备和存储介质
  • 一种直播间属性信息获取方法、装置、设备及存储介质
技术分类

06120113006795