掌桥专利:专业的专利平台
掌桥专利
首页

查询方法、模型训练方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:54:11


查询方法、模型训练方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域,尤其涉及一种查询方法、模型训练方法、装置、设备及存储介质。

背景技术

在对象识别领域中,存在一种基于对象的文本查询描述信息进行对象识别的方法。但是,在一些场景下,当文本存在歧义时,将导致无法准确地根据文本查询描述信息识别对象。

例如,在一些场景下,用户采用具有歧义的文本对发布的违禁内容进行伪装,该具有歧义的文本不易被识别为违禁内容。又例如,在另一些场景下,用户采用具有歧义的文本搜索商品时,该具有歧义的文本导致返回的商品搜索结果与用户的目标想要搜索的商品不一致。因此,有待提出一种新的解决方案。

发明内容

本申请的多个方面提供一种查询方法、模型训练方法、装置、设备及存储介质,用以有利于有效地提升对象识别的准确性。

本申请实施例提供一种查询方法,包括:响应查询请求,获取待查询对象的多模态描述特征;对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征;根据所述第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度;根据所述匹配度,从所述至少一个待匹配对象中,确定与所述待查询对象适配的目标对象。

本申请实施例还提供一种模型训练方法,包括:根据待查询对象的查询描述信息,获取所述待查询对象的多模态描述特征;分别对所述待查询对象的多模态描述特征和待匹配对象的多模态表示特征进行特征交互操作,得到第一交互特征和第二交互特征;根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度;根据所述匹配度和所述待查询对象与所述待匹配对象的匹配度真值,对所述模型参数进行更新,以优化所述查询链接模型。

本申请实施例还提供一种查询装置,包括:第一特征获取模块,用于:响应查询请求,获取待查询对象的多模态描述特征;第一交互模块,用于:对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征;匹配度计算模块,用于:根据所述第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度;目标对象确定模块,用于:根据所述匹配度,从所述至少一个待匹配对象中,确定与所述待查询对象适配的目标对象。

本申请实施例还提供一种模型训练装置,包括:第一特征获取模块,用于:根据待查询对象的查询描述信息,获取所述待查询对象的多模态描述特征;第一交互模块,用于:分别对所述待查询对象的多模态描述特征和待匹配对象的多模态表示特征进行特征交互操作,得到第一交互特征和第二交互特征;匹配度计算模块,用于:根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度;参数优化模块,用于:根据所述匹配度和所述待查询对象与所述待匹配对象的匹配度真值,对所述模型参数进行更新,以优化所述查询链接模型。

本申请实施例还提供一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令以用于:执行本申请实施例提供的查询方法或者模型训练方法中的步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现本申请实施例提供的查询方法或者模型训练方法中的步骤。

本申请实施例提供的查询方法中,处理查询请求时,根据待查询对象的多模态描述特征进行交互操作,得到交互特征。基于待查询对象的交互特征和待匹配对象的交互特征,计算待查询对象和待匹配对象的匹配度,并根据该匹配度,从待匹配对象中确定与待查询对象匹配的目标对象。在这种实施方式中,采用多个模态的描述特征,并对多个模态的描述特征进行交互操作,可使得不同模态的描述特征及其之间的交互关系共同作用于对象识别的过程,进而实现对单个模态的特征具有的歧义进行降低或者消除,有利于有效地提升对象识别的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请一示例性实施例提供的查询方法的流程示意图;

图2a为本申请另一示例性实施例提供的查询方法的流程示意图;

图2b为本申请一示例性实施例提供的自交互操作的示意图;

图2c为本申请一示例性实施例提供的双向交互操作的示意图;

图2d为本申请另一示例性实施例提供的双向交互操作的示意图;

图2e为本申请一示例性实施例提供的商品查询场景的示意图;

图3为本申请一示例性实施例提供的模型训练方法的流程示意图;

图4为本申请一示例性实施例提供的查询装置的结构示意图;

图5为本申请一示例性实施例提供的模型训练装置的结构示意图;

图6为本申请一示例性实施例提供的查询设备的结构示意图;

图7为本申请一示例性实施例提供的模型训练设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

现有技术中,用户发起对象查询时,若提供的查询描述信息存在歧义,那么将无法准确地根据查询描述信息识别到待查询对象。针对该技术问题,在本申请一些实施例中,提供了一种解决方案。以下将结合附图,详细说明本申请各实施例提供的技术方案。

图1为本申请一示例性实施例提供的查询方法的流程示意图,如图1所示,该方法包括:

步骤101、响应查询请求,获取待查询对象的多模态描述特征。

步骤102、对该多模态描述特征执行特征交互操作,得到第一交互特征。

步骤103、根据该第一交互特征和至少一个待匹配对象各自的交互特征,计算该待查询对象和该至少一个待匹配对象的匹配度。

步骤104、根据该匹配度,从该至少一个待匹配对象中,确定与该待查询对象适配的目标对象。

其中,对象可实现为客观存在的实体,例如商品、动物、植物、建筑物等;对象也可实现为抽象的信息,例如数学公式、概念定义、文字作品等等,本实施例不做限制。

基于对象的不同实现形式,本实施例可适用于多种不同的对象查询场景:例如商品查询场景、动物查询场景、植物查询场景等实体查询场景,或者,数学公式查询场景、概念查询场景、违禁信息查询场景等信息查询场景。

用户存在对象查询需求时,可输入查询描述信息。根据查询描述信息,可从已知的对象中,选择与查询描述信息匹配的对象。为便于描述和区分,将用户输入的查询描述信息所描述的对象,称为待查询对象,将预先建立的查询知识库中已知的对象,称为待匹配对象。

其中,模态(英文:Modality)可表示不同的信息来源或者不同的信息表现形式。例如,信息通过雷达、红外感应器、摄像头等不同的传感器进行采集时,雷达、红外感应器、摄像头采集到的信息可称为不同模态的信息。由例如,信息以图像、视频、音频、语义等不同的表现形式进行表达时,可将图像、视频、音频、语义等形式表达的信息,称为多种不同模态的信息。

获取待查询对象的多模态描述特征,包括:获取来自不同信息源的、用于描述待查询对象的特征;或者,获取不同表现形式的、用于描述待查询对象的特征。

其中,第一交互特征,根据待查询对象的多模态描述特征之间的特征交互操作得到。特征交互操作,可包括对多个不同模态的特征之间进行交叉计算、结合计算。基于多个模态的特征之间的交互操作,可有效地实现不同模态的描述特征之间的相互影响、相互联合、相互作用,进而实现对单个模态的特征具有的歧义进行降低或者消除。

其中,该至少一个待匹配对象可包括一个待匹配对象或者多个待匹配对象,本实施例不做限制。其中,每个待匹配对象分别对应有交互特征。待匹配对象的交互特征的计算方法和第一交互特征的计算方法相同或者相似,此处不做赘述。应当理解,本实施例中,采用“第一”对交互特征进行描述,仅用于方便区分,并不对交互特征的顺序、数量或者等级等其他信息构成限制。

基于待查询对象的第一交互特征和该至少一个待匹配对象各自的交互特征,可计算该待查询对象和该至少一个待匹配对象的匹配度。例如,针对任一待匹配对象,可根据该待匹配对象的交互特征和待查询对象的第一交互特征的匹配度,获取该待匹配对象和待查询对象的匹配度。基于计算得到的至少一个匹配度,可从该至少一个待匹配对象中,确定与该待查询对象适配的目标对象。例如,可选择匹配度最高的待匹配对象作为目标对象,或者选择匹配度大于设定阈值的待匹配对象作为目标对象,本实施例不做限制。

在本实施例中,处理查询请求时,根据待查询对象的多模态描述特征进行交互操作,得到交互特征。基于待查询对象的交互特征和待匹配对象的交互特征,计算待查询对象和待匹配对象的匹配度,并根据该匹配度,从待匹配对象中确定与待查询对象匹配的目标对象。在这种实施方式中,采用多个模态的描述特征,并对多个模态的描述特征进行交互操作,可使得不同模态的描述特征及其之间的交互关系共同作用于对象识别的过程,进而实现对单个模态的特征具有的歧义进行降低或者消除,有利于有效地提升对象识别的准确性。

图2a为本申请另一示例性实施例提供的查询方法的流程示意图,如图2所示,该方法包括:

步骤201、响应查询请求,获取用户提供的第一查询描述信息。

步骤202、向用户提供与第一查询描述信息存在相互作用关系的至少一种其他描述信息。

步骤203、响应用户针对该至少一种其他描述信息的选择操作,获取被选择的描述信息作为第二查询描述信息。

步骤204、将第一查询描述信息和第二查询描述信息输入查询链接模型。

步骤205、在查询链接模型中,根据第一查询描述信息和第二查询描述信息,分别提取第一模态的描述特征和第二模态的描述特征,作为待查询对象的多模态描述特征。

步骤206、在查询链接模型中的第一交互层,对该多模态描述特征执行特征交互操作,得到第一交互特征。

步骤207、在查询链接模型中的第二交互层,对第一交互特征和至少一个待匹配对象各自的交互特征执行特征交互操作,得到至少一个第三交互特征;其中,待匹配对象的交互特征通过对待匹配对象的多模态表示特征执行特征交互操作得到。

步骤208、在查询链接模型的打分层,根据打分层的参数,对该至少一个第三交互特征进行打分,得到第一交互特征和该至少一个待匹配对象各自的交互特征的匹配度。

步骤209、在查询链接模型的输出层,根据该至少一个匹配度,从至少一个待匹配对象中,确定与待查询对象适配的目标对象,并输出目标对象。

在步骤201中,可选地,查询请求可以是用户通过终端设备发出的。例如,用户可在终端设备提供的查询页面输入查询请求,或者通过终端设备提供的语音输入装置输入语音查询指令,本实施例不做限制。

其中,第一查询描述信息是用户提供的查询描述信息。在一些情况下,第一查询描述信息包含的特征较为单一,若该单一的特征存在歧义,那么将导致针对查询请求的响应结果不准确。为解决该问题,可执行接下来的步骤202,向用户提供其他描述信息,以供用户进行选择。

在步骤202中,可选地,向用户提供该至少一种其他描述信息的方式,可包括:通过终端提供的显示屏展示该至少一种其他描述信息,或者,通过语音播报的方式播放该至少一种其他描述信息。本实施例不做限制。

其中,第一查询描述信息与该至少一种其他描述信息存在相互作用关系,该作用关系指的是:该至少一种其他描述信息与第一查询描述信息可描述同一对象,且该至少一个其他描述信息可辅助降低或者消除第一查询描述信息的歧义;相应地,第一查询描述信息也可辅助降低或者消除该至少一种其他描述信息的歧义。

例如,用户发起搜索查询操作时,输入的第一查询描述信息为:“一种从树上摘树叶吃的动物”的文本描述信息,由于能够摘树叶并直接食用的动物较多,因此导致无法准确地向用户返回搜索结果。基于本步骤,可向用户提供其他查询描述信息,例如:树袋熊的图片、猴子的图片或者长颈鹿的图片。上述图片,可有效辅助降低或者消除第一查询描述信息的歧义。

其中,该至少一个其他描述信息可采用如下的实施方式获取:

可选地,可从多模态知识图谱中,获取第一查询描述信息适配的多个待匹配对象。

其中,多模态知识图谱是预先建立的,在多模态知识图谱中,保存有全量的待匹配对象、待匹配对象的多模态的表示信息及待匹配对象及其多模态的表示信息的对应关系,实现了待匹配对象在知识层面的统一表示,奠定了降低或者消除对象识别过程中的歧义的基础。

基于此,可将第一查询描述信息和多模态知识图谱中的表示信息进行匹配。例如,若第一查询描述信息为文本格式,则可将第一查询描述信息和多模态知识图谱中的表示信息进行文本匹配。若存在与第一查询描述信息匹配的表示信息,则可将与该表示信息对应的待匹配对象,作为与第一查询描述信息适配的待匹配对象。通常,第一查询描述信息存在歧义时,与其适配的待匹配对象的数量为多个。

接着,从多个待匹配对象各自对应的多模态的表示信息中,选择与第一查询描述信息属于不同模态的其他表示信息,作为该至少一种其他描述信息。用户获取到该至少一种其他描述信息后,可根据查询需求,从该至少一种其他描述信息选择与查询需求匹配的描述信息。

承接上述例子,第一查询描述信息为:一种从树上摘树叶吃的动物。若多模态知识图谱中,树袋熊、猴子以及长颈鹿等多个动物的表示信息中,存在与“从树上摘树叶吃”适配的表示信息时,可分别获取树袋熊、猴子以及长颈鹿的其他模态的表示信息。例如,可获取树袋熊、猴子以及长颈鹿的图片,并向用户展示树袋熊、猴子以及长颈鹿的图片,若用户实际上想要查询树袋熊,则可从上述图片中,选择树袋熊的图片。

在步骤203中,可基于用户的选择操作,将用户选择的其他描述信息,作为第二查询描述信息。

在一些优选的实施例中,第一查询描述信息包括:文本描述信息;第二查询描述信息包括:图像描述信息。基于此,可充分利用图像描述信息对文本描述信息进行补充,以降低或者消除文本描述信息的歧义。例如,承接上述例子,若用户选择了树袋熊的图片,则可将树袋熊的图片作为第二查询描述信息。

接下来,在步骤204中,可将第一查询描述信息和第二查询描述信息输人查询链接模型。其中,查询链接模型为预先训练得到,用于识别查询描述信息包含的多模态的特征,将查询结果链指向某一个或者多个对象。以下将结合后续步骤,示例性地说明查询链接模型的内部工作方式。

在步骤205中,查询链接模型获取到输入的第一查询描述信息和第二查询描述信息后,可分别对上述两种查询描述信息进行特征提取,得到第一模态的描述特征和第二模态的描述特征。

其中,第一模态的描述特征和第二模态的描述特征,可分别包含一种或者多种不同的描述特征,本实施例不做限制。

可选地,若查询描述信息为文本格式的信息,则可对文本格式的信息进行语义特征提取。其中,语义特征提取操作可基于word2vec(词到向量)模型实现,或者可基于ELMo模型(一种深度语境化词表征模型)实现,本实施例不做限制。例如,可基于word2vec(词到向量)模型,对查询描述信息包含的待查询对象的名称进行语义特征提取,得到待查询对象的名称的语义特征。或者,可基于ELMo模型,对待查询对象的名称的上下文信息进行语义特征提取,得到待查询对象的名称的上下文语义特征。

可选地,若查询描述信息为图片格式的信息,则可对图片格式的信息进行图像特征提取。其中,提取图像特征的方式可基于VGGNet(Visual Geometry Group Network,一种神经网络模型)、AlexNet(一种神经网络模型)以及InceptionNet(一种神经网络模型)中的至少一种模型实现,本实施例对此不做限制。

可选地,若查询描述信息为音频格式的信息,则可对音频格式的信息进行语音识别,再基于语音识别结果进行语义特征提取。或者,可直接对音频格式的信息音频特征提取,本实施例不做限制。

查询描述信息为其他格式时,可采用其他格式的信息对应的特征提取方法进行特征提取,不再赘述。

获取到待查询对象的多模态描述特征后,接下来可执行步骤206,对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征。

可选地,待查询对象的多模态描述特征,可包括:待查询对象的名称的语义特征、待查询对象的名称的上下文语义特征以及待查询对象的图像特征中的至少一种。在步骤206中,可选地,为便于描述和区分,可将查询链接模型中用于对多模态描述特征执行特征交互操作的计算层,记为第一交互层。

可选地,在查询链接模型的第一交互层,可基于注意力机制(AttentionMechanism),对待查询对象的多模态描述特征进行自交互处理,得到待查询对象的多模态描述特征各自的自交互特征向量。

可选地,以下将以待查询对象的多模态描述特征中的任一模态的描述特征为例,对基于注意力机制的自交互操作进行示例性说明。为便于描述,将该任一模态的描述特征记为第一描述特征。

可选地,针对该第一描述特征,可计算第一描述特征和待查询对象的多模态描述特征中的各个特征的相似度,得到第一描述特征对应的多个自交互权值;接着,可根据该多个自交互权值,对待查询对象的多模态描述特征进行加权计算,得到第一描述特征的自交互向量。

以下将结合图2b,以一个具体的例子进行进一步说明。

假设:待查询对象的描述特征包括:描述特征X1、X2、X3。如图2b所示,对描述特征X1进行自交互计算时,可分别计算描述特征X1和描述特征X1的相似度:S11=S(X1,X2),描述特征X1和描述特征X2的相似度:S12=S(X1,X2)以及描述特征X1和描述特征X3的相似度:S13=S(X1,X3)。

在获取S11、S12和S13后,可对其进行归一化计算,得到三个对应的自注意力权值A11、A12和A13。接着,根据X1、X2、X3以及A11、A12、A13进行加权计算,得到X1对应的自交互向量X1`=X1*A1+X2*A2+X3*A3。

相应地,采用上述方法,可计算待查询对象的多模态描述特征中,其他模态的描述特征的自交互向量。例如,可根据图2b示意的计算过程,计算得到描述特征X2对应的自交互向量X2`,以及描述特征X3对应的自交互向量X3`。

接下来,可对待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到第一交互特征。可选地,该融合操作可以实现为向量的拼接操作。例如,多模态描述特征各自的自交互向量分别为X1`、X2`、X3`时,第一交互特征可实现为:(X1`,X2`,X3`)。

在接下来的步骤与207中,可对第一交互特征和该至少一个待匹配对象各自的交互特征执行特征交互操作。其中,每个待匹配对象的交互特征通过对该待匹配对象的多模态表示特征执行特征交互操作得到。对待匹配对象的多模态表示特征执行特征交互操作的可选实施方式,可参考前述记载的对待查询对象的多模态描述特征执行交互操作的可选实施方式,此处不再赘述。

值得说明的是,本申请实施例预先构建的多模态知识图谱中,包含全量的待匹配对象的多模态表示特征。在一些可选实施例中,可预先根据每个待匹配对象的多模态表示特征,计算每个待匹配对象的交互特征,并将每个待匹配对象的交互特征存放在多模态知识图谱中备用。在另一些可选实施例中,可在计算第一交互特征时,从多模态知识图谱中,获取每个待匹配对象的多模态表示特征,并在查询链接模型的第一交互层,实时计算每个待匹配对象的交互特征,本实施例不做限制。

可选地,针对任一待匹配对象,该待匹配对象的多模态表示特征,可包括:该待匹配对象的结构特征、该待匹配对象的图像特征、该待匹配对象的名称的语义特征以及该待匹配对象的摘要特征中的至少一种。

以下将以该至少一个待匹配对象中的任一待匹配对象为例进行示例性说明。为便于描述,将该待匹配对象的交互对象标记为第二交互特征。

可选地,对第一交互特征和第二交互特征执行特征交互操作,得到第三交互特征的操作,可在查询链接模型中的第二交互层实现。

可选地,在第二交互层,可基于注意力机制,对第一交互特征和第二交互特征执行双向交互处理,得到待查询对象的双向交互特征向量和待匹配对象的双向交互特征向量。

可选地,承接前述实施例可知,第一交互特征包含与待查询对象的多模态描述特征对应的多个特征向量,第二交互特征包含与待匹配对象的多模态表示特征对应的多个特征向量。

以下将以第一交互特征包含的任一特征向量为例,对基于注意力机制的双向交互操作进行示例性说明。为便于描述,将该任一特征向量记为第一特征向量。

可选地,针对第一特征向量,可计算第一特征向量和第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;接着,可根据该多个双向交互权值,对第二交互特征中的多个特征进行加权计算,得到第一特征向量对应的双向交互向量。以下将结合图2c和图2d,以一个具体的例子进行进一步说明。

假设:第一交互特征包括:特征向量X1`、X2`、X3`,第二交互特征包括:特征向量Y1`、Y2`、Y3`、Y4`。如图2c所示,根据第二交互特征包含的特征向量对特征向量X1`进行交互计算时,可分别计算特征向量X1`和特征向量Y1`、Y2`、Y3`、Y4`的相似度:S11`=S(X1`,Y1`),特征向量X1`和特征向量Y2`的相似度:S12`=S(X1`,Y2`),特征向量X1`和特征向量Y3`的相似度:S13`=S(X1`,Y3`)以及特征向量X1`和特征向量Y4`的相似度:S14`=S(X1`,Y4`)。

在获取S11`、S12`、S13`和S14`后,可对其进行归一化计算,得到三个对应的自注意力权值A11`、A12`、A13`和A14`。接着,根据Y1`、Y2`、Y3`、Y4`以及A11`、A12`、A13`和A14`进行加权计算,得到X1`对应的双向交互向量X1``=Y1`*A1`+Y2`*A2`+Y3`*A3`+Y4`*A4`。

相应地,采用上述方法,结合图2c,计算第一交互特征中的其他特征向量对应的双向交互向量。

接下来,可对第一交互特征中的各个特征向量对应的双向交互向量进行融合,得到待查询对象的双向交互特征向量。可选地,该融合操作可以实现为向量的拼接操作。例如,第一交互特征中的各个特征向量对应的双向交互向量分别为X1``、X2``、X3``时,待查询对象的双向交互特征向量可实现为:(X1``,X2``,X3``)。

在步骤207中,待匹配对象的双向交互特征向量可采用前述记载的方法获取,此处不再赘述。例如,承接前述例子,计算得到的待匹配对象的双向交互特征向量可实现为:(Y1``,Y2``,Y3``,Y4``)。

可选地,可对待查询对象的双向交互特征向量和待匹配对象的双向交互特征向量进行融合,得到第三交互特征的方式,可包括:将待查询对象的双向交互特征向量和待匹配对象的双向交互特征向量进行拼接,如图2d所示。

例如,承接上述例子,第三交互特征可实现为(X1``,X2``,X3``,Y1``,Y2``,Y3``,Y4``)。

基于前述步骤,可分别将第一交互特征和该至少一个待匹配对象各自对应的交互特征进行特征交互操作,得到至少一个第三交互特征。

获取到至少一个第三特征后,可执行步骤208和步骤209,在查询链接模型的打分层,根据打分层的参数,对该至少一个第三交互特征分别进行打分,得到第一交互特征和该至少一个待匹配对象的交互特征的匹配度。在查询链接模型的输出层,根据计算得到的至少一个匹配度,从至少一个待匹配对象中,确定与待查询对象适配的目标对象,并输出目标对象。该目标对象可被返回给用户,作为查询请求的查询结果。

在本实施例中,对待查询对象的多个模态的描述特征进行交互操作,得到交互特征,根据交互特征进行对象识别,可使得不同模态的描述特征及其之间的交互关系共同作用于对象识别的过程,进而实现对单个模态的特征具有的歧义进行降低或者消除,有利于有效地提升对象识别的准确性。除此之外,将待查询对象的交互特征和待匹配对象的交互特征进行进一步交互,有利于提升对象识别结果的准确性和可靠性。

本申请的上述或者下述各实施例,适用于多种不同的对象识别场景。以下将进行示例性说明。

一种典型的应用场景为:商品查询场景。用户在终端展示的电商平台上查询商品时,可输入商品的查询描述信息。例如,如图2e所示的文本格式的查询描述信息:一种保暖的鞋子。终端可将该描述信息发送至服务器,由服务器提供查询结果。实际商品类目中,保暖的鞋商品有多种,例如棉拖鞋、雪地靴、加绒长靴、电热保暖鞋等等商品。在文本格式的查询描述信息存在歧义时,服务器无法为用户提供较为准确的搜索结果。接下来,服务器可从预先建立的商品多模态知识图谱中,获取上述多种鞋商品的其他模态的描述信息,例如图像描述信息或者商品详情描述信息。图2e中,以鞋商品的图像描述信息为例进行了示意。服务器可将上述各种鞋商品的图像发送至终端进行展示。

用户通过终端观看到多种鞋商品的图像后,可根据实际需求,从多种鞋商品的图像中选择符合一张或者多张图像。假设,如图2e所示,用户从多种鞋商品的图像中选择了棉拖鞋的图像。终端可在用户选择后,将棉拖鞋的图像发送至服务器。接下来,服务器可将上述文本格式查询描述信息和棉拖鞋的图像作为待查询商品的多模态描述信息,并基于前述各实施例提供的查询方法,计算与待查询商品适配的待匹配商品。图2e示意了服务器返回的多种棉拖鞋的商品的查询结果。基于这种实施方式,可在用户输入的商品查询描述信息存在歧义时,准确地为用户返回商品搜索结果,提升查询效率和电商平台的订单转化率。

另一种典型的应用场景为:违禁内容检索场景。现有的违禁内容检索方法通常依赖于对文本格式的信息进行分析,因此,部分信息发布者发布违禁内容时,会发布具有歧义的文本格式的内容,以躲避违规风险。同时,为便于内容的受众理解违禁内容,信息发布者同时发布图片,在图片中明确地展示违禁内容。上述信息发布方式导致无法准确地筛选出违禁内容。基于本实施例提供的查询方法,可将可疑的文本格式的违禁内容和对应的图片,作为待检索违禁内容的多模态描述特征,进而可准确地识别违禁内容,净化网络环境。

前述实施例提供的查询链接模型,可采用如下可选的实施方式进行训练,以下将结合附图进行说明。

图3为本申请一示例性实施例提供的模型训练方法的流程示意图,如图3所示,该方法包括:

步骤301、根据待查询对象的查询描述信息,获取待查询对象的多模态描述特征。

步骤302、分别对待查询对象的多模态描述特征和待匹配对象的多模态表示特征进行特征交互操作,得到第一交互特征和第二交互特征。

步骤303、根据查询链接模型的模型参数,计算第一交互特征和第二交互特征的匹配度。

步骤304、根据匹配度和待查询对象与待匹配对象的匹配度真值,对查询链接模型的模型参数进行更新,以优化该查询链接模型。

其中,待查询对象的查询描述信息,可根据用户的历史查询记录获取。例如,可获取用户发起历史查询操作时输入的查询语料,作为查询描述信息。查询描述信息,用于作为查询链接模型的训练样本,对查询链接模型的模型参数进行优化。

在一些示例性的实施例中,待查询对象的多模态描述特征,可包括:待查询对象的名称的语义特征、待查询对象的名称的上下文语义特征以及待查询对象的图像特征中的至少一种。获取待查询对象的多模态描述特征的可选实施方式,可参考前述实施例的记载,此处不赘述。

在一些示例性的实施例中,待匹配对象的多模态表示特征,可包括:待匹配对象的结构特征、待匹配对象的图像特征、待匹配对象的名称的语义特征以及待匹配对象的摘要特征中的至少一种。

其中,待匹配对象的多模态表示特征可存放于多模态知识图谱中。构建多模态知识图谱时,可执行以下至少一种方法,以获取待匹配对象的多模态表示特征:

方法1:根据待匹配对象与存在设定关系的其他对象,生成待匹配对象的结构特征。

可选地,可针对数据集中的每一待匹配对象,可构建三元组数据,该三元组数据由头对象h、关系r以及尾对象t组成,形式化表示为:(h,r,t)。接着,可基于翻译嵌入算法(Translating Embedding,TransE),从数据集中筛选与该待匹配对象存在设定关系的其他对象。即,通过TransE算法寻找能够满足h+r≈t的其他待匹配对象h及关系r。接着,可将待匹配对象、设定关系和其他对象组成的向量,作为待匹配对象的结构向量。

基于TransE计算与待匹配对象存在设定关系的其他对象时,可将损失函数设置为合页损失函数。合页损失函数可实现为:

L=∑∑max(γ+E(h,r,t)-E(h',r,t'),0)

其中,γ为合页损失函数的边距(margin),E(h,r,t)为正例,E(h',r,t')为负例。其中,负例可通过随机替换头对象和/或尾对象生成。

例如,待匹配对象对应的三元组数据为(h,r,t)时,随机替换头对象和/或尾对象时,可生成如下几种动量函数:

E

E

E

E

E

其中,h`表示随机替换的头对象,t`表示随机替换的尾对象。

上述合页损失函数中的E(h',r,t'),可实现为上述E

方法2:可根据待匹配对象的图像,计算待匹配对象的图像特征。其中,计算待匹配对象的图像特征的操作可基于VGGNet、AlexNet InceptionNet中的至少一种模型实现,不再赘述。

应当理解,每个待匹配对象可对应多张图像,基于多张图像,可计算待匹配对象的多个图像特征向量。接着,可计算两两图像特征向量之间的余弦相似度,并根据计算得到的余弦相似度值构建图像特征相似度网络。在图像特征相似度网络中,一个节点代表一个图像特征向量,网络中的边代表这条边连接的两个节点之间的余弦相似度值。

接着,可使用PageRank(网页排名)算法计算图像特征向量相似度网络中每一个节点的PageRank值,并从中选择PageRank值最高的若干个节点作为待匹配对象的图像特征向量。可选地,在一些实施例中,还可进一步对这若干个图像特征向量执行按位取平均值或者取最大值的操作,以得到待匹配对象的聚合图像特征向量。

方法3:可根据待匹配对象的名称生成词向量,得到待匹配对象的名称的语义特征。

方法4:可根据待匹配对象的摘要信息生成词向量,得到待匹配对象的摘要特征。

在方法3和方法4中,生成词向量的操作可基于word2vec模型或者ELMo模型实现,此处不再赘述。

在一些示例性的实施例中,对所述待查询对象的多模态描述特征进行特征交互操作,得到第一交互特征的一种方式,包括:在查询链接模型的第一交互层,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量;对所述待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到所述第一交互特征。在一些示例性的实施例中,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量的一种方式,包括:针对所述待查询对象的多模态描述特征中的任一模态的描述特征,计算所述描述特征和所述待查询对象的多模态描述特征中的各个特征的相似度,得到所述描述特征对应的多个自交互权值;根据所述多个自交互权值,对所述待查询对象的多模态描述特征进行加权计算,得到所述描述特征的自交互向量。

在一些示例性的实施例中,根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度的一种方式,包括:在查询链接模型中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征;在所述查询链接模型的打分层,根据所述打分层的参数,对所述第三交互特征进行打分,得到所述第一交互特征和所述第二交互特征的匹配度。

在一些示例性的实施例中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征的一种方式,包括:在所述查询链接模型中的第二交互层,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量;对所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量进行融合,得到所述第三交互特征。

在一些示例性的实施例中,所述第一交互特征包含与所述待查询对象的多模态描述特征对应的多个特征向量,所述第二交互特征包含与所述待匹配对象的多模态表示特征对应的多个特征向量;相应地,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量的一种方式,包括:针对所述第一交互特征中的任一特征向量,计算所述特征向量和所述第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;根据所述多个双向交互权值,对所述第二交互特征中的多个特征进行加权计算,得到所述特征的双向交互向量;将所述第一交互特征包含的多个特征各自的双向交互向量进行拼接,得到所述待查询对象的双向交互特征向量。

在本实施例中,通过构建多模态知识图谱,可将待匹配对象在知识层面的表示方式进行统一,有利于多模态的表示特征之间相互影响、相互结合。基于待查询对象和待匹配对象各自的多模态特征计算交互特征,并基于计算得到的交互特征对查询链接模型进行训练,可使得查询链接模型不断地自动学习多模态特征之间的交互关系,并自动地学习待查询对象的交互特征和待匹配对象的交互特征之间的关系,有利于在模型的实际应用中,根据存在交互关系的多模态特征,准确地识别到查询请求匹配的对象。

需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤201至步骤204的执行主体可以为设备A;又比如,步骤201和202的执行主体可以为设备A,步骤203的执行主体可以为设备B;等等。

另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

图4是本申请一示例性实施例提供的查询装置的结构示意图,如图4所示,该装置包括:

第一特征获取模块401,用于:响应查询请求,获取待查询对象的多模态描述特征。

第一交互模块402,用于:对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征。

匹配度计算模块403,用于:根据所述第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度。

目标对象确定模块404,用于:根据所述匹配度,从所述至少一个待匹配对象中,确定与所述待查询对象适配的目标对象。

在一些示例性实施例中,第一特征获取模块401在响应查询请求,获取待查询对象的多模态描述特征时,具体用于:响应所述查询请求,获取用户提供的第一查询描述信息;向所述用户提供与所述第一查询描述信息存在相互作用关系的至少一种其他描述信息;响应所述用户从至少一种其他描述信息的选择操作,获取被选择的描述信息作为第二查询描述信息;从所述第一查询描述信息和所述第二查询描述信息中,分别获取第一模态的描述特征和第二模态的描述特征,作为所述待查询对象的多模态描述特征。

在一些示例性实施例中,第一特征获取模块401还用于:从多模态知识图谱中,获取所述第一查询描述信息适配的多个待匹配对象;从所述多个待匹配对象各自对应的多模态表示信息中,选择与所述第一查询描述信息属于不同模态的其他表示信息,作为所述至少一种其他描述信息。

在一些示例性实施例中,所述第一查询描述信息包括:文本描述信息;所述第二查询描述信息包括:图像描述信息。

在一些示例性实施例中,第一交互模块402在对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征时,具体用于:在查询链接模型的第一交互层,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量;对所述待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到所述第一交互特征。

在一些示例性实施例中,第一交互模块402在基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量时,具体用于:针对所述待查询对象的多模态描述特征中的任一模态的描述特征,计算所述描述特征和所述待查询对象的多模态描述特征中的各个特征的相似度,得到所述描述特征对应的多个自交互权值;根据所述多个自交互权值,对所述待查询对象的多模态描述特征进行加权计算,得到所述描述特征的自交互向量。

在一些示例性实施例中,第一交互模块402还用于:针对所述至少一个待匹配对象中的任一待匹配对象,对所述待匹配对象的多模态表示特征执行特征交互操作,得到所述待匹配对象的交互特征,作为第二交互特征。

在一些示例性实施例中,匹配度计算模块403,包括:第二交互模块4031以及打分模块4032;匹配度计算模块403在根据第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度时,具体用于:通过第二交互模块4031在查询链接模型中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征;通过打分模块4032在所述查询链接模型的打分层,根据所述打分层的参数,对所述第三交互特征进行打分,得到所述待查询对象和所述待匹配对象的匹配度。

在一些示例性实施例中,第二交互模块4031对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征时,具体用于:在所述查询链接模型中的第二交互层,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量;对所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量进行融合,得到所述第三交互特征。

在一些示例性实施例中,所述第一交互特征包含与所述待查询对象的多模态描述特征对应的多个特征向量,所述第二交互特征包含与所述待匹配对象的多模态表示特征对应的多个特征向量;第二交互模块4031在基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量时,具体用于:针对所述第一交互特征中的任一特征向量,计算所述特征向量和所述第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;根据所述多个双向交互权值,对所述第二交互特征中的多个特征向量进行加权计算,得到所述特征的双向交互向量;将所述第一交互特征包含的多个特征向量各自的双向交互向量进行拼接,得到所述待查询对象的双向交互特征向量。

在本实施例中,处理查询请求时,根据待查询对象的多模态描述特征进行交互操作,得到交互特征。基于待查询对象的交互特征和待匹配对象的交互特征,计算待查询对象和待匹配对象的匹配度,并根据该匹配度,从待匹配对象中确定与待查询对象匹配的目标对象。在这种实施方式中,采用多个模态的描述特征,并对多个模态的描述特征进行交互操作,可使得不同模态的描述特征及其之间的交互关系共同作用于对象识别的过程,进而实现对单个模态的特征具有的歧义进行降低或者消除,有利于有效地提升对象识别的准确性。

图5是本申请一示例性实施例提供的模型训练装置的结构示意图,如图5所示,该装置包括:

第一特征获取模块501,用于:根据待查询对象的查询描述信息,获取所述待查询对象的多模态描述特征。

第一交互模块502,用于:分别对所述待查询对象的多模态描述特征和待匹配对象的多模态表示特征进行特征交互操作,得到第一交互特征和第二交互特征。

匹配度计算模块503,用于:根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度。

参数优化模块504,用于:根据所述匹配度和所述待查询对象与所述待匹配对象的匹配度真值,对所述模型参数进行更新,以优化所述查询链接模型。

在一些示例性的实施例中,所述待查询对象的多模态描述特征,可包括:待查询对象的名称的语义特征、待查询对象的名称的上下文语义特征以及待查询对象的图像特征中的至少一种。

在一些示例性的实施例中,所述待匹配对象的多模态表示特征,可包括:待匹配对象的结构特征、待匹配对象的图像特征、待匹配对象的名称的语义特征以及待匹配对象的摘要特征中的至少一种。

在一些示例性的实施例中,该装置还包括:第二特征获取模块505,用于:执行以下至少一种操作,以获取待匹配对象的多模态表示特征:根据所述待匹配对象与存在设定关系的其他对象,生成所述待匹配对象的结构特征;根据所述待匹配对象的图像,计算所述待匹配对象的图像特征;根据所述待匹配对象的名称生成词向量,得到所述待匹配对象的名称的语义特征;根据所述待匹配对象的摘要信息生成词向量,得到所述待匹配对象的摘要特征。

在一些示例性的实施例中第二特征获取模块505在根据所述待匹配对象与存在设定关系的其他对象,生成所述待匹配对象的结构特征时,具体用于:基于翻译嵌入算法,计算与所述待匹配对象存在设定关系的其他对象;将所述待匹配对象、所述设定关系和所述其他对象组成的向量,作为所述待匹配对象的结构向量。

在一些示例性的实施例中,第一交互模块502在对所述待查询对象的多模态描述特征进行特征交互操作,得到第一交互特征时,具体用于:在查询链接模型的第一交互层,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量;对所述待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到所述第一交互特征。

在一些示例性的实施例中,第一交互模块502在基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量时,具体用于:针对所述待查询对象的多模态描述特征中的任一模态的描述特征,计算所述描述特征和所述待查询对象的多模态描述特征中的各个特征的相似度,得到所述描述特征对应的多个自交互权值;根据所述多个自交互权值,对所述待查询对象的多模态描述特征进行加权计算,得到所述描述特征的自交互向量。

在一些示例性的实施例中,所述装置还包括:匹配度计算模块503包括:第二交互模块5031和打分模块5032;匹配度计算模块503,在根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度时,具体用于:通过第二交互模块5031,在查询链接模型中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征;通过打分模块5032,在所述查询链接模型的打分层,根据所述打分层的参数,对所述第三交互特征进行打分,得到所述第一交互特征和所述第二交互特征的匹配度。

在一些示例性的实施例中,第二交互模块5031在对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征时,具体用于:在所述查询链接模型中的第二交互层,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量;对所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量进行融合,得到所述第三交互特征。

在一些示例性的实施例中,所述第一交互特征包含与所述待查询对象的多模态描述特征对应的多个特征向量,所述第二交互特征包含与所述待匹配对象的多模态表示特征对应的多个特征向量;相应地,第二交互模块5031在基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量时,具体用于:针对所述第一交互特征中的任一特征向量,计算所述特征向量和所述第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;根据所述多个双向交互权值,对所述第二交互特征中的多个特征进行加权计算,得到所述特征的双向交互向量;将所述第一交互特征包含的多个特征各自的双向交互向量进行拼接,得到所述待查询对象的双向交互特征向量。

在本实施例中,基于待查询对象和待匹配对象各自的多模态特征计算交互特征,并基于计算得到的交互特征对查询链接模型进行训练,可使得查询链接模型不断地自动学习多模态特征之间的交互关系,并自动地学习待查询对象的交互特征和待匹配对象的交互特征之间的关系,有利于在模型的实际应用中,根据存在交互关系的多模态特征,准确地识别到查询请求匹配的对象。

图6是本申请一示例性实施例提供的查询设备的结构示意图,如图6所示,该查询设备包括:存储器601以及处理器602。

存储器601,用于存储计算机程序,并可被配置为存储其它各种数据以支持在查询设备上的操作。这些数据的示例包括用于在查询设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。

处理器602,与存储器601耦合,用于执行存储器601中的计算机程序,以用于:响应查询请求,获取待查询对象的多模态描述特征;第一交互模块402,用于:对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征;根据所述第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度;根据所述匹配度,从所述至少一个待匹配对象中,确定与所述待查询对象适配的目标对象。

进一步可选地,处理器602在响应查询请求,获取待查询对象的多模态描述特征时,具体用于:响应所述查询请求,获取用户提供的第一查询描述信息;向所述用户提供与所述第一查询描述信息存在相互作用关系的至少一种其他描述信息;响应所述用户从至少一种其他描述信息的选择操作,获取被选择的描述信息作为第二查询描述信息;从所述第一查询描述信息和所述第二查询描述信息中,分别获取第一模态的描述特征和第二模态的描述特征,作为所述待查询对象的多模态描述特征。

进一步可选地,处理器602还用于:从多模态知识图谱中,获取所述第一查询描述信息适配的多个待匹配对象;从所述多个待匹配对象各自对应的多模态表示信息中,选择与所述第一查询描述信息属于不同模态的其他表示信息,作为所述至少一种其他描述信息。

进一步可选地,所述第一查询描述信息包括:文本描述信息;所述第二查询描述信息包括:图像描述信息。

进一步可选地,处理器602在对所述待查询对象的多模态描述特征执行特征交互操作,得到第一交互特征时,具体用于:在查询链接模型的第一交互层,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量;对所述待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到所述第一交互特征。

进一步可选地,处理器602在基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量时,具体用于:针对所述待查询对象的多模态描述特征中的任一模态的描述特征,计算所述描述特征和所述待查询对象的多模态描述特征中的各个特征的相似度,得到所述描述特征对应的多个自交互权值;根据所述多个自交互权值,对所述待查询对象的多模态描述特征进行加权计算,得到所述描述特征的自交互向量。

进一步可选地,处理器602还用于:针对所述至少一个待匹配对象中的任一待匹配对象,对所述待匹配对象的多模态表示特征执行特征交互操作,得到所述待匹配对象的交互特征,作为第二交互特征。

进一步可选地,处理器602在根据第一交互特征和至少一个待匹配对象各自的交互特征,计算所述待查询对象和所述至少一个待匹配对象的匹配度时,具体用于:在查询链接模型中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征;在所述查询链接模型的打分层,根据所述打分层的参数,对所述第三交互特征进行打分,得到所述待查询对象和所述待匹配对象的匹配度。

进一步可选地,处理器602在对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征时,具体用于:在所述查询链接模型中的第二交互层,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量;对所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量进行融合,得到所述第三交互特征。

进一步可选地,所述第一交互特征包含与所述待查询对象的多模态描述特征对应的多个特征向量,所述第二交互特征包含与所述待匹配对象的多模态表示特征对应的多个特征向量;处理器602在基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量时,具体用于:针对所述第一交互特征中的任一特征向量,计算所述特征向量和所述第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;根据所述多个双向交互权值,对所述第二交互特征中的多个特征向量进行加权计算,得到所述特征的双向交互向量;将所述第一交互特征包含的多个特征向量各自的双向交互向量进行拼接,得到所述待查询对象的双向交互特征向量。

进一步,如图6所示,该查询设备还包括:通信组件603、显示器604、电源组件605、音频组件606等其它组件。图6中仅示意性给出部分组件,并不意味着查询设备只包括图6所示组件。

在本实施例中,处理查询请求时,根据待查询对象的多模态描述特征进行交互操作,得到交互特征。基于待查询对象的交互特征和待匹配对象的交互特征,计算待查询对象和待匹配对象的匹配度,并根据该匹配度,从待匹配对象中确定与待查询对象匹配的目标对象。在这种实施方式中,采用多个模态的描述特征,并对多个模态的描述特征进行交互操作,可使得不同模态的描述特征及其之间的交互关系共同作用于对象识别的过程,进而实现对单个模态的特征具有的歧义进行降低或者消除,有利于有效地提升对象识别的准确性。

相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由查询设备执行的各步骤。

图7示意了本申请一示例性实施例提供的模型训练设备的结构示意图,如图7所示,该模型训练设备包括:存储器701以及处理器702。

存储器701,用于存储计算机程序,并可被配置为存储其它各种数据以支持在模型训练设备上的操作。这些数据的示例包括用于在模型训练设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。

处理器702,与存储器701耦合,用于执行存储器701中的计算机程序,以用于:根据待查询对象的查询描述信息,获取所述待查询对象的多模态描述特征;分别对所述待查询对象的多模态描述特征和待匹配对象的多模态表示特征进行特征交互操作,得到第一交互特征和第二交互特征;根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度;根据所述匹配度和所述待查询对象与所述待匹配对象的匹配度真值,对所述模型参数进行更新,以优化所述查询链接模型。

进一步可选地,所述待查询对象的多模态描述特征,可包括:待查询对象的名称的语义特征、待查询对象的名称的上下文语义特征以及待查询对象的图像特征中的至少一种。

进一步可选地,所述待匹配对象的多模态表示特征,可包括:待匹配对象的结构特征、待匹配对象的图像特征、待匹配对象的名称的语义特征以及待匹配对象的摘要特征中的至少一种。

进一步可选地,处理器702还用于:执行以下至少一种操作,以获取待匹配对象的多模态表示特征:根据所述待匹配对象与存在设定关系的其他对象,生成所述待匹配对象的结构特征;根据所述待匹配对象的图像,计算所述待匹配对象的图像特征;根据所述待匹配对象的名称生成词向量,得到所述待匹配对象的名称的语义特征;根据所述待匹配对象的摘要信息生成词向量,得到所述待匹配对象的摘要特征。

进一步可选地,处理器702在根据所述待匹配对象与存在设定关系的其他对象,生成所述待匹配对象的结构特征时,具体用于:基于翻译嵌入算法,计算与所述待匹配对象存在设定关系的其他对象;将所述待匹配对象、所述设定关系和所述其他对象组成的向量,作为所述待匹配对象的结构向量。

进一步可选地,处理器702在对所述待查询对象的多模态描述特征进行特征交互操作,得到第一交互特征时,具体用于:在查询链接模型的第一交互层,基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量;对所述待查询对象的多模态描述特征各自的自交互特征向量进行融合,得到所述第一交互特征。

进一步可选地,处理器702在基于注意力机制,对所述待查询对象的多模态描述特征进行自交互处理,得到所述待查询对象的多模态描述特征各自的自交互特征向量时,具体用于:针对所述待查询对象的多模态描述特征中的任一模态的描述特征,计算所述描述特征和所述待查询对象的多模态描述特征中的各个特征的相似度,得到所述描述特征对应的多个自交互权值;根据所述多个自交互权值,对所述待查询对象的多模态描述特征进行加权计算,得到所述描述特征的自交互向量。

进一步可选地,处理器702在根据查询链接模型的模型参数,计算所述第一交互特征和所述第二交互特征的匹配度时,具体用于:在查询链接模型中,对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征;在所述查询链接模型的打分层,根据所述打分层的参数,对所述第三交互特征进行打分,得到所述第一交互特征和所述第二交互特征的匹配度。

进一步可选地,处理器702在对所述第一交互特征和所述第二交互特征执行特征交互操作,得到第三交互特征时,具体用于:在所述查询链接模型中的第二交互层,基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量;对所述待查询对象的双向交互特征向量和所述待匹配对象的双向交互特征向量进行融合,得到所述第三交互特征。

进一步可选地,所述第一交互特征包含与所述待查询对象的多模态描述特征对应的多个特征向量,所述第二交互特征包含与所述待匹配对象的多模态表示特征对应的多个特征向量;相应地,处理器702在基于注意力机制,对所述第一交互特征和所述第二交互特征执行双向交互处理,得到所述待查询对象的双向交互特征向量时,具体用于:针对所述第一交互特征中的任一特征向量,计算所述特征向量和所述第二交互特征中的多个特征向量的相似度,得到多个双向交互权值;根据所述多个双向交互权值,对所述第二交互特征中的多个特征进行加权计算,得到所述特征的双向交互向量;将所述第一交互特征包含的多个特征各自的双向交互向量进行拼接,得到所述待查询对象的双向交互特征向量。

进一步,如图7所示,该模型训练设备还包括:通信组件703、显示器704、电源组件705、音频组件706等其它组件。图7中仅示意性给出部分组件,并不意味着模型训练设备只包括图7所示组件。

在本实施例中,基于待查询对象和待匹配对象各自的多模态特征计算交互特征,并基于计算得到的交互特征对查询链接模型进行训练,可使得查询链接模型不断地自动学习多模态特征之间的交互关系,并自动地学习待查询对象的交互特征和待匹配对象的交互特征之间的关系,有利于在模型的实际应用中,根据存在交互关系的多模态特征,准确地识别到查询请求匹配的对象。

相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由模型训练设备执行的各步骤。

上述图6和图7中的存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

上述图6和图7中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G或5G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术和其他技术来实现。

上述图6中的显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。

上述图6和图7中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 查询方法、模型训练方法、装置、设备及存储介质
  • 模型训练方法、模型使用方法、装置、存储介质及设备
技术分类

06120113098579