掌桥专利:专业的专利平台
掌桥专利
首页

检索文件的方法和装置

文献发布时间:2023-06-19 11:16:08


检索文件的方法和装置

技术领域

本申请属于图像数据处理领域,具体涉及一种检索文件的方法和装置。

背景技术

在检索过程中,允许用户通过上传图像检索与该图像相关联的文件。但是,仅图像本身往往不足以传达发明创造的基本想法的。如果图像搜索系统仅依赖于查询图像特征本身,则将搜索到在视觉上相似但在设计构思上无关的结果,使得基于图像的检索结果不准确。

发明内容

本申请实施例的目的是提供一种检索文件的方法和装置,能够解决基于图像的检索结果不准确的问题。

为了解决上述技术问题,本申请实施例是通过以下各方面实现的:

第一方面,本申请实施例提供了一种检索文件的方法,该方法包括:基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果。

第二方面,本申请实施例提供了一种检索文件的装置,包括:检索模块,用于基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;选择模块,用于从第一检索结果中确定至少一个候选对象;确定模块,用于基于所述候选对象的上下文信息,确定目标检索结果。

第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机可执行指令,所述计算机可执行指令被所述处理器执行时实现如上述第一方面所述的方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令被处理器执行时实现如上述第一方面所述的方法的步骤。

在本申请实施例中,通过基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果,使得检索过程中不是仅依赖于查询图像特征本身,而是基于候选对象的上下文信息,因此搜索到的文件不仅其所包含的图形在视觉上与用户输入的图形相似,而且设计构思也与用户输入的图形所对应的设计构思相关,由此提高基于图像进行检索的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1示出本申请实施例提供的一种检索文件的方法的一种流程示意图;

图2示出检索文件过程的示意图;

图3示出本申请实施例提供的另一种检索文件的方法的一种流程示意图;

图4示出本申请实施例提供的另一种检索文件的方法的一种流程示意图;

图5示出本申请实施例提供的另一种检索文件的装置的结构示意图;

图6示出执行本申请实施例提供的检索文件的方法的电子设备的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1示出本申请实施例提供的一种检索文件的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备和/或服务器。换言之,所述方法可以由安装在终端设备和/或服务器的软件或硬件来执行。如图所示,该方法可以包括以下步骤。

S110:基于初始图形信息进行检索得到第一检索结果。

用户可以上传一张图片,例如第一文件中的图像,作为初始图形信息,可选地,用于也可以输入一些关键词或类别。换言之,在一种实现方式中,初始图形信息可以包括图像;在另一种实现方式中,初始图形信息可以包括图像和关键词;在另一种实现方式中,初始图形信息可以包括图像和类别;在另一种实现方式中,初始图形信息还可以包括图像、类别和关键词等。

将根据初始图形信息在整个数据库中搜索并显示可能的候选者列表作为第一检索结果,所述第一检索结果包括多个第二文件的信息,其中第二文件的信息可以包含第一文件的信息,也可以包含第一文件以外的其他文件的信息。

此时的第一检索结果可能仅与初始图形信息形似,而无法体现第一文件的设计构思。

S120:从第一检索结果中确定至少一个候选对象。

允许用户在数据库中选择最相关的候选项作为候选对象。用户可以基于第一文件的设计构思,从第一检索结果中确定至少一个候选对象。候选对象能够体现第一文件的设计构思。

S130:基于所述候选对象的上下文信息,确定目标检索结果。

在一种可能的实现方式中,在本步骤中可以基于所述候选对象的上下文信息,重新进行检索以确定目标检索结果。在此情况下,所述目标检索结果可以为第二文件的信息中的至少一个,也可以不属于第二文件的信息。

在另一种可能的实现方式中,在本步骤中也可以基于所述候选对象的上下文信息,从第一检索结果中进行检索以确定目标检索结果。在此情况下,所述目标检索结果可以为第二文件的信息中的至少一个。

图2示出检索文件过程的示意图。候选对象的上下文信息如图2所示。为了理解设计构思并衡量图像之间的相似性,需要将图像及其上下文表征出来。“上下文”一词是指与图像相关的信息的集合,可选地,本方案可以适用于专利文件的检索,以检索专利文件为例进行说明,上下文包括但不限于:

1.专利级文本:标题,摘要,声明等。

2.专利级的分类:CPC,IPC,其他分类方案。

3.专利级的元数据:引文,受让人,专利家族,法律地位,许可或诉讼等。

4.图片级的信息:图像类型,标题,附图标签文本,流程图中的关键字等。

本申请实施例提供的一种检索文件的方法,通过基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果,根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果,能够使得检索过程中不是仅依赖于查询图像特征本身,而是基于候选对象的上下文信息,因此搜索到的文件不仅其所包含的图形在视觉上与用户输入的图形相似,而且设计构思也与用户输入的图形所对应的设计构思相关,由此提高基于图像进行检索的速度和准确度。

图3示出本申请实施例提供的一种检索文件的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备和/或服务器。换言之,所述方法可以由安装在终端设备和/或服务器的软件或硬件来执行。如图所示,该方法可以包括以下步骤。

S310:基于初始图形信息进行检索得到第一检索结果。

本步骤可以采用图1实施例步骤S110的记载,在此不再赘述。

S320:将训练对象作为训练数据集,对所述训练对象的上下文信息进行训练,获得图像嵌入模型,将所述候选对象的上下文信息输入所述图像嵌入模型以确定所述目标检索结果。

所述训练对象的上下文信息包括以下信息中的至少一者:图像信息、文本短语、元信息和分类信息。

所述对所述训练对象的上下文信息进行训练,获得图像嵌入模型,可以具体包括:

将训练数据集中的训练数据划分为不同类别;

基于预定阈值的图像相似性,对所述各所述类别中的训练数据进行聚类,以生成训练组,所述训练组中包含多个训练数据的聚类。

在一种实现方式中,在对所述各所述类别中的训练数据进行聚类,以生成训练组之后,所述方法还可以包括:从所述训练数据集中提取三元组,作为损失函数;通过所述损失函数对所述图像嵌入模型进行调整。

因此,可以使用统一嵌入向量空间中的欧式距离或余弦距离来测量查询图像与数据库中的图之间的相似性。为了在几秒钟内进行搜索,可以离线计算数据库中每个图像的嵌入量。允许以低计算量在数十亿个图像中进行大规模的基于矢量的最邻近搜索。此阶段的输出是数据库中数十亿个候选对象中的入围者。

S330:从第一检索结果中确定至少一个候选对象。

本步骤可以采用图1实施例步骤S120的记载,在此不再赘述。

S340:基于所述候选对象的上下文信息,确定目标检索结果。

基于选定的候选对象可以使用其上下文(包括其应用域和图像类型)进一步过滤掉不相关的图像。应用域和图像类型分类通过基于候选文件的行业相关应用范围来缩小候选文件的范围,从而提高了检索的准确性。

本申请实施例提供的一种检索文件的方法,通过基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果,根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果,能够使得检索过程中不是仅依赖于查询图像特征本身,而是基于候选对象的上下文信息,因此搜索到的文件不仅其所包含的图形在视觉上与用户输入的图形相似,而且设计构思也与用户输入的图形所对应的设计构思相关,由此提高基于图像进行检索的准确度。

本申请实施例提供的一种检索文件的方法,通过将图像的图像及其上下文信息融合在一起并形成简洁的向量空间,可以轻松地通过欧几里得距离和余弦距离来测量图像背后的思想之间的相似性,从而实现统一的嵌入。统一的基于嵌入的检索,它应用近似最近的邻居来在几秒钟内搜索数十亿张图像。

图4示出本申请实施例提供的一种检索文件的方法的一种流程示意图,该方法可以由电子设备执行,例如终端设备和/或服务器。换言之,所述方法可以由安装在终端设备和/或服务器的软件或硬件来执行。如图所示,该方法可以包括以下步骤。

S410:基于初始图形信息进行检索得到第一检索结果。

其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息。

本步骤可以采用图1实施例步骤S110、图3实施例步骤S310类似的表述,在此不再赘述。

S420:从第一检索结果中确定至少一个候选对象。

S430:根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果。

在一种实现方式中,可以将图像及其上下文融合到一个统一的嵌入中。为了在没有人工标记数据的情况下训练模型,我们定义了损失函数和数据挖掘方案,以实现自我监督的学习过程。最后,经过离线时模型训练和推理,每个图像都可以生成统一的嵌入。所有统一嵌入的集合通过其自身的相似性度量形成了多种思路。可以通过欧几里得距离或余弦距离轻松计算相似度,从而可以使用最邻近搜索来快速检索数十亿候选对象。在在线时可以将所述候选对象的上下文信息作为所述图像嵌入模型的输入,得到目标检索结果,从而提高检索效率。

在一种实现方式中,基于以上特征,可以构建图像编码器,以将知识融合到统一的嵌入中。编码器首先使用线性层将所有类型的嵌入和类别标签转换为具有统一维度的矢量,这些线性层具有用于矢量化嵌入的可训练参数,以及用于类别标签的随机初始化的可训练嵌入层。然后,这些嵌入将在注意力机制下融合。最后,将融合后的向量归一化为单位长度,并作为图像的统一嵌入。

在一种实现方式中,为了以半监督方式训练模型,我们采用三元组损失作为损失函数。给定一个三元组(q,p,n),其中q是一个查询,p和n分别是相关的正面和负面图像。三元组损失定义为L=max(0,m-D(q,p)+D(q,n)),其中D是两个向量之间的余弦距离,m是正负对之间的余量。

在一种实现方式中,为了从训练数据集中提取三元组,可以将一小部分数据识别为不同的分组。首先,我们随机选择一个包含数百万个图像纸的数据集,然后根据各种类别标签和文件主题将它们放入不同的存储桶中。然后,对于每个存储桶,我们仅基于具有较高阈值的图像相似性来运行聚集聚类,并且仅将包含多个文件的所得聚类保持为组。通过使用不同的类别标签和主题重复此过程,可以产生一组样本以从中提取三元组。基于实验数据,使用Adam优化器例如100万张图像的训练数据集上以0.001个学习率进行了训练,并在验证数据集上使用了callback@K和mAP来监视模型性能。

S440:对所述目标检索结果进行排序。

在一种实现方式中,可以基于卷积神经网络对所述目标检索结果进行排序。

具体来讲,可以基于多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系;通过所述关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度;基于相似度,对所述目标检索结果进行排序。

在一种实现方式中,可以根据各种相似性标准(包括文件本身,受让人,类别,关键字等),将入围的完整上下文的图像形成具有视觉,文本和分类属性的图像节点与组节点之间的二分图。可以通过提取的文件附图标签中的关键字和从流程图做光学文字识别来形成关键字组,然后将共享相同关键字的图像节点链接到相应的关键字组,使用文件附图标签文本链接图形中的图像节点,而不是仅将它们用于关键字匹配。由此,通过在关系图上采样和聚合,以重新计算入围图像之间的相似度。知识图谱可以利用附加上下文(例如,受让人链接,主题建模和来自附图标签文本和图表的关键字链接)来发现隐藏的连接和丢失的候选项。最终,搜索结果将根据精确的相似度得分进行排名,并返回给用户。

在一种实现方式中,可以通过在不同类型的组之间随机遍历,对异构图执行动态卷积。沿着每次遍历,它会聚合由边连接的图像节点的属性,以学习其文件知识的归纳表示。所学习的嵌入矢量可用于完善查询和候选候选之间的相似度。此外,当遇到如图3所示的技术图纸时,可以通过其图类型进一步提高入围图像的相似度得分,以提高其准确性。

所述候选对象的上下文信息包括:所述候选对象的应用域或所述候选对象的图像类型,所述基于所述候选对象的上下文信息,确定目标检索结果,包括:基于所述候选对象的应用域或所述候选对象的图像类型,确定目标检索结果,所述目标检索结果通过在关系图上采样和聚合,以重新计算入围图像之间的相似度。基于多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度,对所述目标检索结果进行排序。

本申请实施例提供的一种检索文件的方法,通过基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果,根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果,能够解决图像搜索系统仅依赖于查询图像特征本身,搜索到在视觉上相似但在概想法上无关的结果,以至于不能精准的搜索所需文件的问题。

本申请实施例提供的一种检索文件的方法,PatSAGE的图像卷积神经网络通过在不同类型的组之间随机遍历,对异构图执行动态卷积。沿着每次遍历,它会聚合由边连接的图像节点的属性,以学习其文件知识的归纳表示。所学习的嵌入矢量可用于完善查询和候选对象之间的相似度,提高检索文件的准确性。

图5示出本申请实施例提供的一种检索文件的装置的结构示意图,该装置500包括:检索模块510、选择模块520以及确定模块530。

检索模块510用于基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息。选择模块520用于从第一检索结果中确定至少一个候选对象。确定模块530用于基于所述候选对象的上下文信息,确定目标检索结果。

在一种实现方式中,所述确定模块530还用于:在基于所述候选对象的上下文信息,确定目标检索结果之前,将训练对象作为训练数据集;对所述训练对象的上下文信息进行训练,获得图像嵌入模型,所述训练对象的上下文信息包括以下信息中的至少一者:图像信息、文本短语、元信息和分类信息。

在一种实现方式中,所述确定模块530用于:将训练数据集中的训练数据划分为不同类别;基于预定阈值的图像相似性,对所述各所述类别中的训练数据进行聚类,以生成训练组,所述训练组中包含多个训练数据的聚类。

在一种实现方式中,所述确定模块530还用于:在对所述各所述类别中的训练数据进行聚类,以生成训练组之后,从所述训练数据集中提取三元组,作为损失函数;通过所述损失函数对所述图像嵌入模型进行调整。

在一种实现方式中,所述确定模块530用于:根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果。在一种实现方式中,所述确定模块530用于:对多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系;通过所述关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度;基于相似度,对所述目标检索结果进行排序。

在一种实现方式中,所述候选对象的上下文信息用于所述候选对象的应用域或所述候选对象的图像类型,所述确定模块530用于:基于所述候选对象的应用域或所述候选对象的图像类型,确定目标检索结果。

本申请实施例提供的该装置500,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。

图6示出执行本申请实施例提供的检索文件的方法的电子设备的硬件结构示意图。如图所示,该电子设备600包括但不限于:存储器610、处理器620、电源630、输入/输出装置640等部件。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备等。

其中,处理器620用于执行:基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果。

在一种实现方式中,在基于所述候选对象的上下文信息,确定目标检索结果之前,所述方法还包括:将训练对象作为训练数据集;对所述训练对象的上下文信息进行训练,获得图像嵌入模型,所述训练对象的上下文信息包括以下信息中的至少一者:图像信息、文本短语、元信息和分类信息;所述基于所述候选对象的上下文信息,确定目标检索结果,包括:将所述候选对象的上下文信息输入所述图像嵌入模型以确定所述目标检索结果。

在一种实现方式中,所述对所述训练对象的上下文信息进行训练,获得图像嵌入模型,包括:将训练数据集中的训练数据划分为不同类别;基于预定阈值的图像相似性,对所述各所述类别中的训练数据进行聚类,以生成训练组,所述训练组中包含多个训练数据的聚类。

在一种实现方式中,在对所述各所述类别中的训练数据进行聚类,以生成训练组之后,所述方法还包括:从所述训练数据集中提取三元组,作为损失函数;通过所述损失函数对所述图像嵌入模型进行调整。

在一种实现方式中,基于所述候选对象的上下文信息,确定目标检索结果,包括:根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果。在一种实现方式中,基于多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系;通过所述关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度;基于相似度,对所述目标检索结果进行排序。

在一种实现方式中,所述候选对象的上下文信息包括:所述候选对象的应用域或所述候选对象的图像类型,所述基于所述候选对象的上下文信息,确定目标检索结果,包括:基于所述候选对象的应用域或所述候选对象的图像类型,确定目标检索结果。

本申请实施例提供的电子设备,可执行前文方法实施例中所述的各方法,并实现前文方法实施例中所述的各方法的功能和有益效果,在此不再赘述。

存储器610可用于存储软件程序以及各种数据。存储器610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器620是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器610内的软件程序和/或模块,以及调用存储在存储器610内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器620可包括一个或多个处理单元;优选的,处理器620可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器620中。

电子设备还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与处理器620逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外,该电子设备还可以包括一些未示出的功能模块。

可选地,本发明实施例还提供一种电子设备,包括处理器620,存储器610,存储在存储器610上并可在所述处理器620上运行的计算机程序,该计算机程序被处理器620执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本申请实施例还提出了一种计算机可读存储介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的终端执行时,使得所述终端执行以下操作:

其中,处理器620用于执行:基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果。

在一种实现方式中,在基于所述候选对象的上下文信息,确定目标检索结果之前,所述方法还包括:将训练对象作为训练数据集;对所述训练对象的上下文信息进行训练,获得图像嵌入模型,所述训练对象的上下文信息包括以下信息中的至少一者:图像信息、文本短语、元信息和分类信息;所述基于所述候选对象的上下文信息,确定目标检索结果,包括:将所述候选对象的上下文信息输入所述图像嵌入模型以确定所述目标检索结果。

在一种实现方式中,所述对所述训练对象的上下文信息进行训练,获得图像嵌入模型,包括:将训练数据集中的训练数据划分为不同类别;基于预定阈值的图像相似性,对所述各所述类别中的训练数据进行聚类,以生成训练组,所述训练组中包含多个训练数据的聚类。

在一种实现方式中,在对所述各所述类别中的训练数据进行聚类,以生成训练组之后,所述方法还包括:从所述训练数据集中提取三元组,作为损失函数;通过所述损失函数对所述图像嵌入模型进行调整。

在一种实现方式中,基于所述候选对象的上下文信息,确定目标检索结果,包括:根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果。在一种实现方式中,基于多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系;通过所述关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度;基于相似度,对所述目标检索结果进行排序。

在一种实现方式中,所述候选对象的上下文信息包括:所述候选对象的应用域或所述候选对象的图像类型,所述基于所述候选对象的上下文信息,确定目标检索结果,包括:基于所述候选对象的应用域或所述候选对象的图像类型,确定目标检索结果。

其中,所述的计算机可读存储介质包括只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

该计算机程序被处理器执行时实现上述方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,实现以下流程:其中,处理器620用于执行:基于初始图形信息进行检索得到第一检索结果,其中,所述初始图形信息包括第一文件中的图像,所述第一检索结果包括多个第二文件的信息;从第一检索结果中确定至少一个候选对象;基于所述候选对象的上下文信息,确定目标检索结果。

在一种实现方式中,在基于所述候选对象的上下文信息,确定目标检索结果之前,所述方法还包括:将训练对象作为训练数据集;对所述训练对象的上下文信息进行训练,获得图像嵌入模型,所述训练对象的上下文信息包括以下信息中的至少一者:图像信息、文本短语、元信息和分类信息;所述基于所述候选对象的上下文信息,确定目标检索结果,包括:将所述候选对象的上下文信息输入所述图像嵌入模型以确定所述目标检索结果。

在一种实现方式中,所述对所述训练对象的上下文信息进行训练,获得图像嵌入模型,包括:将训练数据集中的训练数据划分为不同类别;基于预定阈值的图像相似性,对所述各所述类别中的训练数据进行聚类,以生成训练组,所述训练组中包含多个训练数据的聚类。

在一种实现方式中,在对所述各所述类别中的训练数据进行聚类,以生成训练组之后,所述方法还包括:从所述训练数据集中提取三元组,作为损失函数;通过所述损失函数对所述图像嵌入模型进行调整。

在一种实现方式中,基于所述候选对象的上下文信息,确定目标检索结果,包括:根据所述图像嵌入模型,确定多个文件中多个图像的嵌入结果;将所述候选对象的上下文信息作为所述图像嵌入模型的输入,将所述图像嵌入模型的输出作为候选嵌入结果;根据所述多个图像的嵌入结果与所述候选嵌入结果之间的相似度,确定所述目标检索结果。在一种实现方式中,基于多个相似性元素,生成所述第二文件中的图像节点与所述相似性元素之间的关联关系;通过所述关联关系,确定所述目标检索结果与所述初始图形信息之间的相似度;基于相似度,对所述目标检索结果进行排序。

在一种实现方式中,所述候选对象的上下文信息包括:所述候选对象的应用域或所述候选对象的图像类型,所述基于所述候选对象的上下文信息,确定目标检索结果,包括:基于所述候选对象的应用域或所述候选对象的图像类型,确定目标检索结果。

该计算机程序被处理器执行时实现上述方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

相关技术
  • 文件检索装置、文件检索系统、文件检索程序及文件检索方法
  • 文件检索装置、文件检索系统和文件检索方法
技术分类

06120112859770