掌桥专利:专业的专利平台
掌桥专利
首页

基于稀疏表示的场景图生成方法及系统

文献发布时间:2023-06-19 11:29:13


基于稀疏表示的场景图生成方法及系统

技术领域

本发明属于图像处理技术领域,尤其涉及到一种基于稀疏表示的场景图生成方法及系统。

背景技术

场景图的生成对于深入理解视觉场景起着重要的作用。场景图是真实图像中目标和目标关系的精细化语义抽取,通过对预定义的目标实例、目标属性和目标对间关系进行预测来构建,常用三元组的结构化语言表示场景中目标之间的交互,可以用<主语-谓语-宾语>三元组的形式表示。在场景图中,节点表示为含类别标签和边界框的目标实体,有向边表示为主、宾语间的关系类别,目标的各种属性(例如颜色、材质等)也可以在场景图中进行描述和表示。

目前,场景图推理技术由于提取了目标交互中蕴含的丰富语义信息受到了众多关注。丰富的场景图语义理解不仅可以为基本的识别任务提供上下文线索,并且在各种高级视觉应用中具有广阔的前景,例如,丰富的场景图语义是改进图像检索和各种基于自然语言的图像任务的关键,也为视觉问答、图像描述、图像生成等应用提供有价值的信息。尽管传统的场景图生成方法在许多应用中取得了经验上的成功,但仍然存在稠密图计算的高复杂度和稀疏图剪枝不精确的问题。

基于此,如何推理所有目标之间的复杂潜在关系并准确从图像中提取场景图仍然是当前亟待解决的问题。

发明内容

本发明的目的在于提供一种基于稀疏表示的场景图生成方法及系统,以实现复杂潜在关系的合理推理以及准确生成场景图。

基于上述目的,第一方面,本发明提供一种基于稀疏表示的场景图生成方法,包括:

通过快速区域卷积神经网络对原图像进行目标检测,获得目标区域集;

通过预设的关系度量网络将目标对的所有边识别为前景边和背景边,并构造稀疏图;

通过基于图注意力神经网络的特征融合和更新策略,对所述稀疏图上的节点和边进行同步学习,并识别目标类型和关系;

根据识别得到的所述目标类型和所述关系生成场景图。

优选地,所述通过预设的关系度量网络将目标对的所有边识别为前景边和背景边,并构造稀疏图,包括:

获取各目标的类别特征、空间特征和外观特征;

根据目标对中两个目标的所述类别特征、所述空间特征和所述外观特征,对所述目标对的边进行分类,并获取分类结果;

根据所述分类结果选择

优选地,所述根据目标对中两个目标的所述类别特征、所述空间特征和所述外观特征,对所述目标对的边进行分类,并获取分类结果,包括:

分别将所述目标对中两个目标的所述空间特征和所述外观特征进行串联,生成联合空间特征和联合外观特征;

嵌入目标类别的先验统计概率构建所述目标对的联合类别特征;

将所述联合外观特征、所述联合空间特征和所述联合类别特征进行串联,生成Logits特征;

将所述Logits特征输入sigmoid分类器,获得所述目标对的边概率。

优选地,所述联合空间特征为:

其中,

所述联合外观特征为:

其中,

所述目标类别的先验统计概率为:

其中,

所述联合类别特征为:

其中,

优选地,所述通过基于图注意力神经网络的特征融合和更新策略,对所述稀疏图上的节点和边进行同步学习,并识别目标类型和关系,包括:

对所述稀疏图中各节点的外观特征、空间特征和类别特征进行融合,并嵌入类别关系的先验统计概率,生成节点特征和边特征;

通过图注意力神经网络获取节点和边的注意力权重;

根据所述节点和边的注意力权重更新所述节点特征和所述边特征,并根据新的节点特征和边特征对目标和关系进行分类。

优选地,所述对所述稀疏图中各节点的外观特征、空间特征和类别特征进行融合,并嵌入类别关系的先验统计概率,生成节点特征和边特征,包括:

对所述稀疏图中各节点的外观特征、空间特征和类别特征进行聚合,并通过编解码器进行压缩,得到融合特征;

根据所述融合特征得到初始化节点特征和初始化边特征;

将类别关系的先验统计概率嵌入到所述初始化节点特征和所述初始化边特征,构造节点特征和边特征;

将所述节点特征和所述边特征分配至所述稀疏图中对应的节点和边。

优选地,所述类别关系的先验统计概率为:

其中,

所述节点特征为:

其中,

所述边特征为:

其中,

优选地,所述节点和边的注意力权重包括节点与节点之间的注意力权重、节点与边之间的注意力权重和边的注意力权重;

所述节点与节点之间的注意力权重为:

其中,

所述节点与边之间的注意力权重为:

其中,

所述边的注意力权重为:

其中,

优选地,所述新的节点特征为:

其中,

所述新的边特征为:

其中,

第二方面,本发明提供一种基于稀疏表示的场景图生成系统,包括:

目标区域提取模块,用于通过快速区域卷积神经网络对原图像进行目标检测,获得目标区域集;

稀疏图构造模块,用于通过预设的关系度量网络将目标对的所有边识别为前景边和背景边,并构造稀疏图;

图消息传递模块,用于通过基于图注意力神经网络的特征融合和更新策略,对所述稀疏图上的节点和边进行同步学习,并识别目标类型和关系;

场景图生成模块,用于根据识别得到的所述目标类型和所述关系生成场景图。

上述基于稀疏表示的场景图生成方法及系统,通过RelMN将原图像中的目标对的所有边分类为前景和背景两类,并构造稀疏图,能够有效过滤虚假关系,进而有效生成稀疏图,并且降低了稠密图的计算复杂度以及提高了图消息传递效率;进一步地,通过基于图注意力神经网络的特征融合和更新策略,对稀疏图上的节点和边进行同步学习得到目标特征和关系特征,并用目标特征和关系特征进行目标和关系分类,能够准确从稀疏图中提取特征,进而准确生成场景图。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例中基于稀疏表示的场景图生成方法的一流程图;

图2为本发明一实施例中基于稀疏表示的场景图生成方法的步骤S20的一流程图;

图3本发明一实施例中RelMN中前景和背景的二分类示意图;

图4为本发明一实施例中基于稀疏表示的场景图生成方法的步骤S30的一流程图;

图5为本发明一实施例中基于稀疏表示的场景图生成系统的一原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

在一实施例中,如图1所示,提供一种基于稀疏表示的场景图生成方法,包括如下步骤:

步骤S10,通过快速区域卷积神经网络对原图像进行目标检测,获得目标区域集。

在本实施例中,获取原图像,采用Fast R-CNN(Ast Region ConvolutionalNeural Network,快速区域卷积神经网络)对图像进行目标检测,从原图像中自动提取多个(

可理解的,在步骤S10中使用获得覆盖大多数关键目标的外接矩阵,可以提高目标检测速度和精度。

步骤S20,通过预设的关系度量网络将目标对的所有边识别为前景边和背景边,并构造稀疏图。

在本实施例中,RelMN(Relational Measurement Network,关系度量网络)用于将所有边识别为前景边和背景边两类,并自动选择所有前景边和部分背景边构造稀疏图。RelMN由多特征提取、前景和背景的二分类和稀疏图生成三部分组成。

作为优选,如图2所示,步骤S20包括以下步骤:

步骤S201,多特征提取:获取各目标的类别特征

在步骤S201中,基于目标区域集

步骤S202,前景和背景的二分类:根据目标对

如图3所示的RelMN中前景和背景的二分类示意图,步骤S202包括如下步骤:

步骤一:分别将目标对

联合外观特征

步骤二,嵌入目标类别的先验统计概率

公式(3),先验统计概率

基于先验统计概率和类别特征,学习目标类别间的统计共现知识。该联合类别特征

公式(4)中,

步骤三,将联合外观特征

步骤四,将Logits特征

也即,在步骤S202中,在将各目标的位置坐标和类别概率

步骤S203,稀疏图生成:根据分类结果选择

在步骤S203中,根据sigmoid分类器的输出,首先选择所有

在本实施例中,通过RelMN将所有边分为前景和背景两类以得到目标对间的潜在关系,相较于利用目标对间的距离生成潜在关系,更为合理,且构造的稀疏图更为合理。此外,在稀疏图上进行消息传递可以显著降低计算复杂度,使消息传递更加准确有效。

步骤S30,通过基于图注意力神经网络的特征融合和更新策略,对稀疏图的节点和边进行同步学习,并识别目标类别和关系。

在步骤S30中,基于图注意力神经网络的特征融合和更新策略包括节点特征和边特征生成、节点特征和边特性的权值学习、目标和关系分类这三部分。

作为优选,如图4所示,步骤S30包括以下步骤:

步骤S301,节点特征和边特征的生成:对稀疏图中各节点的外观特征

在步骤S301中,首先对稀疏图中各节点的外观特征

进一步地,将类别关系的先验统计概率

公式(7)中,

节点特征

边特征

可理解的,作为稀疏图的一部分,根据类别关系的先验统计概率

步骤S302,节点特征和边特性的权值学习:通过图注意力神经网络获取节点和边的注意力权重。其中,节点和边的注意力权重包含节点与节点之间的注意力权重、节点与边之间的注意力权重和边的注意力权重。

对于节点消息聚合,节点与节点之间的注意力权重的计算公式为:

公式(10)中,

节点和边之间的注意力权重的计算公式为:

公式(11)中,

对于边消息的聚合,边的注意力权重的计算公式为:

公式(12)中,

可理解的,作为稀疏图的另一方面,通过GAT(Graph Attention Network,图注意力神经网络)获取节点和边的注意力权重,结合步骤S301中基于类别关系的先验统计概率

步骤S303,目标和关系分类:根据节点和边的注意力权重更新节点特征

具体的,根据隐节点特征、相邻节点特征和连接边特征更新节点特征

公式(13)中,

新的边特征

需要说明的是,在公式(13)中,节点

在本实施例中,通过基于图注意力神经网络的特征融合和更新策略,集中学习数据集中的统计共现知识和上下文线索,获得输出特征(包含新的节点特征和边特征),进而根据输出特征对目标及其关系进行分类,可以对稀疏图上的消息进行有效传输和集成。

步骤S40,根据识别得到的目标类别和关系生成场景图。

在步骤S40中,生成的场景图中包括目标位置、目标类别以及目标间的关系,且场景图可以结构化表示为一组三元组,即

其中,

由上可知,本实施例的基于稀疏表示的场景图生成方法,在通过Fast R-CNN从原图像提取目标区域集之后,首先通过RelMN将原图像中的目标对的所有边分类为前景和背景两类,并构造稀疏图,能够有效过滤虚假关系,进而有效生成稀疏图,并且降低了稠密图的计算复杂度以及提高了图消息传递效率;然后通过基于图注意力神经网络的特征融合和更新策略,对稀疏图上的节点和边进行同步学习得到目标特征和关系特征,并用目标特征和关系特征进行目标和关系分类,能够准确从稀疏图中提取特征,进而准确生成场景图。

在一实施例中,提供一种基于稀疏表示的场景图生成系统,该基于稀疏表示的场景图生成系统与上述实施例中的基于稀疏表示的场景图生成方法一一对应。如图5所示,该基于稀疏表示的场景图生成系统包括目标区域提取模块110、稀疏图构造模块120、图消息传递模块130和场景图生成模块140,各功能模型的详细说明如下:

目标区域提取模块110,用于通过快速区域卷积神经网络对原图像进行目标检测,获得目标区域集。

稀疏图构造模块120,用于通过预设的关系度量网络将目标对的所有边识别为前景边和背景边,并构造稀疏图。

图消息传递模块130,用于通过基于图注意力神经网络的特征融合和更新策略,对稀疏图的节点和边进行同步学习,并识别目标类型和关系。

场景图生成模块140,用于根据识别得到的目标类型和关系生成场景图。

进一步地,所述稀疏图构造模块120包括多特征提取单元、二分类单元和稀疏图生成单元,各功能单元的详细说明如下:

多特征提取单元,用于获取各目标的类别特征、空间特征和外观特征。

二分类单元,用于根据目标对中两个目标的类别特征、空间特征和外观特征,对目标对的边进行分类,并获取分类结果。

稀疏图生成单元,根据分类结果选择

进一步地,所述二分类单元包括第一联合子单元、第一知识嵌入子单元、第二联合子单元和分类子单元,各功能子单元的详细说明如下:

第一联合子单元,用于分别将目标对中两个目标的空间特征和外观特征进行串联,生成联合空间特征和联合外观特征。

第一知识嵌入子单元,用于嵌入目标类别的先验统计概率构建目标对的联合类别特征。

第二联合子单元,用于将联合外观特征、联合空间特征和联合类别特征进行串联,生成Logits特征。

分类子单元,用于将Logits特征输入sigmoid分类器,获得目标对的边概率。

进一步地,所述图消息传递模块130包括节点和边特征生成单元、权值学习单元和特征更新单元,各功能单元的详细说明如下:

节点和边特征生成单元,用于对稀疏图中各节点的外观特征、空间特征和类别特征进行融合,并嵌入类别关系的先验统计概率,生成节点特征和边特征。

权值学习单元,用于通过图注意力神经网络获取节点和边的注意力权重。

特征更新单元,用于根据节点和边的注意力权重更新节点特征和边特征,并根据新的节点特征和边特征对目标和关系进行分类。

进一步地,所述节点和边特征生成单元包括特征融合子单元、初始化子单元、第二知识嵌入子单元和特征分配子单元,各功能子单元的详细说明如下:

特征融合子单元,用于对稀疏图中各节点的外观特征、空间特征和类别特征进行聚合,并通过编解码器进行压缩,得到融合特征。

初始化子单元,用于根据融合特征得到初始化节点特征和初始化边特征。

第二知识嵌入子单元,用于将类别关系的先验统计概率嵌入到初始化节点特征和初始化边特征,构造节点特征和边特征。

特征分配子单元,用于将节点特征和边特征分配至稀疏图中对应的节点和边。

关于基于稀疏表示的场景图生成系统的具体限定可以参见上文中对于基于稀疏表示的场景图生成方法的限定,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于稀疏表示的场景图生成方法及系统
  • 基于关键程度划分的并发活动图测试场景生成方法及系统
技术分类

06120112940347