掌桥专利:专业的专利平台
掌桥专利
首页

一种基于三维信息的视觉问答方法及系统

文献发布时间:2023-06-19 10:08:35


一种基于三维信息的视觉问答方法及系统

技术领域

本申请涉及视觉问答领域,特别是涉及一种基于三维信息的视觉问答方法及系统。

背景技术

人类通过眼睛,耳朵和其他感官感知周围的世界,并通过使用口头或书面语言与他人分享和记录思想和事件。但是,针对视觉功能的计算机视觉(Computer Vision,简称CV)和针对自然语言的自然语言处理(Natural Language Process,简称NLP)方法进行了相当长时间的发展。

视觉问答(Visual QuestionAnswering,英文简称VQA)作为“人工智能(Artificial Intelligence,简称AI)完整”的CV和NLP多模式任务而引起了广泛关注。VQA任务旨在回答有关所提供图像内容的给定问题。VQA任务模型对环境的感知和回答问题的过程进行建模;它可以直接应用于各种机器人应用。

现有的大部分VQA方法根据给定问题和单个图像预测答案。在实际环境中,基于三维(three dimensional,简称3D)信息的识别对于回答各种情况下的给定问题非常必要,例如严重遮挡的场景。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面,提供了一种基于三维信息的视觉问答方法,包括:

获取既定场景的多视点图像信息以及问题信息;

将所述多视点图像信息和所述问题信息同时输入预设的视觉问答网络模型;

通过所述视觉问答网络模型获取所述多视点图像信息对应的三维场景表示参数,并依据所述三维场景表示参数和所述问题信息输出答案信息;

其中,所述视觉网络模型预先训练至收敛状态,用于根据输入的多视点图像信息以及问题信息输出与所述问题信息对应的答案信息。

可选地,所述视觉问答网络模型包括生成查询网络;其中,所述生成查询网络包括预先训练的场景表示网络;

所述通过所述视觉问答网络模型获取所述多视点图像信息对应的三维场景表示参数,包括:

通过所述生成查询网络中的场景表示网络基于所述多视点图像信息构建对应不同视点的场景表示参数。

可选地,所述视觉问答网络模型包括视觉问答组件;所述视觉问答组件包括图像特征提取网络、线性调制网络和分类器网络;

所述依据所述三维场景表示参数和所述问题信息输出答案信息,包括:

将所述三维场景表示参数输入所述图像特征提取网络,通过所述图像特征提取网络提取所述三维场景表示参数中对应各视点的特征数据;

将各视点所述图像的特征数据和所述问题信息输入所述线性调制网络,通过所述线性调制网络对各视点所述特征数据进行优化,得到各视点的优化特征数据;

将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案。

可选地,所述通过所述线性调制网络对各视点所述特征数据进行优化,得到各视点的优化特征数据,包括:

基于所述线性调制网络应用仿射变换,根据所述问题信息选择并优化各视点的所述特征数据;

生成与所述问题信息对应的各视点的优化特征数据。

可选地,所述将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案之前,还包括:

通过视图池化操作对各视点的所述优化特征数据进行组合,形成组合特征数据;

所述将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案,包括:

将所述组合特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案。

根据本申请的另一个方面,提供了一种基于三维信息的视觉问答系统,包括:

图像信息获取模块,其配置成获取既定场景的多视点图像信息以及问题信息;

信息输入模块,其配置成将所述多视点图像信息和所述问题信息同时输入预设的视觉问答网络模型;

答案信息输出模块,其配置成通过所述视觉问答网络模型获取所述多视点图像信息对应的三维场景表示参数,并依据所述三维场景表示参数和所述问题信息输出答案信息;

其中,所述视觉网络模型预先训练至收敛状态,用于根据输入的多视点图像信息以及问题信息输出与所述问题信息对应的答案信息。

可选地,所述视觉问答网络模型包括生成查询网络;其中,所述生成查询网络包括预先训练的场景表示网络;

所述答案信息输出模块,还配置成:

通过所述生成查询网络中的场景表示网络基于所述多视点图像信息构建对应不同视点的场景表示参数。

可选地,所述视觉问答网络模型包括视觉问答组件;所述视觉问答组件包括图像特征提取网络、线性调制网络和分类器网络;

所述答案信息输出模块,还配置成:

将所述三维场景表示参数输入所述图像特征提取网络,通过所述图像特征提取网络提取所述三维场景表示参数中对应各视点的特征数据;

将各视点所述图像的特征数据和所述问题信息输入所述线性调制网络,通过所述线性调制网络对各视点所述特征数据进行优化,得到各视点的优化特征数据;

将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案。

可选地,所述答案信息输出模块,还配置成:

基于所述线性调制网络应用仿射变换,根据所述问题信息选择并优化各视点的所述特征数据;

生成与所述问题信息对应的各视点的优化特征数据。

可选地,所述将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案之前,还包括:

通过视图池化操作对各视点的所述优化特征数据进行组合,形成组合特征数据;

所述答案信息输出模块,还配置成:

将所述组合特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案。

本申请提供了一种基于三维信息的视觉问答方法及系统,在本申请提供的方法中,先获取既定场景的多视点图像信息以及问题信息;再将多视点图像信息和问题信息同时输入预设的视觉问答网络模型;然后通过视觉问答网络模型获取多视点图像信息对应的三维场景表示参数,并依据三维场景表示参数和问题信息输出答案信息。

基于本申请提供的基于三维信息的视觉问答方法及系统,弥合三维信息和VQA上下文中的语言信息之间的差距。在多视图数据集设置下,将三维信息与语言信息结合在一个集成的框架中,并能验证三维信息的有效性。

根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:

图1是根据本申请实施例的基于三维信息的视觉问答方法流程示意图;

图2是根据本申请实施例的VQA网络模型结构示意图;

图3是根据本申请实施例的基于三维信息的视觉问答系统结构示意图;

图4是根据本申请实施例的计算设备示意图;

图5是根据本申请实施例的计算机可读存储介质示意图。

具体实施方式

基于神经网络(NeuralNetwork,简称NN)的方法的发展以及图形处理单元(Graphics Processing Unit,简称GPU)设计的进步已经在涉及CV和NLP的研究领域取得了重大进展。此外,已经提出了一系列结合CV和NLP的任务。这些任务包括图像标题,视觉问答,可视对话框,视觉故事,视觉语言导航。所有这些结合了视觉和语言的任务,使人们更接近纯AI领域。此外,多模式任务的使用为我们提供了更自然,更人性化的感知和识别过程,以及更有效和有用的表示形式,这在人机交互(Human-Robot Interaction,简称HRI)应用中非常有用。

VQA中的问答过程也具有挑战性,因为它通常涉及多种技术,例如图像和问题多模式识别,空间推理,计数和比较功能等。尽管人们目睹了这项任务的重大进展,但仍然存在准确性和真实图像VQA数据集(例如VQA2.0)上获得的最新结果之间存在显着差距。

VQA的最新工作是处理来自单个RGB图像的问题解答。但是,对于实际环境应用而言,在诸如光线不足,视点不适当,遮挡等情况下,来自单个RGB图像的视觉信息通常不足以进行问题解答。基于3D信息的识别对于一系列CV和NLP多点图像也是必不可少的模态任务。例如,在HRI系统中,随着人类操作员基于3D信息感知并识别周围环境,对于机器人而言,以与人类操作员类似的方式建立识别以便更好地进行通信至关重要。

视觉问答中,针对Q+I问题分别使用卷积神经网络(Convolutional NeuralNetworks,简称CNN)和长短期记忆网络(Long Short-Term Memory,简称LSTM)提取图像和问题特征,并通过逐点乘法运算融合它们,然后通过完全连接的层和softmax函数从融合特征中预测答案,当前的大多数VQA方法使用此基本结构。由于多峰特征表示是VQA方法的关键组成部分之一,因此之前提出了一种有效的多峰紧凑双线性池(Multimodal CompactBilinearPooling,简称MCB),作为多峰特征的外部乘积计算的一种替代方法。之后进一步研究了双线性注意力网络(bilinear attention networks,简称BAN)来计算双线性注意力分布,建议将传统的自上而下的注意力与自下而上的注意力结合起来。其他一些VQA方法有的专注于视觉推理。特征级线性调制(Feature-wise LinearModulation,简称FiLM)是一种代表性模型,通过在图像特征提取过程中使用特征级调制结构,可以实现较高的视觉推理能力。

本申请实施例提出了一种基于三维信息的VQA方法。采用的实验数据集CLEVR数据集,CLEVR数据集样本包含渲染的CG(Computer Graphics,计算机动画图像)图像,其中具有随机属性(颜色,形状,大小,材料)的对象随机放置在平面中,并且通常需要理解对象属性(空间推理,计数等)的问题解答。CLEVR还提供了数据集自动生成程序。使用CLEVR数据集生成程序来生成数据集。由于生成多视图图像并创建高度遮挡的场景以使其难以从单个视点回答问题,CLEVR数据集生成了具有50,000个计算机动画(Computer Graphics,简称CG)场景和273,658个问题—答案对的多视图CLEVR数据集(训练,测试组:80%,20%)。

图1是根据本申请实施例的基于三维信息的视觉问答方法流程示意图。参见图1所知,本申请实施例提供的基于三维信息的视觉问答方法可以包括:

步骤S101:获取既定场景的多视点图像信息以及问题信息;

步骤S102:将多视点图像信息和问题信息同时输入预设的视觉问答网络模型;

步骤S103:通过视觉问答网络模型获取多视点图像信息对应的三维场景表示参数,并依据三维场景表示参数和所述问题信息输出答案信息。

本申请提供了一种基于三维信息的视觉问答方法,在本申请提供的方法中,先获取既定场景的多视点图像信息以及问题信息;再将多视点图像信息和问题信息同时输入预设的视觉问答网络模型;然后通过视觉问答网络模型获取多视点图像信息对应的三维场景表示参数,并依据三维场景表示参数和问题信息输出答案信息。基于本申请提供的基于三维信息的视觉问答方法,能够从具有多视点图像中恢复既定场景的三维场景信息,进而能够结合三维场景信息快速并准确获取到问题信息的答案信息,本发明实施例提供的方法即使在只能观察到部分场景的严酷条件下,也能够有效确定与问题信息匹配的答案信息。下面对上述步骤S101~步骤S103进行详细说明。

首先执行步骤S101,获取既定场景的多视点图像信息以及针对多视点图像信息提出的问题信息。

本申请实施例中的多视点图像信息指的是对既定场景而言,从多个角度拍摄出的多张图像。既定场景可以是存在遮挡、光线不足和/或视点不适当的场景,本发明对此不做限定。

接下来执行步骤S102,将多视点图像信息和问题信息同时输入预设的视觉问答网络模型。

本发明实施例提供的预设的视觉问答网络模型,可以预先训练至收敛状态,用于根据输入的多视点图像信息以及问题信息输出与问题信息对应的答案信息。

在本发明实施例中,可以将多视点图像输入表示为V,V={v

其中:

F表示预设的视觉问答网络模型;

V表示多视点图像信息;

Q表示问题信息;

θ表示要优化的网络参数;

a表示问题Q的答案。

本发明实施例中的视觉问答网络模型F是根据输入V和Q预测出与问题Q对应的答案a。

在本发明可选实施例中,视觉问答网络模型可以包括生成查询网络和视觉问答组件两部分:

(1)生成查询网络,用于对既定场景的多视图图像信息V={v

(2)视觉问答组件,用于对三维场景表示和问题Q进行推理并给出答案预测。

前文介绍,视觉问答网络模型可以包括生成查询网络,可选地,生成查询网络可以包括预先训练的场景表示网络。上述步骤S103获取多视点图像信息对应的三维场景表示参数时,即,通过生成查询网络中的场景表示网络基于多视点图像信息构建对应不同视点的场景表示参数。

生成查询网络(Generative Query Network,简称GQN),是使用不同视角收集到的某个场景的图像,然后生成关于这个场景的抽象描述,通过一个无监督的表示学习过程,学习到了场景的本质。之后,在学到的这种表示的基础上,网络会预测从其他新的视角看这个场景将会是什么样子。这一过程非常类似人脑中对某个场景的想象,而理解一个场景中的视觉元素是典型的智能行为。在本发明实施例中,场景表示网络为经过训练的,可根据多视点图像信息输出场景表示参数。

对于回答问题,尤其是对于需要空间推理的问题,必须具备不同视点之间的三维对应知识。因此,本发明实施例中,可通过一个生成查询网络从多视图图像中构建三维场景表示,其中,生成查询网络由一个场景表示网络和一个生成渲染网络组成。从i视点观察到的场景o

其中:

场景r可以表示为:

r=f

其中:

f

o

本实施例的查询生成网络中联合场景表示网络f

如上文所述,先在多视点数据集上训练整体生成查询网络,以进行场景表征网络学习。在下一步中,将多视点图像输入到预先训练的场景表征网络,并添加每个单独的输出以形成三维场景表示。

视觉问答网络模型除了包括生成查询网络以外,还包括视觉问答组件,视觉问答组件可以是任意的VQA模型,这些模型经过优化以使正确答案的概率最大化。其中,视觉问答组件包括图像特征提取网络、线性调制网络和分类器网络。生成查询网络输出的三维场景表示作为视觉问答组件的输入,以预测问题Q的答案。

具体来讲,依据三维场景表示参数和问题信息输出答案信息,可以包括以下步骤:

S1、将三维场景表示参数输入图像特征提取网络,通过图像特征提取网络提取三维场景表示参数中对应各视点的特征数据。

S2、将各视点图像的特征数据和所述问题信息输入线性调制网络,通过线性调制网络对各视点特征数据进行优化,得到各视点的优化特征数据;

S3、将各视点的优化特征数据输入分类器网络,通过分类器网络预测并输出所述问题信息的答案。

本申请实施例将基于特征的FiLM用作VQA组件并调整FiLM以适合场景表示组件。FiLM的核心思想是通过应用仿射变换来传递图像特征提取网络的激活信息的调制操作。仿射变换的参数是通过门控递归单元(gated recurrent unit,简称GRU)网络从问题特征中预测的。

仿射变换,又称仿射映射,是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换为另一个向量空间。它是一种二维坐标到二维坐标之间的线性变换,保持了二维图形的“平直性”和“平行性”。

GRU是循环神经网络中的一种门控机制,它与具有遗忘门的长短时记忆网络相类似,很好的克服了循环神经网络无法很好处理远距离依赖的问题,对于RNN中的梯度消失有很大帮助。

具体来讲,首先,使用了FiLM中的逐特征线性调整中包含的两个函数f和h从输入的问题Q中预测仿射变换的参数γ

γ

β

利用预测的参数用于调制图像特征图可以表示为F

F

F

图像特征提取网络是通过卷积神经网络(Convolutional Neural Networks,简称CNN)对各试点的图像数据进行提取特征,如ResNet152神经网络。CNN是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。CNN具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。

图像特征提取网络的最终输出是要被应用于分类器网络以预测答案的,但在输入分类器之前,需要输入FiLM中,对图像特征提取网络输出的特征数据进行优化。在FiLM中,利用两种结构来集成多视点图像信息,并使它们适合FiLM网络。

上述提到的对各视点所述特征数据进行优化,得到各视点的优化特征数据,也就是基于所述线性调制网络应用仿射变换,根据问题信息选择并优化各视点的特征数据;然后生成与问题信息对应的各视点的优化特征数据。此操作能够根据问题特征选择图像特征,从而在视觉推理上实现高性能。

当然,在将各视点的优化特征数据输入分类器网络,通过分类器网络预测并输出所述问题信息的答案之前,还需要通过视图池化操作对各视点的优化特征数据进行组合,形成组合特征数据;再将组合特征数据输入分类器网络,通过分类器网络预测并输出问题信息的答案。

在对于池化操作的类别(最大或平均池化)以及放置池化操作的位置(在送入FiLM之前,FiLM和分类器之间,分类器之后)进行了消融实验。实验结果表明,位于FiLM和分类器之间的最大池获得了最高性能。因此,本申请实施例选用的是在FiLM和分类器之间进行最大池化操作。

最大池化操作完成后,将组合特征数据输入分类器网络。分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即我们通常所说的分类器(Classifier))。该函数或模型能够把数据库中的数据纪录映射到给定类别中的某一个,从而可以应用于数据预测。总之,分类器是数据挖掘中对样本进行分类的方法的统称。

总体来说,如图2所述,首先CNN从不同的角度提取图像特征;然后将提取的图像特征输入到FiLM中,通过GRU对图像特征进行优化,而无需在视点之间共享权重;再通过视图池化操作(最大池化)组合针对不同视点提取的特征;最后,将组合特征输入分类器以预测答案。

基于同一发明构思,如图3所示,本申请实施例还提供了一种基于三维信息的视觉问答系统,包括:

图像信息获取模块310,其配置成获取既定场景的多视点图像信息以及问题信息;

信息输入模块320,其配置成将多视点图像信息和问题信息同时输入预设的视觉问答网络模型;

答案信息输出模块330,其配置成通过视觉问答网络模型获取多视点图像信息对应的三维场景表示参数,并依据三维场景表示参数和问题信息输出答案信息;

其中,视觉网络模型预先训练至收敛状态,用于根据输入的多视点图像信息以及问题信息输出与问题信息对应的答案信息。

在本申请另一可选实施例中,视觉问答网络模型包括生成查询网络;其中,生成查询网络包括预先训练的场景表示网络;

答案信息输出模块330,其还可以配置成:

通过所述生成查询网络中的场景表示网络基于所述多视点图像信息构建对应不同视点的场景表示参数。

在本申请另一可选实施例中,视觉问答网络模型包括视觉问答组件;视觉问答组件包括图像特征提取网络、线性调制网络和分类器网络;

答案信息输出模块330,其还可以配置成:

将三维场景表示参数输入图像特征提取网络,通过图像特征提取网络提取三维场景表示参数中对应各视点的特征数据;

将各视点图像的特征数据和问题信息输入线性调制网络,通过线性调制网络对各视点特征数据进行优化,得到各视点的优化特征数据;

将各视点的优化特征数据输入分类器网络,通过分类器网络预测并输出问题信息的答案。

在本申请另一可选实施例中,答案信息输出模块330,其还可以配置成:

基于线性调制网络应用仿射变换,根据问题信息选择并优化各视点的特征数据;

生成与问题信息对应的各视点的优化特征数据。

在本申请另一可选实施例中,将各视点的所述优化特征数据输入所述分类器网络,通过所述分类器网络预测并输出所述问题信息的答案之前,还包括:

通过视图池化操作对各视点的所述优化特征数据进行组合,形成组合特征数据;

答案信息输出模块330,其还可以配置成:

将组合特征数据输入所述分类器网络,通过分类器网络预测并输出所述问题信息的答案。

本申请提供了一种基于三维信息的视觉问答方法及系统,在本申请提供的方法中,先获取既定场景的多视点图像信息以及问题信息;再将多视点图像信息和问题信息同时输入预设的视觉问答网络模型;然后通过视觉问答网络模型获取多视点图像信息对应的三维场景表示参数,并依据三维场景表示参数和问题信息输出答案信息。

基于本申请提供的基于三维信息的视觉问答方法及系统,提出了一种无需使用同步定位与建图(simultaneous localization and mapping,简称SLAM)流程即可将直接从多视图图像捕获的三维信息集成到VQA中的方法,通过多视图图像合并三维信息来推进VQA任务的策略。可以弥合三维信息和VQA上下文中的语言信息之间的差距。在多视图数据集设置下,将三维信息与语言信息结合在一个集成的框架中,并能验证三维信息的有效性。

本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器420、处理器410和存储在所述存储器420内并能由所述处理器410运行的计算机程序,该计算机程序存储于存储器420中的用于程序代码的空间430,该计算机程序在由处理器410执行时实现用于执行任一项根据本发明的方法步骤431。

本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序431′,该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。

以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种基于三维信息的视觉问答方法及系统
  • 基于三维视觉系统图像特征和三维信息的运动估计方法
技术分类

06120112437186