掌桥专利:专业的专利平台
掌桥专利
首页

文本视觉问答方法和装置

文献发布时间:2023-06-19 13:26:15


文本视觉问答方法和装置

技术领域

本申请总体说来涉及信息处理技术领域,更具体地讲,涉及文本视觉问答模型的训练方法和装置以及文本视觉问答(TextVQA)方法和装置。

背景技术

目前,由于通用视觉问答(VQA)方法无法处理图像中文字信息的缺陷,因此研发人员提出了文本视觉问答(TextVQA)技术。然而,TextVQA为了回答与图像中文字相关的问题,需要同时考虑视觉场景和文字等多个模态的信息及其关系,具有很大挑战。为此,目前主流方法是引入一个外部的光学字符识别(OCR)模块作为单独的前处理模块,即,OCR模块从图像中检测、识别并获取文字信息后,再将获取的文字信息与问题、视觉等其他模态信息一同传送到VQA模型中,从而提升了TextVQA性能。

但是,现有技术将OCR模块作为一个单独的前处理模块,并没有让其参与到整个模型的优化,这使得TextVQA性能很大程度上受到OCR精度的影响。具体表现为以下两种误差累积传播现象:(1)OCR错误使得对文字的直接语义编码错误,导致多模态信息的交互推理过程出现偏差,从而无法定位出准确的答案;(2)即使是在推理和定位答案正确的情况下,OCR错误仍然会导致最终从OCR结果中“复制”的答案是错误的。

另外,由于视觉模态信息主要由图像中检测到的物体的视觉特征来表示,因此视觉模态信息与文字、问题模态交互时存在语义间隔,使得多模态信息无法有效融合。

发明内容

为了至少解决现有技术中存在的上述问题,本发明提供了一种文本视觉问答模型的训练方法和装置以及文本视觉问答方法和装置。

本发明的第一方面在于提供一种文本视觉问答模型的训练方法,其中,所述文本视觉问答模型包括预训练的语言模型、文字表征获取模块、物体表征获取模块、第一多模态交互网络模块和答案预测模块,其中,所述训练方法包括:由文字表征获取模块对第一训练数据集进行处理来获得与第一训练数据集中的图像文字区域相对应的预测的语义特征以及预测的文字识别结果,根据所述预测的语义特征以及与所述图像文字区域对应的真实语义特征计算第一损失函数,根据所述预测的文字识别结果以及与所述图像文字区域对应的真实的文字识别结果计算第二损失函数,并利用第一损失函数和第二损失函数调整文字表征获取模块的模型参数来对文字表征获取模块进行训练;由物体表征获取模块对第二训练数据集进行处理来获得第二训练数据集中的物体的预测的物体类别嵌入向量,根据所述预测的物体类别嵌入向量以及所述物体的真实物体类别向量计算第三损失函数,并根据第三损失函数调整物体表征获取模块的模型参数来对物体表征获取模块进行训练;由训练后的文字表征获取模块针对第三训练数据集获取视觉增强的文字表征,由训练后的物体表征获取模块针对第三训练数据集获取语义导向的物体表征,由预训练的语言模型针对问题语句获取问题表征,并根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量对第一多模态交互网络模块和答案预测模块进行训练。

可选地,文字表征获取模块包括光学字符识别(OCR)模块和文字相关的视觉语义映射网络(TVS)模块,其中,由文字表征获取模块对第一训练数据集进行处理来获得所述预测的语义特征以及所述预测的文字识别结果的步骤包括:由TVS模块中的矫正模块对OCR模块从第一训练数据集中检测到的图像文字区域进行文字矫正;由TVS模块中的编码模块对文字矫正后的所述图像文字区域进行编码来获得视觉特征;由TVS模块中的中间语义模块中的第一线性层从所述视觉特征推导出所述预测的语义特征,并由中间语义模块中的第二线性层从所述预测的语义特征推导出与所述预测的语义特征对应的语义信息;由TVS模块中的解码模块根据所述语义信息以及所述视觉特征获得所述预测的文字识别结果。

可选地,物体表征获取模块包括卷积神经网络、区域候选网络、感兴趣区域特征池化模块和物体类别嵌入向量预测模块,其中,由物体表征获取模块对所述第二训练数据集进行处理来获得所述预测的物体类别嵌入向量的步骤包括:由卷积神经网络对第二训练数据集进行卷积操作来获得图像视觉特征;由区域候选网络从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体类别嵌入向量预测模块对所述物体候选区域的视觉特征进行处理来获得所述物体类别嵌入向量。

可选地,由训练后的文字表征获取模块针对第三训练数据集获取视觉增强的文字表征的步骤包括:通过OCR模块从第三训练数据集中的训练图像中检测包含文字的文字区域;通过OCR模块对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征;通过TVS模块从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征;将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。

可选地,物体表征获取模块还包括物体检测头模块和物体属性预测模块,其中,由训练后的物体表征获取模块针对第三训练数据集获取语义导向的物体表征的步骤包括:由卷积神经网络对从第三训练数据集中的训练图像进行卷积操作来获得图像视觉特征;由区域候选网络从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体检测头模块对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征;由物体类别嵌入向量预测模块对所述物体候选区域的视觉特征进行处理来获得物体类别嵌入向量;将所述物体区域的视觉特征、所述物体区域的位置特征以及所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。

可选地,根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量对第一多模态交互网络模块和答案预测模块进行训练的步骤包括:将所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量输入到第一多模态交互网络模块来获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量;将所述文字表征增强特征以及所述当前预测解码向量输入到答案预测模块来获得与所述问题语句对应的第一预测分数和第二预测分数;根据所述第一预测分数和所述第二预测分数以及所述问题语句的标准答案的第一真实分数和第二真实分数来计算第四损失函数,并根据第四损失函数调整第一多模态交互网络模块和答案预测模块的模型参数来对第一多模态交互网络模块和答案预测模块进行训练。

可选地,文本视觉问答模型还包括基于上下文感知的答案修正模块,训练方法还包括:利用第四训练数据集对基于上下文感知的答案修正模块进行训练,其中,第四训练数据集包括预定数据集所提供的每个问题语句的标准答案以及多个外部OCR模块的识别结果,其中,所述预定数据集包括问题语句以及与每个问题语句对应的输入图像,其中,所述多个外部OCR模块的识别结果是:在答案预测模块针对所述每个问题语句的输出指向相应输入图像中的图像文字时,多个外部OCR模块对该图像文字进行处理得到的识别结果。

可选地,基于上下文感知的答案修正模块包括第二多模块交互网络模块和线性映射层,其中,利用第四训练数据集对文本视觉问答模型中的基于上下文感知的答案修正模块进行训练的步骤包括:计算所述每个问题语句的标准答案以及所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果之间的交并比;将所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果及其上下文信息输入到第二多模态交互网络模块进行融合交互;将第二多模块交互网络模块的与每个识别结果相应的输出向量输入到所述线性映射层来获得每个识别结果的相关分数;利用每个识别结果的相关分数以及每个识别结果的所述交并比对第二多模态交互网络模块的模型参数进行调整来训练第二多模态交互网络模块。

本发明的第二方面在于提供一种文本视觉问答方法,其中,文本视觉问答模型包括文字表征获取模块、物体表征获取模块、预训练的语言模型、第一多模态交互网络模块和答案预测模块,其中,所述文本视觉问答方法包括:通过文字表征获取模块从图像获得视觉增强的文字表征,其中,所述文字表征获取模块包括光学字符识别(OCR)模块和文字相关的视觉语义映射网络(TVS)模块;通过物体表征获取模块从所述图像获得语义导向的物体表征;通过预训练的语言模型从与所述图像对应的问题语句获得问题表征;通过第一多模态交互网络模块从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量;通过答案预测模块从所述文字表征增强特征以及所述当前预测解码向量获得与所述问题语句对应的预测答案。

可选地,通过文字表征获取模块从所述图像获得所述视觉增强的文字表征的步骤包括:通过OCR模块从所述图像中检测包含文字的文字区域;通过OCR模块对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征;通过TVS模块从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征;将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。

可选地,TVS模块包括文字图像矫正模块、编码模块和中间语义模块,其中,利用TVS模块从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征的步骤包括:由文字图像矫正模块对所述文字区域进行文字矫正;由编码模块对文字矫正后的所述文字区域进行编码来获得所述视觉特征;由中间语义模块从所述视觉特征预测第二语义特征。

可选地,物体表征获取模块包括卷积神经网络、区域候选网络、感兴趣区域特征池化模块、物体检测头模块和物体类别嵌入向量预测模块,其中,通过物体表征获取模块从所述图像获得所述语义导向的物体表征的步骤包括:由卷积神经网络对从所述图像进行卷积操作来获得图像视觉特征;由区域候选网络从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体检测头模块对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征;由物体类别嵌入向量预测模块对所述物体候选区域的视觉特征进行处理来获得所述物体类别嵌入向量;将所述物体区域的视觉特征、所述物体区域的位置特征和所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。

可选地,通过第一多模态交互网络模块从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得所述文字表征增强特征和所述当前预测解码向量的步骤包括:利用第一多模态交互网络模块对所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及所述先前解码向量进行模态内和模态间交互来获得所述文字表征增强特征以及所述当前预测解码向量。

可选地,答案预测模块包括双线性交互网络、线性分类层和确定模块,其中,通过答案预测模块从所述文字表征增强特征以及所述当前预测解码向量获得所述预测答案的步骤包括:利用双线性交互网络对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定当所述预测答案是所述图像中的图像文字情况时的第一分数;利用线性分类层对所述当前预测解码向量进行线性分类处理来确定当所述预测答案是固定词典中的词典文字时的第二分数;利用确定模块将所述图像文字和所述词典文字中的与所述第一分数和所述第二分数中的最大值相应的一个确定为所述预测答案。

可选地,利用双线性交互网络对文字表征增强特征以及所述当前预测解码向量进行处理来确定第一分数的步骤包括:利用所述双线性交互网络中的第一线性层对所述文字表征增强特征进行线性处理来获得第一线性处理结果;

利用所述双线性交互网络中的第二线性层对所述当前预测解码向量进行线性处理来获得第二线性处理结果;计算第一线性处理结果与第二线性处理结果之间的相似度作为所述第一分数。

可选地,文本视觉问答模型还包括基于上下文感知的答案修正模块(CRM),所述文本视觉问答方法还包括:当所述图像文字被确定为所述预测答案时,利用CRM对所述预测答案进行修正获得修正后的所述预测答案。

可选地,利用CRM对所述预测答案进行修正来获得修正后的所述预测答案的步骤包括:对预存储的多个外部OCR识别结果与所述预测答案进行处理来获得与所述多个外部OCR识别结果中的每一个外部OCR识别结果对应的分数值;将所述多个外部OCR识别结果中的具有最高分数值的外部OCR识别结果确定为修正后的所述预测答案。

可选地,文本视觉问答模型是使用以上所述的训练方法训练得到的。

本发明的第三方面在于提供一种文本视觉问答模型的训练装置,文本视觉问答模型包括预训练的语言模型、文字表征获取模块、物体表征获取模块、第一多模态交互网络模块和答案预测模块,所述训练装置包括:第一训练单元,被配置为通过文字表征获取模块对第一训练数据集进行处理来获得与第一训练数据集中的图像文字区域相对应的预测的语义特征以及预测的文字识别结果,根据所述预测的语义特征以及与所述图像文字区域对应的真实语义特征计算第一损失函数,根据所述预测的文字识别结果以及与所述图像文字区域对应的真实的文字识别结果计算第二损失函数,并利用第一损失函数和第二损失函数调整文字表征获取模块的模型参数来对文字表征获取模块进行训练;第二训练单元,被配置为通过物体表征获取模块对第二训练数据集进行处理来获得第二训练数据集中的物体的预测的物体类别嵌入向量,根据所述预测的物体类别嵌入向量以及所述物体的真实物体类别向量计算第三损失函数,并根据第三损失函数调整物体表征获取模块的模型参数来对物体表征获取模块进行训练;第三训练单元,被配置为通过训练后的文字表征获取模块针对第三训练数据集获取视觉增强的文字表征,通过训练后的物体表征获取模块针对第三训练数据集获取语义导向的物体表征,通过预训练的语言模型针对问题语句获取问题表征,并根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量对第一多模态交互网络模块和答案预测模块进行训练。

可选地,文字表征获取模块包括光学字符识别(OCR)模块和文字相关的视觉语义映射网络(TVS)模块,其中,第一训练单元通过以下操作来获得所述预测的语义特征以及所述预测的文字识别结果:由TVS模块中的矫正模块对OCR模块从第一训练数据集中检测到的图像文字区域进行文字矫正;由TVS模块中的编码模块对文字矫正后的所述图像文字区域进行编码来获得视觉特征;由TVS模块中的中间语义模块中的第一线性层从所述视觉特征推导出所述预测的语义特征,并由中间语义模块中的第二线性层从所述预测的语义特征推导出与所述预测的语义特征对应的语义信息;由TVS模块中的解码模块根据所述语义信息以及所述视觉特征获得所述预测的文字识别结果。

可选地,物体表征获取模块包括卷积神经网络、区域候选网络、感兴趣区域特征池化模块和物体类别嵌入向量预测模块,其中,第二训练单元通过以下操作获得所述预测的物体类别嵌入向量:由卷积神经网络对第二训练数据集进行卷积操作来获得图像视觉特征;由区域候选网络从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体类别嵌入向量预测模块对所述物体候选区域的视觉特征进行处理来获得所述物体类别嵌入向量。

可选地,第三训练单元通过以下操作获取所述视觉增强的文字表征:通过OCR模块从第三训练数据集中的训练图像中检测包含文字的文字区域;通过OCR模块对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征;通过TVS模块从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征;将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。

可选地,物体表征获取模块还包括物体检测头模块和物体属性预测模块,其中,第三训练单元通过以下操作获取语义导向的物体表征:由卷积神经网络对从第三训练数据集中的训练图像进行卷积操作来获得图像视觉特征;由区域候选网络从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体检测头模块对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征;由物体类别嵌入向量预测模块对所述物体候选区域的视觉特征进行处理来获得物体类别嵌入向量;将所述物体区域的视觉特征、所述物体区域的位置特征以及所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。

可选地,第三训练单元通过以下操作对第一多模态交互网络模块和答案预测模块进行训练:将所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量输入到第一多模态交互网络模块来获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量;将所述文字表征增强特征以及所述当前预测解码向量输入到答案预测模块来获得与所述问题语句对应的第一预测分数和第二预测分数;根据所述第一预测分数和所述第二预测分数以及所述问题语句的标准答案的第一真实分数和第二真实分数来计算第四损失函数,并根据第四损失函数调整第一多模态交互网络模块和答案预测模块的模型参数来对第一多模态交互网络模块和答案预测模块进行训练。

可选地,文本视觉问答模型还包括基于上下文感知的答案修正模块,其中,所述训练装置还包括:第四训练单元,被配置为利用第四训练数据集对基于上下文感知的答案修正模块进行训练,其中,第四训练数据集包括预定数据集所提供的每个问题语句的标准答案以及多个外部OCR模块的识别结果,其中,所述预定数据集包括问题语句以及与每个问题语句对应的输入图像,其中,所述多个外部OCR模块的识别结果是:在答案预测模块针对所述每个问题语句的输出指向相应输入图像中的图像文字时,所述多个外部OCR模块对该图像文字进行处理得到的识别结果。

可选地,基于上下文感知的答案修正模块包括第二多模态交互网络模块和线性映射层,其中,第四训练单元通过以下操作利用第四训练数据集对文本视觉问答模型中的基于上下文感知的答案修正模块进行训练:计算所述每个问题语句的标准答案以及所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果之间的交并比;将所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果及其上下文信息输入到第二多模态交互网络模块进行融合交互;将第二多模态交互网络模块的与每个识别结果相应的输出向量输入到所述线性映射层来获得每个识别结果的相关分数;利用每个识别结果的相关分数以及每个识别结果的所述交并比对第二多模态交互网络模块的模型参数进行调整来训练第二多模态交互网络模块。

本发明的第四方面在于提供一种由文本视觉问答模型实现的文本视觉问答装置,文本视觉问答模型包括文字表征获取模块、物体表征获取模块、预训练的语言模型、第一多模态交互网络模块和答案预测模块,其中,所述文本视觉问答装置包括:文字表征获取单元,被配置为通过文字表征获取模块从图像获得视觉增强的文字表征,其中,所述文字表征获取模块包括光学字符识别(OCR)模块和文字相关的视觉语义映射网络(TVS)模块;物体表征获取单元,被配置为通过物体表征获取模块从所述图像获得语义导向的物体表征;问题表征获取单元,被配置为通过预训练的语言模型从与所述图像对应的问题语句获得问题表征;第一多模态交互网络单元,被配置为通过第一多模态交互网络模块从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量;答案预测单元,被配置为通过答案预测模块从所述文字表征增强特征以及所述当前预测解码向量获得与所述问题语句对应的预测答案。

可选地,文字表征获取模块通过以下操作从图像输入获得所述视觉增强的文字表征:通过OCR模块从所述图像中检测包含文字的文字区域;通过OCR模块对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征;通过TVS模块从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征;将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。

可选地,TVS模块包括:文字图像矫正模块,被配置为对所述文字区域进行文字矫正;编码模块,被配置为对文字矫正后的所述文字区域进行编码来获得所述视觉特征;中间语义模块,被配置为从所述视觉特征预测所述第二语义特征。

可选地,物体表征获取模块包括:卷积神经网络,被配置为对从所述图像进行卷积操作来获得图像视觉特征;区域候选网络,被配置为从所述图像视觉特征获得物体候选区域;感兴趣区域特征池化模块,被配置为对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;物体检测头模块,被配置为对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征;物体类别嵌入向量预测模块,被配置为对所述物体候选区域的视觉特征进行处理来获得所述物体类别嵌入向量,其中,物体表征获取单元通过将所述物体区域的视觉特征、所述物体区域的位置特征和所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。

可选地,第一多模态交互网络模块通过以下操作从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得所述文字表征增强特征和所述当前预测解码向量:对所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及所述先前解码向量进行模态内和模态间交互来获得所述文字表征增强特征和所述当前预测解码向量。

可选地,答案预测模块包括:双线性交互网络,被配置为对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定当所述预测答案是所述图像中的图像文字情况时的第一分数;线性分类层,被配置为对所述当前预测解码向量进行线性分类处理来确定当所述预测答案是固定词典中的词典文字时的第二分数;确定模块,被配置为将所述图像文字和所述词典文字中的与所述第一分数和所述第二分数中的最大值相应的一个确定为预测答案。

可选地,双线性交互网络通过以下操作对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定第一分数:利用所述双线性交互网络中的第一线性层对所述文字表征增强特征进行线性处理来获得第一线性处理结果;利用所述双线性交互网络中的第二线性层对所述当前预测解码向量进行线性处理来获得第二线性处理结果;计算第一线性处理结果与第二线性处理结果之间的相似度作为所述第一分数。

可选地,文本视觉问答装置还包括:基于上下文感知的答案修正单元,被配置为当所述图像文字被确定为所述预测答案时,对所述预测答案进行修正来获得修正后的所述预测答案。

可选地,CRM通过以下操作对所述预测答案进行修正来获得修正后的所述预测答案:对预存储的多个外部OCR识别结果与所述预测答案进行处理来获得与所述多个外部OCR识别结果中的每一个外部OCR识别结果对应的分数值;将所述多个外部OCR识别结果中的具有最高分数值的外部OCR识别结果确定为修正后的所述预测答案。

可选地,文本视觉问答模型是使用如上所述的训练方法训练得到的。

本发明的第四方面在于提供一种电子设备,所述电子设备包括处理器和用于存储所述处理器可执行指令的存储器,其中,所述处理器被配置为执行所述指令,以实现如上所述的文本视觉问答模型的训练方法或如上所述的文本视觉问答方法。

本发明的第五方面在于提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的文本视觉问答模型的训练方法或如上所述的文本视觉问答方法。

本发明的第六方面在于提供一种计算机程序产品,计算机程序产品包括计算机程序/指令,其中,所述计算机程序/指令被处理器执行时实现如上所述的文本视觉问答模型的训练方法或如上所述的文本视觉问答方法。

本发明的实施例提供的技术方案至少带来以下有益效果:通过将OCR融入TextVQA的前向处理流程,即借助来自文字检测和文字识别两个阶段的多模态线索,实现在没有准确识别文字的情况下也能获取对文字的合理的语义表示,即可获得更鲁棒的特征表示,并有效修正由OCR错误引起的答案错误,从而减缓OCR精度对多模态信息推理和答案预测的影响。另外,本发明通过设计来实现视觉到语义的映射,从而获得视觉增强的文字表征和语义导向的物体表征,可增强特征表示的鲁棒性,从而减小OCR错误和物体识别错误对推理的影响。另外,利用TextVQA任务丰富的上下文信息对解码的答案进行自适应修正,从而得到更加准确的答案,增强答案的可靠性。再者,将视觉物体也作为一种特殊的场景文字进行表征,从而消除多模态间的语义间隔。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

从下面结合附图对本申请实施例的详细描述中,本申请的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:

图1是示出根据本公开示例性实施例的文本视觉问答方法和装置的应用场景图;

图2是示出根据本公开示例性实施例的文本视觉问答模型的训练方法的流程图;

图3是示出根据本公开示例性实施例的文本视觉问答模型的示意性图;

图4是示出根据本公开的示例性实施例的TVS模块的详细配置的框图;

图5是示出根据本公开的示例性实施例的由文字表征获取模块对第一训练数据集进行处理来获得所述预测的语义特征以及预测的文字识别结果的过程的流程图;

图6是示出根据本公开的示例性实施例的编码模块的配置的框图;

图7是示出根据本公开的示例性实施例的物体表征获取模块的详细配置的框图;

图8是示出根据本公开的示例性实施例的由物体表征获取模块对第二训练数据集进行处理来获得所述预测的物体类别嵌入向量的过程的流程图;

图9是示出根据本公开的示例性实施例的获得视觉增强的文字表征的过程的流程图;

图10是示出根据本公开的示例性实施例的获得语义导向的物体表征的过程的流程图;

图11是示出根据本公开的示例性实施例的对第一多模态交互网络模块和答案预测模块进行训练的过程的流程图;

图12是示出根据本公开的示例性实施例的答案预测模块的组成框图;

图13是示出根据本公开的另一示例性实施例的文本视觉问答模型的示意性图;

图14是示出根据本公开的示例性实施例的对基于上下文感知的答案修正模块进行训练的过程的示图;

图15是示出根据本公开的示例性实施例的对基于上下文感知的答案修正模块进行训练的示意图;

图16是示出根据本公开的示例性实施例的由文本视觉问答模型实现的文本视觉问答方法的流程图;

图17是示出根据本公开的示例性实施例的文本视觉问答模型的训练装置1700的框图;

图18是示出根据本公开的示例性实施例的由文本视觉问答模型实现的文本视觉问答装置的框图;

图19示出了本发明的实验验证结果;

图20示出了本发明与多种现有基准方法的实验比较结果;

图21示出了本发明与多种现有基准方法的定性实验结果;

图22是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。

图1是示出根据本公开示例性实施例的文本视觉问答方法和装置的应用场景图。

如图1所示,本公开所提供的文本视觉问答方法和装置,可以应用于如图1所示的应用环境中。系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息(例如文本视觉问答请求、图像上传和下载请求、音视频数据搜索请求)等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如音频播放类应用、视频和音频编辑类应用、即时通信工具、邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且能够进行音视频的播放、录制和编辑的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。

终端设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬声器)以播放声音,并且还可以安装有用于将模拟音频信号转换为数字音频信号的装置(例如,麦克风)以采集声音。

服务器105可以是提供各种服务的服务器,如对终端设备101、102、103上所安装的多媒体应用等提供支持的后台服务器。后台服务器可以对所接收到的文本视觉问答请求以及相关图像和问题等数据进行解析、存储等处理。

需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可实现成单个软件或软件模块。在此不做具体限定。

需要说明的是,本公开实施例所提供的文本视觉问答方法可由终端设备执行,也可以有服务器执行,或者也可以由终端设备和服务器协作执行。相应地,文本视觉问答装置可设置在终端设备中、服务器中或者设置在终端设备和服务器两者中。

应理解,图1中的终端设备、网络和服务器的数目仅是示意性的。根据实现需要,可具有任意数目的终端设备、网络和服务器,本公开对此无限制。

图2是示出根据本公开示例性实施例的文本视觉问答模型的训练方法的流程图。图3是示出根据本公开示例性实施例的文本视觉问答模型的示意性图,其中,文本视觉问答模型包括文字表征获取模块310、物体表征获取模块320、预训练的语言模型330、第一多模态交互网络模块340和答案预测模块350。下面结合图3对图2的文本视觉问答模型的训练方法进行描述。

在步骤S2010,由文字表征获取模块310对第一训练数据集进行处理来获得与第一训练数据集中的文字区域相对应的预测的语义特征以及预测的文字识别结果。第一训练数据集是包括多个训练图像的数据集,例如可以是SynthText数据集和Synth90K数据集,但是本申请不限于此,第一训练数据集可以是其它任何合适的数据集。如图3中所示,文字表征获取模块310包括OCR模块311和文字相关的视觉语义映射网络(TVS)模块312,其中,OCR模块311可采用现有的任何OCR模块来实现,并且在这里,OCR模块311已经是预先训练好的OCR模块,因此,这里不对此进行详细描述。但是,本申请与现有的文本视觉问答(TextVQA)在OCR模块的作用方面存在明显的区别,本申请认为OCR模块不应该只是TextVQA的一个前处理,而是TextVQA区别于传统VQA的关键模块,本申请通过将OCR模块311融合进TextVQA的前向处理流程中,可以获得更鲁棒的特征表示,并有效修正由OCR错误引起的答案错误,从而减缓OCR精度对多模态信息推理和答案预测的影响,并且,实验表明,本发明在多个数据集上均有效,与已有方法相比,在鲁棒性和准确性上具有明显优势,在真实应用场景下能够发挥巨大潜能。下面参照图4和图5对步骤S2010进行详细描述。

图4是示出根据本公开的示例性实施例的TVS模块312的详细配置的框图。图5是示出根据本公开的示例性实施例的由文字表征获取模块310对第一训练数据集进行处理来获得所述预测的语义特征以及预测的文字识别结果的过程的流程图。如图4中所示,TVS模块312包括矫正模块3121、编码模块3122、中间语义模块3123和解码模块3124。

在步骤S2011,由矫正模块3121对从第一训练数据集中检测到的文字区域进行文字矫正。具体地讲,由OCR模块311对第一训练数据集中的每一个训练图像进行文字检测从而确定出包含文字的图像文字区域,然后由矫正模块3121对该图像文字区域进行图像文字矫正,这里可以采用现有任何图像文字矫正方法来进行操作,这里不对此进行具体限定。

在步骤S2012,由编码模块3122对文字矫正后的所述图像文字区域进行编码来获得视觉特征。具体地讲,编码模块3122可采用公知的编码模块来实现,例如如图6中所示,编码模块3122可由卷积神经网络(CNN)和长短时记忆网络(LSTM)组成。

在步骤S2013,由中间语义模块3123中的第一线性层从所述视觉特征推导出预测的语义特征。具体地讲,如图4中所示,中间语义模块3123从编码模块3122获得视觉特征,然后由中间语义模块3123中的第一线性层对该视频特征进行维度变换来预测语义特征,从而获得从视觉特征直接推导出的预测的语义特征。

在步骤S2014,由中间语义模块3123中的第二线性层从所述预测的语义特征推导出与所述预测的语义特征对应的语义信息。具体地讲,中间语义模块3123中的第二线性层从第一线性层获得预测的语义特征,然后对该预测的语义特征再次进行维度变换,从而获得与该预测的语义特征对应的语义信息。

在步骤S2015,由解码模块3124根据所述语义信息以及所述视觉特征获得所述预测的文字识别结果。具体地讲,解码模块3124可由基于注意力机制的循环神经网络组成,例如基于注意力机制的门控循环单元(GRU)和长短时记忆网络(LSTM),但是本发明不限于此。解码模块3124从编码模块3122获得所述视觉特征,并从中间语义模块3123获得经由第二线性层变换得到的语义信息,然后对所述视觉特征和所述语义信息进行解码操作来获得预测的文字识别结果。

返回参照图2,在步骤S2020,根据所述预测的语义特征以及与所述图像文字区域对应的真实语义特征计算第一损失函数,即语义损失。具体地讲,可根据以下的等式(1)来计算第一损失函数Lsem。

L

e

在步骤S2030,根据所述预测的文字识别结果以及与所述图像文字区域对应的真实的文字识别结果计算第二损失函数,即识别损失。具体地讲,可根据以下的等式(2)来计算第二损失函数Lrec,即计算预测的文字识别结果和真实的文字识别结果的交叉熵。

其中,y

在步骤S2040,利用第一损失函数和第二损失函数调整文字表征获取模块310的模型参数来对文字表征获取模块310进行训练。具体地讲,由于OCR模块311是从现有的预训练的OCR模块中选择的,不需要对其进行进一步训练,因此,这里仅需要根据以上在步骤S2020和S2030计算得到的第一损失函数和第二损失函数对TVS模块312的模型参数进行调整,使得第一损失函数和第二损失函数的最终值在预定长度的训练时间内不再下降为止。

在步骤S2050,由物体表征获取模块320对第二训练数据集进行处理来获得第二训练数据集中的物体的预测的物体类别嵌入向量。下面参照图7和图8对步骤S2050进行详细描述。

图7是示出根据本公开的示例性实施例的物体表征获取模块320的详细配置的框图。图8是示出根据本公开的示例性实施例的由物体表征获取模块320对第二训练数据集进行处理来获得所述预测的物体类别嵌入向量的过程的流程图。具体讲,物体表征获取模块320在原始物体识别模型Faster R-CNN的基础上扩展一个物体类别嵌入向量预测模块326,如图7中所示,物体表征获取模块320包括卷积神经网络321、区域候选网络323、感兴趣区域特征池化模块322、物体检测头模块324、物体属性预测模块325和物体类别嵌入向量预测模块326。

在步骤S2051,由卷积神经网络321对第二训练数据集进行卷积操作来获得图像视觉特征。具体地讲,在对物体表征获取模块320进行训练时所采用的第二训练数据集是包括多个训练图像的数据集,例如,可以是Visual Genome数据集,但是本发明不限于此,可采用任何合适的数据集来对物体表征获取模块320进行训练。

在步骤S2052,由区域候选网络323从图像视觉特征获得物体候选区域。

在步骤S2053,由感兴趣区域特征池化模块322对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征。

在步骤S2054,由物体类别嵌入向量预测模块326对所述物体候选区域的视觉特征进行处理来获得所述物体类别嵌入向量,该物体类别嵌入向量也可被称为物体的语义特征。

返回参照图2,在步骤S2060,根据所述预测的物体类别嵌入向量以及所述物体的真实物体类别向量计算第三损失函数,并根据第三损失函数调整物体表征获取模块320的模型参数来对物体表征模块进行训练。

具体地讲,可根据以下的等式(3)来计算第三损失函数L

L

e

此外,在对物体表征获取模块320进行训练时还会用到其他三个损失函数,如在区域候选网络323需要用到与物体候选区域预测相关的损失函数、在物体检测头模块324需要用到与修正后的物体区域预测相关的损失函数、在物体属性预测模块325需要用到与物体属性预测相关的损失函数,因此,在对物体表征获取模块320进行训练时,还会由物体检测头模块324对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征,其中,修正后的所述物体区域由物体检测头模块324根据在对所述物体候选区域的视觉特征进行处理时获得的置信度分数来确定。在对物体表征获取模块320进行训练时,还会由物体属性预测模块325对所述物体候选区域的视觉特征进行处理来获得物体属性预测分数。

具体地讲,在对物体表征获取模块320进行训练时,区域候选网络323需要用到的与物体候选区域预测相关的损失函数L

其中,p

另外,在对物体表征获取模块320进行训练时,物体检测头模块324需要用到的与修正后的物体区域预测相关的损失函数L

L

其中,p是候选框在所有物体类别上的分类概率;u是候选框的真实分类标签;L

另外,在对物体表征获取模块320进行训练时,物体属性预测模块325需要用到的与物体属性预测相关的损失函数L

L

其中,k是物体属性类别的索引;y

在步骤S2070,由训练后的文字表征获取模块310针对第三训练数据集获取视觉增强的文字表征,由训练后的物体表征获取模块320针对第三训练数据集获取语义导向的物体表征,并由预训练的语言模型330针对第三训练数据集中的问题语句获取问题表征。

具体地讲,在第一多模态交互网络模块340和答案预测模块350进行训练时,需要利用训练好的文字表征获取模块310、物体表征获取模块320和预训练的语言模型330来获得用于对第一多模态交互网络模块340和答案预测模块350进行训练的数据集。其中,第三训练数据集可以是包括多个训练图像和与每个训练图像对应的问题语句的训练数据集。下面参照图9和图10对获得视觉增强的文字表征和语义导向的物体表征的操作进行详细描述。

图9是示出根据本公开的示例性实施例的获得视觉增强的文字表征的过程的流程图。图10是示出根据本公开的示例性实施例的获得语义导向的物体表征的过程的流程图。

如图9中所示,在步骤S910,通过OCR模块311从第三训练数据集中的训练图像中检测包含文字的文字区域。

在步骤S920,通过OCR模块311对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征。由于步骤S910和步骤S920所采用的操作可根据现有的OCR模块来实现,因此,这里不对此进行详细描述。

在步骤S930,通过TVS模块312从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征。具体地讲,首先,由文字图像矫正模块3121对所述文字区域进行文字矫正,然后由编码模块3122对文字矫正后的所述文字区域进行编码来获得所述视觉特征,最后由中间语义模块3123从所述视觉特征预测第二语义特征。换句话说,步骤S930与以上参照图5描述的步骤S2011、S2012和S2013类似,即,以上参照图5描述的过程是对TVS模块312进行训练的过程,而步骤S930是真正使用训练后的TVS来获得语义特征的过程,在步骤S930中,实际上仅使用图4中的矫正模块3121、编码模块3122以及中间语义模块3123的第一线性层,换句话说,第二语义特征就是中间语义模块3123的第一线性层的输出。

在步骤S940,将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。下面参照图10来描述由训练后的物体表征获取模块320针对第三训练数据集获取语义导向的物体表征的过程。

如图10中所示,在步骤S1010,由卷积神经网络321对从第三训练数据集中的训练图像进行卷积操作来获得图像视觉特征。

在步骤S1020,由区域候选网络323从图像视觉特征获得物体候选区域。

在步骤S1030,由感兴趣区域特征池化模块322对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征。

在步骤S1040,由物体检测头模块324对物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征。

在步骤S1050,由物体类别嵌入向量预测模块326对所述物体候选区域的视觉特征进行处理来获得物体类别嵌入向量。

在步骤S1060,将所述物体区域的视觉特征、所述物体区域的位置特征以及所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。通过这种方式,视觉物体被当作一种特殊的文字进行处理,语义相关的视觉物体会具有更高的特征相似度,因而模型能够合理地理解物体的语义信息,也能进一步辅助分析图像中的文字信息。

返回图2,在步骤S2080,根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量对第一多模态交互网络模块340和答案预测模块350进行训练。下面参照图11对步骤S2080进行详细描述。

图11是示出根据本公开的示例性实施例的对第一多模态交互网络模块340和答案预测模块350进行训练的过程的流程图。

在步骤S1110,将所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量输入到第一多模态交互网络模块340来获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量。其中,第一多模态交互网络模块340可采用Transformer网络模型来实现,由于本申请并不对Transformer网络模型的内部结构进行修改,因此,这里不对其内部训练过程进行描述,此外,Transformer网络模型是一个输入量的数量与输出量的数量相同的模型,因此,在将所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量输入到Transformer网络模型时,Transformer网络模型的输出分别为所述视觉增强的文字表征对应的文字表征增强特征、与所述语义导向的物体表征对应的物体表征增强特征、与所述问题表征对应的问题表征增强特征以及与所述先前解码向量对应的当前预测解码向量,但是在后续对答案预测模块350进行训练时仅使用其中的所述文字表征增强特征和所述当前预测解码向量,而不使用其他两者。

在步骤S1120,将所述文字表征增强特征以及所述当前预测解码向量输入到答案预测模块350来获得与所述问题语句对应的第一预测分数和第二预测分数。如图12中所示,答案预测模块350包括双线性交互网络351、线性分类层352和确定模块353。

具体地讲,首先,利用双线性交互网络351对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定当预测答案是所述图像中的图像文字情况时的第一预测分数。具体地讲,利用双线性交互网络351中的第一线性层对所述文字表征增强特征进行线性处理,利用双线性交互网络351中的第二线性层对所述当前预测解码向量进行线性处理,然后对这两个线性处理的结果计算相似度,即,第一预测分数。

同时,利用线性分类层352对所述当前预测解码向量进行线性分类处理来确定当所述预测答案是固定词典中的词典文字时的第二预测分数。

在步骤S1130,根据所述第一预测分数和所述第二预测分数以及所述问题语句的标准答案的第一真实分数和第二真实分数计算第四损失函数,并根据第四损失函数调整第一多模态交互网络模块340和答案预测模块350的模型参数来对第一多模态交互网络模块340和答案预测模块350进行训练。

具体地讲,根据所述问题语句的标准答案,可由确定模块353计算在该标准答案是图像中的图像文字时的第一真实分数,并计算在该标准答案是固定词典中的词典文字时的第二真实分数,然后计算第一真实分数与第一预测分数的分类损失以及第二真实分数与第二预测分数的分类损失,然后根据这两个分类损失来调整第一多模态交互网络模块340和答案预测模块350的模型参数来对第一多模态交互网络模块340和答案预测模块350进行训练。

通过以上参照图2描述的训练方法,即可获得训练好的文本视觉问答模型,进而可进行文本视觉问答。

此外,为了使文本视觉问答模型的预测结果更加准确,如图13所示,文本视觉问答模型除包括图3中的文字表征获取模块310、物体表征获取模块320、预训练的语言模型330、第一多模态交互网络模块340和答案预测模块350外,还可包括另一模块,即,基于上下文感知的答案修正模块360,该基于上下文感知的答案修正模块360可利用预测答案的丰富的上下文信息对预测答案进行自适应修改,因此,图2描述的训练方法还可包括:利用第四训练数据集对基于上下文感知的答案修正模块360进行训练,其中,第四训练数据集包括预定数据集所提供的每个问题语句的标准答案以及多个外部OCR模块的识别结果,其中,所述预定数据集包括问题语句以及与每个问题语句对应的输入图像,例如,所述预定数据集可以是TextVQA数据集,其中,所述多个外部OCR模块的识别结果是:在答案预测模块350针对所述每个问题语句的输出指向相应输入图像中的图像文字时,所述多个外部OCR模块对该图像文字进行处理得到的识别结果。下面参照图14和图15对此进行描述。

图14是示出根据本公开的示例性实施例的对基于上下文感知的答案修正模块360进行训练的过程的示图。图15是示出根据本公开的示例性实施例的对基于上下文感知的答案修正模块360进行训练的示意图。

如图14中所示,在步骤S1410,计算所述每个问题语句的标准答案以及所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果之间的交并比IOU。

在步骤S1420,将所述多个外部OCR模块中的每一个OCR模块对与所述每个问题相应的输入图像进行识别的识别结果(即图15中的“候选答案”)及其上下文信息(即图15中的“问题”信息、“文字”信息和“物体”信息)输入到第二多模态交互网络模块361进行融合交互。其中,上下文信息中包括的“问题”信息表示利用图3中的语言模型330对问题语句进行处理而得到的问题表征,“文字”信息表示利用图3中的OCR模块311对图像中的文字进行识别并去除“候选答案”后剩余的其它文字的相应的所述视觉增强的文字表征,“物体”信息表示与“候选答案”位置的交并比IOU大于预定阈值的物体相应的所述语义导向的物体表征。其中,第二多模态交互网络模块361是Transformer网络模型,由于本申请不对Transformer网络模型内部结构进行修改,因此,这里不对其进行详细描述。

在步骤S1430,将第二多模块交互网络模块361的与每个识别结果相应的输出向量输入到所述线性映射层362来获得每个识别结果的相关分数,其中,所述相关分数是属于区间[0,1]内的值。

在步骤S1440,利用每个识别结果的相关分数以及每个识别结果的所述交并比对第二多模态交互网络模块361的模型参数进行调整来训练第二多模态交互网络模块361。

通过以上参照图14和图15描述的过程,即可完成对基于上下文感知的答案修正模块360的训练,从而使得文本视觉问答模型能够校正不合理的OCR识别结果,增强答案的可靠性。下面将参照图16来描述应用训练好的文本视觉问答模型进行文本视觉问答的文本视觉问答方法。

图16是示出根据本公开的示例性实施例的由文本视觉问答模型实现的文本视觉问答方法的流程图,如以上参照图3所描述的,文本视觉问答模型包括文字表征获取模块310、物体表征获取模块320、预训练的语言模型330、第一多模态交互网络模块340和答案预测模块350。

如图16中所示,在步骤S1610,通过文字表征获取模块310从图像获得视觉增强的文字表征,其中,所述文字表征获取模块310包括OCR模块311和TVS模块312,其中,文本视觉问答模型共有两个输入,即,所述图像以及与所述图像对应的问题语句,其中,所述图像被分别输入到文本视觉问答模型中的文字表征获取模块310和物体表征获取模块320,所述问题语句被输入到语言模型330。下面对步骤S1610进行详细描述。

首先,通过OCR模块311从所述图像中检测包含文字的文字区域,通过OCR模块311对检测到的文字区域进行文字识别并对识别结果进行编码来获得第一语义特征,通过TVS模块312从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征,然后将第一语义特征和第二语义特征相结合来获得所述视觉增强的文字表征。这里,在文字表征获取模块310训练好后被使用时,仅使用TVS模块312中包括的文字图像矫正模块3121、编码模块3122和中间语义模块3123。

具体地讲,利用TVS模块312从检测到的文字区域提取从所述文字区域的视觉特征直接导出的第二语义特征的步骤包括:由文字图像矫正模块3121对所述文字区域进行文字矫正;由编码模块3122对文字矫正后的所述文字区域进行编码来获得所述视觉特征;由中间语义模块3123从所述视觉特征预测第二语义特征。由于该过程与以上参照图9描述的过程相同,因此,这里不再对此进行重复描述。

在步骤S1620,通过物体表征获取模块320从所述图像获得语义导向的物体表征,如图7所示,物体表征获取模块320包括卷积神经网络321、区域候选网络323、感兴趣区域特征池化模块322、物体检测头模块324和物体类别嵌入向量预测模块326。

通过物体表征获取模块320从所述图像获得所述语义导向的物体表征的步骤包括:由卷积神经网络321对从所述图像进行卷积操作来获得图像视觉特征;由区域候选网络323从所述图像视觉特征获得物体候选区域;由感兴趣区域特征池化模块322对所述物体候选区域和所述图像视觉特征进行处理来获得所述物体候选区域的视觉特征;由物体检测头模块324对所述物体候选区域的视觉特征进行处理来确定所述物体候选区域的修正后的物体区域以及所述物体区域的视觉特征和位置特征;由物体类别嵌入向量预测模块326对所述物体候选区域的视觉特征进行处理来获得物体类别嵌入向量;然后将所述物体区域的视觉特征、所述物体区域的位置特征和所述物体类别嵌入向量相结合来获得所述语义导向的物体表征。由于该过程与以上参照图10描述的过程相同,因此,这里不再对此进行重复描述。通过物体表征获取模块320从所述图像获得语义导向的物体表征,可缓解由视觉特征表示的物体模态与文字、问题模态间存在较大语义间隔的问题。

在步骤S1630,通过预训练的语言模型330从与所述图像对应的问题语句获得问题表征。这里所采用的语言模型330可以是本领域中任何可以使用的语言模型,因此,这里不对此进行限定和具体描述。

在步骤S1640,通过第一多模态交互网络模块340从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量,即,利用第一多模态交互网络模块340对所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及所述先前解码向量进行模态内和模态间交互来获得所述文字表征增强特征以及所述当前预测解码向量。由于该过程与以上参照图11描述的过程类似,因此,这里不再对此进行赘述。

在步骤S1650,通过答案预测模块350从所述文字表征增强特征以及所述当前预测解码向量获得与所述问题语句对应的预测答案,如图12中所示,答案预测模块350包括双线性交互网络351、线性分类层352和确定模块353,其中,通过答案预测模块350从所述文字表征增强特征以及所述当前预测解码向量获得所述预测答案的步骤包括:利用双线性交互网络351对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定所述预测答案是所述图像中的图像文字情况时的第一分数;利用线性分类层352对所述当前预测解码向量进行线性分类处理来确定所述预测答案是固定词典中的词典文字时的第二分数;利用确定模块353将所述图像文字和所述词典文字中的与所述第一分数和所述第二分数中的最大值相应的一个确定为所述预测答案。此外,利用双线性交互网络351对所述文字表征增强特征以及所述当前预测解码向量进行处理来确定第一分数的步骤包括:利用所述双线性交互网络351中的第一线性层对所述文字表征增强特征进行线性处理来获得第一线性处理结果;利用所述双线性交互网络351中的第二线性层对所述当前预测解码向量进行线性处理来获得第二线性处理结果;计算第一线性处理结果与第二线性处理结果之间的相似度作为所述第一分数。

此外,所示文本视觉问答方法除了包括以上步骤S1610至S1640之外,还可包括:当所述图像文字被确定为所述预测答案时,利用CRM 360对所述预测答案进行修正来获得修正后的所述预测答案。换句话说,当预测答案(即图15中的候选答案)来自于图像文字时,还可利用CRM 360对该预测答案进行修正进而获得更加准确的预测答案。

具体地讲,利用CRM 360对所述预测答案进行修正来获得修改后的所述预测答案的步骤包括:对预存储的多个外部OCR识别结果与所述预测答案进行处理来获得与所述多个外部OCR识别结果中的每一个外部OCR识别结果对应的分数值;将所述多个外部OCR识别结果中的具有最高分数值的外部OCR识别结果确定为修正后的所述预测答案。以上过程与参照图14描述的步骤S1410至S1430的内容类似,因此,这里不再对此进行重复描述。

图17是示出根据本公开的示例性实施例的文本视觉问答模型的训练装置1700的框图,如以上参照图3所描述的,文本视觉问答模型包括预训练的语言模型330、文字表征获取模块310、物体表征获取模块320、第一多模态交互网络模块340和答案预测模块350,或者,如图13中所示,文本视觉问答模型除了包括预训练的语言模型330、文字表征获取模块310、物体表征获取模块320、第一多模态交互网络模块340和答案预测模块350之外,还可包括基于上下文感知的答案修正模块(CRM)360。

如图17中所示,训练装置1700包括第一训练单元1710、第二训练单元1720和第三训练单元1730。

第一训练单元1710可被配置为通过文字表征获取模块310对第一训练数据集进行处理来获得与第一训练数据集中的图像文字区域相对应的预测的语义特征以及预测的文字识别结果,根据所述预测的语义特征以及与所述图像文字区域对应的真实语义特征计算第一损失函数,根据所述预测的文字识别结果以及与所述图像文字区域对应的真实的文字识别结果计算第二损失函数,并利用第一损失函数和第二损失函数调整文字表征获取模块310的模型参数来对文字表征获取模块310进行训练。

第二训练单元1720可被配置为通过物体表征获取模块320对第二训练数据集进行处理来获得第二训练数据集中的物体的预测的物体类别嵌入向量,根据所述预测的物体类别嵌入向量以及所述物体的真实物体类别向量计算第三损失函数,并根据第三损失函数调整物体表征获取模块320的模型参数来对物体表征获取模块320进行训练。

第三训练单元1730可被配置为通过训练后的文字表征获取模块310针对第三训练数据集获取视觉增强的文字表征,通过训练后的物体表征获取模块320针对第三训练数据集获取语义导向的物体表征,通过预训练的语言模型330针对问题语句获取问题表征,并根据所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征、以及先前解码向量对第一多模态交互网络模块340和答案预测模块350进行训练。

此外,训练装置1700还可包括第四训练单元(未示出),第四训练单元可被配置为利用第四训练数据集对基于上下文感知的答案修正模块(CRM)360进行训练,其中,第四训练数据集包括预定数据集所提供的每个问题语句的标准答案以及多个外部OCR模块的识别结果,其中,所述预定数据集包括问题语句以及与每个问题语句对应的输入图像,其中,所述多个外部OCR模块的识别结果是:在答案预测模块350针对所述每个问题语句的输出指向相应输入图像中的图像文字时,所述多个外部OCR模块对该图像文字进行处理得到的识别结果。

由于图2所示的训练方法可由图17所示的训练装置1700来执行,并且第一训练单元1710可执行与图2的步骤S2010至S2040对应的操作,第二训练单元1720可执行与图2的步骤S2050和S2060对应的操作,第三训练单元1730可执行与图2的步骤S2070和S2080对应的操作,此外,图2中的训练方法所包括的(图2中未示出的)利用第四训练数据集对CRM 360进行训练的操作可由训练装置1700中的第四训练单元来执行,因此,关于训练装置1700的各个单元或模块所执行的操作中涉及的任何相关细节均可参见关于图2的相应描述,这里都不再赘述。

图18是示出根据本公开的示例性实施例的由文本视觉问答模型实现的文本视觉问答装置1800的框图,其中,如以上参照图3所描述的,文本视觉问答模型包括预训练的语言模型330、文字表征获取模块310、物体表征获取模块320、第一多模态交互网络模块340和答案预测模块350,或者,如图13中所示,文本视觉问答模型除了包括预训练的语言模型330、文字表征获取模块310、物体表征获取模块320、第一多模态交互网络模块340和答案预测模块350之外,还可包括基于上下文感知的答案修正模块(CRM)360。

如图18中所示,文本视觉问答装置1800可包括文字表征获取单元1810、物体表征获取单元1820、问题表征获取单元1830、第一多模态交互网络单元1840和答案预测单元1850。

文字表征获取单元1810可被配置为通过文字表征获取模块310从图像获得视觉增强的文字表征。物体表征获取单元1820可被配置为通过物体表征获取模块320从所述图像获得语义导向的物体表征。问题表征获取单元1830可被配置为通过预训练的语言模型330从与所述图像对应的问题语句获得问题表征。第一多模态交互网络单元1840可被配置为通过第一多模态交互网络模块340从所述视觉增强的文字表征、所述语义导向的物体表征、所述问题表征以及先前解码向量获得与所述视觉增强的文字表征对应的文字表征增强特征和与所述先前解码向量对应的当前预测解码向量。答案预测单元1820被配置为通过答案预测模块350从所述文字表征增强特征以及所述当前预测解码向量获得与所述问题语句对应的预测答案。

此外,文本视觉问答装置1800还可包括基于上下文感知的答案修正单元(未示出),基于上下文感知的答案修正单元可被配置为当所述图像文字被确定为所述预测答案时,对所述预测答案进行修正获得修正后的所述预测答案。

由于图16的文本视觉问答方法可由图18所示的文本视觉问答装置1800来执行,并且文字表征获取单元1810、物体表征获取单元1820、问题表征获取单元1830、第一多模态交互网络单元1840和答案预测单元1850可分别执行与图16中的步骤S1610、S1620、S1630、S1640和S1650对应的操作。此外,图16中所包括的(图16中未示出的)在所述图像文字被确定为所述预测答案时利用CRM 360对所述预测答案进行修正来获得修正后的所述预测答案的操作可由文本视觉问答装置1800中的基于上下文感知的答案修正单元来执行,因此,关于文本视觉问答装置1800中的各个单元或模块所执行的操作中涉及的任何相关细节均可参见关于图16的相应描述,这里都不再赘述。

此外,需要说明,尽管以上在描述训练装置1700和文本视觉问答装置1800时将其划分为用于分别执行相应处理的单元,然而,本领域技术人员清楚的是,上述各单元执行的处理也可以在训练装置1700和文本视觉问答装置1800不进行任何具体单元划分或者各单元之间并无明确划界的情况下执行。此外,训练装置1700和文本视觉问答装置1800还可包括通信单元(未示出)、音频播放单元(未示出)、处理单元(未示出)和存储单元(未示出),等等。

图19示出了本发明的实验验证结果。

在针对本发明提出的文本视觉问答方法和文本视觉问答装置进行实验时可采用TextVQA数据集,其中,TextVQA数据集包括28408张图像以及45336个问题。在进行实验时采用的验证集和测试集分别是从TextVQA数据集中随机选择的部分数据集。在进行实验时,对4种结果模型进行比较,第一种基准模型(即没有采用本发明提出的任何技术的模型,例如M4C模型),第二种模型是在M4C的基础上融入本发明的获得视觉增强的文字表征的技术(TVS)而得到的模型(即M4C+TVS),第三种是在M4C的基础上融入本发明的获得语义导向的物体表征的技术(SEO)而得到的模型(即M4C+SEO),第四种是在M4C的基础上融入本发明的TVS、SEO、以及对基于上下文感知的答案修正模块(CRM)而得到的模型(即M4C+TVS+SEO+CRM)。

如图19中所示,表1展示了本发明在TextVQA数据集上的消融实验,结果表明本发明提出的文本视觉问答方法和文本视觉问答装置中的TVS、SEO和CRM中的每一个部分都可以带来明显的提升。

图20示出了本发明与多种现有基准方法的实验比较结果。

图20中的表2展示了本发明和多种现有方法在两个数据集TextVQA和ST-VQA上的效果对比,其中,ST-VQA数据集包括23038张图像和31791个问题。另外,TextVQA验证集和TextVQA测试集分别是从TextVQA数据集中随机选择的两个部分数据集,ST-VQA验证集是从ST-VQA数据集中随机选择的部分数据集。本发明在多个数据集上达到非常好的性能,证明了本发明的优越性。

图21示出了本发明与多种现有基准方法的定性实验结果,从中可以发现本发明对文字识别结果更鲁棒,答案预测更准确完整。

图22是示出根据本公开实施例实施例的电子设备2200的框图。参照图22,电子设备2100可包括至少一个存储器2210和至少一个处理器2220,所述至少一个存储器2210中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器2220执行时,执行根据本公开实施例的训练方法或文本视觉问答方法。

作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。

在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。

存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储器中的文件。

此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开示例性实施例的训练方法或文本视觉问答方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中,还可提供一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现根据本公开示例性实施例的训练方法或文本视觉问答方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术分类

06120113678351