基于上下文级联感知的社交网络跨模态对话方法及装置

文献发布时间：2023-06-19 13:29:16

技术领域

本发明涉及社交网络领域，尤其涉及一种基于上下文级联感知的社交网络跨模态对话方法及装置。

背景技术

视觉对话系统作为一种智能人机交互的重要方式，受到了越来越多的关注。在视觉对话系统中，用户可以向聊天机器人发送图片，并基于图片内容与聊天机器人展开多轮“提问-回答”的对话，起到信息交流和问题解答的作用。视觉对话系统在传统对话系统的基础之上，引入了丰富的图像信息，从而能够更广泛地应用到社交网络等包含多元信息的复杂场景中。

然而，在现有的视觉对话系统中还存在着以下问题：大多数视觉对话系统中往往只关注了图片内容的整体或部分显著区域信息，忽略了对图像不同内容之间的上下文语义关联，从而不能在多轮对话中结构化地理解并关注到多个图像内容的关系。

事实上，用户在多轮视觉问答中会更倾向于根据图像内容的上下文信息进行提问，因此在视觉对话系统中对图像内容进行结构化表征和理解是值得研究的。

发明内容

本发明提供了一种基于上下文级联感知的社交网络跨模态对话方法及装置，本发明对图像内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确度，提高了关于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性，详见下文描述：

第一方面，一种基于上下文级联感知的社交网络跨模态对话方法，所述方法包括以下步骤：

利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；

基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；

将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；

选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出。

在一种实施方式中，所述利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示具体为：

构建一方向性敏感的图卷积网络，以节点连续向量表示

所述图卷积网络针对两种边方向分别使用不同的融合矩阵对节点o

在一种实施方式中，所述基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新具体为：

线性级联当前问询和图像描述的句子级特征向量表示、历史问答对信息的特征向量表示为统一向量，通过矩阵分解双线性池化实现统一向量与图卷积网络编码的视觉特征的跨模态融合；

依据融合表示使用软注意力机制对图卷积网络编码的视觉特征中的所有节点特征进行注意力加权更新，得到包含注意力的图像语义上下文感知的视觉特征表示。

优选地，所述将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布具体为：

使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算，经 softmax函数获取初步的各候选答案的输出概率分布。

其中，所述选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出具体为：

依据初步的输出概率分布，从原始答案集中选取出概率值较大的候选答案项组成新的候选集，将新候选集中每一个答案序列与当前问询相结合，在辅助信息图像描述语句、历史对话信息的共同作用下，对图像语义上下文感知的视觉特征进行新的注意力计算；

对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和，获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示；

将候选答案-当前问询对的句子级特征向量、辅助信息特征向量表示以及新视觉特征表示级联作为多层感知机的输入进行二次分类，获取最终的输出概率分布。

第二方面，一种基于上下文级联感知的社交网络跨模态对话装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统，对视觉内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确率；

2、本发明提高了基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。

附图说明

图1为一种基于上下文级联感知的社交网络跨模态对话方法的流程图；

图2为一种基于上下文级联感知的社交网络跨模态对话方法的框架图；

图3为一种基于上下文级联感知的社交网络跨模态对话装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

为了解决背景技术中存在的问题，本发明实施例开发了既能视觉问题回答又能视觉问题产生的对话系统，通过构建视觉内容的结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，更好地实现准确且多样化的问题回答及新问题预测，提高基于视觉内容的跨模态自动对话方法在复杂社交网络中应用的可行性。

实施例1

一种基于上下文级联感知的社交网络跨模态对话方法，参见图1和图2，该方法包括以下步骤：

步骤101：检测图像中的视觉实体与视觉关系，构建图像对应的视觉结构化表征；

步骤102：利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；

步骤103：基于长短时记忆网络，编码问询信息与已知辅助信息(图像描述语句、历史对话信息)为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；

步骤104：将所得文本特征、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；

步骤105：选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对其进行再排序，获取最终概率值最大的目标答案的语句输出。

综上所述，本发明实施例通过上述步骤101-步骤105实现了既能视觉问题回答又能视觉问题产生的跨模态对话系统，对视觉内容进行结构化表征，将对话过程中的消息传递建模为对视觉结构化表征进行传递的过程，提高视觉问答的准确率。

实施例2

下面结合具体的计算公式、图1和图2，实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：已知视觉图像，利用目标检测器提取图像中的实体信息，利用关系分类器提取实体之间的复杂关系语义信息；将实体作为节点，关系作为连接成对实体节点的有向边，构建视觉结构化表征图

具体地，给定图像I，使用FasterR-CNN

为了构造结构化表征图

202：在获取图像的视觉结构化表征

具体地，已知各节点的独热编码标签

其中，W

进一步地，本发明实施例提出了一种方向性敏感的图卷积网络，以节点连续向量表示

由于在视觉结构化表征图

其中，N(o

203：图像、问题和相应的答案是视觉对话的三个重要组成部分，本发明旨在通过集成图像、问询信息与已知辅助信息(图像描述语句、历史对话信息)来从多个候选项中搜索最匹配的答案。

具体地，定义输入的文本信息集(C,H

其中，C为图像描述语句；

首先，利用长短时记忆网络

式中，E

对于历史信息H

式中，

进一步地，线性级联V

式中，U、W为可学习的参数矩阵；T、

式中，ω

204：将候选答案集

式中，

使用多层感知机(MLP)构建的神经网络分类器将

式中，[；]表示向量的拼接即级联操作；softmax为归一化指数函数；

205：依据初步预测的输出概率分布

将

式中，

式中，i

实施例3

一种基于上下文级联感知的社交网络跨模态对话装置，参见图3，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

利用深度图卷积网络对视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示；

基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新；

将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布；

选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出。

在一种实施方式中，利用深度图卷积网络对所述视觉结构化表征中的各语义单元特征进行聚合与更新，获取上下文感知的视觉特征表示具体为：

构建一方向性敏感的图卷积网络，以节点连续向量表示

图卷积网络针对两种边方向分别使用不同的融合矩阵对节点o

在一种实施方式中，基于长短时记忆网络，编码问询信息与已知辅助信息为相应的文本特征表示，用于引导上下文感知的视觉特征的注意力加权更新具体为：

优选地，将所得文本特征表示、注意力加权后的视觉特征与各候选输出答案项进行联合特征融合和相关性计算，获取初步的各候选答案的输出概率分布具体为：

使用多层感知机构建的神经网络分类器将候选答案序列特征向量表示与包含问询及辅助信息的文本特征、注意力加权后的图像视觉特征进行联合特征融合和相关性计算，经softmax函数获取初步的各候选答案的输出概率分布。

其中，选取正确概率高的答案，在问询及辅助信息文本特征和图像视觉特征的协同作用下对答案进行再排序，获取最终概率值最大的目标答案的语句输出具体为：

对图卷积网络编码的视觉特征中所有节点特征进行注意力加权求和，获取针对候选答案-当前问询对的注意力细化之后的新视觉特征表示；

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献：

[1]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time objectdetection with region proposal networks[C]//Advances in neural informationprocessing systems.2015:91-99.

[2]Zellers R,Yatskar M,Thomson S,et al.Neural motifs:Scene graphparsing with global context[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. 2018:5831-5840.

[3]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8): 1735-1780.

[4]Yu Z,Yu J,Fan J,et al.Multi-modal factorized bilinear pooling withco-attention learning for visual question answering[C]//Proceedings of theIEEE International Conference on Computer Vision.2017:1839-1848.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：聂为之;李杰思;徐宁;刘安安;张勇东;
专利申请人：天津大学;

上一篇：密封接插件结构、车载控制器及其冷却控制方法和装置
下一篇：一种立罐设备卧进侧装后翻身的安装工艺