掌桥专利:专业的专利平台
掌桥专利
首页

基于图像的实体关系标注模型处理方法及其相关设备

文献发布时间:2023-06-19 19:18:24


基于图像的实体关系标注模型处理方法及其相关设备

技术领域

本申请涉及人工智能技术领域,尤其涉及一种基于图像的实体关系标注模型处理方法、装置、计算机设备及存储介质。

背景技术

图像作为一种信息载体,蕴含的信息更丰富,使用也很便捷。随着计算机技术的发展,可以借助计算机视觉算法从图像中获取内容信息。除了从图像中获取内容信息,人们希望进一步挖掘图像内容中的关系信息。例如,从图像中识别实体,并获取到实体所蕴含的信息、属性以及实体之间的关系。然而,当前的实体关系标注主要实现在文本场景,无法直接在图像场景中实现。

发明内容

本申请实施例的目的在于提出一种基于图像的实体关系标注模型处理方法、装置、计算机设备及存储介质,以实现图像中的实体关系标注。

为了解决上述技术问题,本申请实施例提供一种基于图像的实体关系标注模型处理方法,采用了如下所述的技术方案:

获取带有实体标注信息的训练图像,所述实体标注信息包括所述训练图像中各实体的文本信息和关系信息,所述文本信息包括所述各实体的文本备注值和坐标信息,所述关系信息包括所述各实体间的实体关系以及关联关系;

根据所述文本信息生成所述各实体的文本复合向量,并生成所述训练图像的初始复合向量;

将所述文本复合向量、所述训练图像和所述初始复合向量输入初始实体关系标注模型,以通过所述初始实体关系标注模型中的卷积网络对所述训练图像进行分离卷积处理,得到卷积特征向量;

合并所述初始复合向量和所述卷积特征向量得到图像复合向量;

将所述文本复合向量和所述图像复合向量输入所述初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息;

根据所述关系信息和所述实体关系预测信息计算模型损失,以根据所述模型损失对所述初始实体关系标注模型进行参数调整,直至所述模型损失满足训练停止条件,得到实体关系标注模型;

获取待标注图像,并将所述待标注图像输入所述实体关系标注模型,得到实体关系信息。

为了解决上述技术问题,本申请实施例还提供一种基于图像的实体关系标注模型处理装置,采用了如下所述的技术方案:

图像获取模块,用于获取带有实体标注信息的训练图像,所述实体标注信息包括所述训练图像中各实体的文本信息和关系信息,所述文本信息包括所述各实体的文本备注值和坐标信息,所述关系信息包括所述各实体间的实体关系以及关联关系;

向量生成模块,用于根据所述文本信息生成所述各实体的文本复合向量,并生成所述训练图像的初始复合向量;

卷积处理模块,用于将所述文本复合向量、所述训练图像和所述初始复合向量输入初始实体关系标注模型,以通过所述初始实体关系标注模型中的卷积网络对所述训练图像进行分离卷积处理,得到卷积特征向量;

向量合并模块,用于合并所述初始复合向量和所述卷积特征向量得到图像复合向量;

向量输入模块,用于将所述文本复合向量和所述图像复合向量输入所述初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息;

模型调整模块,用于根据所述关系信息和所述实体关系预测信息计算模型损失,以根据所述模型损失对所述初始实体关系标注模型进行参数调整,直至所述模型损失满足训练停止条件,得到实体关系标注模型;

图像标注模块,用于获取待标注图像,并将所述待标注图像输入所述实体关系标注模型,得到实体关系信息。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

获取带有实体标注信息的训练图像,所述实体标注信息包括所述训练图像中各实体的文本信息和关系信息,所述文本信息包括所述各实体的文本备注值和坐标信息,所述关系信息包括所述各实体间的实体关系以及关联关系;

根据所述文本信息生成所述各实体的文本复合向量,并生成所述训练图像的初始复合向量;

将所述文本复合向量、所述训练图像和所述初始复合向量输入初始实体关系标注模型,以通过所述初始实体关系标注模型中的卷积网络对所述训练图像进行分离卷积处理,得到卷积特征向量;

合并所述初始复合向量和所述卷积特征向量得到图像复合向量;

将所述文本复合向量和所述图像复合向量输入所述初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息;

根据所述关系信息和所述实体关系预测信息计算模型损失,以根据所述模型损失对所述初始实体关系标注模型进行参数调整,直至所述模型损失满足训练停止条件,得到实体关系标注模型;

获取待标注图像,并将所述待标注图像输入所述实体关系标注模型,得到实体关系信息。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

获取带有实体标注信息的训练图像,所述实体标注信息包括所述训练图像中各实体的文本信息和关系信息,所述文本信息包括所述各实体的文本备注值和坐标信息,所述关系信息包括所述各实体间的实体关系以及关联关系;

根据所述文本信息生成所述各实体的文本复合向量,并生成所述训练图像的初始复合向量;

将所述文本复合向量、所述训练图像和所述初始复合向量输入初始实体关系标注模型,以通过所述初始实体关系标注模型中的卷积网络对所述训练图像进行分离卷积处理,得到卷积特征向量;

合并所述初始复合向量和所述卷积特征向量得到图像复合向量;

将所述文本复合向量和所述图像复合向量输入所述初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息;

根据所述关系信息和所述实体关系预测信息计算模型损失,以根据所述模型损失对所述初始实体关系标注模型进行参数调整,直至所述模型损失满足训练停止条件,得到实体关系标注模型;

获取待标注图像,并将所述待标注图像输入所述实体关系标注模型,得到实体关系信息。

与现有技术相比,本申请实施例主要有以下有益效果:获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系;根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量;将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,初始实体关系标注模型包括卷积网络和实体关系标注网络;卷积网络对训练图像进行分离卷积处理得到作为补充特征的卷积特征向量,分离卷积可以降低计算量并减少参数,卷积网络的归纳偏置可以减少需要的样本,提高训练效率;合并初始复合向量和卷积特征向量得到图像复合向量,将文本复合向量和图像复合向量输入实体关系标注网络,得到实体关系预测信息;根据关系信息和实体关系预测信息计算模型损失,以对模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型;获取待标注图像,将待标注图像输入实体关系标注模型即可得到实体关系信息,从而实现了图像中实体的自动识别以及实体关系的自动标注。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的基于图像的实体关系标注模型处理方法的一个实施例的流程图;

图3是根据本申请的基于图像的实体关系标注模型处理装置的一个实施例的结构示意图;

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的基于图像的实体关系标注模型处理方法一般由服务器执行,相应地,基于图像的实体关系标注模型处理装置一般设置于服务器中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的基于图像的实体关系标注模型处理方法的一个实施例的流程图。所述的基于图像的实体关系标注模型处理方法,包括以下步骤:

步骤S201,获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系。

在本实施例中,基于图像的实体关系标注模型处理方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地,首先获取带有实体标注信息的训练图像。实体标注信息相当于训练图像的标签,本申请通过实体关系标注模型识别图像中的实体,并标注实体之间的关系,因此实体标注信息包含训练图像中各实体的文本信息和关系信息。

其中,文本信息包括各实体的文本备注值和坐标信息,文本备注值是文本,它是实体的字符表示;实体处于训练图像的某个区域内,这个区域具有坐标信息。例如,在医疗收费票据的图像中,有“个人支付金额”和“4180”两个实体,需要给图像添加文本形式的“个人支付金额”和“4180”两组文本备注值,并选中这两个实体所在的图像区域,根据选中的图像区域分别得到“个人支付金额”和“4180”的坐标信息。

图像中可以有多个实体,实体之间具有关联关系,存在关联关系的两个实体是相关的,相关的两个实体具有相互的实体关系,关联关系和实体关系构成了实体间的关系信息。例如,在医疗收费票据的图像中,有“玖仟陆佰捌拾伍元”和“9685”两个实体,它们存在关联关系,在该关联关系中,“玖仟陆佰捌拾伍元”为大写表示,“9685”为小写表示,则需要给这两个实体添加关联关系,并备注“玖仟陆佰捌拾伍元”的实体关系为“大写”,“9685”的实体关系为“小写”。

需要强调的是,为进一步保证上述训练图像的私密和安全性,上述训练图像还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202,根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量。

具体地,需要将实体的相关信息和训练图像分别转换为向量,由于实体的文本信息包括实体的文本备注值和坐标信息,文本备注值和坐标信息都要转换为向量,实体的相关信息转换为向量后是复合了文本备注值和坐标信息的,因此得到文本复合向量。

在将训练图像转换为向量时,需要先将训练图像切割为多个图像块,图像块相较于原始的训练图像具有位置信息,因此,将训练图像转换得到的向量除了训练图像的图像特征信息,也包括位置信息,因此得到初始复合向量。

步骤S203,将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,以通过初始实体关系标注模型中的卷积网络对训练图像进行分离卷积处理,得到卷积特征向量。

具体地,本申请通过实体关系标注模型实现实体关系标注,初始实体关系标注模型可以是尚未完成训练的实体关系标注模型。初始实体关系标注模型/实体关系标注模型可以包括卷积网络和实体关系标注网络两部分。

将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型后,首先将训练图像输入卷积网络(Convolutional Neural Networks,CNN,即卷积神经网络)。卷积网络对训练图像进行分离卷积处理,得到卷积特征向量。分离卷积相较于普通的卷积,可以降低计算量和参数,有利于保持模型的轻量性。同时,卷积网络CNN具有归纳偏置的特性,归纳偏置就是先验知识、提前做好的假设,比如,图像中相邻的区域具有相似的特征,平移不变性;有了先验信息,根据相对少的样本就可以学习到一个比较好的模型,图像中一些实体间的关系属于平移不变性,而它们的位置和形状可能会发生一定的变化,卷积网络可以弥补这一缺点。同时,卷积网络输出的卷积特征向量可以作为训练图像的补充特征,相当于从训练图像中提取到更多信息。步骤S204,合并初始复合向量和卷积特征向量得到图像复合向量。

具体地,卷积特征向量可以作为训练图像的补充特征,将卷积特征向量与初始复合向量进行合并(concat),可以得到训练图像的图像复合向量。

步骤S205,将文本复合向量和图像复合向量输入初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息。

具体地,将文本复合向量和图像复合向量输入到初始实体关系标注模型中的实体关系标注网络,实体关系标注网络对文本复合向量和图像复合向量进行处理,输出实体关系预测信息,即实体关系标注网络预测的训练图像中包含的实体间的实体关系以及关联关系。

在一个实施例中,实体关系预测信息还可以包括实体关系标注网络预测的训练图像中各实体的文本备注值和坐标信息。

步骤S206,根据关系信息和实体关系预测信息计算模型损失,以根据模型损失对初始实体关系标注模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型。

具体地,根据实体标注信息中的关系信息和实体关系预测信息计算模型损失;当实体关系预测信息包含文本信息,即各实体的文本备注值和坐标信息时,需要根据实体标注信息中的文本信息和实体关系预测信息中的文本信息、实体标注信息中的关系信息和实体关系预测信息中的关系信息一起计算模型损失。

在得到模型损失后,以最小化模型损失为目标调整初始实体关系标注模型的模型参数,并在参数调整后对初始实体关系标注模型进行迭代训练,直至得到的模型损失满足训练停止条件(例如可以是模型损失收敛,或者模型损失小于预设的损失阈值),则停止训练,得到实体关系标注模型。

步骤S207,获取待标注图像,并将待标注图像输入实体关系标注模型,得到实体关系信息。

具体地,在应用时,获取待标注图像,将待标注图像输入训练完毕的实体关系标注模型,得到实体关系标注模型输出的实体关系信息。实体关系信息可以包括待标注图像中各实体间的关系信息(即各实体间的实体关系和关联关系),还可以包括待标注图像中各实体的文本信息(各实体的文本备注值和坐标信息),从而实现图像中实体的自动识别以及实体关系的自动标注。

本实施例中,获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系;根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量;将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,初始实体关系标注模型包括卷积网络和实体关系标注网络;卷积网络对训练图像进行分离卷积处理得到作为补充特征的卷积特征向量,分离卷积可以降低计算量并减少参数,卷积网络的归纳偏置可以减少需要的样本,提高训练效率;合并初始复合向量和卷积特征向量得到图像复合向量,将文本复合向量和图像复合向量输入实体关系标注网络,得到实体关系预测信息;根据关系信息和实体关系预测信息计算模型损失,以对模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型;获取待标注图像,将待标注图像输入实体关系标注模型即可得到实体关系信息,从而实现了图像中实体的自动识别以及实体关系的自动标注。

进一步的,上述步骤S201之前,还可以包括:获取带有实体标注信息的初始训练图像;对初始训练图像进行图像增强处理,得到已增强图像;根据图像增强处理,获取已增强图像的实体标注信息,以得到训练图像。

具体地,获取带有实体标注信息的初始训练图像,初始训练图像的实体标注信息与上文中提到的实体标注信息的内含相同。为了减少训练所需的样本数量,以及标注消耗的人力成本,根据预设的图像增强方式对初始训练图像进行图像增强处理,包括旋转处理、模糊处理、亮度调整等,得到初始训练图像的多个已增强图像。可以理解,初始训练图像可以仅根据一种图像增强方式进行图像增强处理,也可以叠加多种图像增强处理。初始训练图像本身也可以作为已增强图像。

在对初始训练图像进行图像增强处理后,得到的已增强图像的实体标注信息可能不同于初始训练图像的实体标注信息,例如,进行旋转处理后,实体的位置信息可能发生变化,需要根据进行的图像增强处理对初始训练图像的实体标注信息进行调整,得到各已增强图像的实体标注信息,从而得到准确的训练图像。

本实施例中,对初始训练图像进行图像增强处理以扩充样本,并根据图像增强处理对初始训练图像的实体标注信息进行调整得到已增强图像的实体标注信息,从而得到大量训练图像,增加了样本的多样本,提高了模型的适应性和鲁棒性。

进一步的,上述根据文本信息生成各实体的文本复合向量的步骤可以包括:将文本信息中各实体的文本备注值分别转化为词向量;根据各实体的文本备注值分别生成各实体的一维位置向量,并根据各实体的坐标信息分别生成各实体的二维位置向量;根据各实体分别对应的词向量、一维位置向量和二维位置向量,生成各实体的文本复合向量。

具体地,从文本信息中获取各实体的文本备注值,将文本备注值转化为词向量;各实体的文本备注值组成训练图像所对应的文本,基于该文本可以得到各实体的一维位置向量。实体的坐标信息反应实体在训练图像中的位置,可以体现训练图像的布局信息,基于实体的坐标信息可以生成实体的二维位置向量。将每个实体的词向量、一维位置向量和二维位置向量相加可以得到每个实体的文本复合向量。

在一个实施例中,词向量可以由经过预训练的Roberta模型生成,一维位置向量和二维位置向量也可以由经过预训练的Roberta模型生成。生成词向量、一维位置向量和二维位置向量的Roberta模型可以是同一个模型,也可以是不同的模型。

本实施例中,实体的文本复合向量由实体的词向量、一维位置向量和二维位置向量相加得到,考虑了实体本身的文本语义、实体在文本中的位置和实体在训练图像中的位置,使得文本复合向量可以对实体进行准确的综合表征。

进一步的,上述生成训练图像的初始复合向量的步骤可以包括:将训练图像调整至预设大小,并根据预设的切割方式对大小调整后的训练图像进行切割,得到若干个图像块;生成训练图像的一维位置向量,并分别生成每个图像块的图像特征;根据一维位置向量和各图像块的图像特征,生成训练图像的初始复合向量。

具体地,将训练图像的大小进行调整,缩放至预设大小,然后根据预设的切割方式对大小调整后的训练图像进行切割,得到若干个图像块,各图像块的大小可以相同,例如,将训练图像切割成3*3个16*16的图像块。

根据预设的顺序,例如图像块在训练图像中的位置,将各图像块排列成一行,以生成训练图像的一维位置向量,该一维位置向量是可学习的一维位置向量。然后对每个图像块进行线性映射转换得到图像特征。各图像特征加上一维位置向量可以得到训练图像的初始复合向量。

本实施例中,排列各图像块得到训练图像的一维位置向量,加上各图像块的图像特征得到初始复合向量,既考虑了位置信息,又考虑了训练图像的图像特征,确保了初始复合向量的准确性。

进一步的,上述将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型的步骤之前,还可以包括:获取初始实体关系标注网络,其中,初始实体关系标注网络基于layoutLMv3网络构建;根据预设的预训练任务对初始实体关系标注网络进行预训练,得到实体关系标注网络,其中,预设的预训练任务包括掩码语言建模任务、掩码图像建模任务和词块对齐任务。

具体地,初始实体关系标注模型中具有实体关系标注网络,该网络需要预先进行预训练。初始实体关系标注网络可以基于layoutLMv3网络构建,它是多模态transformer架构,以统一的方式将文本和图像结合起来。它将图像分割为图像块,然后表示为线性投影,将线性投影与文本标记对齐,可以减少所需的参数和整体计算量。

layoutLMv3网络对训练和图像处理进行了重新设计,不再有视觉模型,转而采用VIT代替,减少了模型参数。LayoutLMv3直接利用图像的图像块,大大节省了参数并避免了复杂的文本预处理(如人工标注目标区域框和文本目标检测)。简单的统一架构和训练目标使LayoutLMv3成为通用的预训练模型,可适用于以文本为中心和以图像为中心的文档任务。

根据预设的预训练任务对初始实体关系标注网络进行预训练,以自监督的方式学习多模态特征表示,得到实体关系标注网络,预设的预训练任务包括掩码语言建模任务、掩码图像建模任务和词块对齐任务。

其中,掩码语言建模(Masked Language Modeling,MLM)为了利于网络学习布局信息与文本和图像之间的对应关系,该任务随机遮盖一定比例的文本词向量,但保留对应的二维位置(布局)信息。类似BERT和LayoutLM,模型目标是根据未被遮盖的图文和布局信息还原文本中被遮盖的词。

掩码图像建模(Masked Image Modeling,MIM)。为了鼓励模型从文本和图像的上下文信息推测图像信息,该任务随机遮盖了一定比例的图像块。类似BEiT,模型目标是根据未被遮盖的文本和图像的信息还原被遮盖的图像块经过离散化的ID。

词块对齐(Word-Patch Alignment,WPA)。对于文本来说,每个文本词都对应着一个图像块。由于前两个任务随机遮盖了部分文本词和图像块,模型无法显式地学习这种文本词和图像块之间的细粒度对齐关系。该目标通过显式地预测一个文本词的对应图像块是否被掩盖来学习语言和视觉模态之间的细粒度对齐关系。

本申请中,卷积网络CNN具有归纳偏置的特性,layoutLMv3网络中的Transformer具有很强全局归纳建模能力;增加卷积网络CNN之后,突破transformer缺少归纳偏置的限制,可以在下游任务中获得较好的迁移效果,大幅度地增加模型在小样本学习任务上的能力,在小样本的场景下让Transformer摆脱了在大样本大数据上面的依赖,降低了训练所需的样本量,提高了训练效率。

本实施例中,根据掩码语言建模任务、掩码图像建模任务和词块对齐任务对初始实体关系标注网络进行预训练,确保了得到的实体关系标注网络可以进行实体关系标注。

进一步的,上述步骤S206之后,还可以包括:根据实体关系信息对待标注图像进行图像检测,得到图像检测结果;根据图像检测结果对待标注图像进行业务处理。

具体地,在得到实体关系信息后,可以根据实体关系信息对待标注图像进行图像检测,这里的图像检测可以是根据待标注图像的图像类型,对待标注图像进行业务审核,例如检测图像中是否缺失特定类型的实体,实体是否出现错误,在医疗收费票据的图像中,如果没有个人支付费用的文本备注值,即没有记录具体的个人支付费用数值,则医疗收费票据可能存在错误;如果两个表示金额的实体存在关联关系,其中一个是大写,另一个是小写,但是它们文本备注值对应的金额值不相等,则医疗收费票据可能存在错误。

图像检测后得到图像检测结果,图像检测结果可以显示待标注图像是否通过检测,如果没通过检测,则记录哪些实体出现错误。根据图像检测结果可以对待标注图像进行业务处理,例如,当图像检测结果表示待标注图像通过检测,则进行下一流程节点的业务处理,比如医疗收费票据的图像通过检测后,进入报销流程;如果待标注图像没有通过检测,则生成错误提示,将待标注图像返回至上一个流程节点。

本实施例中,根据实体关系信息对待标注图像进行图像检测,得到图像检测结果,根据图像检测结果对待标注图像进行业务处理,进入下一流程节点或者返回至上一流程节点,实现了业务的自动处理,提高了业务处理效率。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请可应用于智慧医疗领域中,从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于图像的实体关系标注模型处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图3所示,本实施例所述的基于图像的实体关系标注模型处理装置300包括:图像获取模块301、向量生成模块302、卷积处理模块303、向量合并模块304、向量输入模块305、模型调整模块306以及图像标注模块307,其中:

图像获取模块301,用于获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系。

向量生成模块302,用于根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量。

卷积处理模块303,用于将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,以通过初始实体关系标注模型中的卷积网络对训练图像进行分离卷积处理,得到卷积特征向量。

向量合并模块304,用于合并初始复合向量和卷积特征向量得到图像复合向量。

向量输入模块305,用于将文本复合向量和图像复合向量输入初始实体关系标注模型中的实体关系标注网络,得到实体关系预测信息。

模型调整模块306,用于根据关系信息和实体关系预测信息计算模型损失,以根据模型损失对初始实体关系标注模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型。

图像标注模块307,用于获取待标注图像,并将待标注图像输入实体关系标注模型,得到实体关系信息。

本实施例中,获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系;根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量;将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,初始实体关系标注模型包括卷积网络和实体关系标注网络;卷积网络对训练图像进行分离卷积处理得到作为补充特征的卷积特征向量,分离卷积可以降低计算量并减少参数,卷积网络的归纳偏置可以减少需要的样本,提高训练效率;合并初始复合向量和卷积特征向量得到图像复合向量,将文本复合向量和图像复合向量输入实体关系标注网络,得到实体关系预测信息;根据关系信息和实体关系预测信息计算模型损失,以对模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型;获取待标注图像,将待标注图像输入实体关系标注模型即可得到实体关系信息,从而实现了图像中实体的自动识别以及实体关系的自动标注。

在本实施例的一些可选的实现方式中,基于图像的实体关系标注模型处理装置300还可以包括:初始获取模块、图像增强模块以及图像生成模块,其中:

初始获取模块,用于获取带有实体标注信息的初始训练图像。

图像增强模块,用于对初始训练图像进行图像增强处理,得到已增强图像。

图像生成模块,用于根据图像增强处理,获取已增强图像的实体标注信息,以得到训练图像。

本实施例中,对初始训练图像进行图像增强处理以扩充样本,并根据图像增强处理对初始训练图像的实体标注信息进行调整得到已增强图像的实体标注信息,从而得到大量训练图像,增加了样本的多样本,提高了模型的适应性和鲁棒性。

在本实施例的一些可选的实现方式中,向量生成模块302可以包括:文本转化子模块、向量生成子模块以及复合生成子模块,其中:

文本转化子模块,用于将文本信息中各实体的文本备注值分别转化为词向量。

向量生成子模块,用于根据各实体的文本备注值分别生成各实体的一维位置向量,并根据各实体的坐标信息分别生成各实体的二维位置向量。

复合生成子模块,用于根据各实体分别对应的词向量、一维位置向量和二维位置向量,生成各实体的文本复合向量。

本实施例中,实体的文本复合向量由实体的词向量、一维位置向量和二维位置向量相加得到,考虑了实体本身的文本语义、实体在文本中的位置和实体在训练图像中的位置,使得文本复合向量可以对实体进行准确的综合表征。

在本实施例的一些可选的实现方式中,向量生成模块302还可以包括:图像调整子模块、生成子模块以及初始生成子模块,其中:

图像调整子模块,用于将训练图像调整至预设大小,并根据预设的切割方式对大小调整后的训练图像进行切割,得到若干个图像块。

生成子模块,用于生成训练图像的一维位置向量,并分别生成每个图像块的图像特征。

初始生成子模块,用于根据一维位置向量和各图像块的图像特征,生成训练图像的初始复合向量。

本实施例中,排列各图像块得到训练图像的一维位置向量,加上各图像块的图像特征得到初始复合向量,既考虑了位置信息,又考虑了训练图像的图像特征,确保了初始复合向量的准确性。

在本实施例的一些可选的实现方式中,基于图像的实体关系标注模型处理装置300还可以包括:网络获取模块以及预训练模块,其中:

网络获取模块,用于获取初始实体关系标注网络,其中,初始实体关系标注网络基于layoutLMv3网络构建。

预训练模块,用于根据预设的预训练任务对初始实体关系标注网络进行预训练,得到实体关系标注网络,其中,预设的预训练任务包括掩码语言建模任务、掩码图像建模任务和词块对齐任务。

本实施例中,根据掩码语言建模任务、掩码图像建模任务和词块对齐任务对初始实体关系标注网络进行预训练,确保了得到的实体关系标注网络可以进行实体关系标注。

在本实施例的一些可选的实现方式中,基于图像的实体关系标注模型处理装置300还可以包括:图像检测模块以及业务处理模块,其中:

图像检测模块,用于根据实体关系信息对待标注图像进行图像检测,得到图像检测结果。

业务处理模块,用于根据图像检测结果对待标注图像进行业务处理。

本实施例中,根据实体关系信息对待标注图像进行图像检测,得到图像检测结果,根据图像检测结果对待标注图像进行业务处理,进入下一流程节点或者返回至上一流程节点,实现了业务的自动处理,提高了业务处理效率。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于图像的实体关系标注模型处理方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于图像的实体关系标注模型处理方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于图像的实体关系标注模型处理方法。此处基于图像的实体关系标注模型处理方法可以是上述各个实施例的基于图像的实体关系标注模型处理方法。

本实施例中,获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系;根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量;将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,初始实体关系标注模型包括卷积网络和实体关系标注网络;卷积网络对训练图像进行分离卷积处理得到作为补充特征的卷积特征向量,分离卷积可以降低计算量并减少参数,卷积网络的归纳偏置可以减少需要的样本,提高训练效率;合并初始复合向量和卷积特征向量得到图像复合向量,将文本复合向量和图像复合向量输入实体关系标注网络,得到实体关系预测信息;根据关系信息和实体关系预测信息计算模型损失,以对模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型;获取待标注图像,将待标注图像输入实体关系标注模型即可得到实体关系信息,从而实现了图像中实体的自动识别以及实体关系的自动标注。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于图像的实体关系标注模型处理方法的步骤。

本实施例中,获取带有实体标注信息的训练图像,实体标注信息包括训练图像中各实体的文本信息和关系信息,文本信息包括各实体的文本备注值和坐标信息,关系信息包括各实体间的实体关系以及关联关系;根据文本信息生成各实体的文本复合向量,并生成训练图像的初始复合向量;将文本复合向量、训练图像和初始复合向量输入初始实体关系标注模型,初始实体关系标注模型包括卷积网络和实体关系标注网络;卷积网络对训练图像进行分离卷积处理得到作为补充特征的卷积特征向量,分离卷积可以降低计算量并减少参数,卷积网络的归纳偏置可以减少需要的样本,提高训练效率;合并初始复合向量和卷积特征向量得到图像复合向量,将文本复合向量和图像复合向量输入实体关系标注网络,得到实体关系预测信息;根据关系信息和实体关系预测信息计算模型损失,以对模型进行参数调整,直至模型损失满足训练停止条件,得到实体关系标注模型;获取待标注图像,将待标注图像输入实体关系标注模型即可得到实体关系信息,从而实现了图像中实体的自动识别以及实体关系的自动标注。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
  • 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
技术分类

06120115863923