掌桥专利:专业的专利平台
掌桥专利
首页

基于多模态的信息抽取方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:00:25


基于多模态的信息抽取方法、装置、设备及存储介质

技术领域

本说明书涉及自然语言处理技术领域,尤其是涉及一种基于多模态的信息抽取方法、装置、设备及存储介质。

背景技术

信息抽取(Information Extraction:IE)的主要目的是从原始文本中抽取出关键信息并转成目标格式(如结构化等)输出。目前已出现基于机器学习的多模态信息抽取方案,如此,通过多模态特征的融合可以有利于提高关键信息的抽取精度。

例如,基于空间双模态图推理(Spatial Dual-Modality Graph Reasoning,SDMG-R)的信息抽取方法,该方法使用U-Net和感兴趣区域池化(Region of interest pooling,ROIPooling)进行视觉特征的提取;采用Bi-LSTM进行文本特征的提取。通过块对角线张量分解近似的Kronecker积,将两个模态的信息融合,然后将其输入到图推理模块,进行节点特征的传播和聚合,动态学习边权重。最后节点特征在分类模块中通过交叉熵对节点进行分类。然而,视觉特征的提取采用U-Net和ROIPooling的方法与当下盛行的Transformer在效果上有一定差距,且在多模态交互上仅采用Kronecker积,视觉特征和文本特征融合深度不够,从而影响了信息抽取的抽取精度。

此外,目前还存在基于Transformer的信息抽取方法,例如基于独立于语言的布局Transformer(Language-independent Layout Transformer,LiLT)的信息抽取。该方法同时利用文本信息和版面布局信息,视觉特征仅仅利用了版面布局信息,通过Transformer进行特征提取;文本特征也是通过Transformer进行特征提取,在两个Transformer模块内部,采用了双向注意力互补机制(BiCAM)模块来进行特征融合。最后将视觉特征和文本特征拼接在一起用于后续的两阶段关键信息抽取任务。然而,LiLT仅仅利用了版面布局信息,没有有效利用图像全部特征,容易导致部分信息丢失,而且LiLT的特征融合模块较为复杂,计算量较大,从而影响了信息抽取的抽取精度和抽取效率。

发明内容

本说明书实施例的目的在于提供一种基于多模态的信息抽取方法、装置、设备及存储介质,以提高图像文件的信息抽取的抽取精度和抽取效率。

为达到上述目的,一方面,本说明书实施例提供了一种基于多模态的信息抽取方法,包括:

获取目标图像的文本输入和图像输入;

将所述文本输入和图像输入输入多模态预训练模型,以生成包含文本信息和图像信息的跨模态词向量;

将所述跨模态词向量输入预训练的全局指针网络,以生成第一得分矩阵、第二得分矩阵和第三得分矩阵;所述第一得分矩阵为所述跨模态词向量中实体关键字的首尾位置的得分矩阵,所述第二得分矩阵为所述跨模态词向量中实体取值的首尾位置的得分矩阵,所述第三得分矩阵为所述跨模态词向量中实体关系的得分矩阵;

解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,获得所述目标图像中的实体键值对。

本说明书实施例的基于多模态的信息抽取方法中,所述获取目标图像的文本输入,包括:

从所述目标图像中提取文本信息;

对所述文本信息进行标记化分词;

将标记化分词结果输入至所述多模态预训练模型的词嵌入层,获得所述文本信息的词向量;

将所述标记化分词的分词顺序输入至所述多模态预训练模型的一维位置嵌入层,获得所述词向量的一维位置向量;

将所述文本信息在所述目标图像中的边界框的坐标进行归一化处理,获得归一化边界框坐标;

将所述归一化边界框坐标输入至所述多模态预训练模型的二维位置嵌入层,并将所述二维位置嵌入层输出的左上和右下两个点的长度和宽度对应拼接,获得所述词向量的二维位置向量;

将所述词向量、所述一维位置向量和所述二维位置向量相加,以作为所述目标图像的文本输入。

本说明书实施例的基于多模态的信息抽取方法中,所述获取目标图像的图像输入,包括:

将所述目标图像调整为目标尺寸图像;

将所述目标尺寸图像均匀切分为多个图像块;

对所述多个图像块进行二维卷积操作,以获得所述多个图像块对应的图像块向量及二维位置向量;

将所述多个图像块的切分顺序输入至所述多模态预训练模型的一维位置嵌入层,获得所述多个图像块的一维位置向量;

将所述图像块向量、所述一维位置向量和所述二维位置向量相加,以作为所述目标图像的图像输入。

本说明书实施例的基于多模态的信息抽取方法中,所述多模态预训练模型包括LayoutLMv3模型。

本说明书实施例的基于多模态的信息抽取方法中,所述全局指针网络包括GPLinker模型。

本说明书实施例的基于多模态的信息抽取方法中,所述GPLinker模型根据以下方式生成第一得分矩阵、第二得分矩阵和第三得分矩阵;

根据公式

根据公式

根据公式

其中,k

本说明书实施例的基于多模态的信息抽取方法中,解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,包括:

遍历所述第一得分矩阵中大于零的元素,并将其对应的词序列作为实体关键字;

遍历所述第二得分矩阵中大于零的元素,并将其对应的词序列作为实体取值;

遍历所述第三得分矩阵中大于零的元素,并将其对应的词序列作为实体关系;根据解析出的实体关键字、实体取值和实体关系匹配得到实体键值对。

本说明书实施例的基于多模态的信息抽取方法中,所述GPLinker模型预先基于以下损失函数训练得到:

其中,loss为总损失值,loss

另一方面,本说明书实施例还提供了一种基于多模态的信息抽取装置,包括:

获取模块,用于获取目标图像的文本输入和图像输入;

第一生成模块,用于将所述文本输入和图像输入输入多模态预训练模型,以生成包含文本信息和图像信息的跨模态词向量;

第二生成模块,用于将所述跨模态词向量输入预训练的全局指针网络,以生成第一得分矩阵、第二得分矩阵和第三得分矩阵;所述第一得分矩阵为所述跨模态词向量中实体关键字的首尾位置的得分矩阵,所述第二得分矩阵为所述跨模态词向量中实体取值的首尾位置的得分矩阵,所述第三得分矩阵为所述跨模态词向量中实体关系的得分矩阵;

解析模块,用于解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,获得所述目标图像中的实体键值对。

另一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述方法的指令。

另一方面,本说明书实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。

另一方面,本说明书实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述方法的指令。

由以上本说明书实施例提供的技术方案可见,本说明书实施例利用多模态预训练模型作为特征提取器,将不同模态的信息(如图像、文本)组合在一起,从而可以得到包含图像和文本等多种模态的跨模态词向量;在此基础上,可以利用一个端到端的全局指针网络实现实体识别和关系提取,即在一个阶段实现了传统技术需要两阶段实现(先进行实体识别,再进行实体关系提取)的信息抽取,从而避免了或减少了信息丢失和误差累计,因而提高了对图像文件进行多模态信息抽取的准确性和鲁棒性;此外,由于只需要进行一次预测,因此也对图像文件进行多模态信息抽取的效率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:

图1示出了本说明书一些实施例中基于多模态的信息抽取的应用环境示意图;

图2示出了本说明书一些实施例中基于多模态的信息抽取方法的流程图;

图3示出了本说明书一些实施例中基于多模态的信息抽取的模型网络结构示意图;

图4示出了图2所示实施例中获取目标图像的文本输入的流程图;

图5示出了图2所示实施例中获取目标图像的图像输入的流程图;

图6示出了图2所示实施例中解析第一得分矩阵、第二得分矩阵和第三得分矩阵的流程图;

图7示出了本说明书一示例性实施例中第一得分矩阵的示意图;

图8示出了本说明书一示例性实施例中第二得分矩阵的示意图;

图9示出了本说明书一示例性实施例中第三得分矩阵的示意图;

图10示出了本说明书一些实施例中基于多模态的信息抽取装置的结构框图;

图11示出了本说明书一些实施例中计算机设备的结构框图。

【附图标记说明】

10、客户端;

20、服务端;

101、获取模块;

102、第一生成模块;

103、第二生成模块;

104、解析模块;

1102、计算机设备;

1104、处理器;

1106、存储器;

1108、驱动机构;

1110、输入/输出接口;

1112、输入设备;

1114、输出设备;

1116、呈现设备;

1118、图形用户接口;

1120、网络接口;

1122、通信链路;

1124、通信总线。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。

本说明书实施例涉及从图像文件中抽取信息的技术,可以应用于金融、商业、医学、新闻媒体、司法、社交网络等应用领域的图像文件(例如证件图像、发票图像等)信息抽取,以提高图像文件的信息抽取的抽取精度和抽取效率。因此,在本说明以下一些实施例中的发票信息抽取仅作为示例性举例说明,不应理解为对本说明书实施例的唯一限定。

图1中示出了本说明书一些实施例中基于多模态的信息抽取的应用环境示意图;该应用环境中包括客户端10和服务端20。服务端20可以接收客户端10提供的目标图像,获取目标图像的文本输入和图像输入;将所述文本输入和图像输入输入多模态预训练模型,以生成包含文本信息和图像信息的跨模态词向量;将所述跨模态词向量输入预训练的全局指针网络,以生成第一得分矩阵、第二得分矩阵和第三得分矩阵;所述第一得分矩阵为所述跨模态词向量中实体关键字的首尾位置的得分矩阵,所述第二得分矩阵为所述跨模态词向量中实体取值的首尾位置的得分矩阵,所述第三得分矩阵为所述跨模态词向量中实体关系的得分矩阵;解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,获得所述目标图像中的实体键值对。通过本说明书实施例可以提高图像文件的信息抽取的抽取精度和抽取效率。

在本说明书一些实施例中,所述客户端10可以为自助终端设备、移动终端(即智能手机)、显示器、台式电脑、平板电脑、笔记本电脑、数字助理或智能可穿戴设备等。其中,智能可穿戴设备可以包括智能手环、智能手表、智能眼镜或智能头盔等。当然,所述客户端10并不限于上述具有一定实体的电子设备,其还可以为运行于上述电子设备中的软件。

在本说明书一些实施例中,所述服务端20可以为具有运算和网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理和网络交互提供业务逻辑的软件。

此外,需要说明的是,图1所示的仅仅是本说明书提供的一种应用环境,在实际应用中,所述客户端10可以为多个,所述服务端20也可以为多个,本说明书不做限制。

本说明书实施例提供了一种基于多模态的信息抽取方法,可以应用于上述的服务端侧,参考图2所示,在本说明书一些实施例中,基于多模态的信息抽取方法可以包括以下步骤:

步骤201、获取目标图像的文本输入和图像输入。

步骤202、将所述文本输入和图像输入输入多模态预训练模型,以生成包含文本信息和图像信息的跨模态词向量。

步骤203、将所述跨模态词向量输入预训练的全局指针网络,以生成第一得分矩阵、第二得分矩阵和第三得分矩阵;所述第一得分矩阵为所述跨模态词向量中实体关键字的首尾位置的得分矩阵,所述第二得分矩阵为所述跨模态词向量中实体取值的首尾位置的得分矩阵,所述第三得分矩阵为所述跨模态词向量中实体关系的得分矩阵。

步骤204、解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,获得所述目标图像中的实体键值对。

本说明书的实施例中,利用多模态预训练模型作为特征提取器,将不同模态的信息(如图像、文本)组合在一起,从而可以得到包含图像和文本等多种模态的跨模态词向量;在此基础上,可以利用一个端到端的全局指针网络实现实体识别和关系提取,即在一个阶段实现了传统技术需要两阶段实现(先进行实体识别,再进行实体关系提取)的信息抽取,从而避免了或减少了信息丢失和误差累计,因而提高了对图像文件进行多模态信息抽取的准确性和鲁棒性;此外,由于只需要进行一次预测,因此也对图像文件进行多模态信息抽取的效率。

模态是指表达或感知事物的方式,每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉、听觉、视觉和嗅觉等多种感知模态;信息的媒介有语音、图像、文字(文本)等多种信息媒介模态。因此,在本说明书的实施例中,多模态即是从多种信息媒介模态,例如可以是图像和文本两种信息媒介模态。此外,在本说明书的实施例中,信息抽取是指从图像文件中抽取关键信息(例如实体及实体关系等)。

在本说明书的实施例中,多模态预训练模型的输入包括文本输入和图像输入两个部分。参考图4所示,在本说明书一些实施例中,获取目标图像的文本输入可以包括以下步骤:

步骤401、从所述目标图像中提取文本信息。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以通过光学字符识别(Optical Character Recognition,OCR)等技术,从目标图像中提取出文本信息。

步骤402、对所述文本信息进行标记化分词(tokenize)。

通过标记化分词可以文本信息(例如连续字符组成的语句)划分为由一个个标准化的独立词语组成的词序列,从而便于后续处理。

步骤403、将标记化分词结果输入至所述多模态预训练模型的词嵌入层,获得所述文本信息的词向量。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以将分词结果输入至多模态预训练模型(图3中的虚线部分所示)词嵌入层(word embedding层),从而得到文本信息的词向量。

步骤404、将所述标记化分词的分词顺序输入至所述多模态预训练模型的一维位置嵌入层,获得所述词向量的一维位置向量(例如图3中左侧的0、1、2、3、4)。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以将所述标记化分词的分词顺序输入多模态预训练模型的一维位置向量(1D position embedding层)。

步骤405、将所述文本信息在所述目标图像中的边界框(bounding box)的坐标进行归一化处理,获得归一化边界框坐标。

步骤406、将所述归一化边界框坐标输入至所述多模态预训练模型的二维位置嵌入层,并将所述二维位置嵌入层输出的左上和右下两个点的长度和宽度对应拼接,获得所述词向量的二维位置向量。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以将所述归一化边界框坐标输入至所述多模态预训练模型的二维位置向量(2D position embedding层),并将所述二维位置嵌入层输出的左上和右下两个点的长度(即横坐标)和宽度(即纵坐标)对应拼接,从而获得所述词向量的二维位置向量(例如图3中左侧的Seg

步骤407、将所述词向量、所述一维位置向量和所述二维位置向量相加,以作为所述目标图像的文本输入。

因此,文本输入可以采用如下公式表示:

E

+PositionEmbedding2d

其中,E

参考图5所示,在本说明书一些实施例中,获取目标图像的图像输入可以包括以下步骤:

步骤501、将所述目标图像调整为目标尺寸图像。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以将整个目标图像调整(resize)为固定尺寸(例如224×224像素),

步骤502、将所述目标尺寸图像均匀切分为多个图像块(patch)。

步骤503、对所述多个图像块进行二维卷积操作,以获得所述多个图像块对应的图像块向量及二维位置向量(例如图3中左侧的patch

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,对图像块用卷积核(kernel size 16×16)、步长(stride)16、输出通道(output channel)与词embedding维度相同,进行二维卷积操作,这样每个图像块都可以转换为向量表示(即获得图像块向量),并且通过二维卷积操作还可以获得每个图像块的二维位置分布,即获得二维位置向量。

步骤504、将所述多个图像块的切分顺序输入至所述多模态预训练模型的一维位置嵌入层,获得所述多个图像块的一维位置向量。

例如,以图3所示的基于多模态的信息抽取的模型网络结构为例,可以将多个图像块的切分顺序输入至所述多模态预训练模型的一维位置嵌入层利用每个patch的顺序作为图像的一维位置嵌入层(1D position embedding层),从而获得所述多个图像块的一维位置向量(例如图3中右侧的0、1、2、3、4)。

步骤505、将所述图像块向量、所述一维位置向量和所述二维位置向量相加,以作为所述目标图像的图像输入。

因此,图像输入可以采用如下公式表示:

E

+PositionEmbedding2d

其中,E

在本说明书一些实施例中,多模态预训练模型例可以采用LayoutLMv3模型等,实际应用前预先训练初始的LayoutLMv3模型,以获得满特定应用场景需求的多模态预训练模型。

LayoutLMv3模型采用了多头自注意力(multi-head self-attention)模块构建的transformer结构;LayoutLMv3模型可以接收文本输入和图像输入,以进行多模态特征提取,这样可以充分将文本和图像信息进行交互,达到更好特征提取效果。

LayoutLMv3模型采用三个预训练目标以自监督的方式学习多模态表示。这些目标包括掩码语言建模(Masked Language Modeling,MLM)、掩码图像建模(Masked ImageModeling,MIM)和词块对齐(Word-Patch Alignment,WPA)。这些任务旨在帮助模型学习文本和图像之间的对应关系和布局信息,从而提高模型的性能和泛化能力。

在掩码语言建模任务中,LayoutLMv3模型可以随机遮盖一部分(例如30%)的文本词向量,但保留对应的二维位置(布局)信息。这有助于模型学习布局信息与文本之间的对应关系。模型的目标是根据未被遮盖的图文和布局信息还原文本中被遮盖的词。

在掩码图像建模任务中,LayoutLMv3模型也可以随机遮盖一部分(例如40%)的图像块,以鼓励模型从文本和图像的上下文信息推测图像信息。模型的目标是根据未被遮盖的文本和图像的信息还原被遮盖的图像块经过离散化的标识。

词块对齐任务是为了学习文本词和图像块之间的细粒度对齐关系。每个文本词都对应着一个图像块,但由于前两个任务随机遮盖了部分文本词和图像块,模型无法显式地学习这种细粒度的对齐关系。该任务通过显式地预测一个文本词的对应图像块是否被掩盖来学习语言和视觉模态之间的细粒度对齐关系。

在本说明书一些实施例中,全局指针网络可以采用GPLinker(GlobalPointer-based Linking)模型等,实际应用前同样预先训练初始的GPLinker模型,以获得满特定应用场景需求的多模态预训练模型。通过LayoutLMv3模型和GPLinker模型的结合,可以有利于提高多模态信息抽取的准确性。

在本说明书一些实施例中,GPLinker模型预先基于以下损失函数训练得到:

其中,loss为总损失值,loss

在本说明书一些实施例中,所述GPLinker模型根据以下方式生成第一得分矩阵、第二得分矩阵和第三得分矩阵;

根据公式

根据公式

根据公式

其中,α为实体键值对,且α={key,value},key为关键词,value为取值;

k

k

s

为识别k

为k

W

为跨模态词向量中k

b

W

为跨模态词向量中k

b

s

v

v

为v

为v

为跨模态词向量中v

为跨模态词向量中v

s

为v

参考图6所示,在本说明书一些实施例中,解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,可以包括以下步骤:

步骤601、遍历所述第一得分矩阵中大于零的元素,并将其对应的词序列作为实体关键字。

例如以图7所示的第一得分矩阵为例,在该得分矩阵中,纵向上方为头部,纵向下方为尾部,横向左侧为头部,横向右侧为尾部;得分矩阵中的取值(0或1)为得分。遍历图7可以看出,该得分矩阵中的第1行第4列的得分为1(大于0),表明该得分矩阵的第1行第1-4列(第1列开始第4列结尾的连续词串)为实体的关键字。同理,该得分矩阵中的第8行第9列的得分为1(大于0),表明该得分矩阵的第8行第8-9列(第8列开始第9列结尾的连续词串)为实体的关键字。

步骤602、遍历所述第二得分矩阵中大于零的元素,并将其对应的词序列作为实体取值。

例如以图8所示的第二得分矩阵为例,在该得分矩阵中,纵向上方为头部,纵向下方为尾部,横向左侧为头部,横向右侧为尾部;得分矩阵中的取值(0或1)为得分。遍历图8可以看出,该得分矩阵中的第5行第7列的得分为1(大于0),表明该得分矩阵的第5行第5-7列(第5列开始第7列结尾的连续数字串)为实体的取值。同理,该得分矩阵中的第10行第12列的得分为1(大于0),表明该得分矩阵的第10行第10-12列(第10列开始第12列结尾的连续数字串)为实体的取值。

步骤603、遍历所述第三得分矩阵中大于零的元素,并将其对应的词序列作为实体关系。

例如以图9所示的第三得分矩阵为例,在该得分矩阵中,纵向上方为头部,纵向下方为尾部,横向左侧为头部,横向右侧为尾部;得分矩阵中的取值(0或1)为得分。遍历图9可以看出,该得分矩阵中的第1行第5列的得分为1(大于0),表明该得分矩阵的第1行第5列为实体关系(第5列左侧为关键字,第5列右侧取值)。同理,该得分矩阵中的第8行第10列的得分为1(大于0),表明该得分矩阵的第8行第10列为实体关系(第10列左侧为关键字,第10列右侧取值)。

步骤604、根据解析出的实体关键字、实体取值和实体关系匹配得到实体键值对。

在获得实体关键字、实体取值和实体关系的基础上,就可以根据实体关系对实体关键字和实体取值进行配对,从而形成实体键值对。

虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。

与上述的基于多模态的信息抽取方法对应,本说明书实施例还提供了一种基于多模态的信息抽取装置,其可以配置于上述的服务端上,参考图10所示,在本说明书一些实施例中,基于多模态的信息抽取装置可以包括:

获取模块101,用于获取目标图像的文本输入和图像输入;

第一生成模块102,用于将所述文本输入和图像输入输入多模态预训练模型,以生成包含文本信息和图像信息的跨模态词向量;

第二生成模块103,用于将所述跨模态词向量输入预训练的全局指针网络,以生成第一得分矩阵、第二得分矩阵和第三得分矩阵;所述第一得分矩阵为所述跨模态词向量中实体关键字的首尾位置的得分矩阵,所述第二得分矩阵为所述跨模态词向量中实体取值的首尾位置的得分矩阵,所述第三得分矩阵为所述跨模态词向量中实体关系的得分矩阵;

解析模块104,用于解析所述第一得分矩阵、所述第二得分矩阵和所述第三得分矩阵,获得所述目标图像中的实体键值对。

为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

需要说明的是,本说明书的实施例中,所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权同意且经过各方充分授权的信息和数据。

本说明书的实施例还提供一种计算机设备。如图11所示,在本说明书一些实施例中,所述计算机设备1102可以包括一个或多个处理器1104,诸如一个或多个中央处理单元(CPU)或图形处理器(GPU),每个处理单元可以实现一个或多个硬件线程。计算机设备1102还可以包括任何存储器1106,其用于存储诸如代码、设置、数据等之类的任何种类的信息,一具体实施例中,存储器1106上并可在处理器1104上运行的计算机程序,所述计算机程序被所述处理器1104运行时,可以执行上述任一实施例所述的基于多模态的信息抽取方法的指令。非限制性的,比如,存储器1106可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备1102的固定或可移除部件。在一种情况下,当处理器1104执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备1102可以执行相关联指令的任一操作。计算机设备1102还包括用于与任何存储器交互的一个或多个驱动机构1108,诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1102还可以包括输入/输出接口1110(I/O),其用于接收各种输入(经由输入设备1112)和用于提供各种输出(经由输出设备1114)。一个具体输出机构可以包括呈现设备1116和相关联的图形用户接口1118(GUI)。在其他实施例中,还可以不包括输入/输出接口1110(I/O)、输入设备1112以及输出设备1114,仅作为网络中的一台计算机设备。计算机设备1102还可以包括一个或多个网络接口1120,其用于经由一个或多个通信链路1122与其他设备交换数据。一个或多个通信总线1124将上文所描述的部件耦合在一起。

通信链路1122可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路1122可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务端等的任何组合。

本申请是参照本说明书一些实施例的方法、设备(系统)、计算机可读存储介质和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理器的处理器以产生一个机器,使得通过计算机或其他可编程数据处理器的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理器以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理器上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本说明书中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理器来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

还应理解,在本说明书实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 电子部件输送装置及检查装置、定位装置及方法、部件输送装置
  • 膜的输送方法及输送装置、以及处理膜的制造方法及制造装置
  • 医疗装置以及用于输送医疗装置的输送系统
  • 医疗装置以及用于输送医疗装置的输送系统
技术分类

06120116526702