掌桥专利:专业的专利平台
掌桥专利
首页

订单信息的校正方法、装置、设备及存储介质

文献发布时间:2023-06-19 09:58:59


订单信息的校正方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术,尤其涉及一种订单信息的校正方法、装置、设备及存储介质。

背景技术

目前OCR(Optical Character Recognition,光学字符识别)技术已广泛应用于多个领域和行业,通过该技术可以识别出文本资料图像中的大部分文本文字。然而,由于OCR结果的准确率问题,使得从OCR结果中所提取的信息可能会出现错误。如何根据OCR结果获得准确的信息,还有待进一步研究。

发明内容

本公开实施例提供了一种订单信息的校正方案。

根据本公开的一方面,提供一种订单信息的校正方法,所述方法包括:根据订单的文本识别结果获得待校正订单信息;从所述文本识别结果中确定目标搜索信息;通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息;利用所述订单参考信息校正所述待校正订单信息,以得到目标订单信息。

结合本公开提供的任一实施方式,所述目标搜索信息包括所述待校正订单信息的部分内容;所述部分内容包括主体名称、至少一个元素中的至少一项。

结合本公开提供的任一实施方式,所述通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息,包括如下至少一项:访问设定数据库,以从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息;通过互联网获取与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述设定数据库包括多个层级的参考单元信息,且所述多个层级中最低层级的参考单元信息对应于多个参考主体名称。

结合本公开提供的任一实施方式,所述设定数据库存储有参考主体名称对应的第一参考信息;从所述文本识别结果中确定目标搜索信息,包括:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;所述从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息,包括:确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的第一参考信息,获得与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述设定数据库存储有参考主体名称对应的第二参考信息;所述从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息,包括:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的各个层级的参考单元信息,以及所述目标主体名称所对应的第二参考信息,获得与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称,包括:将所述待校正订单信息对应的主体名称分别与所述目标单元信息所对应的多个参考主体名称进行匹配;将匹配得分最高且超过第一设定阈值的参考主体名称,确定为目标主体名称。

结合本公开提供的任一实施方式,所述通过互联网获取与所述目标搜索信息匹配的订单参考信息,包括:根据所述待校正订单信息的部分内容在互联网中进行搜索,获得至少一个所述目标搜索信息匹配的参考信息;将所述目标搜索信息对应的参考信息与所述待校正订单信息进行匹配;获取匹配得分最高且超过第二设定阈值的订单参考信息。

结合本公开提供的任一实施方式,所述方法还包括:将从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,添加至所述设定数据库中最低层级的参考单元信息所对应的信息中。

结合本公开提供的任一实施方式,所述方法还包括:根据从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,对所述设定数据库中最低层级的参考单元信息所对应的信息进行更新。

结合本公开提供的任一实施方式,所述待校正订单信息至少包括地址信息,所述待校正订单信息所包括的至少一个元素包括如下至少一项:行政区、邮政编码,所述设定数据库所包括的多个层级的参考单元信息包括参考行政区信息或邮政编码信息。

结合本公开提供的任一实施方式,所述根据订单的文本识别结果获得待校正订单信息,包括:获取所述订单的文本识别结果,所述文本识别结果包括多个文本框;从所述多个文本框中确定包含关键信息的第一文本框,所述关键信息包括所述待校正订单信息的部分内容,所述部分内容包括待校正订单信息中的至少一个元素、指示待校正订单信息的关键词中的至少一项;根据所述第一文本框,对所述多个文本框中的至少部分进行合并,得到合并文本框;从所述合并文本框获取所述待校正订单信息。

根据本公开的一方面,提供一种订单信息的校正装置,所述装置包括:获取单元,用于根据订单的文本识别结果获得待校正订单信息;确定单元,用于从所述文本识别结果中确定目标搜索信息;匹配单元,用于通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息;校正单元,用于利用所述订单参考信息校正所述待校正订单信息,以得到目标订单信息。

结合本公开提供的任一实施方式,所述目标搜索信息包括所述待校正订单信息的部分内容;所述部分内容包括主体名称、至少一个元素中的至少一项。

结合本公开提供的任一实施方式,所述匹配单元具体用于如下至少一项:访问设定数据库,以从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息;通过互联网获取与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述设定数据库包括多个层级的参考单元信息,且所述多个层级中最低层级的参考单元信息对应于多个参考主体名称。

结合本公开提供的任一实施方式,所述设定数据库存储有参考主体名称对应的第一参考信息;所述确定单元具体用于:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;所述从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息,包括:确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的第一参考信息,获得与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述设定数据库存储有参考主体名称对应的第二参考信息;所述匹配单元具体用于:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的各个层级的参考单元信息,以及所述目标主体名称所对应的第二参考信息,获得与所述目标搜索信息匹配的订单参考信息。

结合本公开提供的任一实施方式,所述匹配单元在用于确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称,具体用于:将所述待校正订单信息对应的主体名称分别与所述目标单元信息所对应的多个参考主体名称进行匹配;将匹配得分最高且超过第一设定阈值的参考主体名称,确定为目标主体名称。

结合本公开提供的任一实施方式,所述匹配单元具体用于:根据所述待校正订单信息的部分内容在互联网中进行搜索,获得至少一个所述目标搜索信息匹配的参考信息;将所述目标搜索信息对应的参考信息与所述待校正订单信息进行匹配;获取匹配得分最高且超过第二设定阈值的订单参考信息。

结合本公开提供的任一实施方式,所述装置还包括添加单元,用于将从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,添加至所述设定数据库中最低层级的参考单元信息所对应的信息中。

结合本公开提供的任一实施方式,所述装置还包括更新单元,用于根据从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,对所述设定数据库中最低层级的参考单元信息所对应的信息进行更新。

结合本公开提供的任一实施方式,所述待校正订单信息至少包括地址信息,所述待校正订单信息所包括的至少一个元素包括如下至少一项:行政区、邮政编码,所述设定数据库所包括的多个层级的参考单元信息包括参考行政区信息或邮政编码信息。

结合本公开提供的任一实施方式,所述获取单元具体用于:获取所述待处理对象的文本识别结果,所述文本识别结果包括多个文本框;从所述多个文本框中确定包含关键信息的第一文本框,所述关键信息包括所述待校正订单信息的部分内容,所述部分内容包括待校正订单信息中的至少一个元素、指示待校正订单信息的关键词中的至少一项;根据所述第一文本框,对所述多个文本框中的至少部分进行合并,得到合并文本框;从所述合并文本框获取所述待校正订单信息。

根据本公开的一方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的订单信息的校正方法。

根据本公开的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施方式所述的订单信息的校正方法。

本公开一个或多个实施例的订单信息的校正方法、装置、设备及存储介质,根据订单的文本识别结果获得待校正订单信息,并从所述文本识别结果中确定目标搜索信息,通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息,利用所述订单参考信息校正所述待校正订单信息以得到目标订单信息,可以从订单的文本识别结果中,快速地获得准确的目标订单信息。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。

图1是本公开至少一个实施例提出的一种订单信息的校正方法的流程图;

图2是本公开至少一个实施例提出的订单信息的校正方法中设定数据库的结构示意图;

图3A、3B、3C是本公开至少一个实施例提出的信息提取方法示意图;

图4是本公开至少一个实施例提出的一种订单信息的校正装置的示意图;

图5是本公开至少一个实施例提出的一种电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1示出了根据本公开一些实施例的订单信息的校正方法的流程图。如图1所示,该方法包括步骤101~步骤104。

在步骤101中,根据订单的文本识别结果获得待校正订单信息。

在本公开实施例中,进行文本识别的订单包括以下中的至少一种:订单图像、电子文档形式的订单,例如pdf文档。本领域技术人员应当理解,所述订单还可以包括其他适用于进行文本识别的类型。

在一个示例中,可以通过对订单进行文本检测,获得所述订单中包含的文本框;并通过对所获得的文本框进行文本识别,识别出所述文本框中的文本文字,从而获得文本识别结果;还可以直接对待处理订单进行文本识别,例如OCR,获得所述订单中包含文本框的文本识别结果。本公开实施例对于获取文本识别结果的具体方法不进行限制。

待校正订单信息为根据设定规则从所述订单的文本识别结果中获得的待校正订单信息。例如,在待校正订单信息包含地址信息的情况下,可以根据地址信息的规则从所述文本识别结果中获取待校正的地址信息。

在步骤102中,从所述文本识别结果中确定目标搜索信息。所述目标搜索信息为与所述待校正订单信息相关或者能够体现所述待校正订单信息特征的信息。

在一个示例中,所述目标搜索信息包括所述待校正订单信息的部分内容;所述部分内容包括主体名称、至少一个元素中的至少一项。以地址信息为例,所述目标搜索信息所指示的所述待校正订单中的部分内容可以包括地址信息所属的主体名称(例如姓名、场所名称等等)、所述地址信息所包括的至少一个元素(例如各级行政区、各级行区对应的邮政编码等等)。

在步骤103中,通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息。

在本公开实施例中,可以通过访问设定数据库,从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息。其中,所述设定数据库存储有多个参考主体名称以及对应的参考信息。例如,在所述处理信息为地址信息的情况下,所述设定数据库为存储了多个主体名称和对应的地址信息的数据库,根据待校正订单信息对应的主体名称,例如“XX酒店”以及邮政编码,即可以在所述设定数据库中搜索到相匹配的“XX酒店”,并将所对应的地址信息作为订单参考信息。

在本公开实施例中,还可以通过互联网获取与所述目标搜索信息匹配的订单参考信息。仍以地址信息为例,可以根据待校正订单信息对应的主体名称和邮政编码,利用搜索引擎在互联网中进行搜索,将所检索到的相匹配的主体名称所对应的信息作为订单参考信息。

在本公开实施例中,还可以同时从设定数据库和互联网中获取与所述目标搜索信息匹配的订单参考信息。在从设定数据库和互联网都获得的订单参考信息的情况下,可以将其中的任一个,或者指定的一个作为目标订单参考信息;在仅从互联网获取了订单参考信息的情况下,可以利用互联网的搜索结果更新设定数据库。

在步骤104中,利用所述订单参考信息校正所述待校正订单信息,以得到目标订单信息。

在本公开实施例中,本公开至少一个实施例提出的订单信息的校正方法、装置、设备及存储介质,根据订单的文本识别结果获得待校正订单信息,并从所述文本识别结果中确定目标搜索信息,通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息,利用所述订单参考信息校正所述待校正订单信息以得到目标订单信息,可以从订单的文本识别结果中,快速地获得准确的目标订单信息。

相关技术中的地址数据库,通常只支持主体名称到地址的查询,且只在输入的词首和词尾有一定的容错性。由于本公开实施例所提出的订单信息的校正方法是根据从文本识别结果中所确定的目标搜索信息来获取匹配的订单参考信息,而目标搜索信息可以是待校正订单信息中的部分内容,例如主体名称,或者是待校正订单信息中的元素,因此即便订单信息中存在错误的信息甚至是错误的主体名称,通过该校正方法也可以通过所述订单信息中的其他信息作为目标搜索信息,以获取订单参考信息对所述待校正订单信息进行校正,具有较高的容错性。

此外,由于目标搜索信息的获取与订单的文本排布方式无关,本公开至少一个实施例提出的订单信息的校正方法适用于不同版面的订单。

在一些实施例中,从所述订单的文本识别结果中,可以获取待校正订单信息对应的主体名称作为目标搜索信息。其中,所述主体名称和所述待校正订单信息例如为键值对信息,其中,所述主体名称指示属性,所述待校正订单信息指示所述属性的值。

在一个示例中,所述待校正订单信息可以为地址信息,该地址信息对应的主体为所述地址信息所属的对象,所对应的主对名称为所属对象的名称。举例来说,在所述地址信息所属的对象为个人的情况下,对应的主体名称为姓名;在所述地信信息所属的对象为场所的情况下,对应的主体名称为场所名称。所述待校正订单信息还可以是身份信息,该身份信息对应的主体名称为姓名。本领域技术人员应当理解,所述待校正订单信息还可以是其他类型的信息,本公开对此不进行限制。

在一些实施例中,所述设定数据库可以包括多个层级的参考单元信息,且所述多个层级中每个最低层级的参考单元信息对应于多个参考主体名称。在所述设定数据库中,参考单元信息是按照从上至下的层次等级进行组织存储的,层级越低的参考单元信息所对应的范围越窄或者权限越低。其中,最低层级为对应的范围最小或者权限最低的参考信息单元。以存储地址信息的设定数据库为例,所述设定数据库所包括的多个层级的参考单元信息包括参考行政区信息和/或邮政编码信息,则最低层级的参考单元信息包括范围最小的行政区名称和/或最小行政区对应的邮政编码。

在一个示例中,所述设定数据库中参考单元信息可以是树形结构存储的,不同层级的非叶子节点存储不同层级的参考单元信息,叶子节点用于存储属于上一级节点的参考主体名称。

在一些实施例中,所述设定数据库中还存储有每个参考主体名称对应的第一参考信息。所述第一参考信息通常是所述参考主体名称所对应的完整信息,包含了各个层级的参考单元信息以及所述参考主体名称所对应的具体参考信息。以地址信息为例,所述第一参考信息可以是完整的地址信息,包含了各个层级的行政区信息以及参考主体名称所对应的具体地址,例如街道和/或单元。所述第一参考信息是预先获得的,具有较高可信度和准确度的所述参考主体名称所对应的参考信息。

以待校正订单信息为酒店订单中的地址信息为例,所述设定数据库中的多个层级的参考单元信息可以是多个层级的行政区。该存储地址信息的树形结构可以是有根树形结构,且根节点无实际含义;根的子节点可以用于存储订单的旅行商(例如XX旅行社),其余的非叶子节点可以用于存储国家的行政区成分或邮政编码;每个叶子节点可以存储一个对象名称,并且,每个叶子节点还可以存储所述对象名称所对应的完整的地址信息。在同一旅行商对应的子树中,所有非叶子节点唯一,并且所述非叶子节点的父亲节点表示其自身的直接高行政区。

图2是本公开至少一个实施例提出的订单信息的校正方法中设定数据库的结构示意图。如图2所示,旅行商的子树可以根据从上至下(从浅至深)的层级构造:国家-省-市-区,在一些情况下,区的下一级还可以包括子区,且各个行政区还可以利用邮政编码代替,例如构造为国家-省-邮政编码-区。本领域技术应当理解,以上仅为示例,所述邮政编码可替代任一行政区,本公开对此不进行限制。

对于存储地址信息的设定数据库而言,树形结构所存储的各个层级的参考行政区信息可以根据互联网上公开的各个国家的行政区划表以及邮政编码与行政区的对应表得到;叶子节点存储的参考主体名称以及所对应的第一参考信息可以由人工标注得到。

在所述设定数据库中还存储有每个参考主体名称对应的第一参考信息的情况下,可以通过以下方式获取所述待校正订单信息对应的订单参考信息。

首先,可以根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息作为目标搜索信息。

以所述待校正订单信息为酒店订单的地址信息为例,根据所述设定数据库中地址的层级划分,也即数据库的树形结构,可以获得所述待校正订单信息所包含的各个层级的单元信息。例如,按照数据库中的树形结构“国家-省-市-区”,对所述待校正订单信息进行拆分,则可以获得地址信息所包含的各个层级的行政区信息。其中,可以将最低层级的行政区信息作为目标搜索信息。例如,在所述地址信息所包含的最小行政区为子区的情况下,则可以将子区信息作为目标搜索信息;在所述地址信息所包含的最小行政区为区的情况下,则可以将区信息作为目标搜索信息;其他情况类似,不再赘述。

接下来,确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息。也即,在所述设定数据库的树形结构中,定位所述待校正订单信息中最低层级的单元信息所在的位置。在所述设定数据库的树形结构中,定位该最低层级的单元信息所存储的位置,也即确定该最低层级的单元信息所对应的(相匹配的)参考单元信息,并将该参考单元信息作为目标单元信息。

之后,确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称。

设定数据库中每个最低层级的参考单元信息对应于多个参考主体名称,因此在该多个参考主体名称中,可以根据预设条件来确定目标主体名称。

在一个示例中,可以将所述待校正订单信息对应的主体名称分别与所述目标单元信息所对应的多个参考主体名称进行匹配;并将匹配得分最高且超过第一设定阈值的参考主体名称,确定为目标主体名称。

最后,根据所述目标主体名称所对应的第一参考信息,获得与所述目标搜索信息匹配的订单参考信息。

在所述预设库中存储有每个参考主体名称对应的参考信息的情况下,根据所确定的目标主体名称所对应的第一参考信息,则可以获得所述待校正订单信息的订单参考信息。在设定数据库中所存储的参考信息具有较高的可信度和准确度,利用该参考信息对所述待校正订单信息进行校正,可以获得更准确的目标订单信息。

在一些实施例中,所述设定数据库中存储有每个参考主体名称对应的第二参考信息。所述第二参考信息为各个层级的参考单元信息之外的其他参考信息,通常为相较于各个层级的参考单元信息更为具体的信息。以所述待校正订单信息为酒店订单中所包含的地址信息为例,所述第二参考信息例如可以是酒店所在的街道和/或单元。其中,所述第二参考信息是预先获得的,具有较高可信度和准确度的所述参考主体名称所对应的参考信息。

在所述设定数据库中存储有每个参考主体名称对应的第二参考信息的情况下,确定目标主体名称的方式与上述方法类似,不同之处在于,在确定了所述目标主体名称之后,根据所述目标主体名称所对应的各个层级的参考单元信息,以及所述目标主体名称所对应的第二参考信息,获得所述待校正订单信息对应的订单参考信息。

根据所述目标主体名称所对应的各个层级的参考单元信息,以及所述目标主体名称所对应的第二参考信息,可以获得所述目标主体名称的完整信息,根据该完整信息对所述待校正订单信息进行校正,可以获得更为准确、完整的目标订单信息。

在一些实施例中,还可以根据所述目标搜索信息,从互联网中获取所述待校正订单信息对应的订单参考信息。

在一个示例中,可以根据所述待校正订单信息的部分内容,例如主体名称或至少一个元素在互联网中进行搜索,获得至少一个所述主体名称对应的订单参考信息,并将所述主体名称对应的订单参考信息与所述待校正订单信息进行匹配,获取匹配得分最高且超过第二设定阈值的参考信息。

仍以所述待校正订单信息为酒店订单的地址信息为例,所述目标搜索信息可以包括所述地址信息中所包含的邮政编码,和/或其中一个层级的行政区信息。根据所述地址信息对应的主体名称,也即酒店名称,连同所述待校正订单信息所包括的至少一个元素进行检索,可以从互联网中获取多个可能是酒店地址的地址信息。通过将从互相网中获得的地址信息与所述待校正订单信息,按照地址组分进行模糊匹配,可以将匹配得到最高,且超过第二设定阈值的地址信息作为所述待校正订单信息的订单参考信息,以进行校正,从而获得更准确的酒店地址信息。

在两个或两个以上地址信息的匹配得分相同的情况下,可以保留其中任一地址信息而删除其他的地址信息。

在本公开实施例中,地址数据库中各级行政区以及行政区所对应的邮政编码的组织存储,可以目标国家的规定进行设置,因而该校正方法易于扩展至任意国家目的地的行程单信息的校正。

在一些实施例中,可以首先根据所述目标搜索信息在设定数据库中进行检索,再在互相联中进行检索。

在设定数据库中不存在与待校正订单信息对应的主体名称相匹配的目标主体名称的情况下,可以将从互联网中获取的所述待校正订单信息对应的参考信息,以及所述待校正订单信息对应的主体名称,添加至所述设定数据库中最低层级的参考单元信息所对应的信息中,也即将所述主体名称添加至相应最低层级参考单元信息所对应的参考主体名称中。对于树形结构的设定数据库来说,也即将所述待校正订单信息所对应的主体名称,以及订单参考信息存储在树形结构的叶子节点中,成为新增加的参考主体名称和对应的第一参考信息。

在从设定数据库中获取的参考信息与从互联网获取的参考信息不一致的情况下,可以根据从互联网中获取的所述待校正订单信息对应的参考信息,以及所述待校正订单信息对应的主体名称,对所述设定数据库中最低层级的参考单元信息所对应的信息进行更新。也即,利用从互联网中获取的所述待校正订单对应的参考信息,替换所述设定数据库中最低层级的参考单元信息所对应的目标主体名称的参考信息。对于树形结构的设定数据库来说,也即将所述待校正订单信息所对应的参考信息,替换原本存储在树形结构的叶子节点中的参考主体名称所对应的参考信息,实现对所述参考主体名称的参考信息的更新。

在一个示例中,在对参考主体名称的参考信息进行更新前,可以获取从互联网中获取的所述待校正订单信息对应的参考信息最近一次更新时间,并基于所述更新时间确定是否对所述参考主体名称的参考信息进行更新。例如,在最近一次更新时间在设定时间范围内,比如在最近一年内,或者最近6个月内,则可以进行更新;相反,如果最近一次更新时间超出了所述设定时间范围,则可以输出提示信息,由技术人员确定是否进行更新,以避免错误更新。

在本公开实施例中,通过利用从互联网中获取的参考信息,对设定数据库进行添加和更新,可以从设定数据库中获取的参考信息的可信度和准确度,从而可以从待处理订单中获取更加准确的待校正订单信息。

由于在办理出境旅游申请签证时,需要填写酒店信息并提供酒店行程单以供审查。对酒店行程单进行文字识别和信息提取可减少繁琐的用户填写以及简化审查流程,然而由于OCR结果的准确率问题,使得从OCR结果中所提取的信息可能会出现错误。

相关技术中通常采用N元模型(N-gram)对文本识别结果进行校正,然而由于N元模型的训练依赖词库,而地址信息的词库,尤其是境外地名词库通常是不完备的,因些采用N元模型对酒店订单类的订单文本识别结果的校正效果欠佳。

通过将本公开至少一个实施例提出的订单信息的校正方法应用于自动签证处理,可以对酒店行程单的文本识别结果中的酒店地址信息进行校正,例如修正酒店地址中的错误信息,或者对于不完整的酒店地址进行补全,提升了自动签证信息填写的准确度和可靠性,提高了用户体验,并且有利于加快审批流程。此外,由于本公开的校正方法可以利用从互联网获取的参考信息进行校正,或者根据从互联网获取的参考信息对设定数据库进行更新,因此可以解决词库不完备的问题,可以得到更好的校正效果。

在本公开实施例中,所述待校正订单信息至少包括地址信息、身份信息,在这种情况下可以通过以下方法从待处理订单的文本识别结果中,获得待校正订单信息。

首先,获取所述订单的文本识别结果,所述文本识别结果包括多个文本框。

接下来,从所述多个文本框中,确定包含关键信息的第一文本框。所述关键信息可以包括所述待校正订单信息的部分内容,所述部分内容包括待校正订单信息中的至少一个元素、指示待校正订单信息的关键词中的至少一项。

在待校正订单信息为地址信息的情况下,所述关键信息可以包括地址信息中的元素“邮政编码”,在已知地址信息所属地区的情况下,则可以确定邮政编码的位数。以待校正订单信息为泰国地址为例,由于泰国邮政编码为5位数字,因此可以确定所述关键信息是5位数字。在该步骤中,确定包含5位数字的文本框,作为第一文本框。考虑到识别出的内容中可能包括多于5位数字的情况,比如,文本框包括8位数字等,为了减少额外的判别操作,可以在实际应用过程中,确定仅包含5位数字的文本框,作为第一文本框。

在一些实施例中,对于所查找到的邮政编码,还可以在利用该查找到的邮政编码所属地区的邮政编码列表中进行搜索,以确认所查找到的确实为所属地区的邮政编码。

在未知地址信息所属地区的情况下,可以综合世界各地邮政编码的位数情况,将关键信息确定为4位~9位的数字。则在本步骤中,分别确定包含4位~9位数字的文本框,作为第一文本框。在一种可能的实现方式中,为了减少额外的判别操作,可以确定仅包含4位~9位数字的文本框,作为第一文本框,即对于包含了10位甚至更多位数字的文本框不予考虑。

所述关键信息还可以包括地址信息中的元素—行政区信息,例如“泰国”,则在所述多个文本框中,确定包含“泰国”这样的文本内容的文本框作为第一文本框。

所述关键信息还包括指示所述待校正订单信息的关键词,以所述待校正订单信息为地址为例,所述关键词包括“地址”、“address”,以及其他语言中表示地址的关键词。需要说明的是,在本申请中对于关键词的形式不予限定,比如,可以包括全称、缩写等多种表现形式。

之后,根据所述第一文本框,对至少部分所述多个文本框进行合并,得到合并文本框。

在本公开实施例中,待进行合并的文本框是基于所述第一文本框确定的。例如,可以根据与所述第一文本框的位置关系来确定待进行合并的文本框,并对所述待合并文本框进行合并,得到合并文本框。

最后,从所述合并文本框中获取待校正订单信息。

通过根据所述合并文本框所包含的内容或者所述合并文本框的格式信息,或是根据所述合并文本框所包含的内容以及所述合并文本框的格式信息,可以在所述合并文本框中提取出待校正订单信息。

在本公开实施例中,通过在待处理订单的文本识别结果所包含的多个文本框中,确定包含关键信息的第一文本框,并根据所述第一文本框对至少部分文本框进行合并,得到合并文本框,并从所述合并文本框中获取待校正订单信息,可以实现在待处理订单中,根据待校正订单信息中的关键信息进行高效的信息处理。

在一些实施例中,可以通过以下方式对文本框进行合并,得到合并文本框。

首先,获取所述多个文本框中除所述第一文本框以外的每个文本框与所述第一文本框之间的位置关系。所述位置关系包括其他文本框(即除所述第一文本框以外的任意一个文本框或是指定的文本框)与所述第一文本框的方位关系,例如在所述第一文本框的上方或下方,还包括与所述第一文本框的距离,例如与所述第一文本框在垂直方向上的像素距离,以及在水平方向上的像素距离。其中,文本框之间的距离根据两个文本框的中心点之间的距离确定。

接下来,将所述每个文本框中,与所述第一文本框之间的位置关系属于设定范围内的文本框,确定为第二文本框。例如,可以将所述第一文本框上方的文本框确定为第二文本框,或者可以将在垂直方向上与所述第一文本框的像素距离在设定阈值内的文本框确定为第二文本框等等。

之后,将所述第一文本框与所述第二文本框作为待合并文本框,进行合并,得到所述合并文本框。

在本公开实施例中,根据所述文本识别结果中的多个文本框,与包含所述关键信息的第一文本框位置关系,来确定待合并的文本框,并对所述合并文本框进行合并,可以将进行合并的文本框对象缩小至与待校正订单信息相关的范围内,减少了信息处理量,提高了信息处理效率。

对所述待合并文本框的合并可以基于行来进行。也即,根据所述待合并文本框中各文本框所属的行,对所述待合并文本框进行合并,得到所述合并文本框。

在所述待合并文本框中属于同一行的文本框的数量为一个的情况下,将属于同一行的一个文本框,确定为一个合并文本框。

在所述待合并文本框中属于同一行的文本框的数量为多个的情况下,将属于同一行的多个文本框进行合并,得到一个合并文本框。

图3A示出示例性的合并结果。如图3A所示,其包括多行合并文本框,包括合并文本框301~303,其中,每行所述合并文本框是对于该行所包含的一个或多个文本框进行合并得到的。

在本公开实施例中,通过对各文本框所属的行,对待合并文本框进行合并,得到了各行对应的合并文本框,有利于进行后续的信息处理。

在一些实施例中,对于属于同一行的多个文本框,在相邻两个文本框之间的距离小于第一阈值的情况下,对所述相邻两个文本框进行合并;通过对同一行中符合上述条件的每两个相邻文本框进行合并,得到了所述行对应的一个合并文本框。其中,所述第一阈值可以根据待校正订单信息的格式特征具体确定。

对于属于同一行的多个文本框,在相邻文本框之间的距离大于或等于第一阈值的情况下,表明这两个相邻文本框可能不是相关的内容,不同属于待校正订单信息,因此不对该相邻文本框进行合并。

在对同一行的相邻文本框进行合并,得到超过一个合并文本框的情况下,根据所得到的合并文本框与所述第一文本框的位置关系,确定所述行所对应的合并文本框。例如,将与所述第一文本框在水平方向上距离最近的合并文本框,作为最终的合并文本框。

在本公开实施例中,通过以同一行的相邻文本框之间的合并条件进行限制,可以避免将不相关内容的文本框合并至所述合并文本框中,提高了信息处理的准确度。

在一些实施例中,可以根据所述待处理订单的格式特征,从所述合并文本框中获取待校正订单信息。

所述待处理订单的格式特征,包括各行文本之间的距离特征,各行文本的字体特征,文本之间的位置关系特征等等。

根据所述格式特征,可以确定获取待校正订单信息的目标方向,并根据所述目标方向来获取待校正订单信息。

例如,在待校正订单信息为地址信息、所述关键信息为邮政编码的情况下,由于通常情况下邮政编码位于地址信息的末端,从而可以确定所述待校正订单信息位于所述第一文本框的上方,从而可以确定提取待校正订单信息的目标方向,根据该目标方向进行提取。

又例如,在待校正订单信息为地址信息、所述关键信息为指示地址信息的关键词“address(地址)”的情况下,由于关键“address”词通常位于地址信息的最前端,从而可以确定所述待校正订单信息位于所述第一文本框的下方,从而可以确定提取待校正订单信息的目标方向,根据该目标方向进行提取。

在本公开实施例中,通过根据待处理订单的格式特征确定目标方向,并按照所述目标方向,从所述合并文本框中获取待校正订单信息,可以提高信息处理的效率。

在一些实施例中,所述目标方向包括第一目标方向和第二目标方向,所述第一目标方向用于指示定位所述待校正订单信息所处区域的过程中遍历所述合并文本框的方向,所述第二目标方向用于指示从所述待校正订单信息所处区域中读取所述待校正订单信息的方向。

在一个示例中,以所述第一文本框为起始位置,按照所述第一目标方向遍历所述合并文本框,直至查找到关键信息所在的合并文本框为止;以所述关键信息为起始位置,按照所述第二目标方向遍历所述合并文本框,直至查找到所述关键信息所在的合并文本框为止,并获取按照所述第二目标方向遍历到的内容。其中,所述关键信息可以包括指示所述待校正订单信息的关键词、所述待校正订单信息的至少一个元素、所述待校正订单信息的部分内容等等。以所述待校正订单信息为地址为例,指示地址信息的关键词包括“地址”、“address”,以及其他语言中表示地址的关键词。

参见图3A所示的示例性合并文本框,所述关键信息为邮政编码10110,以包含“邮政编码10110”的第一文本框为起始位置,也即从合并文本框301开始,向上遍历所述合并文本框,直至查找到关键信息“Address”所在的合并文本框302。再以所述关键信息“Address”为起始位置,向下遍历所述合并文本框,直至查找到所述关键信息“邮政编码10110”所在的合并文本框301,并获取向下遍历到的内容作为待校正订单信息。需要说明的是,对于诸如英文释义的“地址”,对于单词中部分或是全部字母的大写、小写等形式,不予限定,可结合实际情况进行调整。也就意味着,在实际识别等处理过程中,对于ADDRESS、Address、address等,均可以采用相同的处理方式,即均被识别为“地址”。

在一个示例中,所述方法还包括:获取相邻合并文本框之间的距离。其中,所述相邻合并文本框包括在垂直方向上邻近的两个合并文本框。从所述文本识别结果中所获得的多个合并文本框,包括多对相邻合并文本框。如图3B所示,合并文本框311~314包括相邻合并文本框311~312、相邻合并文本框312~313、相邻合并文本框313~314。

以所述第一文本框为起始位置,按照所述第一目标方向遍历所述合并文本框,直至查找到距离满足第一设定条件的相邻合并文本框为止。其中,遍历包括获取所述合并文本框中的文本内容,还包括获取所述合并文本框与其相邻的合并文本框之间的距离,其中,所述相邻的合并文本框是在遍历所述合并文本框之间遍历的。接下来,以所述距离满足第一设定条件的相邻合并文本框中,首先遍历到的合并文本框为起始位置,按照所述第二目标方向遍历所述合并文本框,直至查找到所述关键信息所在的合并文本框为止,并获取按照所述第二目标方向遍历到的内容。其中,相邻合并文本框的距离满足第一设定条件包括:所述相邻合并文本框的距离大于第一框间距离阈值。

参见图3B所示的示例性合并文本框,所述关键信息为邮政编码10400,以包含邮政编码的第一文本框为起始位置,即包含“10400”的第一文本框为起始位置,也即从合并文本框311开始,向上遍历所述合并文本框。以遍历至所述合并文本框312为例,包括获取所述合并文本框312中的内容、并获取合并文本框312与合并文本框311之间的距离。其中,两个文本框之间的距离可以是两个文本框的中心点在垂直方向上的像素距离,也可以采用两个文本框对应位置之间的像素距离作为两个文本框之间的距离,比如,在两个文本框左对齐的情况下,可以将两个文本框位于左上角或是左下角的角点作为用于确定距离的两个顶点,并将这两个顶点之间的像素距离作为两个文本框之间的距离。当然,还可以采用其他与上述内容类似的方式,来确定两个文本框之间的距离。对于具体实现过程,在本申请中不予限定,可以包括但不限于上述例举的情况。在合并文本框312与合并文本框311之间的距离不满足第一设定条件,也即合并文本框312与合并文本框311之间的距离小于或等于第一框间距离阈值的情况下,则继续向上遍历。在检测出合并文本框314与合并文本框313之间的距离满足第一设定条件,也即合并文本框314与合并文本框313之间的距离大于第一框间距离阈值的情况下,则停止向上遍历。接下来,以合并文本框313为起始位置,也即以合并文本框314与合并文本框313中首先遍历到的合并文本框313为起始位置,向下遍历所述合并文本框,直至查找到所述关键信息邮政编码“10400”所在的合并文本框311,并获取向下遍历到的内容作为待校正订单信息。

在本公开实施例中,对于第一目标方向以及第二目标方向分别指向的方向之间的关系不予限定,即第一目标方向与第二目标方向可以呈一定角度,比如,所述第一目标方向和所述第二目标方向可以是相反的(即180°),也可以是相同的(即0°)。

在一个示例中,在所述关键信息位于待校正订单信息的开始部分时,第一目标方向可以指示向下遍历所述合并文本框,通过向下遍历所述合并文本框,直至查找到所述关键信息,或者查找到距离满足第一设定条件的相邻合并文本框。在所述关键信息位于待校正订单信息的开始部分的情况下,所述第一目标方向和所述第二目标方向相同,在上述进行遍历的区域按照第二目标方向再次进行遍历,获取遍历到的内容作为待校正订单信息。

在一些实施例中,将所述相邻合并文本框作为目标相邻合并文本框,则所述目标相邻合并文本框对应的第一框间距离阈值根据以下至少一项确定:所述目标相邻合并文本框中首先遍历到的合并文本框的高度;已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度。其中,所述目标相邻合并文本框是待确定第一框间距离阈值的两个相邻的合并文本框。在本公开实施例中,每对相邻合并文本框所对应的第一框间距离阈值可以是不同的。

在一个示例中,所述第一框间距离阈值根据所述目标相邻合并文本框中首先遍历到的合并文本框的高度确定。

以图3B中的相邻合并文本框311和312对应的第一框间距离阈值为例,由于在定位所述待校正订单信息所在区域的过程中,各个合并文本框是由下至上进行遍历的,相邻合并文本框311和312在本示例中是首先遍历到的相邻合并文本框,可以根据合并文本框311的高度,来确定二者所对应的第一框间距离阈值。例如,将所述第一框间距离阈值设置为0.65*mean_height1(合并文本框311的高度)。

在一个示例中,所述第一框间距离阈值可以根据已遍历的相邻合并文本框所包含的合并文本框之间的距离以及首先遍历到的合并文本框的高度确定。其中,首先遍历到的合并文本框是在定位所述待校正订单信息所在区域的过程中最先遍历的合并文本框。

以图3B中的相邻合并文本框312和313对应的第一框间距离阈值为例,可以根据已遍历的相邻合并文本框311和312之间的距离,以及最先遍历的合并文本框311的高度,来确定二者所对应的第一框间距离阈值。例如,将所述第一框间距离阈值threshold设置为mean1_distance+standard1_deviation,其中,mean1_distance表示相邻合并文本框311和312之间的距离,standard1_deviation表示合并文本框311和312对应的扰动值,standard1_deviation=0.25*height1,height1例如为合并文本框311的高度。

在已遍历到的相邻文本框多于一对的情况下,以图3B中的相邻文本框313和314对应的第一框间距离阈值为例,可以根据已遍历的相邻合并文本框311和312之间的距离、相邻合并文本框312和313之间的距离,以及最先遍历的合并文本框311的高度,来确定目标相邻文本框313和314对应的第一框间距离阈值。

在一个示例中,可以通过以下方式确定所述目标相邻合并文本框对应的第一框间距离阈值:获取所述目标相邻合并文本框的更新框间距离,所述更新框间距离通过对参考相邻合并文本框所包含的合并文本框之间的距离,以及所述参考相邻合并文本框所包含的合并文本框之间的更新框间距离,进行加权求和获得,其中,所述参考相邻文本框为与所述目标合并文本框最近的相邻合并文本框;获取所述目标相邻合并文本框的更新扰动值,所述更新扰动值通过对首先遍历到的所述相邻合并文本框的扰动值和距离差值的绝对值进行加权求和获得,其中,所述距离差值为所述目标相邻合并文本框的更新框间距离与所述参考相邻合并文本框所包含的合并文本框之间的距离之差,所述扰动值根据首先遍历到的合并文本框的高度确定;根据所述更新框间距离和所述更新扰动值确定所述目标相邻合并文本框的第一框间距离阈值。

仍以图3B中的相邻文本框313和314对应的第一框间距离阈值为例,首先获得相邻文本框313和314所对应的更新框间距离

new_mean=0.6*mean_distance+0.4*mean2_distance;其中,mean_distance为参考相邻合并文本框312和313所包括的合并文本框之间的更新框间距离。在本示例中,除最先遍历的相邻合并文本框之外,各相邻合并文本框对应的更新框间距离的获取方式相同。所述最先遍历的相邻合并文本框对应的更新框间距离为所包含的合并文本框之间的距离。接下来,获取更新扰动值new_deviation=0.6*standard1_deviation+0.4*abs(mean2_distance-new_mean),其中,standard1_deviation如前所述,表示合并文本框311和312对应的扰动值,其例如为合并文本框311的高度,mean2_distance、new_mean的含义如上所述。最后,根据以上获得的更新框间距离和更新扰动值确定目标相邻合并文本框313和314对应的第一框间距离阈值。

本领域技术人员应当理解,以上各个参数的数值仅用于示例,无意限制,各个参数的数值以及加权系数值可以根据实际需要确定。

对于图3B所示的多个合并文本框,通过应用以上所述的第一框间距离阈值确定的方法,在从合并文本框311向上遍历时,检测到合并文本框314与合并文本框313之间的距离大于对应的第一框间距离阈值,因此停止遍历,接下来从合并文本框314与合并文本框313中首先遍历到的合并文本框313作为起始位置,向下遍历各个合并文本框,直至查找到关键信息所在的合并文本框311为止,并获取向下遍历得到的内容。

在本公开实施例中,通过对距离阈值设置扰动值,以及根据已遍历的相邻合并文本框的距离和最先遍历到的合并文本框来更新当前距离阈值,提高了本公开实施例提出的信息提取方法的容错率,从而能够更有效地提取出待校正订单信息。

在一些实施例中,在提取出所述待校正订单信息之后,还可以按照所述目标方向,根据与所述待校正订单信息所在区域的位置关系,从所述待校正订单信息所在区域之外的合并文本框中确定所述待校正订单信息对应的主体名称。

在多种格式的文件中,与所提取的目标区域所在区域距离最近的文本框,为所述待校正订单信息对应的主体名称的文本框。以图3B所示的酒店订单的部分截图为例,可见所提取的地址信息上方的文本框,则为所述地址信息的主体—酒店的名称。对于名片、购物订单等文件也是如此,与地址信息、身份信息等所在区域距离最近的文本框,为这些信息的主体的名称所在的文本框。

在一个示例中,可以通过以下方法确定所述待校正订单信息对应的主体名称。

首先,确定与所述待校正订单信息所在区域在所述第一目标方向上距离最近的合并文本框;以所述合并文本框为起始位置,按照所述第一目标方向遍历所述合并文本框,直至查找到距离满足第二设定条件的相邻合并文本框为止;以所述距离满足第二设定条件的相邻合并文本框中,首先遍历到的合并文本框为起始位置,按照所述第二目标方向遍历所述待校正订单信息所在区域以外的合并文本框,并获取按照所述第二目标方向遍历到的内容。

以图3C所示的合并文本框为例,合并文本框321~322中所包含的内容为根据本公开任一实施例所述的订单信息的校正方法提取的待校正订单信息,可以将合并文本框321~322所在的区域确定为所述待校正订单信息所在的区域。在根据所述文本识别结果所确定的各个合并文本框中,除合并文本框321~322之外,与所述待校正订单信息所在区域在第一目标方向上(查找遍历的方向,在本示例中为向上)距离最近的合并文本框为323(在合并文本框322和合并文本框323之间存在非目标语言的文字,如灰色部分所示,忽略不计)。以合并文本框323为起始位置,向上遍历合并文本框。由于合并文本框323上方相邻的合并文本框与合并文本框323之间的距离超过第二框间阈值,也即满足了第二设定条件(在合并文本框323的上方不存在其他合并文本框的情况下,也认为满足第二设定条件),则将合并文本框323作为起始位置,向下遍历所述待校正订单信息所在区域之外的合并文本框,在本示例中即为合并文本框323,从而可以将合并文本框中的内容“XXXXXX Hotel”确定为待校正订单信息的主体的名称,即将“XXXXXX酒店”确定为待校正订单信息的主体的名称。

在一些实施例中,在以所述合并文本框为起始位置,按照所述第一目标方向遍历所述合并文本框时,忽略不在所述目标所在区域上方的合并文本框,也即忽略与所述待校正订单信息所在的合并文本框在水平方向上没有交集的合并文本框。

在一个示例中,在所遍历的合并文本框中包含“)”却没有“(”的情况下,则可以忽略相邻合并文本框之间的距离条件,继续在第一目标方向上遍历合并文本框,直到查找到“(”,再根据相邻合并文本框之间的距离条件确定是否停止遍历。在该示例中,可以将第二框间距离阈值设置为0.4*mean_height(相邻合并文本框的平均高度)。

在一个示例中,在当前遍历的合并文本框中包含完整的括号“()”,或者不含括号的情况下,可以将第二框间距离阈值设置为0.6*mean_height(相邻合并文本框的平均高度)。本领域技术人员应当理解,以上的系数设置均为示例,本公开对此不进行限制。

本公开任一实施例所提出的信息提取方法可应用于各种版式的图像或电子文档,至少包括如下一项:酒店订单、飞机行程单、护照、身份证等等的图像或电子文档(例如,pdf文档)。通过将该信息提取方法应用于上述各种版式的图像或电子文档,可以提取出所述或电子文档中所包含的相应类型的待校正订单信息,至少包括如下一项:地址信息、行程信息、身份信息等等。

图4为本公开至少一个实施例提供的订单信息的校正装置,所述装置包括:获取单元401,用于根据订单的文本识别结果获得待校正订单信息;确定单元402,用于从所述文本识别结果中确定目标搜索信息;匹配单元403,用于通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息;校正单元404,用于利用所述订单参考信息校正所述待校正订单信息,以得到目标订单信息。

在一些实施例中,所述目标搜索信息包括如下至少一项:所述目标搜索信息包括所述待校正订单信息的部分内容;所述部分内容包括主体名称、至少一个元素中的至少一项。

在一些实施例中,所述匹配单元具体用于如下至少一项:访问设定数据库,以从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息;通过互联网获取与所述目标搜索信息匹配的订单参考信息。

在一些实施例中,所述设定数据库包括多个层级的参考单元信息,且所述多个层级中最低层级的参考单元信息对应于多个参考主体名称。

在一些实施例中,所述设定数据库存储有参考主体名称对应的第一参考信息;所述确定单元具体用于:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;所述从所述设定数据库中获取与所述目标搜索信息匹配的订单参考信息,包括:确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的第一参考信息,获得与所述目标搜索信息匹配的订单参考信息。

在一些实施例中,所述设定数据库存储有参考主体名称对应的第二参考信息;所述匹配单元具体用于:根据所述设定数据库中的层级划分,获取所述待校正订单信息中最低层级的单元信息;确定所述设定数据库的最低层级的参考单元信息中,与所述待校正订单信息中最低层级的单元信息相匹配的目标单元信息;确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称;根据所述目标主体名称所对应的各个层级的参考单元信息,以及所述目标主体名称所对应的第二参考信息,获得与所述目标搜索信息匹配的订单参考信息。

在一些实施例中,所述匹配单元在用于确定所述目标单元信息所对应的多个参考主体名称中,符合预设条件的目标主体名称,具体用于:将所述待校正订单信息对应的主体名称分别与所述目标单元信息所对应的多个参考主体名称进行匹配;将匹配得分最高且超过第一设定阈值的参考主体名称,确定为目标主体名称。

在一些实施例中,所述匹配单元具体用于:根据所述待校正订单信息的部分内容在互联网中进行搜索,获得至少一个所述目标搜索信息匹配的参考信息;将所述目标搜索信息对应的参考信息与所述待校正订单信息进行匹配;获取匹配得分最高且超过第二设定阈值的订单参考信息。

在一些实施例中,所述装置还包括添加单元,用于将从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,添加至所述设定数据库中最低层级的参考单元信息所对应的信息中。

在一些实施例中,所述装置还包括更新单元,用于根据从互联网中获取的所述订单参考信息,以及所述待校正订单信息对应的主体名称,对所述设定数据库中最低层级的参考单元信息所对应的信息进行更新。

在一些实施例中,所述待校正订单信息至少包括地址信息,所述待校正订单信息所包括的至少一个元素包括如下至少一项:行政区、邮政编码,所述设定数据库所包括的多个层级的参考单元信息包括参考行政区信息或邮政编码信息。

在一些实施例中,所述获取单元具体用于:获取所述待处理对象的文本识别结果,所述文本识别结果包括多个文本框;从所述多个文本框中确定包含关键信息的第一文本框,所述关键信息包括所述待校正订单信息的部分内容,所述部分内容包括待校正订单信息中的至少一个元素、指示待校正订单信息的关键词中的至少一项;根据所述第一文本框,对所述多个文本框中的至少部分进行合并,得到合并文本框;从所述合并文本框获取所述待校正订单信息。

根据本公开的一方面,提供一种电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施方式所述的订单信息的校正方法。

根据本公开的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施方式所述的订单信息的校正方法。

本公开一个或多个实施例的订单信息的校正方法、装置、设备及存储介质,根据订单的文本识别结果获得待校正订单信息,并从所述文本识别结果中确定目标搜索信息,通过预设搜索方式获取与所述目标搜索信息匹配的订单参考信息,利用所述订单参考信息校正所述待校正订单信息以得到目标订单信息,可以从订单的文本识别结果中,快速地获得准确的目标订单信息。

图5为本公开至少一个实施例提供的电子设备,所述设备包括存储器、处理器,所述存储器用于存储可在处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现本公开任一实施例所述的订单信息的校正方法。

本公开至少一个实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开任一实施例所述的订单信息的校正方法。

本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。

类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。

由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

相关技术
  • 订单信息的校正方法、装置、设备及存储介质
  • 订单信息的存储方法、查询方法、装置、设备及存储介质
技术分类

06120112378001