掌桥专利:专业的专利平台
掌桥专利
首页

物流单据品名识别方法、装置及设备

文献发布时间:2023-06-19 19:20:08


物流单据品名识别方法、装置及设备

技术领域

本申请涉及信息识别技术领域,更具体地说,涉及一种物流单据品名识别方法、装置及设备。

背景技术

随着物联网产业链的飞速发展,快递运输为人们的生活带来了许多便利。为了避免快递运输出错,一般通过物流单据实现各个快递的分类。而快递单据中不仅包含寄件人信息以及收件人信息,还包含商品的名称、商品的编码、属性等与商品本身有关的参数,且这些与商品本身有关的参数对于快递公司而言亦是十分重要的。

现有技术中通过文字识别网络对物流单据的表格区域进行文字识别,实现品名识别,但现有技术仅能对表格区域进行文字识别,一旦物流单据中不存在表格,品名识别准确度降低。

发明内容

有鉴于此,本申请提供了一种物流单据品名识别方法、装置及设备,用于解决现有技术的品名识别方法受限于存在表格的物流单据的缺点。

为了实现上述目的,现提出的方案如下:

一种物流单据品名识别方法,包括:

获取物流单据及品名识别模型;

对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;

依次从各个所述文字块中选取预测文字块;

从各个所述文字块中选取所述预测文字块对应的领域文字块;

利用所述领域文字块以及所述预测文字块组成识别数据;

将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;

根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

可选的,所述获取品名识别模型,包括:

获取多个训练单据以及初始品名识别模型,并生成每个所述训练单据对应的训练文字块,所述训练文字块中包含训练单据的单据字符;

依次确定每个所述训练文字块对应的训练领域文字块;

将每个所述训练文字块及其对应的训练领域文字块进行组合,得到组合数据;

根据所述训练文字块中的单据字符是否为品名的组成部分对组合数据进行标注,得到训练数据;

将所述训练数据输入至所述初始品名识别模型,得到所述初始品名识别模型的预测结果;

基于所述预测结果以及所述训练数据,计算损失值;

根据所述损失值对所述初始品名识别模型的参数进行调整,直至所述损失值低于预置的阈值为止,将最终得到的初始品名识别模型作为品名识别模型。

可选的,所述初始品名识别模型包括共享网络、编码识别网络以及分类网络;

将所述训练数据输入至所述初始品名识别模型,得到所述初始品名识别模型的预测结果,包括:

将所述训练数据输入至所述共享网络,得到所述共享网络提取的共享参数;

将所述共享参数分别输入至所述编码识别网络以及所述分类网络,得到所述编码识别网络预测的商品编码以及所述分类网络预测的分类结果,所述商品编码以及所述分类结果组成所述初始品名识别模型的预测结果。

可选的,所述根据所述损失值对所述初始品名识别模型的参数进行调整,包括:

根据所述损失值,对所述初始品名识别模型中的共享网络以及分类网络的参数进行调整。

可选的,所述文字块中还包括该文字块的单据字符在所述物流单据中的位置信息;

所述从各个所述文字块中选取所述预测文字块对应的领域文字块,包括:

根据每个所述文字块的位置信息,确定所述预测文字块是否存在对应的左文字块、右文字块、上文字块和下文字块;

若所述预测文字块存在对应的左文字块,则从各个文字块中选取所述预测文字块的左文字块作为所述预测文字块的领域文字块;

若所述预测文字块存在对应的右文字块,则从各个文字块中选取所述预测文字块的右文字块作为所述预测文字块的领域文字块;

若所述预测文字块存在对应的上文字块,则从各个文字块中选取所述预测文字块的上文字块作为所述预测文字块的领域文字块;

若所述预测文字块存在对应的下文字块,则从各个文字块中选取所述预测文字块的下文字块作为所述预测文字块的领域文字块。

可选的,根据每个所述文字块的位置信息,确定所述预测文字块是否存在对应的左文字块、右文字块、上文字块和下文字块,包括:

根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的左端,以确定所述预测文字块是否存在对应的左文字块;

根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的右端,以确定所述预测文字块是否存在对应的右文字块;

根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的上端,以确定所述预测文字块是否存在对应的上文字块;

根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的下端,以确定所述预测文字块是否存在对应的下文字块。

可选的,所述利用所述领域文字块以及所述预测文字块组成识别数据,包括:

根据预置的组合模板,对所述预测文字块以及所述领域文字块进行组合,得到识别数据。

可选的,所述根据每个文字块及其对应的分类结果,确定所述物流单据的品名,包括:

根据每个文字块及其对应的分类结果,从各个文字块中提取属于品名组成部分的目标单据字符;

根据所述目标单据字符及其对应的分类结果,得到所述物流单据对应的品名。

一种物流单据品名识别装置,包括:

单据获取单元,用于获取物流单据及品名识别模型;

文字块生成单元,用于对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;

预测文字块选取单元,用于依次从各个所述文字块中选取预测文字块;

领域文字块选取单元,用于从各个所述文字块中选取所述预测文字块对应的领域文字块;

领域文字块利用单元,用于利用所述领域文字块以及所述预测文字块组成识别数据;

识别数据输入单元,用于将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;

品名确定单元,用于根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

一种物流单据品名识别设备,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述的物流单据品名识别方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述的物流单据品名识别方法的各个步骤。

从上述的技术方案可以看出,本申请提供的物流单据品名识别方法,可以获取物流单据及品名识别模型;对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;依次从各个所述文字块中选取预测文字块;从各个所述文字块中选取所述预测文字块对应的领域文字块;利用所述领域文字块以及所述预测文字块组成识别数据;将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;如此,本申请可以根据每个文字块本身的内容以及文字块附近的内容,确定该文字块是否包含了品名,进一步提高识别的准确度;根据每个文字块及其对应的分类结果,确定所述物流单据的品名,如此,本申请可以通过对各个文字块进行品名识别,从而确定品名的各个组成部分,再根据品名识别模型的分类结果,对组成部分进行组合,得到品名。可见,本申请在确定品名的过程中,并不受限于物流单据中是否存在表格区域,亦可以准确地确定品名。

此外,本申请中可以通过上述过程确定品名的组成部分,即使不同的物流单据中品名字段的长度和格式存在变化,导致品名分块,本申请亦可识别分块的品名组成部分,因而,本申请的物流单据品名识别方法可以适应于各类不同的物流单据,使用范围十分广泛,具备更高的实用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种物流单据品名识别方法流程图;

图2为本申请实施例公开的一种物流单据品名识别装置结构框图;

图3为本申请实施例公开的一种物流单据品名识别设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供的物流单据品名识别方法,可以应用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

接下来结合图1对本申请的物流单据品名识别方法进行详细介绍,包括如下步骤:

步骤S1、获取物流单据及品名识别模型。

具体地,本申请可以获取需要提取品名的物流单据,而该物流单据可以为快递运输过程中的单据,例如,可以为国际海运贸易常见的物流单据,也可以为国内电商贸易常见的物流单据。

其中,物流单据可以为海运托书、提单、商业发票等单据。

品名识别模型可以用于进行文字块分类。

步骤S2、对所述物流单据进行识别,生成一个以上文字块。

具体地,可以先对物流单据进行格式转换,再对格式转换后的物流单据进行识别。

其中,物流单据的格式可以为word格式、excel格式、pdf格式以及png格式以及jpg格式等多种格式。因而,在进行格式转换时,可以将物流单据转换为统一格式,例如,可以转换为pdf格式。

在进行格式转换后,可以使用多种方式进行物流单据识别,生成文字块,例如,可以利用OCR工具对格式转换后的物流单据进行识别,生成文字块;也可以通过常见的pdf解析工具对格式转换后的物流单据进行识别,生成文字块。

其中,各个文字块中都包含单据字符,各个文字块的单据字符组成该物流单据所包含的所有字符。

步骤S3、依次从各个所述文字块中选取预测文字块。

具体地,每个文字块都轮流作为预测文字块。

步骤S4、从各个所述文字块中选取所述预测文字块对应的领域文字块。

具体地,可以从各个文字块中,选取预测文字块的领域文字块,领域文字块的单据字符在物流单据中位于对应的预测文字块单据字符的附近。

步骤S5、利用所述领域文字块以及所述预测文字块组成识别数据。

具体地,按照一定的格式,将领域文字块以及预测文字块进行组合,得组合后的结果即为识别数据。

步骤S6、将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果。

具体地,可将识别数据输入至预先训练得到的品名识别模型中,得到品名识别模型基于识别数据预测的、与预测文字块对应的分类结果。

其中,分类结果可用于表明所述预测文字块中的单据字符是否为品名的组成部分。

实际上,不同的物流单据中,品名长度不一,对于一些物流单据,品名可能由一个单词或者一行字符组成,也可能由两行以上的字符或多个单词组成,因而,生成文字块后,一个文字块的单据字符组成完整的品名,也可能由多个文字块组成一个完整的品名。

基于此,分类结果可能有多个,分类结果可以为完整品名、品名开头、品名中间、品名末端、部分品名或非品名。

部分品名可表示该文字块中的单据字符仅有部分字符为品名的组成部分。

完整品名可表示该文字块中的单据字符即为一个完整的品名。

品名开头可表示该文字块中的单据字符为一个完整品名的开头,需要与其他文字块的单据字符进行组合,才能得到完整的品名。

品名中间可表示该文字块中的单据字符为品名的中间部分,需要与其他文字块的单据字符进行组合,才能得到完整的品名。

品名末端可表示该文字块中的单据字符为品名的末端部分,需要与其他文字块的单据字符进行组合,才能得到完整的品名。

部分品名可表示该文字块中的单据字符为并不全是品名,需要对该单据字符进行品名提取,才能得到完整的品名。

非品名可表示该文字块中的单据字符并非为品名的组成部分。

步骤S7、根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

具体地,可以当得到每个文字块对应的分类结果后,可以根据每个文字块中的单据字符以及每个文字块对应的分类结果,确定物流单据的品名。

从上述技术方案可以看出,本申请提供了一种物流单据品名识别方法,可以通过对各个文字块进行品名识别,从而确定品名的各个组成部分,再根据品名识别模型的分类结果,对组成部分进行组合,得到品名。可见,本申请在确定品名的过程中,并不受限于物流单据中是否存在表格区域,亦可以准确地确定品名。且可以将整个物流单据分为多个文字块,并逐一判断各个文字块中的单据字符是否为品名的组成部分,实现了对品名的精细化判断,进一步提高了确定品名的准确度。

此外,本申请中可以通过上述过程确定品名的组成部分,即使不同的物流单据中品名字段的长度和格式存在变化,导致品名分块,本申请亦可识别分块的品名组成部分,因而,本申请的物流单据品名识别方法可以应用于品名长度不同且相差很大的物流单据中,进一步提高了本申请的应用范围。

在本申请的一些实施例中,对步骤S1中获取品名识别模型的过程进行详细说明,步骤如下:

S10、获取多个训练单据以及初始品名识别模型,并生成每个所述训练单据对应的训练文字块,所述训练文字块中包含训练单据的单据字符。

具体地,可以获取多个物流单据作为训练单据,并获取初始品名识别模型。

对每个训练单据进行识别,得到每个训练单据对应的多个训练文字块,每个训练文字块中包含对应的训练单据的单据字符。

S11、依次确定每个所述训练文字块对应的训练领域文字块。

具体地,可以从各个训练文字块中,确定每个训练文字块对应的训练领域文字块,同一训练文字块可以对应多个训练领域文字块。训练文字块的单据字符位于该训练文字块对应的训练领域文字块的单据字符附近。

S12、将每个所述训练文字块及其对应的训练领域文字块进行组合,得到组合数据。

具体地,可以按照一定的格式,对训练文字块及其对应的训练领域文字块进行组合,得到的结果为组合数据。

S13、根据所述训练文字块中的单据字符是否为品名的组成部分对组合数据进行标注,得到训练数据。

具体地,可根据每个训练文字块中的单据字符对训练文字块对应的组合数据进行标注,标注后得到的数据为训练数据,该标注表明该单据字符是否为品名的组成部分。

S14、将所述训练数据输入至所述初始品名识别模型,得到所述初始品名识别模型的预测结果。

具体地,可以将训练数据输入至初始品名识别模型中,以便初始品名识别模型可以基于训练数据中的训练文字块以及该训练文字块对应的训练领域文字块进行预测,得到该训练文字块对应的预测结果。

S15、基于所述预测结果以及所述训练数据,计算损失值。

具体地,可以基于预测结果以及训练数据中的标注标签之间的相似性,计算初始品名识别模型的损失值。

S16、根据所述损失值对所述初始品名识别模型的参数进行调整,直至所述损失值低于预置的阈值为止,将最终得到的初始品名识别模型作为品名识别模型。

具体地,可以预先根据实际需求设置阈值,并在训练过程中,将计算得到的损失值与该阈值进行比较,直至损失值低于该阈值为止,最终得到的初始品名识别模型为获取的品名识别模型。

从上述技术方案可以看出,本实施例提供了一种获取品名识别模型的可选的方式,通过上述的方式可以得到能够对文字块中的单据字符进行识别的品名识别模型,进一步提高本申请确定品名的可靠性。

在本申请的一些实施例中,对步骤S14、将所述训练数据输入至所述初始品名识别模型,得到所述初始品名识别模型的预测结果的过程进行详细说明,步骤如下:

S140、将所述训练数据输入至所述共享网络,得到所述共享网络提取的共享参数。

具体地,初始品名识别模型可以由共享网络、编码识别网络以及分类网络组成。

因而,可以将训练数据先输入至共享网络中,利用共享网络进行特征提取,得到共享参数。

S141、将所述共享参数分别输入至所述编码识别网络以及所述分类网络,得到所述编码识别网络预测的商品编码以及所述分类网络预测的分类结果,所述商品编码以及所述分类结果组成所述初始品名识别模型的预测结果。

具体地,可以将共享参数输入至编码识别网络,得到编码识别网络基于共享参数预测的商品编码,且可以将共享参数输入至分类网络,得到分类网络基于共享参数预测的与训练数据对应的分类结果。

分类结果以及商品编码组成初始品名识别模型的预测结果。

从上述技术方案可以看出,本申请在训练初始品名识别网络的过程中,可以训练其对商品编码进行预测,而商品编码为物流单据中存在的内容,基于此,本申请可以利用充分利用物流单据对初始品名识别模型进行训练,提高初始品名识别模型的表达能力,以便更准确地预测分类结果。

在本申请的一些实施例中,对步骤S16中根据所述损失值对所述初始品名识别模型的参数进行调整的过程进行详细说明,步骤如下:

S160、根据所述损失值,对所述初始品名识别模型中的共享网络以及分类网络的参数进行调整。

具体地,可以基于损失值,对初始品名识别模型的共享网络以及分类网络进行参数调整,以提高预测结果与训练数据的标注标签的相似性。

从上述技术方案可以看出,本实施例可以对共享网络以及分类网络进行参数调整,以降低初始品名识别模型的损失值,从而提高初始品名识别模型的分类准确度。

在本申请的一些实施例中,对步骤S3、依次从各个所述文字块中选取预测文字块的过程进行详细说明,步骤如下:

S30、根据每个所述文字块的位置信息,确定所述预测文字块是否存在对应的左文字块、右文字块、上文字块和下文字块。

具体地,每个文字块中除了包含单据字符外,还可以包含单据字符在物流单据中的位置信息,该位置信息可以为单据字符的二维坐标,该位置信息可以包含单据字符的起始坐标以及单据字符的结束坐标。

可以对预测文字块的位置信息与其他文字块的坐标信息进行比较,确定预测文字块是否对应有位于预测文字块的单据字符正左端的单据字符、位于预测文字块的单据字符正右端的单据字符、位于预测文字块的单据字符正上端的单据字符和位于预测文字块的单据字符正下端的单据字符。

一个预测文字块对应的领域文字块可以包含左文字块、右文字块、上文字块和下文字块中的一种或多种。

S31、若所述预测文字块存在对应的左文字块,则从各个文字块中选取所述预测文字块的左文字块作为所述预测文字块的领域文字块。

具体地,若所述预测文字块存在对应的左文字块,则根据预测文字块的位置信息以及各个文字块的位置信息,从各个文字块中选取一个预测文字块的左文字块作为所述预测文字块的领域文字块。

S32、若所述预测文字块存在对应的右文字块,则从各个文字块中选取所述预测文字块的右文字块作为所述预测文字块的领域文字块。

具体地,在预测文字块存在对应的右文字块的情况下,可以根据预测文字块的位置信息以及各个文字块的位置信息,从各个文字块中选取一个预测文字块的右文字块作为所述预测文字块的领域文字块。

S33、若所述预测文字块存在对应的上文字块,则从各个文字块中选取所述预测文字块的上文字块作为所述预测文字块的领域文字块。

具体地,在预测文字块存在对应的上文字块的情况下,可以根据预测文字块的位置信息以及各个文字块的位置信息,从各个文字块中选取一个预测文字块的上文字块作为所述预测文字块的领域文字块。

S34、若所述预测文字块存在对应的下文字块,则从各个文字块中选取所述预测文字块的下文字块作为所述预测文字块的领域文字块。

具体地,在预测文字块存在对应的下文字块的情况下,可以根据预测文字块的位置信息以及各个文字块的位置信息,从各个文字块中选取一个预测文字块的下文字块作为所述预测文字块的领域文字块。

从上述技术方案可以看出,本实施例提供了一种确定预测文字块的领域文字块的可选的方式,通过上述的方式可以选取左文字块、右文字块、上文字块和/或下文字块作为领域文字块,从而,更好地组成识别数据,对预测文字块的分类结果进行预测。

在本申请的一些实施例中,对步骤S30、根据每个所述文字块的位置信息,确定所述预测文字块是否存在对应的左文字块、右文字块、上文字块和下文字块的过程进行详细说明,步骤如下:

S300、根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的左端,以确定所述预测文字块是否存在对应的左文字块。

具体地,可以根据各个文字块的位置信息以及预测文字块的位置信息,判断是否存在文字块的单据字符位于预测文字块的单据字符左端,若存在,则确定所述预测文字块存在对应的左文字块。

例如,文字块中包含的位置信息可为二维坐标,即为x坐标、y坐标,可以通过预测文字块的位置信息以及各个文字块的位置信息,判断是否存在y坐标相差在阈值单位以内,且x坐标小于预测文字块x坐标的文字块,当存在符合上述条件的文字块时,确定预测文字块存在左文字块。

可以从符合上述条件的文字块中选取x坐标最大的文字块作为左文字块。

其中,阈值单位可以根据实际需求进行设定,一般而言,可以设置为两个单位。

S301、根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的右端,以确定所述预测文字块是否存在对应的右文字块。

具体地,可以根据各个文字块的位置信息以及预测文字块的位置信息,判断是否存在文字块的单据字符位于预测文字块的单据字符右端,若存在,则确定所述预测文字块存在对应的右文字块。

例如,可以通过预测文字块的位置信息以及各个文字块的位置信息,判断是否存在y坐标相差在阈值单位以内,且x坐标大于预测文字块x坐标的文字块,当存在符合上述条件的文字块时,确定预测文字块存在右文字块。

可以从符合上述条件的文字块中选取x坐标最小的文字块作为右文字块。

S302、根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的上端,以确定所述预测文字块是否存在对应的上文字块。

具体地,可以根据各个文字块的位置信息以及预测文字块的位置信息,判断是否存在文字块的单据字符位于预测文字块的单据字符上端,若存在,则确定所述预测文字块存在对应的上文字块。

例如,可以通过预测文字块的位置信息以及各个文字块的位置信息,判断是否存在x坐标相差在阈值单位以内,且y坐标大于预测文字块y坐标的文字块,当存在符合上述条件的文字块时,确定预测文字块存在上文字块。

可以从符合上述条件的文字块中选取y坐标最小的文字块作为上文字块。

S303、根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的下端,以确定所述预测文字块是否存在对应的下文字块。

具体地,可以根据各个文字块的位置信息以及预测文字块的位置信息,判断是否存在文字块的单据字符位于预测文字块的单据字符下端,若存在,则确定所述预测文字块存在对应的下文字块。

例如,可以通过预测文字块的位置信息以及各个文字块的位置信息,判断是否存在x坐标相差在阈值单位以内,且y坐标小于预测文字块y坐标的文字块,当存在符合上述条件的文字块时,确定预测文字块存在下文字块。

可以从符合上述条件的文字块中选取y坐标最大的文字块作为上文字块。

从上述技术方案可以看出,本实施例提供了一种可选的确定预测文字类是否存在对应的左文字块、右文字块、上文字块和下文字块的方式,通过上述的方式,可以进一步利用预测文字块以及各个文字块的x坐标以及y坐标,确定预测文字块是否存在左文字块、右文字块、上文字块和下文字块,提高了预测文字块与领域文字块的匹配性,从而,更好地利用预测文字块以及领域文字块预测分类结果。

在本申请的一些实施例中,对步骤S5、利用所述领域文字块以及所述预测文字块组成识别数据的过程进行详细说明,步骤如下:

S50、根据预置的组合模板,对所述预测文字块以及所述领域文字块进行组合,得到识别数据。

具体地,可以预先设置组合模板,该组合模板中表明领域文字块以及预测文字块的组合方式。按照组合模板,对预测文字块以及其对应的领域文字块进行组合,得到识别数据。

组合模板可以表明多种组合领域文字块以及预测文字块的方式,例如,组合模板可以表明预测文字块可以置于首位,上文字块置于次位,左文字块置于第三位,右文字块置于第四位,下文字块置于末位;组合模板也可以表明预测文字块可以置于首位,上文字块置于次位,下文字块置于第三位,右文字块置于第四位,左文字块置于末位。

进一步,为了区分预测文字块、上文字块、左文字块、下文字块及右文字块,各个文字块间可以增加分隔符。

从上述技术方案可以看出,本实施例提供了一种生成识别数据的可选的方式,通过上述的方式,可以按照一定的格式对领域文字块以及预测文字块进行组合,生成识别数据,如此,输入至品名识别模型的识别数据具备相同的格式,可以便于品名识别模型更好地进行分类任务。

在本申请的一些实施例中,对步骤S7、根据每个文字块及其对应的分类结果,确定所述物流单据的品名的过程进行详细说明,步骤如下:

S70、根据每个文字块及其对应的分类结果,从各个文字块中提取属于品名组成部分的目标单据字符。

具体地,可以根据每个文字块的分类结果,确定需要提取单据字符的目标文字块,目标文字块对应的分类结果表明该目标文字块中的单据字符属于品名的组成部分。

从目标文字块中提取单据字符作为目标单据字符。

当目标文字块的分类结果表明该目标文字块的单据字符存在部分字符为品名,部分字符不为品名的组成部分时,可以对该目标文字块的目标单据字符进行清洗更新,得到更新后的目标单据字符,以去除原本的目标单据字符不属于品名的字符。

其中,清洗更新过程可为去除目标单据字符的数量词、件数、体积等具体数量参数的过程。

S71、根据所述目标单据字符及其对应的分类结果,得到所述物流单据对应的品名。

具体地,可以根据分类结果对各个目标单据字符进行处理,例如,将分类结果为品名开头的目标单据字符置前,将分类结果为品名末端的目标单据字符置后,得到的数据即为品名;也可以直接将分类结果为完整品名的目标单据字符作为物流单据对应的品名。

从上述技术方案可以看出,本实施例提供了一种确定品名的可选的方式,通过上述的方式,可根据每个文字块中的单据字符及每个文字块的分类结果,确定物流单据的品名,通过上述的过程可以进一步利用品名识别模型的分类结果进行品名的确定,且本申请可以得到物流单据的所有内容对应的分类结果,进一步保证品名的完整性以及准确度。

下面对本申请实施例提供的物流单据品名识别装置进行描述,下文描述的物流单据品名识别装置与上文描述的物流单据品名识别方法可相互对应参照。

参见图2,图2为本申请实施例公开的一种物流单据品名识别装置结构示意图。

如图2所示,该物流单据品名识别装置可以包括:

单据获取单元1,用于获取物流单据及品名识别模型;

文字块生成单元2,用于对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;

预测文字块选取单元3,用于依次从各个所述文字块中选取预测文字块;

领域文字块选取单元4,用于从各个所述文字块中选取所述预测文字块对应的领域文字块;

领域文字块利用单元5,用于利用所述领域文字块以及所述预测文字块组成识别数据;

识别数据输入单元6,用于将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;

品名确定单元7,用于根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

可选的,单据获取单元可以包括:

模型获取单元,用于获取多个训练单据以及初始品名识别模型,并生成每个所述训练单据对应的训练文字块,所述训练文字块中包含训练单据的单据字符;

训练领域文字块确定单元,用于依次确定每个所述训练文字块对应的训练领域文字块;

文字块组合单元,用于将每个所述训练文字块及其对应的训练领域文字块进行组合,得到组合数据;

训练数据获取单元,用于根据所述训练文字块中的单据字符是否为品名的组成部分对组合数据进行标注,得到训练数据;

预测结果获取单元,用于将所述训练数据输入至所述初始品名识别模型,得到所述初始品名识别模型的预测结果;

损失值计算单元,用于基于所述预测结果以及所述训练数据,计算损失值;

参数调整单元,用于根据所述损失值对所述初始品名识别模型的参数进行调整,直至所述损失值低于预置的阈值为止,将最终得到的初始品名识别模型作为品名识别模型。

可选的,预测结果获取单元可以包括:

共享参数获取单元,用于将所述训练数据输入至所述共享网络,得到所述共享网络提取的共享参数;

商品编码获取单元,用于将所述共享参数分别输入至所述编码识别网络以及所述分类网络,得到所述编码识别网络预测的商品编码以及所述分类网络预测的分类结果,所述商品编码以及所述分类结果组成所述初始品名识别模型的预测结果。

可选的,参数调整单元可以包括:

共享网络参数调整单元,用于根据所述损失值,对所述初始品名识别模型中的共享网络以及分类网络的参数进行调整。

可选的,领域文字块选取单元可以包括:

位置信息利用单元,用于根据每个所述文字块的位置信息,确定所述预测文字块是否存在对应的左文字块、右文字块、上文字块和下文字块;

左文字块选取单元,用于若所述预测文字块存在对应的左文字块,则从各个文字块中选取所述预测文字块的左文字块作为所述预测文字块的领域文字块;

右文字块选取单元,用于若所述预测文字块存在对应的右文字块,则从各个文字块中选取所述预测文字块的右文字块作为所述预测文字块的领域文字块;

上文字块选取单元,用于若所述预测文字块存在对应的上文字块,则从各个文字块中选取所述预测文字块的上文字块作为所述预测文字块的领域文字块;

下文字块选取单元,用于若所述预测文字块存在对应的下文字块,则从各个文字块中选取所述预测文字块的下文字块作为所述预测文字块的领域文字块。

可选的,位置信息利用单元可以包括:

第一位置信息利用单元,用于根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的左端,以确定所述预测文字块是否存在对应的左文字块;

第二位置信息利用单元,用于根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的右端,以确定所述预测文字块是否存在对应的右文字块;

第三位置信息利用单元,用于根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的上端,以确定所述预测文字块是否存在对应的上文字块;

第四位置信息利用单元,用于根据各个文字块的位置信息,确定各个文字块中是否存在任一文字块的单据字符位于所述预测文字块单据字符的下端,以确定所述预测文字块是否存在对应的下文字块。

可选的,领域文字块利用单元可以包括:

模板利用单元,用于根据预置的组合模板,对所述预测文字块以及所述领域文字块进行组合,得到识别数据。

可选的,品名确定单元可以包括:

字符提取单元,用于根据每个文字块及其对应的分类结果,从各个文字块中提取属于品名组成部分的目标单据字符;

字符利用单元,用于根据所述目标单据字符及其对应的分类结果,得到所述物流单据对应的品名。

本申请实施例提供的物流单据品名识别装置可应用于物流单据品名识别设备,如PC终端、云平台、服务器及服务器集群等。可选的,图3示出了物流单据品名识别设备的硬件结构框图,参照图3,物流单据品名识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取物流单据及品名识别模型;

对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;

依次从各个所述文字块中选取预测文字块;

从各个所述文字块中选取所述预测文字块对应的领域文字块;

利用所述领域文字块以及所述预测文字块组成识别数据;

将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;

根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

可选地,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取物流单据及品名识别模型;

对所述物流单据进行识别,生成一个以上文字块,所述文字块中包含单据字符,各个文字块中的单据字符组成所述物流单据所包含的所有内容;

依次从各个所述文字块中选取预测文字块;

从各个所述文字块中选取所述预测文字块对应的领域文字块;

利用所述领域文字块以及所述预测文字块组成识别数据;

将所述识别数据输入至所述品名识别模型中,得到所述品名识别模型预测的所述预测文字块的分类结果,所述分类结果用于表明所述预测文字块中的单据字符是否为品名的组成部分;

根据每个文字块及其对应的分类结果,确定所述物流单据的品名。

可选地,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。本申请的各个实施例之间可以相互结合。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 服务单据信息的处理方法、装置及设备
  • 单据处理方法、装置、计算机设备和存储介质
  • 商品名称的处理方法及装置、计算机存储介质和电子设备
  • 物品识别方法、装置及设备、存储介质、电子装置
  • 物流对象选择、确定物流线路过载的方法及装置、设备
  • 产品名称识别方法、装置、电子设备和介质
  • 快递面单品名识别方法、装置、设备及存储介质
技术分类

06120115870556