掌桥专利:专业的专利平台
掌桥专利
首页

一种基于提单扫描件大数据的单号识别方法及装置

文献发布时间:2023-06-19 09:29:07


一种基于提单扫描件大数据的单号识别方法及装置

技术领域

本发明属于大数据处理技术领域,尤其涉及一种基于提单扫描件大数据的单号识别方法及装置。

背景技术

随着外贸出口、海外电商、跨境物流的迅速发展,海运作为主流的货物运输方式之一,呈现日益增长的趋势,海运提单作为海上运输的重要依据,是查询、支付等环节的关键要素。

随着大数据及人工智能技术的发展,通过海运提单扫描件大数据建立专项数据集,基于深度学习识别技术进行提单扫描件分类及单号识别,可有效替代传统的人工分类录入环节,提高工作效率。

在实际应用中,船公司一般会下发纸质提单文件给托运人,后续进行扫描、录入、归档等业务流程。传统的操作方式一般是人工进行,这需要有一定业务经验的操作员进行提单的扫描、归类、单号录入等工作,对于不同的船公司可能还涉及单号间的关联处理,这都要求较多的人工介入,在面临大量提单扫描录入时往往难以快速进行规模化收录,带来了较多的时间及管理成本,且现阶段的提单扫描件收录大多依赖于业务员的人工操作,但是面对大批量的提单扫描件数据,人工操作的方式在处理效率和准确率上存在较大的瓶颈,特别是长时间重复性工作引发的误操作,不利于提单扫描件的有效归档,因此,现阶段亟需一种基于提单扫描件大数据的单号识别方法及装置来解决上述问题。

发明内容

本发明的目的在于:为了解决传统的操作方式一般是人工进行,这需要有一定业务经验的操作员进行提单的扫描、归类、单号录入等工作,对于不同的船公司可能还涉及单号间的关联处理,这都要求较多的人工介入,在面临大量提单扫描录入时往往难以快速进行规模化收录,带来了较多的时间及管理成本,且现阶段的提单扫描件收录大多依赖于业务员的人工操作,但是面对大批量的提单扫描件数据,人工操作的方式在处理效率和准确率上存在较大的瓶颈,特别是长时间重复性工作引发的误操作,不利于提单扫描件有效归档的问题,而提出的一种基于提单扫描件大数据的单号识别方法及装置。

为了实现上述目的,本发明采用了如下技术方案:

一种基于提单扫描件大数据的单号识别装置,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别,所述图像分割技术选择对应的提单扫描件模板进行图像分割,得到单号区域图像,所述卷积神经网络(CNN)模型包括CNN 字符识别模型,所述CNN字符识别模型对单号区域图像进行识别。

一种基于提单扫描件大数据的单号识别方法,该方法包括如下步骤:

步骤S1:按提单所属的船公司制定分类标签以及提单区域模板图像;

步骤S2:获取海运提单扫描件大数据,垂直方向裁剪前1/3的区域图像,制作训练集H;

步骤S3:对海运提单扫描件训练集H进行标注,包括船公司类别以及提单字符内容;

步骤S4:利用图像分割技术进行提单字符的分割、得到A~Z、0~9的字符数据集M;

步骤S5:利用ResNet50对H数据集进行分类训练,得到分类识别模型R1;

步骤S6:利用InceptionV3对H数据集进行分类训练,得到分类识别模型 R2;

步骤S7:利用Densenet201对H数据集进行分类训练,得到分类识别模型 R3;

步骤S8:利用AlexNet对M数据集进行分类训练,得到字符识别模型T;

步骤S9:对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代;

步骤S10:获取新的海运提单扫描件图片,调用模型R1、R2、R3识别船公司分类,按多数投票规则获取提单扫描件的船公司类别;

步骤S11:通过提单扫描件模板获取单号区域图像,调用模型T进行字符识别,得到单号;

步骤S12:根据船公司和提单号对提单扫描件进行重命名,按业务规则进行存储。

作为上述技术方案的进一步描述:

所述步骤S1中分类标签依据提单所属船公司来设定,且所述提单区域模板图像依据单号的候选区域来设定。

作为上述技术方案的进一步描述:

所述步骤S2中对提单扫描件进行区域裁剪,且所述区域裁剪依据是不同船公司提单扫描件的差别主要集中在图像头部区域的布局、Logo等,且同一家船公司的提单布局相对固定。

作为上述技术方案的进一步描述:

所述步骤S3中对提单数据集进行标注包括类别标注、提单字符内容标注,且所述类别标注对应于S1设置的船公司类别标签,单号内容是A~Z、0~9的字符组合。

作为上述技术方案的进一步描述:

所述步骤S4中利用提单区域模板图像进行预处理得到候选区域,并通过图像二值化、连通域分析、形态学滤波方法对单号进行分割,得到A~Z、0~9的字符集合。

作为上述技术方案的进一步描述:

所述步骤S9中对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代过程如下:

步骤S91:选取新增的提单扫描件并垂直方向裁剪前1/3的区域图像,调用识别模型R1、R2、R3,得到船公司分类结果,基于对应的提单区域模板图像并进行字符分割,调用识别模型T,得到提单识别结果;

步骤S92:对船公司分类结果、提单识别结果进行人工筛选核查,将不正确的图片按步骤S3进行船公司类别标注、提单字符内容标注,得到图片集Z;

步骤S93:将图片集Z按照步骤S5~S8进行模型再训练并更新得到船公司识别模型R1、R2、R3,字符识别模型T;

步骤S94:重复步骤S91-步骤S93,重复本优化过程。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1、本发明中,以提单扫描件作为输入,自动进行图像分析,处理方式简便,不额外增加工程成本,提单扫描件自动进行分类及字符识别得到船公司、提单字符内容,按规则进行重命名,只需人工进行结果核验,降低人工成本,提高工作效率,采用多模型进行提单扫描件所属船公司的分类识别,按多数投票规则获取分类结果,可充分提升分类识别的效果,可对新增的提单扫描件建立识别模型的迭代更新机制,有效的保持模型的性能提升,进而对提单扫描件进行精准识别,根据识别结果自动进行提单扫描件的重命名,方便其他业务的直接调用,可直接作为文件输出进行存档。

2、本发明中,通过对提单扫描件大数据深入分析,不同船公司提单扫描件的显著性差别主要集中在图像头部区域的布局、Logo等,这也是典型的分类依据,因此,本发明采用CNN模型进行扫描件分类识别,利用模板图像进行分割得到单号区域图像,通过CNN字符识别模型进行单号字符识别,最终,得到提单扫描件的类别、单号信息,可按规则进行重命名、存储、融入其他业务流程,降低人工成本,提高工作效率。

3、本发明中,采用多个卷积神经网络(CNN)模型进行提单扫描件分类,利用图像模板定位方法分割单号区域,通卷积神经网络(CNN)模型进行字符识别,实现对提单扫描件的自动归类、单号识别,并结合业务需要按命名规则进行重命名,统一存储分析,自动进入整体的业务流程,减少生产管理成本。

附图说明

图1为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的输出结果的示意图;

图2为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的提单扫描件垂直裁剪示意图;

图3为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的提单扫描件模板示意图;

图4为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的二值化图;

图5为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的字符分割图;

图6为本发明提出的一种基于提单扫描件大数据的单号识别方法及装置中的字符拆分示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1-6,本发明提供一种技术方案:一种基于提单扫描件大数据的单号识别装置,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别,所述图像分割技术选择对应的提单扫描件模板进行图像分割,得到单号区域图像,所述卷积神经网络(CNN)模型包括CNN字符识别模型,所述CNN字符识别模型对单号区域图像进行识别。

一种基于提单扫描件大数据的单号识别方法,该方法包括如下步骤:

步骤S1:按提单所属的船公司制定分类标签以及提单区域模板图像;

步骤S2:获取海运提单扫描件大数据,垂直方向裁剪前1/3的区域图像,制作训练集H;

步骤S3:对海运提单扫描件训练集H进行标注,包括船公司类别以及提单字符内容;

步骤S4:利用图像分割技术进行提单字符的分割、得到A~Z、0~9的字符数据集M;

步骤S5:利用ResNet50对H数据集进行分类训练,得到分类识别模型R1;

步骤S6:利用InceptionV3对H数据集进行分类训练,得到分类识别模型 R2;

步骤S7:利用Densenet201对H数据集进行分类训练,得到分类识别模型 R3;

步骤S8:利用AlexNet对M数据集进行分类训练,得到字符识别模型T;

步骤S9:对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代;

步骤S10:获取新的海运提单扫描件图片,调用模型R1、R2、R3识别船公司分类,按多数投票规则获取提单扫描件的船公司类别;

步骤S11:通过提单扫描件模板获取单号区域图像,调用模型T进行字符识别,得到单号;

步骤S12:根据船公司和提单号对提单扫描件进行重命名,按业务规则进行存储。

具体的,所述步骤S1中分类标签依据提单所属船公司来设定,且所述提单区域模板图像依据单号的候选区域来设定。

具体的,所述步骤S2中对提单扫描件进行区域裁剪,且所述区域裁剪依据是不同船公司提单扫描件的差别主要集中在图像头部区域的布局、Logo等,且同一家船公司的提单布局相对固定。

具体的,所述步骤S3中对提单数据集进行标注包括类别标注、提单字符内容标注,且所述类别标注对应于S1设置的船公司类别标签,单号内容是A~Z、0~9 的字符组合。

具体的,所述步骤S4中利用提单区域模板图像进行预处理得到候选区域,并通过图像二值化、连通域分析、形态学滤波方法对单号进行分割,得到A~Z、 0~9的字符集合。

具体的,所述步骤S9中对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代过程如下:

步骤S91:选取新增的提单扫描件并垂直方向裁剪前1/3的区域图像,调用识别模型R1、R2、R3,得到船公司分类结果,基于对应的提单区域模板图像并进行字符分割,调用识别模型T,得到提单识别结果;

步骤S92:对船公司分类结果、提单识别结果进行人工筛选核查,将不正确的图片按步骤S3进行船公司类别标注、提单字符内容标注,得到图片集Z;

步骤S93:将图片集Z按照步骤S5~S8进行模型再训练并更新得到船公司识别模型R1、R2、R3,字符识别模型T;

步骤S94:重复步骤S91-步骤S93,重复本优化过程。

实施例,本实例以提单扫描件作为输入,进行识别分析,包括以下步骤:

S1、按提单所属的船公司制定分类标签、提单区域模板图像;

(1)、将船公司类别作为分类标签;

(2)、对提单区域进行分析,制定提单区域模板图像;

S2、获取海运提单扫描件大数据,垂直方向裁剪前1/3的区域图像,制作训练集H;

对提单扫描件图像进行垂直裁剪,获取前1/3的区域图像,包含单号、Logo 等显著性特征区域;

S3、对海运提单扫描件训练集H进行标注,包括船公司类别、提单字符内容;

对数据集H进行船公司类别、提单字符内容的标注,如说明书附图,分类标记为CMA,字符标记为ACSA062968;

S4、利用图像分割技术进行提单字符的分割、得到A~Z、0~9的字符数据集M;

同一家船公司的提单布局是固定的,可通过提单区域模板图像得到候选区域,经图像二值化、连通域分析、形态学滤波方法对单号进行分割,得到A~Z、 0~9的字符集合;

通过对提单扫描件大数据进行分割处理,定位出目标字符图像,生成A~Z、 0~9的字符数据集;

S5、利用ResNet50对H数据集进行分类训练,得到分类识别模型R1;

设计ResNet50输出层对应于船公司的分类标签集合,对数据集H进行训练,得到模型R1;

S6、利用InceptionV3对H数据集进行分类训练,得到分类识别模型R2;

设计InceptionV3输出层对应于船公司的分类标签集合,对数据集H进行训练,得到模型R2;

S7、利用Densenet201对H数据集进行分类训练,得到分类识别模型R3;

设计Densenet201输出层对应于船公司的分类标签集合,对数据集H进行训练,得到模型R3;

S8、利用AlexNet对M数据集进行分类训练,得到字符识别模型T;

设计AlexNet输出层对应于A~Z、0~9的分类标签集合,对数据集M进行训练,得到模型T;

S9、对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代;

优化迭代过程如下:

S91、选取新增的提单扫描件并垂直方向裁剪前1/3的区域图像,调用识别模型R1、R2、R3,得到船公司分类结果,基于对应的提单区域模板图像并进行字符分割,调用识别模型T,得到提单识别结果;

S92、对船公司分类结果、提单识别结果进行人工筛选核查,将不正确的图片按步骤S3进行船公司类别标注、提单字符内容标注,得到图片集Z;

S93、将图片集Z按照步骤S5~S8进行模型再训练并更新得到船公司识别模型R1、R2、R3,字符识别模型T;

S94、重复S91-S93,重复本优化过程;

S10、获取新的海运提单扫描件图片,调用模型R1、R2、R3识别船公司的类别为c

c=mode(c

mode表示取分类标签的众数作为类别结果;

S11、通过提单扫描件模板获取单号区域图像,调用模型T进行字符识别,得到单号;

S12、根据船公司和提单号对提单扫描件进行重命名,按业务规则进行存储。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术分类

06120112182900