掌桥专利:专业的专利平台
掌桥专利
首页

客票行程单识别方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 12:24:27


客票行程单识别方法、装置、计算机设备和存储介质

技术领域

本发明属于图像处理技术领域,尤其涉及一种客票行程单识别方法、装置、计算机设备和存储介质。

背景技术

客票行程单是用于购买机票的相关凭证,现有不同企业基于不同的需求,通常需要对客票行程单进行录入归档,比如员工的差旅报销等。

然而,传统客票行程单的录入归档工作通常都是由相关工作人员进行手动操作录入,不仅繁琐且效率低下。

发明内容

基于此,有必要针对上述技术问题,提供一种能够减少繁琐操作且提高效率的客票行程单识别方法、装置、计算机设备和存储介质。

本发明提供一种客票行程单识别方法,包括:

获取待识别客票行程单图像;

对所述待识别客票行程单图像进行客票关键词条的检测,得到各所述客票关键词条的类别以及标注有所述客票关键词条的客票关键词条图像;

根据所述类别调用对应的专项识别网络,利用所述专项识别网络对标注有所述客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

在其中一个实施例中,所述专项识别网络的训练方法,包括:

采集第一客票行程单图像集;

分别截取所述第一客票行程单图像集中各图像上的各客票关键词条的背景区域进行拼接,得到各所述客票关键词条的背景图像集;

根据各所述客票关键词条的字体样式分别收集相应的字体,生成各所述客票关键词条的词条集;

分别将各所述词条集中的词条,随机写入到对应的所述背景图像集中的背景图像上,生成各所述客票关键词条的专项数据集;

利用各所述专项数据集分别对构建的第一网络结构进行训练,得到各所述客票关键词条对应的专项识别网络。

在其中一个实施例中,所述分别将各所述词条集中的词条,随机写入到对应的所述背景图像集中的背景图像上,生成各所述客票关键词条的专项数据集,包括:

随机从所述背景图像集中选取一张背景图像,按照预设尺寸对所述背景图像进行截取,得到截取背景;

从所述词条集中随机选取词条,并将所述词条随机倾斜写入到所述截取背景上,生成专项数据集。

在其中一个实施例中,所述利用各所述专项数据集分别对构建的第一网络结构进行训练,得到各所述客票关键词条对应的专项识别网络,包括:

将所述专项数据集划分为专项训练集和专项测试集;

利用所述专项训练集训练所述第一网络结构,得到初始专项识别网络;

将所述专项测试集中的图像输入至所述初始专项识别网络中进行信息识别,输出所述专项测试集中各图像的信息置信度;

将所述信息置信度小于第一阈值的图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整专项数据集的构建方式;

根据调整后的构建方式重构专项数据集,利用重构的专项数据集迭代训练所述初始专项识别,得到训练好的专项识别网络。

在其中一个实施例中,所述对所述待识别客票行程单图像进行客票关键词条的检测,得到各所述客票关键词条的类别以及标注有所述客票关键词条的客票关键词条图像,包括:

调用预先训练好的目标检测网络;

将所述待识别客票行程单图像输入至所述目标检测网络中进行客票关键词条的检测,得到各所述客票关键词条的类别以及标注有所述客票关键词条的客票关键词条图像。

在其中一个实施例中,所述目标检测网络的训练方法,包括:

构建第二客票行程单图像集,将所述第二客票行程单数据集划分为目标检测训练集和目标检测测试集;

对所述目标检测训练集中各图像的客票关键词条的位置和类别标注后,训练构建的第二网络结构,得到初始目标检测网络;

将所述目标检测测试集中的各图像输入到所述初始目标检测网络中进行测试,统计所述初始目标检测网络的漏检错检数目;

当所述漏检错检数目大于第二阈值时,将所述第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整第二客票行程单图像集的构建方式;

根据调整后的构建方式重构第二客票行程单图像集,利用重构的第二客票行程单图像集迭代训练所述初始目标检测网络,得到训练好的目标检测网络。

在其中一个实施例中,所述第一网络结构基于密集卷积连接网络和基于神经网络的时间分类算法构建。

一种客票行程单识别装置,包括:

获取模块,用于获取待识别客票行程单图像;

检测模块,用于对所述待识别客票行程单图像进行客票关键词条的检测,得到各所述客票关键词条的类别以及标注有所述客票关键词条的客票关键词条图像;

信息识别模块,用于根据所述类别调用对应的专项识别网络,利用所述专项识别网络对标注有所述客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的客票行程单识别方法的步骤。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的客票行程单识别方法的步骤。

上述客票行程单识别分类方法、装置、计算机设备和存储介质,通过获取待识别客票行程单图像,对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像后,进一步根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。该方法实现了利用人工智能完成客票行程单的检测和信息识别,后续可以直接对所识别的信息进行录入,不仅减少了人工录入的繁琐工作还提高了效率。且对于信息识别采用专项的识别网络进行识别,还能够进一步的提高识别的准确率。

附图说明

图1为一个实施例中客票行程单识别方法的应用环境图。

图2为一个实施例中客票行程单识别方法的流程示意图。

图3为一个实施例中客票关键词条图像示意图。

图4为一个实施例中客票关键词条信息示意图。

图5为一个实施例中专项识别网络的训练方法的流程示意图。

图6为一个实施例中客票关键词条标注数据示意图。

图7为一个实施例中客票行程单识别的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请提供的客票行程单识别方法,可以应用于如图1所示的应用环境中,该应用环境涉及终端102和服务器104。其中,终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和携带式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

当终端102接收到待识别客票行程单图像时,可以由终端102单独实现上述客票行程单识别方法。也可以由终端102将待识别客票行程单图像发送给通信的服务器104,由服务器104实现上述客票行程单识别方法。以服务器104为例,具体的,服务器104获取待识别客票行程单图像;服务器104对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像;服务器104根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

在一个实施例中,如图2所示,提供一种客票行程单识别方法,以该方法应用于服务器为例进行说明,包括以下步骤:

步骤S201,获取待识别客票行程单图像。

其中,待识别客票图像是当前需要进行识别的客票行程单图像。

具体的,当需要对某一张客票行程单进行识别获得客票关键信息时,用户可通过终端,例如携带有摄像头的设备拍摄该客票行程单,然后将所拍摄的客票行程单图像作为待识别客票行程单图像上传且同时下达相应的识别指令。当终端接收到用户的识别指令之后,将该待识别客票行程单图像发送至服务器。

步骤S202,待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

其中,客票关键词条是指客票行程单上的客票关键信息,例如姓名、起始站、到达站、航班号、时间、日期、身份证号以及票价等信息。应当理解的是,只要是行程单上所出现的信息都可以指定为客票关键词条,比如行程单上的承运人、电子客票号码、印刷序号、燃油附加费等信息。而本实施例主要是以姓名、起始站、到达站、航班号、时间、日期、身份证号以及票价这八种信息为例进行说明。类别是指根据各个客票关键词条的特征所设定的类型,比如起始站和到达站都属于地点,则可以将起始站和到达站划分为一个类别,时间和日期也可以划分为一个类别。客票关键词条图像是客票关键词条被标注出来的客票行程单图像。

具体的,当服务器获取到待识别客票行程单图像时,首先对客票行程单进行客票关键词条的检测,从而得到待识别客票行程单图像上所包括的客票关键词条的类别,以及通过矩形框相应标注出该些客票关键词条的客票关键词条图像。如图3所示,提供一种客票关键词条图像的示意图。参考图3,其中面积最大的矩形框所包括的图像区域即为整张客票行程单图像,而面积最大的矩形框之内所包括的矩形框对应的图像区域即为客票关键词条所在的位置。

步骤S203,根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

其中,专项识别网络是预先训练好用于对客票关键词条进行专项识别的神经网络。

具体的,当服务器通过目标检测得到标注有客票关键词条的客票关键词条图像以及该些客票关键词条对应类别之后,首先通过类别调用对应的专项识别网络。比如,若检测出的客票关键词条包括起始站和到达站,则可以调用专用于识别地点的专项识别网络。若检测出的客票关键词条包括航班号,则可以调用专用于识别航班号的专项识别网络。然后,服务器将标注有客票关键词条图像分别输入到所调用的专项识别网络中进行信息识别得到客票关键词条信息。即,若调用了两个或两个以上的专项识别网络,则需要分别输入到所有的专项识别网络中。如图4所示,提供一种客票关键词条信息的示意图。服务器即可将识别的该些客票关键词条信息进行录入。

上述客票行程单识别方法,通过获取待识别客票行程单图像,对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像后,进一步根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。该方法实现了利用人工智能完成客票行程单的检测和信息识别,后续可以直接对所识别的信息进行录入,不仅减少了人工录入的繁琐工作还提高了效率。且对于信息识别采用专项的识别网络进行识别,还能够进一步的提高识别的准确率。

在一个实施例中,如图5所示,专项识别网络的训练方法,包括:

步骤S501,采集第一客票行程单图像集。

具体的,第一客票行程单图像集中的各个图像是用于训练专项识别网络所采集的客票行程单图像。本实施例中,服务器获取对真实客票行程单进行拍摄的图像组成第一客票行程单图像集。

步骤S502,分别截取第一客票行程单图像集中各图像上的各客票关键词条的背景区域进行拼接,得到各客票关键词条的背景图像集。

具体的,服务器采集到第一客票行程单图像集之后,截取第一客票行程单图像集中每张图像的客票关键词条对应的背景区域,并将该客票关键词条背景区域进行拼接得到一张大的背景图像,从而得到该客票关键词条的背景图像集。本实施的拼接优选无缝拼接,即将各个背景区域无缝拼接得到背景图像。每个类别的客票关键词条均采用上述方式得到对应的背景图像集。

步骤S503,根据各客票关键词条的字体样式分别收集相应的字体,生成各客票关键词条的词条集。

具体的,服务器对第一客票行程单图像集中各图像上的客票关键词条的字体样式进行分析,收集相应字体样式的字体组成不同的词条,所有词条组成该客票关键词条的词条集。其中,以本实施例所选择的八种信息为例,可以优选将各个客票关键词条划分为6个类别,即姓名一个类,起始站和到达站划分为一个类,航班号为一个类,时间和日期划分为一个类,身份证号为一个类。因此,这6个类的客票关键词条都有对应的词条集,一共6个词条集。应当理解的是,当客票关键词条还包括所指定的行程单上的其他信息时,对应所划分的类别可以进行适当的调整。例如,若假设除本实施例所示的八种信息之外,还包括承运人这一客票关键词条时,若将承运人单独划分为一个类,则划分之后一共有7个类别,相对应的应当有7个词条集。

步骤S504,分别将各词条集中的词条,随机写入到对应的背景图像集中的背景图像上,生成各客票关键词条的专项数据集。

其中,专项数据集是对应于客票关键词条的数据集,专项数据集与客票关键词的类的数量相同,比如6个类的客票关键词条则有6个对应的专项数据集。

具体的,服务器得到各类客票关键词条的背景图像集以及词条集后,将各词条集中的词条随机写入到对应的背景图像集中的背景图像上。即,词条集中的词条写到与其同属一个客票关键词条的背景图像上,比如航班号对应的词条集写到航班号对应的背景图像上。服务器通过重复进行上述的写入操作得到该客票关键词条的专项数据集。

步骤S505,利用各专项数据集分别对构建的第一网络结构进行训练,得到各客票关键词条对应的专项识别网络。

其中,第一网络结构是预先构建的作为专项识别网络的网络结构,本实施例的第一网络结构优选基于密集卷积连接网络(DenseNet,Densely Connected Networks)和基于神经网络的时间分类算法(CTC,Connectionist Temporal Classification)构建,即第一网络结构优选为DenseNet+CTC。

具体的,当服务器得到各个客票关键词条的专项数据集之后,通过各个专项数据集分别对第一网络结构进行训练,得到各个客票关键词条对应的专项识别网络。例如,当有6类的客票关键词条对应6个专项数据集时,则分别训练得到6个专项识别网络。服务器得到训练好的专项识别网络之后,将模型进行固化后续直接调用进行信息识别的使用。

本实施例中,以客票关键词条为基准构建相应的专项数据集训练得到专项识别网络,从而能够提高网络识别的精准性和准确率。

在一个实施例中,步骤S504,包括:随机从背景图像集中选取一张背景图像,按照预设尺寸对背景图像进行截取,得到截取背景;从词条集中随机选取词条,并将词条随机倾斜写入到截取背景上,生成专项数据集。

具体的,服务器随机从背景图像中选取一张背景图像,然后按照预设尺寸,比如长宽为250*32从选取的背景图像中截取一块区域,得到截取背景。进而,再将从词条集中随机选取的词条随机的倾斜一定的角度写入截取的背景上。服务器重复该操作,比如重复操作100w次,从而所得到的所有数据组成专项数据集。本实施例中,通过随机选取截取背景并按照一定倾斜角度写入,丰富数据集的同时,能够模拟真实拍摄的各种不同角度不同背景的客票行程单图像,以增强模型的泛化能力。

在一个实施例中,步骤S505,包括:将专项数据集划分为专项训练集和专项测试集;利用专项训练集训练第一网络结构,得到初始专项识别网络;将专项测试集中的图像输入至初始专项识别网络中进行信息识别,输出专项测试集中各图像的信息置信度;将信息置信度小于第一阈值的图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整专项数据集的构建方式;根据调整后的构建方式重构专项数据集,利用重构的专项数据集迭代训练初始专项识别,得到训练好的专项识别网络。

其中,第一阈值是预先设置的信息置信度的下限值,低于该第一阈值的信息置信度表示识别未达到预期的效果。

具体的,服务器按照8:2的比例将专项数据集划分为专项训练集和专项测试集,利用专项训练集中的数据训练DenseNet+CTC模型,得到初始专项识别网络。然后,服务器将专项测试集中的数据输入到训练好的初始专项识别网络中,由初始专项识别网络对测试的图像进行信息识别,输出客票关键词条信息以及对应的信息置信度。服务器将各个客票关键词头信息的信息置信度与第一阈值进行比较,若所有的信息置信度都大于或等于第一阈值,则表示初始专项识别网络当前是达到了预期的识别效果的,因此可以直接将初始专项识别网络作为专项识别网络进行使用。而若存在信息置信度是小于第一阈值的,则表示初始专项识别网络的检测效果当前还未达到预期的效果,则将小于第一阈值的信息置信度对应的图像上的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,比对关键词条的字体样式、大小、间隔等与真实的图像上的关键词条的区别。然后,根据对比分析所确定的区别调整专项数据集的构建方式,以调整后的构建方式重新构建专项数据集,利用重构后的专项数据集对初始专项识别网络进行迭代训练,以提高信息识别的效果,得到训练好的专项识别网络。

本实施例中,通过构建专项数据集训练专项识别网络,提高客票信息识别的精准性。同时通过置信度确定识别的效果未达到预期的情况下,与真实的关键词比对重新构建专项数据集训练模型,从而提高专项识别模型的准确性。

在一个实施例中,步骤S202,包括:调用预先训练好的目标检测网络;将待识别客票行程单图像输入至目标检测网络中进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

其中,目标检测网络是预先训练好对客票行程单图像以及客票行程单图像上客票关键词条进行检测的神经网络。

具体的,当服务器接收到待识别客票行程单图像时,调用预先训练好的目标检测网络。然后,将待识别客票行程单图像输入到所调用的目标检测网络中进行检测,得到标注有客票关键词条的客票关键词条图像以及所检测到的各客票关键词条的类别。本实施例中,通过训练的目标检测网络进行检测,能够提高检测的准确性。

在一个实施例中,目标检测网络的训练方法,包括:构建第二客票行程单图像集,将第二客票行程单数据集划分为目标检测训练集和目标检测测试集;对目标检测训练集中各图像的客票关键词条的位置和类别标注后,训练构建的第二网络结构,得到初始目标检测网络;将目标检测测试集中的各图像输入到初始目标检测网络中进行测试,统计初始目标检测网络的漏检错检数目;当漏检错检数目大于第二阈值时,将第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整第二客票行程单图像集的构建方式;根据调整后的构建方式重构第二客票行程单图像集,利用重构的第二客票行程单图像集迭代训练初始目标检测网络,得到训练好的目标检测网络。

其中,第二客票行程单图像集中的各个图像是用于训练目标检测网络所采集的客票行程单图像。第二网络结构是预先构建的用于进行目标检测的神经网络结构,本实施例优选yolo(You Only Look Once,统一的实时目标检测)网络。第二阈值是设定的漏检错检数目的上限值,可以根据实际对目标检测网络的需求所设定。

具体的,用户线下收集一定数量(例如收集400张)的客票行程单,通过携带有摄像头的终端设备对收集的数量进行拍照采集得到图像发送给服务器组成第二客票行程单图像集。而为了能够丰富训练数据以及适用于不同场景不同环境下的客票行程单识别,拍照采集时通过在不同背景、不同光照条件以及不同拍摄角度下进行采集。若每张客票行程单基于不同的背景、光照和角度平均采集5次,则400张的客票行程单能够丰富到2000张。或者,服务器可以首先通过接收用户上传或者互联网搜索、爬虫等方式收集客票行程单底板、客票行程单上各关键词条的相应字体、通用背景图像等数据。然后,根据客票行程单上各关键词条的排布规则,将收集的各关键词条的相应字体打印到客票行程单底板上,再将打印好的客票行程单底板随机缩放、旋转粘贴于通用背景图像上,重复上述过程生成多张图像组成第二客票行程单图像集。

然后,服务器按照预设比例8:2将第二客票行程单图像积划分为目标检测训练集和目标检测测试集。使用LabelImg等标注工具对目标检测训练集中的图像进行标注,标注出客票关键词条的位置以及为各个客票关键词条赋予相应的类别。标注后每个客票关键词条对应5个数值,参考图6所示的第5条数据,这5个数值中的前4个数记录的是客票关键词条的位置,第5个数值记录的是类别。例如图6中的(150,309,225,355,1)、(391,304,578,338,2)……(1003,551,1128,581,8)。特别的,行程单边界框(图3所示的面积最大的矩形框)也对应5个数值,前4个数值同样为位置,第5个数值为类别,该类别号本实施例用0表示,即第5条数据中的(54,103,1341,806,0)。

服务器完成标注之后,利用标注后的目标训练集对所构建的第二网络结构进行训练,训练完成后得到初始目标检测网络。当将训练集中的图像输入至网络中时,可以将训练图像的尺寸扩大一倍,batch size(批量大小)调小至2之后在输入至网络中,从而能够避免内存不足。进而,服务器再将目标测试集中的图像输入到训练好的初始目标检测网络中,通过初始目标检测网络对目标测试集中的图像进行检测的测试,服务器统计检测测试过程中初始目标检测网络的漏检错检数目,即漏检的数量和错误检测的数量的总和。服务器将漏检错检数目与第二阈值进行比较,若漏检错检数目小于或等于第二阈值,则表示初始目标检测网络当前是达到了预期的检测效果的,因此可以直接将初始目标检测网络作为目标检测网络进行使用。而若漏检错检数目大于第二阈值,则表示初始目标检测网络的检测效果当前还未达到预期的效果,则将所构建的第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,判断构建的图像上的关键词条的字体、布局与真实的图像上的关键词条的区别。然后,根据对比分析所确定的区别调整第二客票行程单图像的构建方式,以调整后的构建方式重新构建第二客票行程单图像集,利用重构后的第二客票行程单图像集对初始目标检测网络进行迭代训练,以提高检测的效果,得到训练好的目标检测网络。

本实施例中,通过漏检错检统计检测的准确率未达到预期的情况下,根据数据集比对的细节误差重新构建数据训练模型,从而提高检测模型的准确性。

应该理解的是,虽然图2、5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供一种客票行程单识别装置,包括:获取模块701、检测模块702、信息识别模块703。

获取模块701,用于获取待识别客票行程单图像。

检测模块702,用于对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

信息识别模块703,用于根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

在一个实施例中,客票行程单识别装置还包括专项识别网络训练模块,用于采集第一客票行程单图像集;分别截取第一客票行程单图像集中各图像上的各客票关键词条的背景区域进行拼接,得到各客票关键词条的背景图像集;根据各客票关键词条的字体样式分别收集相应的字体,生成各客票关键词条的词条集;分别将各词条集中的词条,随机写入到对应的背景图像集中的背景图像上,生成各客票关键词条的专项数据集;利用各专项数据集分别对构建的第一网络结构进行训练,得到各客票关键词条对应的专项识别网络。

在一个实施例中,专项识别网络训练模块还用于随机从背景图像集中选取一张背景图像,按照预设尺寸对背景图像进行截取,得到截取背景;从词条集中随机选取词条,并将词条随机倾斜写入到截取背景上,生成专项数据集。

在一个实施例中,专项识别网络训练模块还用于将专项数据集划分为专项训练集和专项测试集;利用专项训练集训练第一网络结构,得到初始专项识别网络;将专项测试集中的图像输入至初始专项识别网络中进行信息识别,输出专项测试集中各图像的信息置信度;将信息置信度小于第一阈值的图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整专项数据集的构建方式;根据调整后的构建方式重构专项数据集,利用重构的专项数据集迭代训练初始专项识别,得到训练好的专项识别网络。

在一个实施例中,检测模块702还用于调用预先训练好的目标检测网络;将待识别客票行程单图像输入至目标检测网络中进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

在一个实施例中,客票行程单识别装置还包括目标检测网络训练模块,用于构建第二客票行程单图像集,将第二客票行程单数据集划分为目标检测训练集和目标检测测试集;对目标检测训练集中各图像的客票关键词条的位置和类别标注后,训练构建的第二网络结构,得到初始目标检测网络;将目标检测测试集中的各图像输入到初始目标检测网络中进行测试,统计初始目标检测网络的漏检错检数目;当漏检错检数目大于第二阈值时,将第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整第二客票行程单图像集的构建方式;根据调整后的构建方式重构第二客票行程单图像集,利用重构的第二客票行程单图像集迭代训练初始目标检测网络,得到训练好的目标检测网络。

关于客票行程单识别装置的具体限定可以参见上文中对于客票行程单识别方法的限定,在此不再赘述。上述客票行程单识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个客票行程单识别方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

在一个实施例中,提供一种计算机设备,该计算机设备可以是服务器,包括处理器,存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种票据图像分类方法。示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本领域技术人员可以理解,本实施例中所示出的计算机设备结构,仅仅是与本发明方案相关的部分结构,并不构成对本发明所应用于其上的计算机设备的限定,具体的计算机设备可以包括更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取待识别客票行程单图像;

对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像;

根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:采集第一客票行程单图像集;分别截取第一客票行程单图像集中各图像上的各客票关键词条的背景区域进行拼接,得到各客票关键词条的背景图像集;根据各客票关键词条的字体样式分别收集相应的字体,生成各客票关键词条的词条集;分别将各词条集中的词条,随机写入到对应的背景图像集中的背景图像上,生成各客票关键词条的专项数据集;利用各专项数据集分别对构建的第一网络结构进行训练,得到各客票关键词条对应的专项识别网络。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:随机从背景图像集中选取一张背景图像,按照预设尺寸对背景图像进行截取,得到截取背景;从词条集中随机选取词条,并将词条随机倾斜写入到截取背景上,生成专项数据集。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将专项数据集划分为专项训练集和专项测试集;利用专项训练集训练第一网络结构,得到初始专项识别网络;将专项测试集中的图像输入至初始专项识别网络中进行信息识别,输出专项测试集中各图像的信息置信度;将信息置信度小于第一阈值的图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整专项数据集的构建方式;根据调整后的构建方式重构专项数据集,利用重构的专项数据集迭代训练初始专项识别,得到训练好的专项识别网络。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:调用预先训练好的目标检测网络;将待识别客票行程单图像输入至目标检测网络中进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:构建第二客票行程单图像集,将第二客票行程单数据集划分为目标检测训练集和目标检测测试集;对目标检测训练集中各图像的客票关键词条的位置和类别标注后,训练构建的第二网络结构,得到初始目标检测网络;将目标检测测试集中的各图像输入到初始目标检测网络中进行测试,统计初始目标检测网络的漏检错检数目;当漏检错检数目大于第二阈值时,将第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整第二客票行程单图像集的构建方式;根据调整后的构建方式重构第二客票行程单图像集,利用重构的第二客票行程单图像集迭代训练初始目标检测网络,得到训练好的目标检测网络。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待识别客票行程单图像;

对待识别客票行程单图像进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像;

根据类别调用对应的专项识别网络,利用专项识别网络对标注有客票关键词条的客票关键词条图像进行信息识别,得到客票关键词条信息。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采集第一客票行程单图像集;分别截取第一客票行程单图像集中各图像上的各客票关键词条的背景区域进行拼接,得到各客票关键词条的背景图像集;根据各客票关键词条的字体样式分别收集相应的字体,生成各客票关键词条的词条集;分别将各词条集中的词条,随机写入到对应的背景图像集中的背景图像上,生成各客票关键词条的专项数据集;利用各专项数据集分别对构建的第一网络结构进行训练,得到各客票关键词条对应的专项识别网络。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:随机从背景图像集中选取一张背景图像,按照预设尺寸对背景图像进行截取,得到截取背景;从词条集中随机选取词条,并将词条随机倾斜写入到截取背景上,生成专项数据集。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将专项数据集划分为专项训练集和专项测试集;利用专项训练集训练第一网络结构,得到初始专项识别网络;将专项测试集中的图像输入至初始专项识别网络中进行信息识别,输出专项测试集中各图像的信息置信度;将信息置信度小于第一阈值的图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整专项数据集的构建方式;根据调整后的构建方式重构专项数据集,利用重构的专项数据集迭代训练初始专项识别,得到训练好的专项识别网络。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:调用预先训练好的目标检测网络;将待识别客票行程单图像输入至目标检测网络中进行客票关键词条的检测,得到各客票关键词条的类别以及标注有客票关键词条的客票关键词条图像。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:构建第二客票行程单图像集,将第二客票行程单数据集划分为目标检测训练集和目标检测测试集;对目标检测训练集中各图像的客票关键词条的位置和类别标注后,训练构建的第二网络结构,得到初始目标检测网络;将目标检测测试集中的各图像输入到初始目标检测网络中进行测试,统计初始目标检测网络的漏检错检数目;当漏检错检数目大于第二阈值时,将第二客票行程单图像集中图像的客票关键词条与真实的客票行程单上的客票关键词条进行对比分析,根据分析结果调整第二客票行程单图像集的构建方式;根据调整后的构建方式重构第二客票行程单图像集,利用重构的第二客票行程单图像集迭代训练初始目标检测网络,得到训练好的目标检测网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

相关技术
  • 客票行程单识别方法、装置、计算机设备和存储介质
  • 客票行程单构建方法、装置、计算机设备和存储介质
技术分类

06120113283495