一种训练集优化方法、装置及存储介质

文献发布时间：2024-04-18 19:53:33

技术领域

本发明涉及一种训练集优化方法、装置及存储介质，属于ocr文字识别技术领域。

背景技术

OCR(Optical Character Recognition)文字识别是一种将图像中的文本转换为可编辑文本的技术。OCR文字识别在许多领域有广泛的应用，例如扫描文档的自动化处理、车牌识别、身份证识别、票据识别等。随着深度学习技术的发展，OCR文字识别的准确性和速度得到了显著提升，为实现自动化文本处理提供了强大的工具。

在现有技术中，存在针对多语种混合的样本，OCR模型容易存在识别出错的问题，比如，某个英文字符、阿拉伯数字或者标点符号缺失，将标点符号识别为文字的情况等等。具体的，中文OCR数据集中往往夹杂则其它语种的字符，最常见的如英文、数字、标点。这些非中文字符的转换往往会带来OCR的识别错误，在现有的训练集构建方案中往往只关注中文字符的分布特征。因此，如何表征以及优化中文OCR数据集的语种特征分布，以提升OCR模型对于多语种混合样本的识别精度，是个需要解决的技术问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种训练集优化方法、装置及存储介质，通过多个维度来表征数据集的语种特征，提出一种符合解决OCR语种问题的向量空间表征方法，可以将高维的语义特征降维到有限的向量空间中，并利用向量空间比较训练集与测试集的差异并以引导训练集的优化。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种训练集优化方法，包括：

获取用于OCR模型训练的测试集和训练集；

针对所述测试集和训练集，区分纯语种词条与混合语种词条；

针对所述纯语种词条和混合语种词条，分别构建纯语种词条和混合语种词条的特征表示；

基于所述纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异；

根据所述测试集和训练集的特征分布差异优化训练集。

进一步的，所述测试集和训练集中均包括有多个词条，每个词条中具有中文、英文、阿拉伯数字、标点符号中的任意一种或多种。

进一步的，所述针对所述测试集和训练集，区分纯语种词条与混合语种词条，包括：

对测试集和训练集进行识别；

识别时，识别字符串中的英文、数字、汉字与符号，若某一词条具有中文、数字、英文以及标点至少之二则被区分为混合语种词条，否则为纯语种词条；

其中，所述混合语种词条是具有中文、数字、英文以及标点至少之二的词条，纯语种词条表示为词条中仅有中文的词条、仅有数字的词条以及仅有英文的词条。

进一步的，针对所述纯语种词条，构建纯语种词条的特征表示，包括：

针对中文词条，构建以词条长度为特征表示，针对英文和阿拉伯数字，构建以词条长度结合连续重复字符的特征表示，具体为：

针对纯语种词条，统计出每种词条的占比(P

针对中文词条，考虑词条长度作为特征，得到的特征分布向量表示为：

公式(1)中，N为训练集或者测试集最大的词条长度，w

公式(2)中，Count

针对纯英文和数字的词条，构建以词条长度结合连续重复字符的特征表示，具体方法如下：

首先，对长度特征向量进行表征，公式如下：

在公式(3)中，V

在公式(4)中，Count

接着，加入重复字符的统计以细分特征向量：

在公式(5)中，V

其中数字为1时，新占比的计算方式如下：

在公式(6)中，W

同理，纯英文词条的特征向量表示为：

在公式(7)中，w

进一步的，针对所述混合语种词条，构建混合语种词条的特征表示，包括：词条语种占比特征表示和语种转换顺序特征表示；

其中，所述词条语种占比特征表示的构建方法如下：

根据预确定的匹配规则对词条语种的占比特征进行分类；

分类后，语种占比特征的向量表示为：

在公式(8)中，w

在公式(9)中，Count

根据词条长度将语种占比特征的向量进一步划分，词条长度可以划分为：0-5，5～10，10～20，＞20，这四个区间，利用区间细化向量的表征：

在公式(10)中，w

在公式(11)中，w

所述语种转换顺序特征表示的构建方法如下：

引入语种转换顺序特征，将一维的向量转变为二维的特征矩阵，特征矩阵的表示为：

在公式(12)中，M

其中，

在公式(13)中，w

在上述的语种转换顺序特征矩阵中，若某些占比特征不具备对应的转换特征，则矩阵中对应位置的概率记为0。

进一步的，所述基于所述纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异，包括：

首先，针对纯汉字词条的特征分布向量V

在公式(14)中，V

针对纯英文词条的特征分布向量V

在公式(15)中，V

针对纯数字词条的特征分布向量V

在公式(16)中，P

然后，针对混合语种词条的特征表示，执行加权：

在公式(17)中，P

再将该加权后的混合语种词条的特征表示展平为一维向量：

接着，将上述的所有加权后的特征拼接在一起：

在公式(19)中，V

最后，假设V

进一步的，所述根据所述测试集和训练集的特征分布差异优化训练集，包括：

向训练集中多次添加某种特征的数据来优化训练集，假设在某一次的优化中，添加的数据基数为U，利用KL

根据数据集间的特征项差异，以获得不同特征项所需添加的数据数量：

如果训练集B中的某特征项大于A中的对应项，则不要添加该特征项的数据。

第二方面，本发明提供一种训练集优化装置，包括：

获取模块，用于获取用于OCR模型训练的测试集和训练集；

划分模块，用于针对所述测试集和训练集，区分纯语种词条与混合语种词条；

第一构建模块，用于针对所述纯语种词条和混合语种词条，分别构建纯语种词条和混合语种词条的特征表示；

第二构建模块，用于基于所述纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异；

优化模块，用于根据所述测试集和训练集的特征分布差异优化训练集。

第三方面，本发明提供一种电子设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供一种训练集优化方法、装置及存储介质，该方法可以将高维的语义特征降维到有限的向量空间中，并利用向量空间比较测试集和训练集之间的差异并以引导训练集的优化，经过优化之后的训练集，可以更好的提升OCR模型对于多语种混合样本的识别精度。

附图说明

图1是本发明实施例提供的一种训练集优化方法的流程图。

图2是本发明实施例提供的一种训练集优化装置的框图。

图3为本发明实施例提供的一种电子设备的框图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例介绍一种训练集优化方法，包括：

获取用于OCR模型训练的测试集和训练集；

针对所述测试集和训练集，区分纯语种词条与混合语种词条；

针对所述纯语种词条和混合语种词条，分别构建纯语种词条和混合语种词条的特征表示；

基于所述纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异；

根据所述测试集和训练集的特征分布差异优化训练集。

本实施例提供的训练集优化方法，其应用过程具体涉及如下步骤：

步骤S100、获取用于OCR模型训练的测试集和训练集。

测试集和训练集中均包括有多个词条，每个词条中可能具有中文、英文、阿拉伯数字、标点符号或者上述的组合。

步骤S200、针对上述的测试集和训练集，区分纯语种词条与混合语种词条。

在本实施方式中，纯语种词条表示为词条中仅有中文的词条、仅有数字的词条以及仅有英文的词条。

在本实施方式中，混合语种词条是具有中文、数字、英文以及标点至少之二的词条，比如，中文+标点为混合语种词条。

具体的说，不同类的语种有着不同的文字符号特征，影响OCR的识别效果。在中文为主的OCR识别中因为训练集中纯中文词条的比重过大，往往导致其它语种的词条有识别缺失问题，如电话号码的缺失；或是语种转换词条中的识别缺失问题，如中文间标点的遗漏。因此需要统计数据集的语种分布，首先便是区分纯语种词条与混合语种词条的数量。

进一步的，可以根据语种的纯度，分为纯语种类与混合语种类。具体的分类方式在本实施方式中，可以利用PYTHON中的正则匹配库对测试集和训练集自动区分纯语种词条与混合语种词条，也即是识别字符串中的英文、数字、汉字与符号，若某一词条具有中文、数字、英文以及标点至少之二则被区分为混合语种词条，否则为纯语种词条；

除了可以使用正则匹配来识别混合语种词条和纯语种词条；还可以使用：

基于机器学习或者深度学习的分类器，比如，可以通过预先标注的好的训练集，去训练分类器，通过该分类器去进行语种的分类，该分类器可以是卷积神经网络(CNN)和循环神经网络(RNN)；

可以调用现有的自然语言处理的API服务，对语料进行分析。

还可以使用基于transformer的语言模型来分类混合语种词条和纯语种词条。

因为纯语种与混合语种的特征提取、降维方式不同，所以下面需要从两个方向论述语种特征的降维。

步骤S300、针对纯语种词条，构建其特征表示，其中，针对中文词条，构建以词条长度为特征表示，针对英文和阿拉伯数字，构建以词条长度结合连续重复字符的特征表示。

首先，针对纯语种词条，比如，中文，英文与数字词条，统计出每种词条的占比(P

然后，针对中文词条，只需要考虑词条长度作为特征；因为字频无法作为特征，具体的说，汉字数量过多，不适合作为降维的特征维度，此外大规模的汉语语料库包含足够多的汉字样本，很少出现字频不均的问题。因此，对于纯汉字的特征分布向量表示为：

公式(1)中，N为整个数据集(训练集或者测试集，下述数据集表示同样的含义，不在赘述)最大的词条长度，w

公式(2)中，Count

针对纯英文和数字的词条，除了考虑词条长度外，还需要考虑字符的重复出现频率；如在词条‘13000294596’中，0连续出现3次。在数字/英文的OCR识别中，因为数字/引文字符所占的图像空间较小，无论是CRNN中单字符所占的图像列(image column)或是基于VIT网络的图像块(image patch)都较少(相对于汉字)，而这会导致间隔符的识别缺失，导致了CTC中对于连续重复字符的删除，从而在结果中遗漏了重复出现的数字或字母。

以数字词条为例，‘00’记为0重复出现一次，‘000’记为0重复出现两次，实际上只需要统计的是相同字符间的间隔符数量，即可得到上述字符的重复出现频率。

在本实施方式中，可以通过如下的方法来构建以词条长度结合连续重复字符的特征表示，具体的：

首先需要表征的是长度特征向量：

在公式(3)中，V

在公式(4)中，Count

接着，加入重复字符的统计以细分特征向量：

在公式(5)中，V

以数字1为例，新占比的计算方式：

在公式(6)中，w

同理，纯英文词条的特征向量可以细化为：

在公式(7)中，w

英文对应的新增下标为a-Z共52个大小写字母以及*。

步骤S400、针对混合语种词条，构建其特征表示，包括：词条语种占比特征表示和语种转换顺序特征表示。

针对词条中的语种占比特征，可以通过如下方法构建：

具体的，词条可能由某种语言主导，如只出现一次逗号的中文短句；词条也有可能是两种语言主导，如日期信息。主导与非主导语言的分布特征影响OCR识别模型在语种切换状态下的识别能力，所以要表征语种的占比特征。

这里的占比特征由人为分类，分类标准如表1：

表1.语种占比分类

分类规则：

标点不会作为主导语言，归于其它类型。

当只有两种语言类型，没有其它类型占比。

当两种以上语言类型，其它类型包含非主导语言的所有语种。

类型16为前15种类型的例外。

按照以上分类，语种占比特征的向量表示为：

在公式(8)中，w

在公式(9)中，Count

根据词条长度将语种占比特征的向量进一步划分，在本实施方式中，词条长度可以划分为：0-5，5～10，10～20，>20，这四个区间。利用区间细化向量的表征：

在公式(10)中，w

在公式(11)中，w

针对语种转换顺序特征，可以通过如下的方法构建：

根据语种占比特征，可以进一步引入语种转换顺序特征，将一维的向量转变为二维的特征矩阵。语种转换顺序特征由两个方面的信息构成，转换的语种以及转换前后语种字符的长度，如‘日期20120326’词条的转换特征表示为：中文-2→数字-8。

语种占比特征向量V

本实施方式需要足够多的转换特征，但不能是无限多的，所以D类(字符长度大于20)与C类拥有一样的组合类型。另外，所需要注意的是，本实施方式只考虑两种语言之间的特征转换，不考虑两种以上的，如统计中文-10→数字-2→中文3的概率；因为OCR的错误问题只针对语种转换的前后信息，对于词条转换多少次语种以及语种的转换序列没有必然联系，因此本实施方式只考虑两种语言之间的特征转换。

引入语种转换的特征后，特征矩阵的表示为：

在公式(12)中，M

以

在公式(13)中，w

需要说明的是，在上述的语种转换顺序特征矩阵中，某些占比特征不具备对应的转换特征，如w

步骤S500、基于上述的纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异。

首先，针对纯汉字词条的特征分布向量V

在公式(14)中，V

针对纯英文词条的特征分布向量V

在公式(15)中，V

针对纯数字词条的特征分布向量V

在公式(16)中，P

然后，针对混合语种词条的特征表示，执行加权：

在公式(17)中，P

再将该加权后的混合语种词条的特征表示展平为一维向量：

接着，将上述的所有加权后的特征拼接在一起：

在公式(19)中，V

最后，假设V

步骤S600、根据上述的测试集和训练集的特征分布差异优化训练集。

在本实施方式中，需要向训练集中增加某种特征的数据来优化训练集，而训练集的优化过程往往需要多次添加数据才能完成。假设在某一次的优化中，添加的数据基数为U，利用KL

根据数据集间的特征项差异，以获得不同特征项所需添加的数据数量：

如果训练集B中的某特征项大于A中的对应项，则不要添加该特征项的数据。

实施例2

本实施例提供一种训练集优化装置，包括：

获取模块，用于获取用于OCR模型训练的测试集和训练集；

划分模块，用于针对所述测试集和训练集，区分纯语种词条与混合语种词条；

第一构建模块，用于针对所述纯语种词条和混合语种词条，分别构建纯语种词条和混合语种词条的特征表示；

第二构建模块，用于基于所述纯语种词条的特征表示和混合语种词条的特征表示，构建测试集和训练集的特征分布差异；

优化模块，用于根据所述测试集和训练集的特征分布差异优化训练集。

实施例3

本实施例提供一种电子设备，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

实施例4

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：上海艺赛旗软件股份有限公司;

上一篇：一种确定电池石墨负极浆料制造参数的方法
下一篇：组合物、发光装置、电子设备、消费品和有机金属化合物