用于银行征信数据审核的拼音变体文本识别方法及系统

文献发布时间：2023-06-19 19:30:30

技术领域

本发明涉及文本识别技术领域，尤其涉及一种用于银行征信数据审核的拼音变体文本识别方法及系统。

背景技术

目前，在用户提交的征信数据中一部分需要用户进行填写，包括家庭住址，单位信息等。部分用户没有贷款意图，但会通过这部分内容表达对银行的不满，以及个人情绪的发泄。这部分违规数据需要在数据审核阶段检出并将其剔除，若数据存在审核不严露出的情况，银行会收到央行严重处罚，严重的会被取消调取征信的权利，使贷款业务受到影响。

通常为了提升效率，会使用机器审核结合人工审核的方式。常规的违规信息检测可以通过敏感词匹配以及语义模型识别实现，对于违规内容中的变体内容识文本识别的难点，特别是拼音变体，一方面要跟汉字产生关联，一方面要区分英语以及英文字母的干扰，正确识别相对较困难。

因此，亟需提供一种技术方案解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供了一种用于银行征信数据审核的拼音变体文本识别方法及系统。

本发明的用于银行征信数据审核的拼音变体文本识别方法的技术方案如下：

基于拼音字典和拼音置信度模型，将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音，得到所述目标待识别文本的每个转换拼音字符串；其中，所述拼音置信度模型用于：当所述目标待识别文本的任一汉字为多音字时，基于该汉字对应的前一字符串，将该汉字的发音置信度最高的拼音作为该汉字的拼音，以实现对所述目标待识别文本中的拼音变体进行转换；

当所述目标待识别文本中存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串和每个原始拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；或，当所述目标待识别文本中不存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；

获取敏感词库中的每个敏感词对应的敏感词拼音串，当所述拼接拼音字符串中包含任一敏感词拼音串时，确定所述目标待识别文本为违规文本。

本发明的用于银行征信数据审核的拼音变体文本识别方法的有益效果如下：

本发明的方法能够有效检测出拼音变体，提升了拼音变体文本识别的准确率，并有效地提升了银行征信数据审核的效率。

在上述方案的基础上，本发明的用于银行征信数据审核的拼音变体文本识别方法还可以做如下改进。

进一步，还包括：

获取银行征信数据审核过程中的原始待识别文本，并对所述原始待识别文本进行文本预处理，得到所述目标待识别文本。

进一步，还包括：

基于NER模型和最大前向匹配算法，对所述目标待识别文本中的原始拼音字符串进行提取，并判断所述目标待识别文本中所提取到的原始拼音字符串的数量；

当所述目标待识别文本的原始拼音字符串的数量为至少一个时，则判定所述目标待识别文本中存在原始拼音字符串；当所述目标待识别文本的原始拼音字符串的数量为零时，则判定所述目标待识别文本中不存在原始拼音字符串。

进一步，所述基于NER模型和最大前向匹配算法，对所述目标待识别文本中的原始拼音字符串进行提取的步骤，包括：

基于所述NER模型，依次提取所述目标待识别文本中的每个第一拼音字符串，并基于所述最大前向匹配算法，提取所述目标待识别文本中的每个第二拼音字符串，并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值，得到每个第一拼音字符串的判断结果；

当任一第一拼音字符串的判断结果为是时，将该第一拼音字符串确定为原始拼音字符串；当任一第一拼音字符串的判断结果为否时，将该第一拼音字符串对应的第二拼音字符串确定为原始拼音字符串，直至得到所述目标待识别文本中的每个原始拼音字符串。

进一步，所述拼音置信度模型为预训练的n-gram模型。

进一步，所述NER模型为：预训练的基于transformer的深度学习模型。

本发明的用于银行征信数据审核的拼音变体文本识别系统的技术方案如下：

包括：转换模块、处理模块和识别模块；

所述转换模块用于：基于拼音字典和拼音置信度模型，将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音，得到所述目标待识别文本的每个转换拼音字符串；其中，所述拼音置信度模型用于：当所述目标待识别文本的任一汉字为多音字时，基于该汉字对应的前一字符串，将该汉字的发音置信度最高的拼音作为该汉字的拼音，以实现对所述目标待识别文本中的拼音变体进行转换；

所述处理模块用于：当所述目标待识别文本中存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串和每个原始拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；或，当所述目标待识别文本中不存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；

所述识别模块用于：获取敏感词库中的每个敏感词对应的敏感词拼音串，当所述拼接拼音字符串中包含任一敏感词拼音串时，确定所述目标待识别文本为违规文本。

本发明的用于银行征信数据审核的拼音变体文本识别系统的有益效果如下：

本发明的系统能够有效检测出拼音变体，提升了拼音变体文本识别的准确率，并有效地提升了银行征信数据审核的效率。

在上述方案的基础上，本发明的用于银行征信数据审核的拼音变体文本识别系统还可以做如下改进。

进一步，还包括：预处理模块；

所述预处理模块用于：获取银行征信数据审核过程中的原始待识别文本，并对所述原始待识别文本进行文本预处理，得到所述目标待识别文本。

进一步，还包括：提取模块；所述提取模块用于：

进一步，所述提取模块具体用于：

附图说明

图1示出了本发明提供的用于银行征信数据审核的拼音变体文本识别方法的实施例的流程示意图；

图2示出了本发明提供的用于银行征信数据审核的拼音变体文本识别系统的实施例的结构示意图。

具体实施方式

图1示出了本发明提供的用于银行征信数据审核的拼音变体文本识别方法的实施例的流程示意图。如图1所示，该方法包括如下步骤：

步骤110：基于拼音字典和拼音置信度模型，将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音，得到所述目标待识别文本的每个转换拼音字符串。

其中，①目标待识别文本为：从银行征信数据审核过程提取的文本数据，该文本是经过数据预处理后所得到的文本。转换拼音字符串为：由汉字转换为拼音所生成的字符串。例如，汉字为：“你好”，对应的转换拼音字符串为：“ni hao”。②拼音置信度模型为：预训练的n-gram模型。该模型的训练语料为文本和对应人工标注拼音的对应关系数据。③拼音置信度模型用于：当所述目标待识别文本的任一汉字为多音字时，基于该汉字对应的前一字符串，将该汉字的发音置信度最高的拼音作为该汉字的拼音，以实现对所述目标待识别文本中的拼音变体进行转换。

需要说明的是，由于训练n-gram模型的语料为汉字拼音的组合，这里如果出现多音字，则把每个多音字结合到前序的字符串中，包括文字和发音，进入n-gram模型进行计算，即可到困惑度得分，经过转换即可得到置信度得分。

步骤120：当所述目标待识别文本中存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串和每个原始拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；或，当所述目标待识别文本中不存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串。

其中，①原始拼音字符串为：目标待识别文本中原始存在的拼音字符串。②按照目标待识别文本的文本内容顺序，对每个转换拼音字符串和每个原始拼音字符串进行拼接。例如，目标待识别文本的文本内容顺序为：字符串1→字符串2→字符串3→字符串4→字符串5；其中，字符串2和字符串3进行了转换，得到第一转换拼音字符串和第二转换拼音字符串，字符串1、字符串4、字符串5分别为第一原始拼音字符串、第二原始拼音字符串和第三原始拼音字符串，此时拼接拼音字符串为：第一原始拼音字符串→第一转换拼音字符串→第二转换拼音字符串→第二原始拼音字符串→第三原始拼音字符串。

步骤130：获取敏感词库中的每个敏感词对应的敏感词拼音串，当所述拼接拼音字符串中包含任一敏感词拼音串时，确定所述目标待识别文本为违规文本。

其中，①敏感词库中包括多个敏感词，敏感词可以是由汉字构成，也可以是由拼音构成，还可以是由汉字与拼音的组合构成，在此不设限制。②获取敏感词拼音串的过程与获目标待识别文本中的拼音串的过程相同，在此不过多赘述。例如，敏感词为“滚蛋”时，其对应的敏感词拼音串为“gun dan”。

需要说明的是，在本实施例中，基于字典树的串匹配计算拼接拼音字符串中是否包含敏感词拼音串。

较优地，还包括：

获取银行征信数据审核过程中的原始待识别文本，并对所述原始待识别文本进行文本预处理，得到所述目标待识别文本。

其中，①原始待识别文本为：从银行征信数据审核过程中获取的未经任何处理的文本。②文本预处理的过程包括但不限于：a.全角转半角；b.大写转小写；c.繁体转简体；d.删除汉字和英文字母以外其他内容。

较优地，还包括：

基于NER模型和最大前向匹配算法，对所述目标待识别文本中的原始拼音字符串进行提取，并判断所述目标待识别文本中所提取到的原始拼音字符串的数量。

其中，NER模型为：预训练的基于transformer的深度学习模型。该模型采用CRF作为损失，训练数据为人工标注的拼音串语料。

当所述目标待识别文本的原始拼音字符串的数量为至少一个时，则判定所述目标待识别文本中存在原始拼音字符串。

具体地，当目标待识别文本的原始拼音字符串的数量为至少一个时，则判定目标待识别文本中存在原始拼音字符串，执行当目标待识别文本中存在原始拼音字符串时，基于目标待识别文本的文本内容顺序，将每个转换拼音字符串和每个原始拼音字符串进行拼接，得到目标待识别文本的拼接拼音字符串的步骤。

当所述目标待识别文本的原始拼音字符串的数量为零时，则判定所述目标待识别文本中不存在原始拼音字符串。

具体地，当目标待识别文本的原始拼音字符串的数量为零时，则判定目标待识别文本中不存在原始拼音字符串，执行当目标待识别文本中不存在原始拼音字符串时，基于目标待识别文本的文本内容顺序，将每个转换拼音字符串进行拼接，得到目标待识别文本的拼接拼音字符串。

较优地，所述基于NER模型和最大前向匹配算法，对所述目标待识别文本中的原始拼音字符串进行提取的步骤，包括：

基于所述NER模型，依次提取所述目标待识别文本中的每个第一拼音字符串，并基于所述最大前向匹配算法，提取所述目标待识别文本中的每个第二拼音字符串，并依次判断每个第一拼音字符串的置信度是否大于预设置信度阈值，得到每个第一拼音字符串的判断结果。

其中，①第一拼音字符串为：NER模型从目标待识别文本中提取的拼音字符串。②第二拼音字符串为：根据最大前向匹配算法所提取的拼音字符串。③依次提取的过程为：从目标待识别文本的首个字符串开始到最后一个字符串为止。

需要说明的是，根据NER模型得到首个第一拼音字符串，根据拼音字典使用最大前向匹配算法得到首个第二拼音字符串，判断首个第一拼音字符串的置信度是否大于预设置信度阈值，若是，则将首个第一拼音字符串确定为原始拼音字符串；若否，则将首个第二拼音字符串确定为原始拼音字符串。此时，从上一个识别结尾开始，重复上述过程，直至得到目标待识别文本中所有的原始拼音字符串。

本实施例的技术方案能够有效检测出拼音变体，提升了拼音变体文本识别的准确率，并有效地提升了银行征信数据审核的效率。

图2示出了本发明提供的用于银行征信数据审核的拼音变体文本识别系统的实施例的结构示意图。如图2所示，该系统200包括：转换模块210、处理模块220和识别模块230。

所述转换模块210用于：基于拼音字典和拼音置信度模型，将银行征信数据审核过程中提取到的目标待识别文本的每个汉字转换为拼音，得到所述目标待识别文本的每个转换拼音字符串；其中，所述拼音置信度模型用于：当所述目标待识别文本的任一汉字为多音字时，基于该汉字对应的前一字符串，将该汉字的发音置信度最高的拼音作为该汉字的拼音，以实现对所述目标待识别文本中的拼音变体进行转换；

所述处理模块220用于：当所述目标待识别文本中存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串和每个原始拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；或，当所述目标待识别文本中不存在原始拼音字符串时，基于所述目标待识别文本的文本内容顺序，将每个转换拼音字符串进行拼接，得到所述目标待识别文本的拼接拼音字符串；

所述识别模块230用于：获取敏感词库中的每个敏感词对应的敏感词拼音串，当所述拼接拼音字符串中包含任一敏感词拼音串时，确定所述目标待识别文本为违规文本。

较优地，还包括：预处理模块；

所述预处理模块用于：获取银行征信数据审核过程中的原始待识别文本，并对所述原始待识别文本进行文本预处理，得到所述目标待识别文本。

较优地，还包括：提取模块；所述提取模块用于：

较优地，所述提取模块具体用于：

本实施例的技术方案能够有效检测出拼音变体，提升了拼音变体文本识别的准确率，并有效地提升了银行征信数据审核的效率。

上述关于本实施例的用于银行征信数据审核的拼音变体文本识别系统200中的各参数和各个模块实现相应功能的步骤，可参考上文中关于用于银行征信数据审核的拼音变体文本识别方法的实施例中的各参数和步骤，在此不做赘述。

在此处所提供的说明书中，说明了大量具体细节。然而能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。类似地，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。其中，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐小锋;齐路;朱旻昊;姜欣荣;
专利申请人：南京银行股份有限公司;北京数美时代科技有限公司;

上一篇：一种动态人员数据一致性管理系统和方法
下一篇：一种用于轨旁安全平台的数据更新系统和数据更新方法