掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请实施例涉及文本标注技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。

背景技术

信用证是根据买卖双方的贸易合同而开立的,它一旦为各有关当事人所接受,即成为各有关当事人必须遵循的契约性文件。在日常信用证开立场景中,由于多方原因导致初始形成的信用证中有错别字,尤其对于复杂条款栏位,错别字更易出现。

相关技术下,错别字检测与纠正的方法主要包括以下几种方式:第一,基于规则的方式,即构建错别字词库并编写规则实现错别字识别与纠正,但该种方式仅适用于通用领域,不仅需要基于海量的互联网文本进行错别字挖掘,而且后期需要大量的人工审核与校验,所以该种方式主要依赖人工干预,需要耗费大量的人力资源和计算资源;第二,基于统计的方式,即利用文本中字词的频率信息实现错别字识别,但该种方式容易将特定领域、特定词汇,尤其是出现频次较少的特别词汇误认为有错别字,在信用证审核场景中耗费大量人力资源,且审核效率较低。

因此,如何降低错别字识别的资源消耗,以及提高错别字识别的识别效率,是亟待解决的问题。

发明内容

本申请实施例提供了一种文本识别方法、装置、设备及存储介质,降低了文本识别的资源消耗,有效提升了文本识别的识别效率。

第一方面,本申请实施例提供了一种文本识别方法,包括:

通过统计语言模型,将待预测文本切分成多个文本片段;以及,通过词向量模型,将所述多个文本片段分别转化为相应的片段向量;

基于获得的多个片段向量确定所述待预测文本的文本向量;

通过已训练的错别字识别模型,基于所述文本向量预测获得所述多个文本片段各自对应的预测结果;

针对每个文本片段,若所述文本片段的预测结果大于预设阈值,则确定所述文本片段包含错别字;若所述文本片段的预测结果小于等于预设阈值,则确定所述文本片段不包含错别字。

本申请实施例先通过统计语言模型将待预测文本切分成多个文本片段,再通过词向量模型将多个文本片段转换成多个片段向量,再基于多个片段向量获得待预测文本的文本向量,将文本向量输入已训练的错别字识别模型获得多个文本片段的预测结果,进而将预测结果与预设阈值比较实现了文本中错别字的自动识别,不仅大大减少了人工干预,降低了文本中错别字识别的资源消耗,而且有效提升了文本识别的识别效率。

一种可选实施方式中,所述通过统计语言模型,将待预测文本切分成多个文本片段,包括:

通过统计语言模型,以预设文本长度为单位将待预测文本切分成多个初始片段;

对所述多个初始片段去重,获得所述多个文本片段。

一种可选实施方式中,所述基于获得的多个片段向量确定所述待预测文本的文本向量,包括:

针对每个片段向量,将所述片段向量的多维向量值的平均值,作为所述片段向量的表征值;

基于所述多个片段向量各自对应的表征值,确定所述待预测文本的文本向量。

一种可选实施方式中,所述已训练的错别字识别模型是采用以下方式训练获得的:

针对语料训练集中的每个训练样本,采用统计语言模型将所述训练样本切分成多个样本片段;以及,通过词向量模型,将所述多个样本片段分别转化为相应的片段向量;基于获得的多个片段向量确定所述训练样本的文本向量;

基于获得的多个训练样本的文本向量以及所述多个训练样本的标注信息,对待训练的错别字识别模型进行迭代训练,直到满足迭代停止条件,获得所述已训练的错别字识别模型。

一种可选实施方式中,所述针对语料训练集中的每个训练样本,采用统计语言模型将所述训练样本切分成多个样本片段之前,还包括:

基于历史文本审查数据以及相应的标注信息,构建初始语料集,所述初始语料集中包括:含有错别字的正例样本以及不包含错别字的反例样本;

对所述初始语料集执行样本扩充操作,获得包含错别字的正例扩充样本;

基于所述初始语料集以及获得的正例扩充样本,获得所述语料训练集。

一种可选实施方式中,所述样本扩充操作包括以下至少一项:

对正例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;

对反例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;

针对正例样本中的错别字,获取与所述错别字的片段向量的差异程度在预设范围内的候选向量;并将所述候选向量对应的候选词替换所述正例样本中的所述错别字,获得包含错别字的正例扩充样本。

一种可选实施方式中,所述针对每个文本片段,若所述文本片段的预测结果大于预设阈值,则确定所述文本片段包含错别字之后,还包括:

基于所述文本片段搜索错别字经验库,所述错别字经验库包括多个已有错别字以及相应的正确描述;

若所述错别字经验库中包含与所述文本片段匹配的已有错别字,则将所述文本片段映射为所述已有错别字对应的正确描述;

若所述错别字经验库中不包含与所述文本片段匹配的已有错别字,则提示将所述文本片段修改为正确描述。

本申请实施例通过搜索错别字经验库,若错别字经验库包含文本片段匹配到的已有错别字,则将文本片段映射为已有错别字对应的正确描述,实现了文本中错别字的自动纠正,降低了人工成本,减少了资源消耗。

一种可选实施方式中,所述若所述错别字经验库中不包含与所述文本片段匹配的已有错别字,则提示将所述文本片段修改为正确描述之后,还包括:

获取所述文本片段以及所述文本片段对应的正确描述;

将所述文本片段以及所述文本片段对应的正确描述添加至所述错别字经验库中。

本申请实施例在提示将文本片段修改为正确描述之后,通过将文本片段以及文本片段对应的正确描述添加至错别字经验库中,实现了错别字经验库的自动扩充,有效提升了文本识别的识别效率。

一种可选实施方式中,当所述错别字经验库中新增包含错别字的文本片段的数量大于或等于预设值时,基于更新后的所述错别字经验库,对所述已训练的错别字识别模型进行重新训练,以更新所述错别字识别模型。

本申请实施例基于更新后的错别字经验库,对已训练的错别字经验库进行重新训练,实现错别字识别模型的自动更新,进而实现错别字预测效果的定期自动优化,形成良性循环,大大提升了文本识别的识别效率,不断提升了用户文本审核的体验。

第二方面,本申请实施例提供了一种文本识别装置,包括:

文本处理模块,用于通过统计语言模型,将待预测文本切分成多个文本片段;以及,通过词向量模型,将所述多个文本片段分别转化为相应的片段向量;

向量输出模块,用于基于获得的多个片段向量确定所述待预测文本的文本向量;

文本预测模块,用于通过已训练的错别字识别模型,基于所述文本向量预测获得所述多个文本片段各自对应的预测结果;

文本识别模块,用于针对每个文本片段,若所述文本片段的预测结果大于预设阈值,则确定所述文本片段包含错别字;若所述文本片段的预测结果小于等于预设阈值,则确定所述文本片段不包含错别字。

本申请实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。

一种可选实施方式中,所述文本处理模块具体用于:

通过统计语言模型,以预设文本长度为单位将待预测文本切分成多个初始片段;对所述多个初始片段去重,获得所述多个文本片段。

一种可选实施方式中,所述向量输出模块具体用于:

针对每个片段向量,将所述片段向量的多维向量值的平均值,作为所述片段向量的表征值;基于所述多个片段向量各自对应的表征值,确定所述待预测文本的文本向量。

一种可选实施方式中,所述文本预测模块还用于:

针对语料训练集中的每个训练样本,采用统计语言模型将所述训练样本切分成多个样本片段;以及,通过词向量模型,将所述多个样本片段分别转化为相应的片段向量;

基于获得的多个片段向量确定所述训练样本的文本向量;

基于获得的多个训练样本的文本向量以及所述多个训练样本的标注信息,对待训练的错别字识别模型进行迭代训练,直到满足迭代停止条件,获得所述已训练的错别字识别模型。

一种可选实施方式中,所述文本预测模块还用于:

针对语料训练集中的每个训练样本,采用统计语言模型将所述训练样本切分成多个样本片段之前,基于历史文本审查数据以及相应的标注信息,构建初始语料集,所述初始语料集中包括:含有错别字的正例样本以及不包含错别字的反例样本;

对所述初始语料集执行样本扩充操作,获得包含错别字的正例扩充样本;

基于所述初始语料集以及获得的正例扩充样本,获得所述语料训练集。

一种可选实施方式中,所述样本扩充操作包括以下至少一项:

对正例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;

对反例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;

针对正例样本中的错别字,获取与所述错别字的片段向量的差异程度在预设范围内的候选向量;并将所述候选向量对应的候选词替换所述正例样本中的所述错别字,获得包含错别字的正例扩充样本。

一种可选实施方式中,所述文本识别模块还用于:

所述针对每个文本片段,若所述文本片段的预测结果大于预设阈值,则确定所述文本片段包含错别字之后,基于所述文本片段搜索错别字经验库,所述错别字经验库包括多个已有错别字以及相应的正确描述;

若所述错别字经验库中包含与所述文本片段匹配的已有错别字,则将所述文本片段映射为所述已有错别字对应的正确描述;

若所述错别字经验库中不包含与所述文本片段匹配的已有错别字,则提示将所述文本片段修改为正确描述。

一种可选实施方式中,所述文本识别模块还用于:

所述若所述错别字经验库中不包含与所述文本片段匹配的已有错别字,则提示将所述文本片段修改为正确描述之后,获取所述文本片段以及所述文本片段对应的正确描述;

将所述文本片段以及所述文本片段对应的正确描述添加至所述错别字经验库中。

一种可选实施方式中,还包括更新模块;

所述更新模块具体用于:

当所述错别字经验库中新增包含错别字的文本片段的数量大于或等于预设值时,基于更新后的所述错别字经验库,对所述已训练的错别字识别模型进行重新训练,以更新所述错别字识别模型。

第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本识别方法的步骤。

第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述文本识别方法的步骤。

第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述文本识别方法的步骤。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构的结构示意图;

图2为本申请实施例提供的一种文本识别方法的流程示意图;

图3为本申请实施例提供的一种错别字识别模型的训练过程示意图;

图4为本申请实施例提供的一种文本标注案例示意图;

图5为本申请实施例提供的一种错别字识别模型的结构示意图;

图6为本申请实施例提供的一种错别字识别模型的训练和使用过程示意图;

图7为本申请实施例提供的一种文本识别装置的结构示意图;

图8为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为了方便理解,下面对本发明实施例中涉及的名词进行解释。

n-gram:是统计语言模型的一种,利用当词前后n个词间的搭配信息,基本思想是将文本按照字/词等单位,以n个单位长度为滑动窗口,产生长度为n的片段训练,用于计算一个句子或一个段落等形成的概率。

Word2vec:是一种训练词向量的模型,基本思想是处于上下文中的两个词,其词向量也应该相似,常用于模型训练的输入,是连接文本与训练模型的桥梁。

错别字:本发明中提到的错别字含义,应为同音、近音,具有通用意义的词组,并且不属于专有名词,如人名、地名、机构名等专有名词。

LSTM:长短期记忆网络(Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。

CRF:条件随机场(Conditional Random Fields)是自然语言处理中的基础模型,广泛用于分词、实体识别和词性标注等场景。

需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定,后续不再赘述。

参见图1,其为本申请实施例适用的一种系统架构图,该系统架构至少包括终端设备101和识别系统102,终端设备101的数量可以是一个或多个,识别系统102的数量也可以是一个或多个,本申请对终端设备101和识别系统102的数量不做具体限定。

终端设备101中预先安装应用,其中,应用是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、智能语音交互设备、智能车载设备等,但并不局限于此。

识别系统102是应用的后台服务器,识别系统102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,简称CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与识别系统102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

本申请实施例中的文本识别方法可以是终端设备101执行,也可以是识别系统102执行,还可以由终端设备101与识别系统102交互执行。

需说明的是,本申请提供的文本识别方法的应用场景包括:信用证审核、合同审核、编辑出版的文稿审核等应用场景。

基于图1所示的系统架构图,本申请实施例提供了一种文本识别方法的流程示意图,如图2所示,该方法的流程由计算机设备执行,该计算机设备可以是图1所示的终端设备101和/或识别系统102,包括以下步骤:

步骤S201,通过统计语言模型,将待预测文本切分成多个文本片段;以及,通过词向量模型,将多个文本片段分别转化为相应的片段向量。

具体地,统计语言模型可以是n-gram语言模型、神经概率语言模型等。待预测文本可以是合同条款、信用证条款等。词向量模型可以是Word2vec、glove、fastText、elmo、GPT等。

一种可选实施方式中,通过统计语言模型,以预设文本长度为单位将待预测文本切分成多个初始片段;对多个初始片段去重,获得多个文本片段。

具体地,预设单位时长可以是一个字母、一个单词等。

n-gram是统计语言模型的一种,用来计算句子的概率模型,假设一个长度为m的句子由词序列(t

n-gram模型在实际应用中的通常做法是,将待预测文本中的内容以字母或单词为单位进行n个单位滑动窗口的操作,借此形成文本片段序列,文本片段长度为n个单位。

例如,一段包含10个单词的复杂条款为“DOCUMENTS WITH DISCREPANCIES WILLBE SUBJECT TO ADISCREPANCY FEE”。假设预设文本长度单词,采用2-gram,以单词为单位对该复杂条款进行切分产生片段序列,产生的片段序列为“DOCUMENTS WITH|WITHDISCREPANCIES|DISCREPANCIES WILL|WILL BE|BE SUBJECT|SUBJECT TO|TO A|ADISCREPANCY|DISCREPANCY FEE”,即获得9个初始片段,将这9个初始片段去重,获得多个文本片段。

步骤S202,基于获得的多个片段向量确定待预测文本的文本向量。

一种可选实施方式中,针对每个片段向量,将片段向量的多维向量值的平均值,作为片段向量的表征值;基于多个片段向量各自对应的表征值,确定待预测文本的文本向量。

具体地,Word2vec模型可以实现将每个词映射到一个向量,从而实现相关计算,如计算两个词之间的相似度。将以n-gram为切分长度对一个复杂条款进行切分并去重获得的多个文本片段,并该多个文本片作为Word2vec模型的词典列表,将该词典列表转换为n-gram片段列表。

通过设置相关技术参数,获取n-gram片段列表的word2vec多维矩阵W

步骤S203,通过已训练的错别字识别模型,基于文本向量预测获得多个文本片段各自对应的预测结果。

具体地,错别字识别模型可以是kenlm模型、rnn_crf模型、seq2seq模型等。

一种可选实施方式中,参见图3,本申请实施例提供的错别字识别模型的训练过程如下:

步骤S301,针对语料训练集中的每个训练样本,采用统计语言模型将训练样本切分成多个样本片段;以及,通过词向量模型,将多个样本片段分别转化为相应的片段向量。

一种可选实施方式中,针对语料训练集中的每个训练样本,采用统计语言模型将训练样本切分成多个样本片段之前,还包括:基于历史文本审查数据以及相应的标注信息,构建初始语料集,初始语料集中包括:含有错别字的正例样本以及不包含错别字的反例样本;对初始语料集执行样本扩充操作,获得包含错别字的正例扩充样本;基于初始语料集以及获得的正例扩充样本,获得语料训练集。

具体地,从已有信用证复杂条款审核历史数据中,借助业务人员的经验,对其中的错别字进行标注,标注案例参见图4,其中,技术处理结果中取值Y为包含错别字,N为不含错别字,从已有审核历史数据中抽取原始案例“DOCUMENTS WITH DISCREPANCIES WILL BESUBJECT TO ADISCREPANCY FREE”,借助业务人员的经验,将其中的错别字“FREE”进行标注,获得人工标注结果为“DOCUMENTS WITH DISCREPANCIES WILL BE SUBJECT TO ADISCREPANCY FEE”,即错别字“FREE”经人工标注为正确描述“FEE”,同时,原始案例中的错别字“FREE”对应的标注信息为“Y”。将含有错别字的案例视为正例样本,将不含有错别字案例视为反例样本。

一种可选实施方式中,样本扩充操作包括以下至少一项:对正例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;对反例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;针对正例样本中的错别字,获取与错别字的片段向量的差异程度在预设范围内的候选向量;并将候选向量对应的候选词替换正例样本中的错别字,获得包含错别字的正例扩充样本。

具体地,更新操作包括但不限于增加、删减、修改单词中的字母。比如,选取至少一个正例样本随机增加、删减、修改单词中的字母,基于更改后的案例获得包含错别字的正例扩充语料。比如,选取至少一个反例样本随机增加、删减、修改单词中的字母,基于更改后的案例获得包含错别字的正例扩充语料。

借助英文开源word2vec模型,对每个正例样本进行向量表示。针对正例样本的错别字对应的片段向量,设定小范围阈值±θ,寻找该预设范围内的与该错别字的片段向量相近的候选向量,候选向量对应的候选词作为错别字的替换用词,由此产生的案例作为正例扩充语料。结合随机和相似度选择反例作为训练语料扩充,至此,包含一定正例和负例的训练语料构建完成。

在构建训练语料过程中,本发明采取与以往随机生成错别字案例不同的方式,即结合考虑了用户经验知识,将其提取为规则纳入语料构建中,该种方式避免正例的随机性,将正例扩充结果更加具有合理性。

需要说明的是,针对样本扩充操作的方式并不仅限于此,本申请对此不作限定。

步骤S302,基于获得的多个片段向量确定训练样本的文本向量。

步骤S303,基于获得的多个训练样本的文本向量以及多个训练样本的标注信息,对待训练的错别字识别模型进行迭代训练,直到满足迭代停止条件,获得已训练的错别字识别模型。

具体地,迭代停止条件可以是损失函数值最小或者迭代次数达到预设值。

参见图5,本申请采用bilstm-crf浅层网络训练错别字识别模型,bilstm-crf浅层网络包括一个CRF模型和多个LSTM模型,其中,序列t

步骤S204,针对每个文本片段,若文本片段的预测结果大于预设阈值,则确定文本片段包含错别字;若文本片段的预测结果小于等于预设阈值,则确定文本片段不包含错别字。

具体地,对预测结果设置预设阈值,如0.85,若文本片段的预测结果大于0.85,则确定文本片段包含错别字;若文本片段的预测结果小于等于0.85,则确定文本片段不包含错别字。

本申请实施例先通过统计语言模型将待预测文本切分成多个文本片段,再通过词向量模型将多个文本片段转换成多个片段向量,再基于多个片段向量获得待预测文本的文本向量,将文本向量输入已训练的错别字识别模型获得多个文本片段的预测结果,进而将预测结果与预设阈值比较实现了文本中错别字的自动识别,不仅减少了人工干预,降低了文本中错别字识别的资源消耗,而且有效提升了文本识别的识别效率。

一种可选实施方式中,针对每个文本片段,若文本片段的预测结果大于预设阈值,则确定文本片段包含错别字之后,还包括:基于文本片段搜索错别字经验库,错别字经验库包括多个已有错别字以及相应的正确描述;若错别字经验库中包含与文本片段匹配的已有错别字,则将文本片段映射为已有错别字对应的正确描述;若错别字经验库中不包含与文本片段匹配的已有错别字,则提示将文本片段修改为正确描述。

具体地,从已有信用证复杂条款审核历史数据中,借助业务人员的经验,对其中的错别字进行标注,对人工标注结果进行总结归纳获得初始错别字经验库。

通过包含错别字的文本片段搜索错别字经验库,若在错别字经验库匹配到该文本片段,则将文本片段映射为已有错别字对应的正确描述,实现了文本中错别字的自动纠正,降低了人工成本,大大减少了资源消耗。

一种可选实施方式中,若错别字经验库中不包含与文本片段匹配的已有错别字,则提示将文本片段修改为正确描述之后,还包括:获取文本片段以及文本片段对应的正确描述;将文本片段以及文本片段对应的正确描述添加至错别字经验库中。

具体地,当文本片段被判断为含有错别字,而当前的错别字经验库中又不包含与文本片段匹配的已有错别字,则仅提示用户修改。当用户修改文本片段,系统将自动据此产生一条新的错别字条目(即该文本片段以及对应的正确描述)插入到当前的错别字经验库中,所以每一次经提示修改后,错别字经验库都会实现自动扩充和更新。

本申请实施例在提示将文本片段修改为正确描述之后,通过将文本片段以及文本片段对应的正确描述添加至错别字经验库中,实现了错别字经验库的自动扩充,有效提升了文本识别的识别和修正效率。

一种可选实施方式中,当错别字经验库中新增包含错别字的文本片段的数量大于或等于预设值时,基于更新后的错别字经验库,对已训练的错别字识别模型进行重新训练,以更新错别字识别模型。

一种可选实施方式中,设置适当的时间间隔,即一定时间间隔后,则自动启动新一轮的错别字识别模型迭代,以更新错别字识别模型。需要说明的是,本申请对错别字识别模型的更新方式不作具体限定。

本申请实施例基于更新后的错别字经验库,对已训练的错别字经验库进行重新训练,实现错别字识别模型的自动更新,进而实现错别字预测效果的定期自动优化,形成良性循环,有效提升了文本识别的识别效率,不断提升了用户文本审核的体验。

为了更好地解释本申请实施例,下面结合具体实施场景介绍本申请实施例提供了一种文本识别方法的流程示意图,如图6所示,该方法的流程由识别系统102执行,包括构建训练集阶段601、文本表示阶段602、训练过程603和测试过程604。

具体地,构建训练集阶段601包括以下步骤:

步骤6011,获得已有错别字案例。

步骤6012,提取规则和特征。

具体地,提取人工审核特征规则进行批注,基于人工批注结果获得错别字经验库。

步骤6013,扩充训练语料。

具体地,将含有错别字的案例视为正例样本,将不含有错别字案例视为反例样本,扩充训练语料,构建包含一定正例和负例的语料训练集。

文本表示阶段602包括以下步骤:

步骤6021,n-gram处理。

具体地,针对语料训练集中的每个训练样本,采用统计语言模型n-gram将训练样本切分成多个样本片段。

步骤6022,训练Word2vec。

具体地,通过词向量模型Word2vec,将多个样本片段分别转化为相应的片段向量。

步骤6023,向量表示。

具体地,基于获得的多个片段向量确定训练样本的文本向量。

训练过程603包括以下步骤:

步骤6031,训练bilstm-crf。

具体地,将训练样本的文本向量序列输入到bilstm-crf浅层神经网络模型中进行迭代训练。

步骤6032,验证与调试。

具体地,验证与调试bilstm-crf浅层神经网络模型,直到bilstm-crf浅层神经网络模型满足迭代停止条件,获得已训练的错别字识别模型,即最优模型。

测试过程604包括以下步骤:

步骤6041,将待预测文本的文本向量输入已训练的错别字识别模型,获得待预测文本的多个文本片段的预测结果。

步骤6042,将纠错候选与预设阈值进行比较,判断纠错候选是否大于或者等于阈值,若是,则输出最佳纠错结果;若否,则仅提示。

具体地,将待预测文本的多个文本片段的预测结果作为纠错候选,若文本片段的预测结果大于或者等于阈值,则确定文本片段包含错别字,基于文本片段搜索错别字经验库;若错别字经验库中包含与文本片段匹配的已有错别字,将文本片段映射为已有错别字对应的正确描述;

若错别字经验库中不包含与文本片段匹配的已有错别字,则提示将文本片段修改为正确描述;同时,将文本片段以及文本片段对应的正确描述作为最佳纠错结果添加至错别字经验库中,以更新错别字经验库,并基于更新的错别字经验库对已训练的错别字识别模型进行迭代训练,以更新错别字识别模型。

若文本片段的预测结果小于阈值,则确定文本片段不包含错别字。

基于相同的技术构思,参见图7,本申请实施例提供了一种文本识别装置,包括:

文本处理模块701,用于通过统计语言模型,将待预测文本切分成多个文本片段;以及,通过词向量模型,将多个文本片段分别转化为相应的片段向量;

向量输出模块702,用于基于获得的多个片段向量确定待预测文本的文本向量;

文本预测模块703,用于通过已训练的错别字识别模型,基于文本向量预测获得多个文本片段各自对应的预测结果;

文本识别模块704,用于针对每个文本片段,若文本片段的预测结果大于预设阈值,则确定文本片段包含错别字;若文本片段的预测结果小于等于预设阈值,则确定文本片段不包含错别字。

一种可选实施方式中,所述文本处理模块701具体用于:

通过统计语言模型,以预设文本长度为单位将待预测文本切分成多个初始片段;对多个初始片段去重,获得多个文本片段。

一种可选实施方式中,向量输出模块702具体用于:

针对每个片段向量,将片段向量的多维向量值的平均值,作为片段向量的表征值;基于多个片段向量各自对应的表征值,确定待预测文本的文本向量。

一种可选实施方式中,文本预测模块703还用于:

针对语料训练集中的每个训练样本,采用统计语言模型将训练样本切分成多个样本片段;以及,通过词向量模型,将多个样本片段分别转化为相应的片段向量;基于获得的多个片段向量确定训练样本的文本向量;基于获得的多个训练样本的文本向量以及多个训练样本的标注信息,对待训练的错别字识别模型进行迭代训练,直到满足迭代停止条件,获得已训练的错别字识别模型。

一种可选实施方式中,文本预测模块703还用于:

针对语料训练集中的每个训练样本,采用统计语言模型将训练样本切分成多个样本片段之前,基于历史文本审查数据以及相应的标注信息,构建初始语料集,初始语料集中包括:含有错别字的正例样本以及不包含错别字的反例样本;对初始语料集执行样本扩充操作,获得包含错别字的正例扩充样本;基于初始语料集以及获得的正例扩充样本,获得语料训练集。

一种可选实施方式中,样本扩充操作包括以下至少一项:对正例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;对反例样本中的至少一个文本片段执行更新操作,获得包含错别字的正例扩充样本;针对正例样本中的错别字,获取与错别字的片段向量的差异程度在预设范围内的候选向量;并将候选向量对应的候选词替换正例样本中的错别字,获得包含错别字的正例扩充样本。

一种可选实施方式中,所述文本识别模块704还用于:

针对每个文本片段,若文本片段的预测结果大于预设阈值,则确定文本片段包含错别字之后,基于文本片段搜索错别字经验库,错别字经验库包括多个已有错别字以及相应的正确描述;若错别字经验库中包含与文本片段匹配的已有错别字,则将文本片段映射为已有错别字对应的正确描述;若错别字经验库中不包含与文本片段匹配的已有错别字,则提示将文本片段修改为正确描述。

一种可选实施方式中,所述文本识别模块704还用于:

若错别字经验库中不包含与文本片段匹配的已有错别字,则提示将文本片段修改为正确描述之后,获取文本片段以及文本片段对应的正确描述;将文本片段以及文本片段对应的正确描述添加至错别字经验库中。

一种可选实施方式中,还包括更新模块705;

所述更新模块705具体用于:

当错别字经验库中新增包含错别字的文本片段的数量大于或等于预设值时,基于更新后的错别字经验库,对已训练的错别字识别模型进行重新训练,以更新错别字识别模型。

本申请实施例先通过统计语言模型将待预测文本切分成多个文本片段,再通过词向量模型将多个文本片段转换成多个片段向量,再基于多个片段向量获得待预测文本的文本向量,将文本向量输入已训练的错别字识别模型获得多个文本片段的预测结果,进而将预测结果与预设阈值比较实现了文本中错别字的自动识别,不仅大大减少了人工干预,降低了文本中错别字识别的资源消耗,而且有效提升了文本识别的识别效率。

基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图1所示的终端设备和/或推荐系统,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本申请实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行上述文本识别方法的步骤。

其中,处理器801是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而实现文本识别。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。

处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机设备存取的任何其他介质,但不限于此。本申请实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。

基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述文本识别方法的步骤。

基于同一发明构思,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机设备执行时,使所述计算机设备执行上述文本识别方法的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机设备或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备或其他可编程数据处理设备上,使得在计算机设备或其他可编程设备上执行一系列操作步骤以产生计算机设备实现的处理,从而在计算机设备或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

相关技术
  • 文本情感识别方法及装置、电子设备、存储介质
  • 图像中文本的识别方法及装置、电子设备、存储介质
  • 文本识别方法、装置、存储介质和计算机设备
  • 一种基于文本的元器件识别方法、系统、装置和存储介质
  • 一种文本识别方法、装置及其存储介质
  • 文本识别方法、文本识别装置、存储介质和电子设备
  • 文本识别模型的训练方法、文本识别方法、电子设备、存储介质
技术分类

06120116493128