掌桥专利:专业的专利平台
掌桥专利
首页

文本纠错方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 09:58:59


文本纠错方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及文本纠错方法、装置、计算机设备及存储介质。

背景技术

在金融、保险等业务的开展过程中,会产生较多的原始单据,对原始单据的登记录入、归档、信息管理等需要对原始单据数字化,即将原始单据的信息转换为可以通过计算机保存、查询、读取的信息。基于OCR的文字识别技术在原始单据的数字化过程中起着重要作用。

但是,由于业务场景复杂,一些单据图像出现模糊、字体重叠,个别字体错位等问题,严重影响OCR文字识别的准确率,文字识别结果出现错误。影响单据的数字化过程的效率。

发明内容

本申请实施例的目的在于提出一种文本纠错方法、装置、计算机设备及存储介质,以解决单据的数字化过程中文本纠错的问题。

为了解决上述技术问题,本申请实施例提供一种文本纠错方法,采用了如下所述的技术方案:

获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;

将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;

将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;

将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。

进一步的,所述获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据的步骤包括:

获取待数字化的的单据图像;

将所述待数字化的单据图像输入到预先训练的基于卷积神经网络的图像识别模型,获得所述图像识别模型响应所述单据图像输出的图像识别结果,其中,所述图像识别结果为单据图像或非单据图像;

当所述图像识别结果为非单据图像时,返回图像异常消息;

当所述图像识别结果为单据图像时,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据。

进一步的,在所述将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果的步骤前包括:

将所述文本数据与预设的语料清洗库匹配,所述语料清洗库包含停用词、特殊符号、标点符号,获取清洗后的文本数据。

进一步的,所述将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据的步骤包括:

提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

计算所述短文本与预设的语料库中各文本的编辑距离;

用所述语料库中与所述短文本之间编辑距离最小的文本替换所述短文本。

进一步的,所述将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据的步骤包括:

提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

对所述短文本在所述错误词位置进行掩码,将掩码后的短文本输入到预先训练的BERT网络,获取所述BERT网络响应所述掩码后的短文本输出的在所述错误词位置的S个预测词和对应的S个置信度,其中,S为正整数;

将所述S个置信度分别与预设的第一阈值比较,将所述S个置信度中大于预设的第一阈值的M个置信度对应的M个预测词作为所述错误词的M个候选词,其中,M为正整数;

分别计算所述M个候选词和所述错误词的字形相似度,用所述M个候选词中与所述错误词字形相似度最大的候选词替换错误词。

为了解决上述技术问题,本申请实施例还提供一种文本纠错装置,采用了如下所述的技术方案:

获取模块,用于获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;

分词模块,用于将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;

处理模块,用于将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;

替换模块,用于将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。

进一步的,所述获取模块包括:

第一获取子模块,用于获取待数字化的的单据图像;

第一识别子模块,用于将所述待数字化的单据图像输入到预先训练的基于卷积神经网络的图像识别模型,获得所述图像识别模型响应所述单据图像输出的图像识别结果,其中,所述图像识别结果为单据图像或非单据图像;

第一返回子模块,用于当所述图像识别结果为非单据图像时,返回图像异常消息;

第一处理子模块,用于当所述图像识别结果非单据图像时,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据。

进一步的,所述的文本纠错装置,还包括:

第一清洗子模块,用于将所述文本数据与预设的语料清洗库匹配,所述语料清洗库包含停用词、特殊符号、标点符号,获取清洗后的文本数据。

进一步的,所述替换模块包括:

第一提取子模块,用于提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

第一计算子模块,用于计算所述短文本与预设的语料库中各文本的编辑距离;

第一替换子模块,用于用所述语料库中与所述短文本之间编辑距离最小的文本替换所述短文本。

进一步的,所述替换模块包括:

第一提取子模块,用于提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

第一预测子模块,用于对所述短文本在所述错误词位置进行掩码,将掩码后的短文本输入到预先训练的BERT网络,获取所述BERT网络响应所述掩码后的短文本输出的在所述错误词位置的S个预测词和对应的S个置信度,其中,S为正整数;

第一比较子模块,用于将所述S个置信度分别与预设的第一阈值比较,将所述S个置信度中大于预设的第一阈值的M个置信度对应的M个预测词作为所述错误词的M个候选词,其中,M为正整数;

第二替换子模块,用于分别计算所述M个候选词和所述错误词的字形相似度,用所述M个候选词中与所述错误词字形相似度最大的候选词替换错误词。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,处理器执行计算机可读指令时实现如上述文本纠错方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述文本纠错方法的步骤

与现有技术相比,本申请实施例主要有以下有益效果:通过获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。通过对文本数据中的错误词定位,并根据前后分词确定替换词,使文本纠错利用了上下文信息,保证了文本数据的正确性,提高了单据数字化的效率。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2根据本申请的文本纠错方法的一个实施例的流程图;

图3是图2中步骤S204的一种具体实施方式的流程图;

图4是图2中步骤S204的另一种具体实施方式的流程图;

图5是根据本申请的文本纠错装置的一个实施例的结构示意图;

图6是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的文本纠错方法一般由

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的文本纠错的方法的一个实施例的流程图。所述的文本纠错方法,包括以下步骤:

步骤S201,获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据。

在本实施例中,文本纠错方法运行于其上的电子设备(例如图1所示的

通过带摄像头的电子设备对原始单据拍照,或使用扫描仪对原始单据扫描,得到待数字化的单据图像。待数字化的单据图像也可以是已经存储在计算机存储介质中的图像。

将待数字化的单据图像输入到基于OCR的文字识别模型中,获得单据图像的文本数据。OCR(Optical Character Recognition,光学字符识别),是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。基于OCR的文字识别模型通过通用软件实现。文本数据是指不能参与算术运算的任何字符,如英文字母、汉字、不作为数值使用的数字等。

步骤S202,将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果。

在本实施例中,预设的分词模型采用基于分词词库的最大匹配算法进行分词,即按一定的顺序(包括从左到右或从右到左,或者两者都包括)扫描待分词的文本数据中的字符与预设的分词词库匹配,如果连续的几个字符与分词词库中的词匹配上,且扫描的下一个字符串与前面扫描的字符串组成的词不是分词词库中的词,则切出一个分词。

步骤S203,将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词。

在本实施例中,预先训练的错误词定位模型基于深度学习神经网络,深度学习神经网络的训练过程包含以下步骤,准备训练样本,先将业务提供的关键词保存在语料库中,之后将所有的语料进行分词,形成关键词表。预先构建错误词表,可以将关键词表中各词进行形近字替换,形成错误词表,将关键词表和错误词表输入到深度学习神经网络进行训练,调整深度学习神经网络各节点的参数,使损失函数值收敛,深度学习神经网络训练结束。本方案使用softmax交叉熵损失函数,

其中,N为训练样本数,针对第i个样本其对应的标记为Yi是否为错误词,h=(h1,h2,...,hc)为样本i的预测结果,其中C是所有分类的数量,这里为2分类,即是否为错误词。

分词结果经预先训练的深度学习神经网络处理后输出各分词是否为错误词的概率,预先设定阈值,如果输出概率大于设定阈值定义为错误词。

步骤S204,将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。

在本实施例中,预设的词替换模型可以基于语料库匹配算法,也可以基于预先训练的BERT(Bidirectional Encoder Representations from Transformers)网络模型。其中基于语料库匹配算法具体请参阅图3,基于预先训练的BERT网络模型具体请参与图4。

本申请通过获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。通过对文本数据中的错误词定位,并根据前后分词确定替换词,使文本纠错利用了上下文信息,保证了文本数据的正确性,提高了单据数字化的效率。

在本实施例的一些可选的实现方式中,在步骤201中,上述电子设备还可以执行以下步骤:

获取待数字化的的单据图像;

将所述待数字化的单据图像输入到预先训练的基于卷积神经网络的图像识别模型,获得所述图像识别模型响应所述单据图像输出的图像识别结果,其中,所述图像识别结果为单据图像或非单据图像;

当所述图像识别结果为非单据图像时,返回图像异常消息;

当所述图像识别结果为单据图像时,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据。

上述实施方式,通过预先训练的基于卷积神经网络的图像识别模型对待数字化的的单据图像进行识别,判断是否为单据图像。

卷积神经网络模型的训练过程包括准备训练样本,训练样本包含单据图像和非单据图像,并对每一个样本标注是否为单据图像,将训练样本输入到卷积神经网络模型,调节卷积神经网络各节点的参数,使卷积神经网络的预测结果与标注的结果一致,训练结束。

本实施方式通过先对获取的待数字化的单据图像判断是否为单据图像,判断为非单据图像的提前结束纠错流程,提高了文本纠错的效率。

在一些可选的实现方式中,在步骤S202之前,上述电子设备可以执行以下步骤:

将所述文本数据与预设的语料清洗库匹配,所述语料清洗库包含停用词、特殊符号、标点符号,获取清洗后的文本数据。

上述实施方式,在将文本数据输入到预设的分词模型之前,可以先对文本数据进行语料清洗,清洗的作用是去除标点符号,去除特殊符号和停用词。语料清洗可以通过规则匹配算法完成。即预先建立语料清洗库,包括停用词、特殊符号、标点符号,将文本数据中的字符与语料清洗库中的数据比对,完全一致时,删除该字符,得到清洗后的文本数据。再将清洗后的文本数据输入到预设的分词模型进行分词。

本实施方式通过先对文本数据进行语料清洗,去除停用词、特殊符号、标点符号,可以减少后续步骤的计算量,提高纠错的效率。

请参阅图3,在一些可选的实现方式中,步骤S204包括:

步骤S301,提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

步骤S302,计算所述短文本与预设的语料库中各文本的编辑距离;

步骤S303,用所述语料库中与所述短文本之间编辑距离最小的文本替换所述短文本。

上述实施方式,先将错误词与相邻的前后分词构成短文本,例如“侃险”为识别出的错误词,前后分词为“一种”“业务”,将其构成短文本,“一种侃险业务”,将短文本与预先建立的语料库中的文本进行比对,计算短文本与语料库中文本的编辑距离,取编辑距离最小的语料库中的文本,替换短文本,完成纠错功能,例如预先建立的语料库中的文本包含“一种保险业务”,经计算短文本“一种侃险业务”与语料库中“一种保险业务”的编辑距离最小,用“一种保险业务”替换“一种侃险业务”,完成纠错。编辑距离指两个字符串的差异程度的量化量测,量测方式是至少需要多少次的处理才能将一个字符串变成另一个字符串。

请参阅图4,在一些可选的实现方式中,步骤S204包括:

步骤S401,提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

步骤S402,对所述短文本在所述错误词位置进行掩码,将掩码后的短文本输入到预先训练的BERT网络,获取所述BERT网络响应所述掩码后的短文本输出的在所述错误词位置的S个预测词和对应的S个置信度,其中,S为正整数;

步骤S403,将所述S个置信度分别与预设的第一阈值比较,将所述S个置信度中大于预设的第一阈值的M个置信度对应的M个预测词作为所述错误词的M个候选词,其中,M为正整数;

步骤S404,分别计算所述M个候选词和所述错误词的字形相似度,用所述M个候选词中与所述错误词字形相似度最大的候选词替换错误词。

上述实施方式中,采用基于预先训练的BERT网络进行错误词替换,首先利用BERT的掩码语言模型(Masked Language Model)部分,让模型对错误词位置进行预测,得到BERT预测的S个预测词和对应的S个置信度,其中,S为正整数,通过置信度进行排序,设定第一阈值,将置信度大于第一阈值的M个预测词作为候选词。之后利用基于字形相似度度量计算,得出错误词字体与BERT预测的候选词字体的相似度,用字形相似度最大的候选词替换错误词。BERT的网络架构使用多层Transformer结构,其最大的特点是抛弃了传统的RNN和CNN,Masked Language Model(MLM)是指在训练的时候随机从输入语料上对一些词进行掩码操作,然后通过的上下文预测该词。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种文本纠错装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例所述的文本纠错装置500包括:获取模块501、识别模块502、计算模块503以及展示模块504。其中:

获取模块501,用于获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;

分词模块502,用于将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;

处理模块503,用于将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;

替换模块504,用于将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。

在本实施例中,通过获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。通过对文本数据中的错误词定位,并根据前后分词确定替换词,使文本纠错利用了上下文信息,保证了文本数据的正确性,提高了单据数字化的效率。

进一步的,所述获取模块501包括:

第一获取子模块,用于获取待数字化的的单据图像;

第一识别子模块,用于将所述待数字化的单据图像输入到预先训练的基于卷积神经网络的图像识别模型,获得所述图像识别模型响应所述单据图像输出的图像识别结果,其中,所述图像识别结果为单据图像或非单据图像;

第一返回子模块,用于当所述图像识别结果为非单据图像时,返回图像异常消息;

第一处理子模块,用于当所述图像识别结果非单据图像时,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据。

进一步的,所述的文本纠错装置,还包括:

第一清洗子模块,用于将所述文本数据与预设的语料清洗库匹配,所述语料清洗库包含停用词、特殊符号、标点符号,获取清洗后的文本数据。

进一步的,所述替换模块504包括:

第一提取子模块,用于提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

第一计算子模块,用于计算所述短文本与预设的语料库中各文本的编辑距离;

第一替换子模块,用于用所述语料库中与所述短文本之间编辑距离最小的文本替换所述短文本。

进一步的,所述替换模块504包括:

第一提取子模块,用于提取所述分词结果中与所述错误词前后相邻的词与所述错误词构成短文本;

第一预测子模块,用于对所述短文本在所述错误词位置进行掩码,将掩码后的短文本输入到预先训练的BERT网络,获取所述BERT网络响应所述掩码后的短文本输出的在所述错误词位置的S个预测词和对应的S个置信度,其中,S为正整数;

第一比较子模块,用于将所述S个置信度分别与预设的第一阈值比较,将所述S个置信度中大于预设的第一阈值的M个置信度对应的M个预测词作为所述错误词的M个候选词,其中,M为正整数;

第二替换子模块,用于分别计算所述M个候选词和所述错误词的字形相似度,用所述M个候选词中与所述错误词字形相似度最大的候选词替换错误词。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图6,图6为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如文本纠错方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述文本纠错方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本实施例通过获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。通过对文本数据中的错误词定位,并根据前后分词确定替换词,使文本纠错利用了上下文信息,保证了文本数据的正确性,提高了单据数字化的效率。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的文本纠错方法的步骤。

本实施例通过获取待数字化的单据图像,将所述单据图像输入到基于OCR的文字识别模型中,获取所述单据图像的文本数据;将所述文本数据输入到预设的分词模型中,获取所述分词模型响应所述文本数据输出的分词结果;将所述分词结果输入到预先训练的错误词定位模型中,获取所述文本数据中包含的错误词;将所述错误词输入到预设的词替换模型中,获得所述错误词的替换词,用所述替换词替换所述错误词,获得纠错后的文本数据。通过对文本数据中的错误词定位,并根据前后分词确定替换词,使文本纠错利用了上下文信息,保证了文本数据的正确性,提高了单据数字化的效率。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 文本纠错方法、装置、计算机设备及计算机可读存储介质
  • 文本纠错方法、装置、计算机设备及存储介质
技术分类

06120112376823