掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请涉及互联网技术领域,尤其是涉及到一种文本识别方法、装置及设备。

背景技术

随着互联网迅猛发展,信息过载的问题日益突出。网络中出现的词语越来越多,一旦这些词语中包含有害、敏感、非法等异常信息,如何有效合理的将此类异常信息从正常文本中识别出来,对于网络监管、净化网络具有重要意义。

相关技术中,互联网平台中的产品都要接受相关部门的监管,使得线上不得出现异常文本,通常情况下,可以在建立大量语料库的基础上,使用机器翻译模型综合学习和训练文本后,得到文本的词向量,实现文本互译,以对文本的词向量进行敏感字符的匹配,从而识别文本中是否存在异常信息。然而,由于互联网平台中生成的文本通常具备连续性及可读性,使得对机器翻译过程的训练语料上下文关联性要求较高,需要考虑的异常信息场景较为复杂,而文本内容监控场景中异常信息的连续性及相关性较弱,使得机器翻译模型的编译过程很难将异常信息与正常文本相结合来识别,影响异常信息的识别结果。

发明内容

有鉴于此,本申请提供了一种文本识别方法、装置及设备,主要目的在于解决现有技术中机器翻译模型的编译过程很难将异常信息与正常文本相结合来识别,影响异常信息的识别结果的问题。

根据本申请的第一个方面,提供了一种文本识别方法,该方法包括:

获取待识别文本经过字符级切分所形成的多个字符元素;

针对每个字符元素进行编码处理,形成字符元素的音形码向量;

将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;

利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

进一步地,所述针对每个字符元素进行编码处理,形成字符元素的音形码向量,具体包括:

获取字符元素映射的变形描述特征;

针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示;

按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量。

进一步地,所述获取字符元素映射的变形描述特征,具体包括:

利用预先针对敏感词设置的变形识别算法,提取敏感词在应用场景中存在各种变形模式;

根据所述敏感词在应用场景中存在的各种变形模式,获取字符元素映射的变形描述特征。

进一步地,所述变形维度至少包括形变维度、音变维度以及字形相似维度,所述音形码向量的组成至少包括字符元素的词向量、字符元素的音形向量以及字符元素的图形向量,所述针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示,具体包括:

利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;

利用每个字符元素的注音结果以及字形结构对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量;

利用每个字符元素的图片像素表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量;

所述按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量,具体包括:

按照预设拼接顺序,将所述字符元素的词向量、所述字符元素的音形向量、所述字符元素的音形向量进行拼接,形成字符元素的音形码向量。

进一步地,所述利用每个字符元素的注音结果以及字形结构对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量,具体包括:

利用每个字符元素的注音结果以及字形结构,提取字符元素的音形组合形式,所述音形组合包括字符元素在注音结果和字形结构上加工所形成的各种组合形式;

根据所述字符元素在注音结果和字形结构上加工所形成的各种组合形式,对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量。

进一步地,所述利用每个字符元素的图片像素表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量,具体包括:

针对每个字符元素进行像素打点,生成预设尺寸的字符图片,所述字符图片中包括字符元素所形成的像素点;

利用所述字符图片中字符元素所形成的像素点对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

进一步地,所述利用所述字符图片中字符元素所形成的像素点对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量,具体包括:

利用所述字符图片中字符元素所形成的像素点对所述字符元素进行相似性解析,获取所述字符元素对应的相似字符表示;

根据所述字符元素对应的相似字符表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

进一步地,所述针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示,具体还包括:

利用每个字符元素是否具备繁简体对每个字符元素在繁简体变形维度上进行编码,得到字符元素的繁简体向量;

按照预设拼接顺序,将所述繁简体向量拼接至所述字符元素的音形码向量中。

进一步地,所述针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示,具体还包括:

针对每个字符元素是否包含特殊符号对每个字符元素在符号变形维度上进行编码,形成字符元素的符号向量;

按照预设拼接顺序,将所述符号向量拼接至所述字符元素的音形码向量中。

进一步地,所述识别模型包括多层具有不同处理功能的网络,所述将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,具体包括:

利用所述识别模型的第一层网络对所述字符元素的音形码向量进行非线性变换,得到音形码向量的中间语义向量;

利用所述识别模型的第二层网络提取所述音形码向量在不同时刻状态上输出与输入之间的映射关系,得到自注意力权重参数;

利用所述识别模型的第三层网络结合所述自注意力权重参数对所述中间语义向量进行加权求和,得到所述待识别文本映射的原始文本。

根据本申请的第二个方面,提供了一种文本识别方法,该方法包括:

响应于文本识别指令,接收平台上传的待识别文本;

将所述待识别文本发送至服务端,以使得服务端针对所述待识别文本经过字符级切分所形成的多个字符元素进行编码处理,得到字符元素的音形码向量,并利用预先构建的识别模型对所述字符元素的音形码向量中变形信息进行语义翻译,判定所述待识别文本映射的原始文本中是否包含异常信息;

若所述待识别文本映射的原始文本中是否包含异常信息,则将所述待识别文本作为异常文本进行拦截。

根据本申请的第三个方面,提供了一种文本识别装置,该装置包括:

获取单元,用于获取待识别文本经过字符级切分所形成的多个字符元素;

编码单元,用于针对每个字符元素进行编码处理,形成字符元素的音形码向量;

识别单元,用于将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;

判定单元,用于利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

进一步地,所述编码单元包括:

获取模块,用获取字符元素映射的变形描述特征;

编码模块,用于针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示;

拼接模块,用于按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量。

进一步地,所述获取模块包括:

提取子模块,用于利用预先针对敏感词设置的变形识别算法,提取敏感词在应用场景中存在各种变形模式;

获取子模块,用于根据所述敏感词在应用场景中存在的各种变形模式,获取字符元素映射的变形描述特征。

进一步地,所述变形维度至少包括形变维度、音变维度以及字形相似维度,所述音形码向量的组成至少包括字符元素的词向量、字符元素的音形向量以及字符元素的图形向量,所述编码模块包括:

第一编码子模块,用于利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;

第二编码子模块,用于利用每个字符元素的注音结果以及字形结构对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量;

第三编码子模块,用于利用每个字符元素的图片像素表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量;

所述拼接模块,具体用于按照预设拼接顺序,将所述字符元素的词向量、所述字符元素的音形向量、所述字符元素的音形向量进行拼接,形成字符元素的音形码向量。

进一步地,所述第二编码子模块,具体用于利用每个字符元素的注音结果以及字形结构,提取字符元素的音形组合形式,所述音形组合包括字符元素在注音结果和字形结构上加工所形成的各种组合形式;

所述第二编码子模块,具体还用于根据所述字符元素在注音结果和字形结构上加工所形成的各种组合形式,对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量。

进一步地,所述第三编码子模块,具体用于针对每个字符元素进行像素打点,生成预设尺寸的字符图片,所述字符图片中包括字符元素所形成的像素点;

所述第三编码子模块,具体还用于利用所述字符图片中字符元素所形成的像素点对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

进一步地,所述第三编码子模块,具体还用于利用所述字符图片中字符元素所形成的像素点对所述字符元素进行相似性解析,获取所述字符元素对应的相似字符表示;

所述第三编码子模块,具体还用于根据所述字符元素对应的相似字符表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

进一步地,所述编码模块还包括:

第四编码子模块,用于利用每个字符元素是否具备繁简体对每个字符元素在繁简体变形维度上进行编码,得到字符元素的繁简体向量;

所述拼接模块,具体还用于按照预设拼接顺序,将所述繁简体向量拼接至所述字符元素的音形码向量中。

进一步地,所述编码模块还包括:

第五编码子模块,用于针对每个字符元素是否包含特殊符号对每个字符元素在符号变形维度上进行编码,形成字符元素的符号向量;

所述拼接模块,具体还用于按照预设拼接顺序,将所述符号向量拼接至所述字符元素的音形码向量中。

进一步地,所述识别模型包括多层具有不同处理功能的网络,所述识别单元包括:

变换模块,用于利用所述识别模型的第一层网络对所述字符元素的音形码向量进行非线性变换,得到音形码向量的中间语义向量;

提取模块,用于利用所述识别模型的第二层网络提取所述音形码向量在不同时刻状态上输出与输入之间的映射关系,得到自注意力权重参数;

加权模块,用于利用所述识别模型的第三层网络结合所述自注意力权重参数对所述中间语义向量进行加权求和,得到所述待识别文本映射的原始文本。

根据本申请的第四个方面,提供了一种文本识别装置,该装置包括:

接收单元,用于响应于文本识别的交互指令触发,接收平台上传的待识别文本;

发送单元,用于将所述待识别文本发送至服务端,以使得服务端针对所述待识别文本经过字符级切分所形成的多个字符元素进行编码处理,得到字符元素的音形码向量,并利用预先构建的识别模型对所述字符元素的音形码向量中变形信息进行语义翻译,判定所述待识别文本映射的原始文本中是否包含异常信息;

拦截单元,用于展示所述待识别文本映射的原始文本中是否包含异常信息,并将包含异常信息的原始文本进行拦截处理。

根据本申请的第五个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本识别方法。

根据本申请的第六方面,提供了一种文本识别设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本识别方法。

借由上述技术方案,本申请提供的一种文本识别方法、装置及设备,与目前现有方式中使用机器翻译模型对文本的词向量进行敏感字符匹配的方式相比,本申请通过获取待识别文本经过字符级切分所形成的多个字符元素,针对每个字符元素进行编码处理,形成字符元素的音形码向量,该音形码向量可以从拼音、字形层面对文本进行编码表示,能够克服机器翻译模型只能识别出近义异常信息场景的缺点,引入文字的图形表示,能够从字形层面上对文本中的变形信息进行识别,进一步将字形元素的音形码向量输入至预先构建的识别模型该识别模型具有对音形码向量中变形信息进行语义翻译的功能,若待识别文本中具有变形信息,可以将待识别文本翻译为原始文本,进一步利用预先构建的敏感词库,判定待识别文本映射的原始文本中是否包含异常信息,能够在针对文本在形近和音近层面进行编码的基础上,结合机器模型的方式来对异常信息识别,保证识别结果准确的同时,提高异常信息识别的灵活性。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了本申请实施例提供的一种文本识别方法的流程示意图;

图2示出了本申请实施例提供的另一种文本识别方法的流程示意图;

图3示出了本申请实施例提供的相似字形图片的示意图;

图4示出了本申请实施例提供的文本识别方法的流程框图;

图5示出了本申请实施例提供的另一种文本识别方法的流程示意图;

图6示出了本申请实施例提供的一种文本识别装置的结构示意图;

图7示出了本申请实施例提供的另一种文本识别装置的结构示意图;

图8示出了本申请实施例提供的另一种文本识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

相关技术中,互联网平台中的产品都要接受相关部门的监管,使得线上不得出现敏感文本,通常情况下,可以在建立大量语料库的基础上,使用机器翻译模型综合学习和训练文本后,得到文本的词向量,实现文本互译,以对文本的词向量进行敏感字符的匹配,从而识别文本中是否存在异常信息。然而,由于互联网平台中生成的文本通常具备连续性及可读性,使得对机器翻译过程的训练语料上下文关联性要求较高,需要考虑的异常信息场景较为复杂,而文本内容监控场景中的异常信息的连续性及相关性较弱,使得机器翻译模型的编译过程很难将异常信息与正常文本相结合,影响异常信息的识别结果。

为了解决该问题,本实施例提供了一种文本识别方法,如图1所示,该方法应用于互联网平台的服务端,包括如下步骤:

101、获取待识别文本经过字符级切分所形成的多个字符元素。

其中,待识别文本可以为互联网平台中沉淀出的文本数据,该文本数据可以包括各种文本形式的文字,例如,中文、英文、拼音、繁简体,还可以包括特殊字符,可以是数学符号,如括号、加号、等号等,还可以是图形字符,如三角形、方形、圆形等,还可以是标点符号,如问号、叹号、分号等,还可以是特殊符号,如星号、井号等。通常情况下,互联网平台中的文本数据是海量的,而待识别文本作为海量数据中的一部分会包含大量的语义信息,该语义信息中是否包含异常信息,即不合规的文本或者图片,需要借助算法针对文本可能在不同维度上发生的改变进行识别和拦截。

可以理解的是,待识别文本通常为文本数据中文本语句的表现形式,而为了便于对待识别文本进行切分,待识别文本还可以为针对文本数据中文本语句进行字符串匹配后所形成的文本分词,例如,针对文本语句“我爱吃热干面”进行字符串匹配后形成文本分词包括:“我”、“爱”、“热干面”,而此时的待识别文本为文本分词的表现形式,后续对待识别文本进行字符级切分过程中,需要进一步将文本分词切分为单个字的形式,具体地,对于分词已经是单个字的待识别文本则无需进行切分,而对于分词并非是单个字的待识别文本,还需进一步切分,例如,“热干面”,还需要器分为“热”、“干”、“面”。

上述字符串匹配过程以及待识别文本切分过程还应设置针对特殊字符的匹配过程,进而将特殊字符可以形成字符元素,例如,针对文本语句为“我*来自)天津”,首先可以针对文本语句进行字符串匹配后形成待识别文本“我”、“来自”、“天津”,一方面对待识别文本进行字符级切分,另一方对特殊字符进行匹配将特殊字符形成字符元素,最后形成多个字符元素包括:“我”、“*”、“来”、“自”、“)”、“天”、“津”。

对于本发明实施例的执行主体可以为文本识别装置,可以为互联网平台的服务端,可以收集来自各个服务方的文本数据,其中不乏一些异常信息。为了促进互联网平台的健康发展,针对异常信息的识别尤为重要,通常情况下,简单的异常信息使用现有的识别算法可以很容易识别到,而为了逃避识别,异常信息经常通过变形的形式出现,而针对复杂多变文本形式以及掺杂有特殊字符的异常信息加大了文本识别的难度,本申请通过将待识别文本进行字符级切分,形成多个字符元素,并针对存在变形的字符元素进行还原处理,由于还原后处理后的原始文本具有真实文本信息,通过对还原处理后的原始文本进行识别可准确识别出异常信息,提高了文本中异常信息的识别精度。

102、针对每个字符元素进行编码处理,形成字符元素的音形码向量。

由于异常信息具有多种变形模式,例如,字音变换、字形变换、插入无效符号、图像化以及这几种变形模式的组合,这里对每个字符元素进行编码处理的过程可以为对字符元素的多种变形模式进行编码的过程,由于文本在每种变形模式上都有其变形特点,具体可以结合每种变形模式的变形特点对字符元素进行编码,得到具有不同变形特点的编码向量,进而将具有不同变形特点的编码向量进行拼接,形成字符元素的音形码向量。

上述变形模式可以至少包括拼音变形模式、结构变形模式、字形变形模式,下面针对每一种变形模式进行具体阐述,针对拼音变形模式,文本在拼音变形模式上具有全拼以及首字母混拼的变形特点,例如,文本“上学”可以全拼为“shangxue”,可以混拼为“sx”,这里可以结合全拼以及首字母混拼的变形特点对字符元素进行编码,形成字符元素的首字母编码。针对结构变形模式,文本在结构变形模式上具有词拆分的变形特点,例如,分词“骑”可以拆分为“马奇”,这里可以结合词拆分的变形特点对字符元素进行编码。针对字形变形模式,文本在字形变形模式上具有词形相似表达的变形特点,例如,分词“末”和“未”,分词“日”和“曰”,这里可以结合词形相似表达的变形特点对字符元素进行编码。

103、将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本。

其中,识别模型具有对音形码向量中变形信息进行语义翻译的功能,通过将字符元素的音形码向量输入至预先构建的识别模型,对于音形码向量中具有形变信息的情况,可以将待识别文本还原为原始文本输出,而对于音形码向量中不具有形变信息的情况,可以将待识别文本作为原始文本输出。

具体识别模型可以使用深度学习中的自注意力机制对模型训练过程中形成的中间语义向量进行计算,使得最终输出待识别文本映射的原始文本更准确专注在每个字符元素上,以获取到更准确的原始文本。可以理解的是,如果待识别文本中在文字之间夹杂有特殊符号,如括号、星号等,待识别模式能够将特殊符号进行剔除,以保证还原后的原始文本在语义上的连贯性。

104、利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

其中,敏感词库可以为针对敏感词在不同敏感维度上建立的语料词库,这里敏感维度可以为针对不同敏感等级所设置,还可以针对不同敏感类型所设置,还可以针对不同敏感场景所设置,例如,针对敏感等级所设置的第一敏感维度为带有非法信息,需要直接拦截文本,针对敏感等级所设置的第二敏感维度为带有不文明信息,可以使用敏感字符串替代。又例如,针对敏感场景所设置的第一敏感维度为电商售卖不宜销售的商品,需要直接拦截商品相关文本,针对敏感场景所设置的第二敏感维度为针对视频发布的不文明词汇,可以使用敏感字符串替代。

本申请实施例提供的文本识别方法,与目前现有方式中使用机器翻译模型对文本的词向量进行敏感字符匹配的方式相比,本申请通过获取待识别文本经过字符级切分所形成的多个字符元素,针对每个字符元素进行编码处理,形成字符元素的音形码向量,该音形码向量可以从拼音、字形层面对文本进行编码表示,能够克服机器翻译模型只能识别出近义异常信息场景的缺点,引入文字的图形表示,能够从字形层面上对文本中的变形信息进行识别,进一步将字形元素的音形码向量输入至预先构建的识别模型该识别模型具有对音形码向量中变形信息进行语义翻译的功能,若待识别文本中具有变形信息,可以将待识别文本翻译为原始文本,进一步利用预先构建的敏感词库,判定待识别文本映射的原始文本中是否包含异常信息,能够在针对文本在形近和音近层面进行编码的基础上,结合机器模型的方式来对异常信息识别,保证识别结果准确的同时,提高异常信息识别的灵活性。

进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本实施例提供了另一种文本识别方法,如图2所示,该方法包括:

201、获取待识别文本经过字符级切分所形成的多个字符元素。

可理解的是,待识别文本在互联网平台中的展示形式可以是文本形式,此时需要利用正则表达式对待识别文本进行切分,形成多个字符元素,还可以是图片形式,此时需要将图片形式的待识别文本进行像素级分割,检测单个字符以及字符间的连接关系,然后根据字符间的连接关系确定最终的文本行,并对文本行中每个文本字符进行标记,形成单个字的图像阵列,以进行单字识别处理,形成多个字符元素。这里字符元素包括但不限于文字、符号、字母、图片等。

上述对图片形式的待识别文本进行像素级分割的过程主要涉及行切分过程和字切分过程,针对行切分主要是将一行行字符切分出来,形成单行字符文本图像数据,这里可以对输入包含有文本的图片进行二值化后,从上到下逐行进行扫描并计算每个扫描行的像素,以获取图片的水平投影,投影中的每个波峰与图片中的每个文本行相对应,在相邻的行之间有比较宽的一段投影信息为0,这是对应了相邻两行之间的空白区域,相应地,可以计算出每行文本的行距,对所有行距进行累加求和后,获取文本图片的标准行距,以标准行距对文本图片进行粗切分,最后对切分出的行附近上下扫描,进行细微调整,选取最合适的分割位置,以切分得到多个文本行图片;针对字切分主要是从切分出的文本行图片中将单个的字符图片切分出来,这里可以利用文字与文字之间的空白间隙在文本行图片垂直投影上形成的空白间隔将单个的字符图片切分出来,同时考虑到文字结构,对于存在左右结构的文字在垂直投影上也会形成空白间隔,需要对空白间隔的大小进行限制,进一步根据文本行图片中文字高度预估文字宽度,以文字宽度以及空白间隔作为度量切分的依据,保证文字内部结构不被分离,以切分得到多个字符图片。

202、获取字符元素映射的变形描述特征。

其中,变形描述特征可以为描述文字在不同维度上发生变形的特征,例如,结构维度上发生变形的特征,拼音维度上发生变形的特征,也就是说,虽然文字在不同维度上发生了变形,但是文字的本质还是可以依据变形描述特征抽象出来,针对结构维度发生变形的特征,可以为结构拆分,例如,地可以拆分为土也结构,的可以拆分为白勺结构,还可以为结构相似,例如,土和士具有相似结构,血和皿具有相似结构。

由于敏感词使用者会针对逃避检测所作出各种变形,为了准确获取变形描述特征,可以利用预先针对敏感词设置的变形识别算法,提取敏感词在应用场景中存在各种变形模式,该应用场景可以为是针对不同平台类型的应用场景,例如,针对视频类平台的应用场景、针对论坛类平台的应用场景,这里的变形模式可以包括拆分形变、拼音形变、结构相似形变等,然后根据敏感词在应用场景中存在的各种变形模式,获取字符元素映射的变形描述特征。

203、针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示。

其中,变形维度至少包括形变维度、音变维度以及字形相似维度,针对不同变形维度,对字符元素映射的变形描述特征进行编码处理的方式也不相同。可以理解的是,针对字符元素不存在变形的情况下,还需要字符元素在未变形维度上的向量表示,也就是原始字符元素的向量表示,针对字符元素存在变形的情况下,需要字符元素在不同变形维度上的向量标识,所以,在针对字符元素进行识别的过程中需要考虑到字符元素是否存在变形的情况。

具体针对原始字符元素的向量表示,可以利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;针对字符元素在音变维度和形变维度的向量表示,可以利用每个字符元素的注音结果以及字形结构对字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量;针对字符元素在字形相似维度的向量表示,可以利用每个字符元素的图片像素表示对字符元素在字形相似维度上进行编码,形成字符元素的图形向量。这里每个变形维度的编码过程可以形成一个编码模块,针对音变维度可以形成拼音模块,针对形变维度可以形成字形模块,针对字形相似维度可以形成字图相似模块,并且每个变形维度还有设置有至少一个变形特征,具体在编码过程中需要结合变形特征的编码,相当于针对变形特征设置的编码顺序将每个变形特征加工为向量表示进行拼接,例如,音变维度上的变形特征至少包括拼音字母、首字母、字母顺序、声调等,编码过程可以针对银边维度上变形特征设置的编码顺序将每个变形特征加工为向量表示后进行拼接,形变维度上包括的变形特征至少包括偏旁部首、简写等,形变维度上设置的编码顺序可以为针对形变维度上变形特征设置的编码顺序将每个变形特征加工为向量表示后进行拼接。

具体针对音形向量,可以利用每个字符元素的注音结果以及字形结构,提取字符元素的音形组合形式,该音形组合包括字符元素在注音结果和字形结构上加工所形成的各种组合形式,例如,全拼、首字母拼写,文字拆分中一种或者多种相组合,然后根据字符元素在注音结果和字形结构上加工所形成的各种组合形式,对字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量。

具体针对图形向量,可以针对每个字符元素进行像素打点,生成预设尺寸的字符图片,该字符图片中包括字符元素所形成的像素点,然后利用字符图片中字符元素所形成的像素点对字符元素在字形相似维度上进行编码,形成字符元素的图形向量,这里可以如图3中所示的习和刁两个字具很大的相似性,由于文本存在字形上的变形,对于字形上的改变从结构上很难去辨别出来,可以利用字符图片中字符元素所形成的像素点对字符元素进行相似性解析,该相似性解析可基于像素点数量处于相同量级范围的基础上比对像素点位置的相似百分比,对于像素点位置相似度百分比超过一定阈值的情况默认与字符元素具有结构相似,进一步获取字符元素对应的相似字符表示,然后根据字符元素对应的相似字符表示对字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

在实际应用场景中,变形维度还可以包括繁简体变形维度,针对繁简体变形维度,可以利用每个字符元素是否具备繁简体对每个字符元素在繁简体变形维度上进行编码,得到字符元素的繁简体向量。

在实际应用场景中,变形维度还可以包括符号变形维度,针对符号变形维度,可以针对每个字符元素是否包含特殊符号对每个字符元素在符号变形维度上进行编码,形成字符元素的符号向量。

204、按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量。

其中,音形码向量的组成至少包括字符元素的词向量、字符元素的音形向量以及字符元素的图形向量,具体可以按照预设拼接顺序,将字符元素的词向量、字符元素的音形向量、字符元素的音形向量进行拼接,形成字符元素的音形码向量。相应的,针对字符元素的繁简体向量,需要按照预设拼接顺序,将繁简体向量拼接至字符元素的音形码向量中;针对字符元素的符号向量,需要按照预设拼接顺序,将符号向量拼接至字符元素的音形码向量中。

需要说明的是,上述预设拼接顺序为编码过程中的固定顺序,针对每一个字符元素的编码过程都需要采用该预设拼接顺序对不同变形维度所编码得到的向量进行拼接。

205、将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本。

其中,识别模型包括多层具有不同处理功能的网络,具体可以利用识别模型的第一层网络对字符元素的音形码向量进行非线性变换,得到音形码向量的中间语义向量,利用识别模型的第二层网络提取音形码向量在不同时刻状态上输出与输入之间的映射关系,得到自注意力权重参数,利用识别模型的第三层网络结合自注意力权重参数对所述中间语义向量进行加权求和,得到待识别文本映射的原始文本。这里第一层网络相当于encoder层,能够通过非线性变化将输入向量表示为中间语义向量,第二层网络相当于attention层,通过训练得到的权重参数,能够在非线性变换中起到加权作用,第三层网络相当于decoder层,通过中间语义向量和历史状态信息的加权处理,能够输出待识别文本映射的原始文本。

206、利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

由于原始文本具有真实性,对于包含异常信息的字符元素已经进行了还原处理,可直接进行分词的字符串匹配,具体在判定识别文本映射的原始文本中是否包含异常信息的过程中,首先原始文本进行分词处理,得到文本分词,然后针对不同敏感维度所设置的语料词库,将原始文本形成的文本分词与语料词库中的敏感词进行字符串匹配,对于匹配相同的情况,则说明文本分词为敏感词,进而判定待识别文本映射的原始文本中是否包含异常信息。

具体在实际应用场景中,文本识别过程可以如图4所示,以文本“犬(家)好”举例进行说明,假设大家好为包含异常信息的文本,而为了避免异常信息的检测,用户在输入的过程会以相似变形模式结合符号变形模式对异常信息进行变形处理,而互联网平台首先对待识别文本“犬(家)好”进行字符级切分,形成字符元素包括“犬”、“(”、“家”、“)”、“好”,分别输入至编码层,利用编码层中设置的四模块对字符元素进行编码处理,这四个模块具有针对不同变形维度上变形特征进行编码处理的方式,然后将四个模块编码处理后的向量拼接为字符元素的音形码向量,以该音形码向量作为输入层输入至encoder层,利用encoder层对音形码向量进行非线性变换,得到音形码向量的中间语义向量,进一步输入至attention层,利用attention层提取音形码在不同时刻状态上的输入与输出之间的映射关系,得到自注意力权重参数,进一步输入至decoder层,利用decoder层结合自注意力权重参数对中间语义向量进行加权求和,得到待识别文本映射的原始文本即“大家好”,进一步将还原后的原始文本与敏感词库中的敏感词进行匹配,判定出“犬(家)好”映射的“大家好”中包含异常信息。

本实施例提供了另一种文本识别方法,如图5所示,该方法应用于网络平的客户端,包括如下步骤:

301、响应于文本识别的交互指令触发,接收平台上传的待识别文本。

可以理解的是,这里文本识别的交互指令由网络平台的客户端在检测到客户端存在待识别文本后触发的交互指令,具体可以按照时间间隔触发,例如,每间隔1分钟触发一次文本识别指令,还可以按照待识别文本的文字量触发,例如,待识别文本量达到预设文字量触发一次文本识别指令,这里不进行限定,关于待识别文本的具体描述参见步骤101,在此不进行赘述。

302、将所述待识别文本发送至服务端。

由于客户端并不具有文本识别功能,这里将待识别文本发送至服务端,由服务端针对待识别文本经过字符级切分所形成的多个字符元素进行编码处理,得到字符元素的音形码向量,并利用预先构建的识别模型对字符元素的音形码向量中变形信息进行语义翻译,判定待识别文本映射的原始文本中是否包含异常信息。

303、展示所述待识别文本映射的原始文本中是否包含异常信息,并将包含异常信息的原始文本进行拦截处理。

对于包含有异常信息的原始文本,说明原始文本中可能包含有敏感词,如不文明词汇、涉及暴力倾向等敏感词汇,不宜在网络平台中直接展示,这里可以将待识别文本作为异常文本进行拦截后,还可以对待识别文本中异常信息进行加工处理后展示,例如,马赛克或者字符串替代等,或者直接屏蔽该待识别文本,或者展示删除异常信息后的待识别文本,这里不进行限定。

进一步的,作为图1-图2方法的具体实现,本申请实施例提供了一种应文本识别装置,如图6所示,该装置包括:获取单元41、编码单元42、识别单元43、判定单元44。

获取单元41,可以用于获取待识别文本经过字符级切分所形成的多个字符元素;

编码单元42,可以用于针对每个字符元素进行编码处理,形成字符元素的音形码向量;

识别单元43,可以用于将所述字符元素的音形码向量输入至预先构建的识别模型,得到所述待识别文本映射的原始文本,所述识别模型具有对音形码向量中变形信息进行语义翻译的功能;

判定单元44,可以用于利用预先构建的敏感词库,判定所述待识别文本映射的原始文本中是否包含异常信息。

本发明实施例提供的文本识别装置,与目前现有方式中使用机器翻译模型对文本的词向量进行敏感字符匹配的方式相比,本申请通过获取待识别文本经过字符级切分所形成的多个字符元素,针对每个字符元素进行编码处理,形成字符元素的音形码向量,该音形码向量可以从拼音、字形层面对文本进行编码表示,能够克服机器翻译模型只能识别出近义异常信息场景的缺点,引入文字的图形表示,能够从字形层面上对文本中的变形信息进行识别,进一步将字形元素的音形码向量输入至预先构建的识别模型该识别模型具有对音形码向量中变形信息进行语义翻译的功能,若待识别文本中具有变形信息,可以将待识别文本翻译为原始文本,进一步利用预先构建的敏感词库,判定待识别文本映射的原始文本中是否包含异常信息,能够在针对文本在形近和音近层面进行编码的基础上,结合机器模型的方式来对异常信息识别,保证识别结果准确的同时,提高异常信息识别的灵活性。

在具体的应用场景中,如图7所示,所述编码单元42包括:

获取模块421,可以用获取字符元素映射的变形描述特征;

编码模块422,可以用于针对每个字符元素对所述字符元素映射的变形描述特征进行编码处理,得到每个字符元素在不同变形维度上的向量表示;

拼接模块423,可以用于按照预设拼接顺序,将所述每个字符元素在不同变形维度上的向量表示进行拼接,形成字符元素的音形码向量。

在具体的应用场景中,如图7所示,所述获取模块421包括:

提取子模块4211,可以用于利用预先针对敏感词设置的变形识别算法,提取敏感词在应用场景中存在各种变形模式;

获取子模块4212,可以用于根据所述敏感词在应用场景中存在的各种变形模式,获取字符元素映射的变形描述特征。

在具体的应用场景中,如图7所示,所述变形维度至少包括形变维度、音变维度以及字形相似维度,所述音形码向量的组成至少包括字符元素的词向量、字符元素的音形向量以及字符元素的图形向量,所述编码模块422包括:

第一编码子模块4221,可以用于利用每个字符元素的文字表示对每个字符元素进行语义编码,得到字符元素的词向量;

第二编码子模块4222,可以用于利用每个字符元素的注音结果以及字形结构对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量;

第三编码子模块4223,可以用于利用每个字符元素的图片像素表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量;

所述拼接模块423,具体可以用于按照预设拼接顺序,将所述字符元素的词向量、所述字符元素的音形向量、所述字符元素的音形向量进行拼接,形成字符元素的音形码向量。

在具体的应用场景中,所述第二编码子模块4222,具体可以用于利用每个字符元素的注音结果以及字形结构,提取字符元素的音形组合形式,所述音形组合包括字符元素在注音结果和字形结构上加工所形成的各种组合形式;

所述第二编码子模块4222,具体还可以用于根据所述字符元素在注音结果和字形结构上加工所形成的各种组合形式,对所述字符元素在音变维度和形变维度上进行编码组合,得到字符元素的音形向量。

在具体的应用场景中,所述第三编码子模块4223,具体可以用于针对每个字符元素进行像素打点,生成预设尺寸的字符图片,所述字符图片中包括字符元素所形成的像素点;

所述第三编码子模块4223,具体还可以用于利用所述字符图片中字符元素所形成的像素点对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

在具体的应用场景中,所述第三编码子模块4223,具体还可以用于利用所述字符图片中字符元素所形成的像素点对所述字符元素进行相似性解析,获取所述字符元素对应的相似字符表示;

所述第三编码子模块4223,具体还可以用于根据所述字符元素对应的相似字符表示对所述字符元素在字形相似维度上进行编码,形成字符元素的图形向量。

在具体的应用场景中,如图7所示,所述编码模块422还包括:

第四编码子模块4224,可以用于利用每个字符元素是否具备繁简体对每个字符元素在繁简体变形维度上进行编码,得到字符元素的繁简体向量;

所述拼接模块423,具体还可以用于按照预设拼接顺序,将所述繁简体向量拼接至所述字符元素的音形码向量中。

在具体的应用场景中,如图7所示,所述编码模块422还包括:

第五编码子模块4225,可以用于针对每个字符元素是否包含特殊符号对每个字符元素在符号变形维度上进行编码,形成字符元素的符号向量;

所述拼接模块423,具体还可以用于按照预设拼接顺序,将所述符号向量拼接至所述字符元素的音形码向量中。

在具体的应用场景中,如图7所示,所述识别模型包括多层具有不同处理功能的网络,所述识别单元43包括:

变换模块431,可以用于利用所述识别模型的第一层网络对所述字符元素的音形码向量进行非线性变换,得到音形码向量的中间语义向量;

提取模块432,可以用于利用所述识别模型的第二层网络提取所述音形码向量在不同时刻状态上输出与输入之间的映射关系,得到自注意力权重参数;

加权模块433,可以用于利用所述识别模型的第三层网络结合所述自注意力权重参数对所述中间语义向量进行加权求和,得到所述待识别文本映射的原始文本。

需要说明的是,本实施例提供的一种可应用于服务端侧的文本识别装置所涉及各功能单元的其它相应描述,可以参考图1和图2中的对应描述,在此不再赘述。

进一步的,作为图5方法的具体实现,本申请实施例提供了一种应文本识别装置,如图8所示,该装置包括:接收单元51、发送单元52、拦截单元53。

接收单元51,可以用于响应于文本识别的交互指令触发,接收平台上传的待识别文本;

发送单元52,可以用于将所述待识别文本发送至服务端,以使得服务端针对所述待识别文本经过字符级切分所形成的多个字符元素进行编码处理,得到字符元素的音形码向量,并利用预先构建的识别模型对所述字符元素的音形码向量中变形信息进行语义翻译,判定所述待识别文本映射的原始文本中是否包含异常信息;

拦截单元53,可以用于展示所述待识别文本映射的原始文本中是否包含异常信息,并将包含异常信息的原始文本进行拦截处理。

基于上述如图1-图2、图5所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1-图2、图5所示的文本识别方法;

基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1-图2所示的方法,以及图6-图7所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种服务端实体设备,具体可以为计算机,服务器,或者其他网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1-图2所示的文本识别方法。

基于上述如图5所示的方法,以及图8所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种客户端实体设备,具体可以为计算机,智能手机,平板电脑,智能手表,或者网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图5所示的文本识别方法。

可选的,上述两种实体设备都还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解,本实施例提供的一种文本识别的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述店铺搜索信息处理的实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有方式相比,本申请通过将字形元素的音形码向量输入至预先构建的识别模型该识别模型具有对音形码向量中变形信息进行语义翻译的功能,若待识别文本中具有变形信息,可以将待识别文本翻译为原始文本,进一步利用预先构建的敏感词库,判定待识别文本映射的原始文本中是否包含异常信息,能够在针对文本在形近和音近层面进行编码的基础上,结合机器模型的方式来对异常信息识别,保证识别结果准确的同时,提高异常信息识别的灵活性。

本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

相关技术
  • 文本图像朝向识别方法和文本内容识别方法、装置、设备
  • 文本识别模型训练方法、文本识别方法、装置及电子设备
技术分类

06120113083260