掌桥专利:专业的专利平台
掌桥专利
首页

形似字库生成方法及系统

文献发布时间:2024-04-18 19:58:53


形似字库生成方法及系统

技术领域

本申请涉及文本校对技术领域,尤其涉及一种形似字库生成方法及系统。

背景技术

文本是信息流通的一种重要方式。在日常文字编辑工作中,由于稿件可能是文字工作者通过输入法进行文本输入得到,也有可能是采用OCR技术进行文本识别得到。无论是人为因素还是技术因素,均会导致稿件中存在错别字。在稿件公开发布前,常通过文本校对系统识别稿件中的错别字。

在实现现有技术的过程中,发明人发现:

现有的文字校对系统都是通过将语句与形似字库中的样本字单元进行匹配来发现错误。一般体量较小的形似字库意味着文字校对系统能够匹配的样本字单元较少,能够识别出的错别字较少,从而导致文字校对系统的识别准确率较低。而体量庞大的形似字库意味着文字校对系统需要匹配的样本字单元较多,导致文字校对系统的识别速度较慢。可见形似字库中的样本字单元质量影响着文字校对系统的识别效率。

因此,需要提供一种新的形似字库生成方案,用以解决低质量样本字单元构成的形似字库导致文字校对系统识别效率较低的技术问题。

发明内容

本申请实施例提供一种新的形似字库生成方案,用以解决低质量样本字单元构成的形似字库导致文字校对系统识别效率较低的技术问题。

具体的,一种形似字库生成方法,包括以下步骤:

获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合;

获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合;

根据第一形近字集合、第二形近字集合,生成对应目标字单元的综合形近字集合;

获取目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列;

根据目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列,计算若干形近字单元相对于目标字单元的编辑距离;

获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频;

根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

确定综合形近字集合内相似指标超过第一指标阈值的形近字单元,生成对应目标字单元的形似字库。

进一步的,所述获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合,具体包括:

获取目标字单元的表意文字描述序列、非目标字单元的表意文字描述序列;

计算非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

确定若干相似度高于第一相似度阈值的非目标字单元,作为与目标字单元字结构相似的若干形近字单元,构成第一形近字集合。

进一步的,获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合,具体包括:

获取目标字单元的笔画序列、非目标字单元的笔画序列;

当非目标字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在非目标字单元的笔画序列的占比超过第一占比阈值,则非目标字单元作为与目标字单元笔画相似的若干形近字单元;

若干与目标字单元笔画相似的若干形近字单元,构成第二形近字集合。

进一步的,根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标,具体包括:

获取综合形近字集合内若干形近字单元对应的预设字频;

以公式Y=(N-X1)*lg(X2),计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

公式中,Y表示综合形近字集合内形近字单元X相对于目标字单元的相似指标,N表示预设判断阈值,X1表示综合形近字集合内形近字单元X相对于目标字单元的编辑距离,X2表示综合形近字集合内形近字单元X对应的预设字频。

进一步的,所述方法还包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的表意文字描述序列、候选字单元的表意文字描述序列;

计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

当候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值,将候选字单元加入形似字库;

其中,所述第二相似度阈值小于所述第一相似度阈值。

进一步的,所述方法还包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的笔画序列、候选字单元的笔画序列;

当候选字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值,则将候选字单元加入形似字库;

其中,所述第二占比阈值小于所述第一占比阈值。

进一步的,所述方法还包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的四角号码序列、候选字单元的四角号码序列;

根据目标字单元的四角号码序列、候选字单元的四角号码序列,计算候选字单元相对于目标字单元的编辑距离;

根据候选字单元相对于目标字单元的编辑距离,计算候选字单元相对于目标字单元的相似指标;

当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库;

其中,所述第二指标阈值小于所述第一指标阈值。

本申请实施例还提供一种形似字库生成系统。

具体的,一种形似字库生成系统,包括:

筛选模块,用于获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合;还用于获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合;

综合评价模块,用于根据第一形近字集合、第二形近字集合,生成对应目标字单元的综合形近字集合;还用于获取目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列;还用于根据目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列,计算若干形近字单元相对于目标字单元的编辑距离;还用于获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频;还用于根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

字库生成模块,用于确定综合形近字集合内相似指标超过第一指标阈值的形近字单元,生成对应目标字单元的形似字库。

进一步的,所述综合评价模块用于根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标,具体包括:

获取综合形近字集合内若干形近字单元对应的预设字频;

以公式Y=(N-X1)*lg(X2),计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

公式中,Y表示综合形近字集合内形近字单元X相对于目标字单元的相似指标,N表示预设判断阈值,X1表示综合形近字集合内形近字单元X相对于目标字单元的编辑距离,X2表示综合形近字集合内形近字单元X对应的预设字频。

进一步的,所述筛选模块还用于获取用户校对文本、对应用户校对文本的错误文本;

所述综合评价模块还用于将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;还用于获取目标字单元的四角号码序列、候选字单元的四角号码序列;还用于根据目标字单元的四角号码序列、候选字单元的四角号码序列,计算候选字单元相对于目标字单元的编辑距离;还用于根据候选字单元相对于目标字单元的编辑距离,计算候选字单元相对于目标字单元的相似指标;

所述字库生成模块还用于当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库;

其中,所述第二指标阈值小于所述第一指标阈值。

本申请实施例提供的技术方案,至少具有如下有益效果:

通过从表意文字描述序列、笔画序列两个筛选维度确定目标字单元的形近字单元,相互补充各筛选维度遗漏的形近字单元,得到较为全面的综合形近字集合。之后对综合形近字集合内若干形近字单元分别以四角号码序列、字频两个评价维度,进一步筛选出容易出现输入错误的形近字单元,构成形似字库。这样的形似字库体量适中、质量较高,适用于日常的文字校对,能够提高文字校对系统的识别效率和校对性能。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例提供的一种形似字库生成方法的流程框图;

图2为本申请实施例提供的一种形似字库生成系统的结构示意图。

图中附图标记表示为:

100形似字库生成系统

11 筛选模块

12 综合评价模块

13 字库生成模块。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

请参照图1,为解决低质量样本字单元构成的形似字库导致文字校对系统识别效率较低的技术问题,本申请提供一种形似字库生成方法,包括以下步骤:

S110:获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合。

可以理解的是,所述目标字单元可以是任意文字单元。在本申请提供的一种具体实施方式中,所述目标字单元为中日韩统一表意文字(CJK United Ideographs)。中日韩统一表意文字也称统一汉字(Unihan),目的是要把分别来自中文、日文、韩文、越南文、壮文中,起源相同、本义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字),赋予其在UISO 10646及万国码标准中相同编码。

所述目标字单元可以通过表意文字描述序列IDS(Ideographic DescriptionCharacters Sequence)进行表征。具体的,所述表意文字描述序列在具体的应用场景中由表意文字描述符IDC(Ideographic Description Characters)组成。

所述表意文字描述序列的描述逻辑是:理论上所有的汉字都可以拆分为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。

也就是说,表意文字描述序列是将文字单元进行结构分布上的拆分后,以二叉树的形式进行表征。本申请通过将目标字单元和非目标字单元以表意文字描述序列IDS表征,进而筛选出与目标字单元字结构相似的形近字单元。

具体的,在本申请提供的一种具体实施方式中,所述获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合,具体包括:

获取目标字单元的表意文字描述序列、非目标字单元的表意文字描述序列;

计算非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

确定若干相似度高于第一相似度阈值的非目标字单元,作为与目标字单元字结构相似的若干形近字单元,构成第一形近字集合。

所述非目标字单元可以理解为现有字库中,除去目标字单元的其他文字单元。所述第一相似度阈值可以理解为基于表意文字描述序列筛选形近字单元的标准。

以目标字单元为“内”,非目标字单元为“肉、芮、见、观、讷、贝、贞、负、冈、闪、丙、队、办、页、央、风”为例。非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度分别为:

P(肉-内)=0.636、P(芮-内)=0.538、P(见-内)=0.714、P(观-内)=0.545、P(讷-内)=0.636、P(贝-内)=0.857、P(贞-内)=0.545、P(负-内)=0.545、P(冈-内)=0.857、P(闪-内)=0.667、P(丙-内)=0.778、P(队-内)=0.571、P(办-内)=0.714、P(页-内)=0.545、P(央-内)

=0.778、P(风-内)=0.571。

若第一相似度阈值取0.7,筛选相似度高于0.7的非目标字单元作为与目标字单元字结构相似的若干形近字单元,构成第一形近字集合,则第一形近字集合表现为:见、贝、冈、丙、办、央。

由上述举例可见,基于表意文字描述序列的相似度筛选出的第一形近字集合中,存在明显不是形近字的情况,因此不宜全部采用。如果仅基于表意文字描述序列的相似度构建形似字库,则存在漏掉形近字或存在形近字的相似度低的问题。另外,这样的形似字库中还可能包含常用字以外的众多生僻字,从而导致文字校对系统需要匹配的生僻样本字单元较多,无法区分样本字单元的重要性。对于文字校对系统而言,这样的形似字库依然会影响识别效率,使得文字校对系统的校对性能下降。

S120:获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合。

需要指出的是,为了对形似字库进行优化,本申请从其他维度筛选形近字单元,例如以笔画序列筛选目标字单元的形近字单元。

所述笔画序列可以理解为笔画的排列顺序。也就是说,笔画序列是将文字单元进行笔画拆分后,以文字笔画书写的顺序进行排列,进而表征对应的文字单元。本申请通过将目标字单元和非目标字单元以笔画序列表征,进而筛选出与目标字单元字笔画相似的形近字单元。

具体的,在本申请提供的一种具体实施方式中,获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合,具体包括:

获取目标字单元的笔画序列、非目标字单元的笔画序列;

当非目标字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在非目标字单元的笔画序列的占比超过第一占比阈值,则非目标字单元作为与目标字单元笔画相似的若干形近字单元;

若干与目标字单元笔画相似的若干形近字单元,构成第二形近字集合。

所述非目标字单元可以理解为现有字库中,除去目标字单元的其他文字单元。所述非目标字单元的笔画序列包括目标字单元的笔画序列,意味着筛选条件并不要求从非目标字单元的笔画序列必须和目标字单元的笔画序列一致,而是要求非目标字单元的笔画序列与目标字单元的笔画序列存在重合即可。换句话说,将笔画视为元素,笔画序列视为集合,则目标字单元的笔画序列是非目标字单元的笔画序列的子集。

举例来说,以目标字单元为“内”,非目标字单元为“肉、芮、见、观、讷、贝、贞、负、冈、闪、丙、队、办、页、央、风、笍、蚋、衲”为例。以满足“非目标字单元的笔画序列包括目标字单元的笔画序列”进行筛选后的非目标字单元为“肉、芮、讷、冈、闪、丙、笍、蚋、衲”。

之后计算目标字单元的笔画序列在筛选后的非目标字单元的笔画序列的占比。所述第一占比阈值可以理解为基于笔画序列筛选形近字单元的标准。

以筛选后的非目标字单元为“肉、芮、讷、冈、闪、丙、笍、蚋、衲”为例,目标字单元的笔画序列在筛选后的非目标字单元的笔画序列的占比为:

P(内-肉)=0.667、P(内-芮)=0.571、P(内-讷)=0.667、P(内-冈)=1、P(内-闪)=0.8、P(内-丙)=0.8、P(内-笍)=0.4、P(内-蚋)=0.4、P(内-衲)=0.444。

若第一占比阈值取0.5,筛选目标字单元笔画序列相对非目标字单元笔画序列占比高于0.5的非目标字单元,作为与目标字单元字笔画相似的若干形近字单元,构成第二形近字集合,则第二形近字集合表现为:肉、芮、讷、冈、闪、丙。

S130:根据第一形近字集合、第二形近字集合,生成对应目标字单元的综合形近字集合。

由上述举例可见,基于目标字单元笔画序列相对非目标字单元笔画序列占比筛选出的第二形近字集合,与基于表意文字描述序列筛选出的第一形近字集合存在较大差异。这是由于基于表意文字描述序列筛选出的第一形近字集合关注文字单元的结构分布,因此即使笔画序列重合的文字单元也会由于结构分布而由较大差异的表征,进而不被纳入形近字集合。

也就是说,基于目标字单元笔画序列筛选出的第二形近字集合,与基于目标字单元表意文字描述序列筛选出的第一形近字集合是从两个不同维度筛选与目标字单元字相似的形近字单元。

因此将第一形近字集合、第二形近字集合进行组合,生成对应目标字单元的综合形近字集合,能够相互补充各形近字集合中遗漏的形近字单元。

进一步的,在本申请提供的一种优选实施方式中,所述方法还包括:

获取预设通用规范汉字集合;

基于预设通用规范汉字集合,确定综合形近字集合中与预设通用规范汉字集合重合的形近字单元,构成精简形近字集合。

可以理解的是,所述预设通用规范汉字集合在具体的应用场景中表现为

《通用规范汉字表》。《通用规范汉字表》根据众多语料库进行使用度筛选制定,明确社会语言生活中广泛使用的文字单元。

也就是说,不在预设通用规范汉字集合记载的文字单元,可以认为是生僻字单元。因此通过预设通用规范汉字集合,确定综合形近字集合中与预设通用规范汉字集合重合的形近字单元,构成精简形近字集合,也即过滤综合形近字集合中的生僻字单元,保留常用字单元。这样能够根据样本字单元的使用度,使得文字校对系统需要匹配的样本字单元数量适中,进而提高识别效率和校对性能。

S140:获取目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列。

S150:根据目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列,计算若干形近字单元相对于目标字单元的编辑距离。

所述四角号码序列有五位数字位,通常以前四位数字代表汉字四个角的笔形或部件。在一些形近字单元四个角的笔形或部件相同的情况下,形近字单元的四角号码序列前四位相同,因此以第五位数字作为附号,对形近字单元进行区分。也就是说,四角号码序列是一种数位较少的文字单元表征方式。

通常任意文字单元具有与之对应的四角号码序列。在此基础上,本申请将目标字单元、对应目标字单元的综合形近字集合内若干形近字单元以四角号码序列表示。之后计算若干形近字单元相对于目标字单元的编辑距离。

所述编辑距离(Edit Distance)是一种字符串相似度算法。编辑距离算法是将两个字符串的相似度问题,归结为将其中一个字符串转化成另一个字符串,所需要进行的基础变换次数。基础变换次数越多,说明两个字符串的相似度越低。

依然以目标字单元为“内”,综合形近字集合为“丙、呐、网、纳、冈、闪”为例。综合形近字集合内若干形近字单元相对于目标字单元“内”的编辑距离如下:

S160:获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频。

S170:根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标。

S180:确定综合形近字集合内相似指标超过第一指标阈值的形近字单元,生成对应目标字单元的形似字库。

可以理解的是,所述综合形近字集合内若干形近字单元相对于目标字单元的编辑距离,可以看作是综合形近字集合内若干形近字单元相对于目标字单元的相似度评价结果。通常编辑距离越小的两个文字单元,二者的相似度越高。

但需要指出的是,编辑距离的相似度仅是从文字结构的相似度进行评价。在日常生活中,由于文字结构的相似而将目标字单元错误输入为形近字单元的情况通常发生在采用OCR技术进行文本识别的场景中。

而文本输入者将目标字单元错误输入为形近字单元的情况更为复杂,出现输入错误的原因还涉及到字频维度。所述字频是指文字在文字工作者输入过程中的命中频率。通常字频是基于统计得到,本申请中获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频,可视为从预设数据库调用得到。

本申请从文字单元结构相似度的维度、文字单元输入命中频率的维度综合评价,得到形近字单元相对于目标字单元的相似指标。

具体的,在本申请提供的一种具体实施方式中,所述根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标,具体包括:

获取综合形近字集合内若干形近字单元对应的预设字频;

以公式Y=(N-X1)*lg(X2),计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

公式中,Y表示综合形近字集合内形近字单元X相对于目标字单元的相似指标,N表示预设判断阈值,X1表示综合形近字集合内形近字单元X相对于目标字单元的编辑距离,X2表示综合形近字集合内形近字单元X对应的预设字频。

在本申请提供的一种优选实施方式中,所述预设判断阈值N为编辑距离最大值。也即所述预设判断阈值N=5。

则所述相似指标的计算公式表现为:

相似指标Y=(5-相似度X1)*lg(字频X2)

以目标字单元为“内”,综合形近字集合为“丙、呐、网、纳、冈、闪”为例,综合形近字集合内若干形近字单元相对于目标字单元“内”的相似指标如下:

若第一指标阈值取10,则可筛选出文字单元“丙、呐、网、纳、冈”。这些文字单元将与目标字单元建立映射关系,最终生成对应目标字单元的形似字库。

综上所述,本申请通过从表意文字描述序列、笔画序列两个筛选维度确定目标字单元的形近字单元,相互补充各筛选维度遗漏的形近字单元,得到较为全面的综合形近字集合。之后对综合形近字集合内若干形近字单元分别以四角号码序列、字频两个评价维度,进一步筛选出容易出现输入错误的形近字单元,构成形似字库。这样的形似字库体量适中、质量较高,适用于日常的文字校对,能够提高文字校对系统的识别效率和校对性能。

进一步的,在本申请提供的一种优选实施方式中,所述形似字库还可以根据文字工作者的输入习惯进行迭代。具体的,所述形似字库的迭代方式包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的表意文字描述序列、候选字单元的表意文字描述序列;

计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

当候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值,将候选字单元加入形似字库;

其中,所述第二相似度阈值小于所述第一相似度阈值。

可以理解的是,文字工作者在输入完一篇稿件后,通常需要通过文字校对模型标记出稿件中的疑错文字单元,之后由文字工作者针对标记出的疑错文字单元进行改正后才能进行公开发布。

如果文字工作者未对疑错文字单元改正,说明疑错文字单元可能并未出错。如果多次出现疑错文字单元未改正的情况,则可以将疑错文字单元添加至白名单,后续不再标记。

如果文字工作者对疑错文字单元进行改正,则将文字工作者改正后的文字单元作为用户校对文本,将文字工作者改正前的文字单元作为对应用户校对文本的错误文本。此时,用户校对文本即是容易出错的目标字单元,而错误文本是否是由于形似导致的输入错误还有待检验。

具体的,本申请将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元。之后获取目标字单元的表意文字描述序列、候选字单元的表意文字描述序列;计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度。

这里计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度,与前文计算非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度原理相同,此处不再赘述。

当候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值,将候选字单元加入形似字库。需要指出的是,这里的第二相似度阈值小于前文所述第一相似度阈值。也就是说,在形似字库的迭代过程中,对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

进一步的,在本申请提供的另一种优选实施方式中,所述形似字库的迭代方式还包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的笔画序列、候选字单元的笔画序列;

当候选字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值,则将候选字单元加入形似字库;

其中,所述第二占比阈值小于所述第一占比阈值。

这里计算目标字单元的笔画序列在候选字单元的笔画序列的占比,与前文计算目标字单元的笔画序列在非目标字单元的笔画序列的占比原理相同,此处不再赘述。

当候选字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值,将候选字单元加入形似字库。需要指出的是,这里的第二占比阈值小于前文所述第一占比阈值。也就是说,在形似字库的迭代过程中,对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

进一步的,在本申请提供的另一种优选实施方式中,所述形似字库的迭代方式还包括:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的四角号码序列、候选字单元的四角号码序列;

根据目标字单元的四角号码序列、候选字单元的四角号码序列,计算候选字单元相对于目标字单元的编辑距离;

获取候选字单元的预设字频;

根据候选字单元相对于目标字单元的编辑距离,候选字单元的预设字频,计算候选字单元相对于目标字单元的相似指标;

当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库;

其中,所述第二指标阈值小于所述第一指标阈值。

这里计算候选字单元相对于目标字单元的相似指标,与前文计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标的公式相同,此处不再赘述。

当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库。需要指出的是,这里的第二指标阈值小于前文所述第一指标阈值。也就是说,在形似字库的迭代过程中,对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

还需要指出的是,以上形似字库迭代过程中,对于候选字单元的筛选标准满足候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值、目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值、候选字单元相对于目标字单元的相似指标超过第二指标阈值中至少一种维度的筛选标准,即可将候选字单元加入形似字库。

这样迭代的形似字库更符合用户输入习惯,进而能够提高校对系统的准确性和专业性。

请参照图2,为支持形似字库生成方法,本申请还提供一种形似字库生成系统100,包括:

筛选模块11,用于获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合;还用于获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合;

综合评价模块12,用于根据第一形近字集合、第二形近字集合,生成对应目标字单元的综合形近字集合;还用于获取目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列;还用于根据目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列,计算若干形近字单元相对于目标字单元的编辑距离;还用于获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频;还用于根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

字库生成模块13,用于确定综合形近字集合内相似指标超过第一指标阈值的形近字单元,生成对应目标字单元的形似字库。

具体的,筛选模块11获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合。

可以理解的是,所述目标字单元可以是任意文字单元。在本申请提供的一种具体实施方式中,所述目标字单元为中日韩统一表意文字(CJK United Ideographs)。中日韩统一表意文字也称统一汉字(Unihan),目的是要把分别来自中文、日文、韩文、越南文、壮文中,起源相同、本义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字),赋予其在UISO 10646及万国码标准中相同编码。

所述目标字单元可以通过表意文字描述序列IDS(Ideographic DescriptionCharacters Sequence)进行表征。具体的,所述表意文字描述序列在具体的应用场景中由表意文字描述符IDC(Ideographic Description Characters)组成。

所述表意文字描述序列的描述逻辑是:理论上所有的汉字都可以拆分为更小的部件,而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC,再配合已有编码的文字,即可描述绝大多数未被编码的集外字。

也就是说,表意文字描述序列是将文字单元进行结构分布上的拆分后,以二叉树的形式进行表征。本申请通过将目标字单元和非目标字单元以表意文字描述序列IDS表征,进而筛选出与目标字单元字结构相似的形近字单元。

具体的,在本申请提供的一种具体实施方式中,所述筛选模块11获取目标字单元的表意文字描述序列,确定与目标字单元字结构相似的若干形近字单元,构成第一形近字集合,具体包括:

获取目标字单元的表意文字描述序列、非目标字单元的表意文字描述序列;

计算非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

确定若干相似度高于第一相似度阈值的非目标字单元,作为与目标字单元字结构相似的若干形近字单元,构成第一形近字集合。

所述非目标字单元可以理解为现有字库中,除去目标字单元的其他文字单元。所述第一相似度阈值可以理解为基于表意文字描述序列筛选形近字单元的标准。

以目标字单元为“内”,非目标字单元为“肉、芮、见、观、讷、贝、贞、负、冈、闪、丙、队、办、页、央、风”为例。非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度分别为:

P(肉-内)=0.636、P(芮-内)=0.538、P(见-内)=0.714、P(观-内)=0.545、P(讷-内)=0.636、P(贝-内)=0.857、P(贞-内)=0.545、P(负-内)=0.545、P(冈-内)=0.857、P(闪-内)=0.667、P(丙-内)=0.778、P(队-内)=0.571、P(办-内)=0.714、P(页-内)=0.545、P(央-内)

=0.778、P(风-内)=0.571。

若第一相似度阈值取0.7,筛选模块11筛选相似度高于0.7的非目标字单元作为与目标字单元字结构相似的若干形近字单元,构成第一形近字集合,则第一形近字集合表现为:见、贝、冈、丙、办、央。

由上述举例可见,筛选模块11基于表意文字描述序列的相似度筛选出的第一形近字集合中,存在明显不是形近字的情况,因此不宜全部采用。如果仅基于表意文字描述序列的相似度构建形似字库,则存在漏掉形近字或存在形近字的相似度低的问题。另外,这样的形似字库中还可能包含常用字以外的众多生僻字,从而导致文字校对系统需要匹配的生僻样本字单元较多,无法区分样本字单元的重要性。对于文字校对系统而言,这样的形似字库依然会影响识别效率,使得文字校对系统的校对性能下降。

筛选模块11获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合。

需要指出的是,为了对形似字库进行优化,筛选模块11从其他维度筛选形近字单元,例如以笔画序列筛选目标字单元的形近字单元。

所述笔画序列可以理解为笔画的排列顺序。也就是说,笔画序列是将文字单元进行笔画拆分后,以文字笔画书写的顺序进行排列,进而表征对应的文字单元。筛选模块11通过将目标字单元和非目标字单元以笔画序列表征,进而筛选出与目标字单元字笔画相似的形近字单元。

具体的,在本申请提供的一种具体实施方式中,筛选模块11获取目标字单元的笔画序列,确定与目标字单元笔画相似的若干形近字单元,构成第二形近字集合,具体包括:

获取目标字单元的笔画序列、非目标字单元的笔画序列;

当非目标字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在非目标字单元的笔画序列的占比超过第一占比阈值,则非目标字单元作为与目标字单元笔画相似的若干形近字单元;

若干与目标字单元笔画相似的若干形近字单元,构成第二形近字集合。

所述非目标字单元可以理解为现有字库中,除去目标字单元的其他文字单元。所述非目标字单元的笔画序列包括目标字单元的笔画序列,意味着筛选条件并不要求从非目标字单元的笔画序列必须和目标字单元的笔画序列一致,而是要求非目标字单元的笔画序列与目标字单元的笔画序列存在重合即可。换句话说,将笔画视为元素,笔画序列视为集合,则目标字单元的笔画序列是非目标字单元的笔画序列的子集。

举例来说,以目标字单元为“内”,非目标字单元为“肉、芮、见、观、讷、贝、贞、负、冈、闪、丙、队、办、页、央、风、笍、蚋、衲”为例。以满足“非目标字单元的笔画序列包括目标字单元的笔画序列”进行筛选后的非目标字单元为“肉、芮、讷、冈、闪、丙、笍、蚋、衲”。

之后筛选模块11计算目标字单元的笔画序列在筛选后的非目标字单元的笔画序列的占比。所述第一占比阈值可以理解为基于笔画序列筛选形近字单元的标准。

以筛选后的非目标字单元为“肉、芮、讷、冈、闪、丙、笍、蚋、衲”为例,目标字单元的笔画序列在筛选后的非目标字单元的笔画序列的占比为:

P(内-肉)=0.667、P(内-芮)=0.571、P(内-讷)=0.667、P(内-冈)=1、P(内-闪)=0.8、P(内-丙)=0.8、P(内-笍)=0.4、P(内-蚋)=0.4、P(内-衲)=0.444。

若第一占比阈值取0.5,筛选模块11筛选目标字单元笔画序列相对非目标字单元笔画序列占比高于0.5的非目标字单元,作为与目标字单元字笔画相似的若干形近字单元,构成第二形近字集合,则第二形近字集合表现为:肉、芮、讷、冈、闪、丙。

综合评价模块12根据第一形近字集合、第二形近字集合,生成对应目标字单元的综合形近字集合。

由上述举例可见,基于目标字单元笔画序列相对非目标字单元笔画序列占比筛选出的第二形近字集合,与基于表意文字描述序列筛选出的第一形近字集合存在较大差异。这是由于基于表意文字描述序列筛选出的第一形近字集合关注文字单元的结构分布,因此即使笔画序列重合的文字单元也会由于结构分布而由较大差异的表征,进而不被纳入形近字集合。

也就是说,基于目标字单元笔画序列筛选出的第二形近字集合,与基于目标字单元表意文字描述序列筛选出的第一形近字集合是从两个不同维度筛选与目标字单元字相似的形近字单元。

因此综合评价模块12将第一形近字集合、第二形近字集合进行组合,生成对应目标字单元的综合形近字集合,能够相互补充各形近字集合中遗漏的形近字单元。

进一步的,在本申请提供的一种优选实施方式中,所述综合评价模块12还用于:

获取预设通用规范汉字集合;

基于预设通用规范汉字集合,确定综合形近字集合中与预设通用规范汉字集合重合的形近字单元,构成精简形近字集合。

可以理解的是,所述预设通用规范汉字集合在具体的应用场景中表现为

《通用规范汉字表》。《通用规范汉字表》根据众多语料库进行使用度筛选制定,明确社会语言生活中广泛使用的文字单元。

也就是说,不在预设通用规范汉字集合记载的文字单元,可以认为是生僻字单元。因此综合评价模块12通过预设通用规范汉字集合,确定综合形近字集合中与预设通用规范汉字集合重合的形近字单元,构成精简形近字集合,也即过滤综合形近字集合中的生僻字单元,保留常用字单元。这样能够根据样本字单元的使用度,使得文字校对系统需要匹配的样本字单元数量适中,进而提高识别效率和校对性能。

综合评价模块12获取目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列。

综合评价模块12根据目标字单元的四角号码序列、对应目标字单元的综合形近字集合内若干形近字单元的四角号码序列,计算若干形近字单元相对于目标字单元的编辑距离。

所述四角号码序列有五位数字位,通常以前四位数字代表汉字四个角的笔形或部件。在一些形近字单元四个角的笔形或部件相同的情况下,形近字单元的四角号码序列前四位相同,因此以第五位数字作为附号,对形近字单元进行区分。也就是说,四角号码序列是一种数位较少的文字单元表征方式。

通常任意文字单元具有与之对应的四角号码序列。在此基础上,综合评价模块12将目标字单元、对应目标字单元的综合形近字集合内若干形近字单元以四角号码序列表示。之后综合评价模块12计算若干形近字单元相对于目标字单元的编辑距离。

所述编辑距离(Edit Distance)是一种字符串相似度算法。编辑距离算法是将两个字符串的相似度问题,归结为将其中一个字符串转化成另一个字符串,所需要进行的基础变换次数。基础变换次数越多,说明两个字符串的相似度越低。

依然以目标字单元为“内”,综合形近字集合为“丙、呐、网、纳、冈、闪”为例。综合形近字集合内若干形近字单元相对于目标字单元“内”的编辑距离如下:

综合评价模块12获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频。

综合评价模块12根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标。

可以理解的是,所述综合形近字集合内若干形近字单元相对于目标字单元的编辑距离,可以看作是综合形近字集合内若干形近字单元相对于目标字单元的相似度评价结果。通常编辑距离越小的两个文字单元,二者的相似度越高。

但需要指出的是,编辑距离的相似度仅是从文字结构的相似度进行评价。在日常生活中,由于文字结构的相似而将目标字单元错误输入为形近字单元的情况通常发生在采用OCR技术进行文本识别的场景中。

而文本输入者将目标字单元错误输入为形近字单元的情况更为复杂,出现输入错误的原因还涉及到字频维度。所述字频是指文字在文字工作者输入过程中的命中频率。通常字频是基于统计得到,综合评价模块12获取对应目标字单元的综合形近字集合内若干形近字单元的预设字频,可视为从预设数据库调用得到。

综合评价模块12从文字单元结构相似度的维度、文字单元输入命中频率的维度综合评价,得到形近字单元相对于目标字单元的相似指标。

具体的,在本申请提供的一种具体实施方式中,所述综合评价模块12根据综合形近字集合内若干形近字单元相对于目标字单元的编辑距离、综合形近字集合内若干形近字单元的预设字频,计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标,具体包括:

获取综合形近字集合内若干形近字单元对应的预设字频;

以公式Y=(N-X1)*lg(X2),计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标;

公式中,Y表示综合形近字集合内形近字单元X相对于目标字单元的相似指标,N表示预设判断阈值,X1表示综合形近字集合内形近字单元X相对于目标字单元的编辑距离,X2表示综合形近字集合内形近字单元X对应的预设字频。

在本申请提供的一种优选实施方式中,所述预设判断阈值N为编辑距离最大值。也即所述预设判断阈值N=5。

则所述相似指标的计算公式表现为:

相似指标Y=(5-相似度X1)*lg(字频X2)

以目标字单元为“内”,综合形近字集合为“丙、呐、网、纳、冈、闪”为例,综合形近字集合内若干形近字单元相对于目标字单元“内”的相似指标如下:

字库生成模块13确定综合形近字集合内相似指标超过第一指标阈值的形近字单元,生成对应目标字单元的形似字库。

举例来说,若第一指标阈值取10,则字库生成模块13可筛选出文字单元“丙、呐、网、纳、冈”。这些文字单元将与目标字单元建立映射关系,最终生成对应目标字单元的形似字库。

综上所述,形似字库生成系统100通过从表意文字描述序列、笔画序列两个筛选维度确定目标字单元的形近字单元,相互补充各筛选维度遗漏的形近字单元,得到较为全面的综合形近字集合。之后对综合形近字集合内若干形近字单元分别以四角号码序列、字频两个评价维度,进一步筛选出容易出现输入错误的形近字单元,构成形似字库。这样的形似字库体量适中、质量较高,适用于日常的文字校对,能够提高文字校对系统的识别效率和校对性能。

进一步的,在本申请提供的一种优选实施方式中,形似字库生成系统100还包括字库迭代模块,用于根据文字工作者的输入习惯,对形似字库进行迭代。具体的,所述字库迭代模块用于:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的表意文字描述序列、候选字单元的表意文字描述序列;

计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度;

当候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值,将候选字单元加入形似字库;

其中,所述第二相似度阈值小于所述第一相似度阈值。

可以理解的是,文字工作者在输入完一篇稿件后,通常需要通过文字校对模型标记出稿件中的疑错文字单元,之后由文字工作者针对标记出的疑错文字单元进行改正后才能进行公开发布。

如果文字工作者未对疑错文字单元改正,说明疑错文字单元可能并未出错。如果多次出现疑错文字单元未改正的情况,则字库迭代模块可以将疑错文字单元添加至白名单,后续不再标记。

如果文字工作者对疑错文字单元进行改正,则字库迭代模块将文字工作者改正后的文字单元作为用户校对文本,将文字工作者改正前的文字单元作为对应用户校对文本的错误文本。此时,用户校对文本即是容易出错的目标字单元,而错误文本是否是由于形似导致的输入错误还有待检验。

具体的,字库迭代模块将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元。之后字库迭代模块获取目标字单元的表意文字描述序列、候选字单元的表意文字描述序列;字库迭代模块计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度。

这里字库迭代模块计算候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度,与前文筛选模块11计算非目标字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度原理相同,此处不再赘述。

当候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值,字库迭代模块将候选字单元加入形似字库。需要指出的是,这里的第二相似度阈值小于前文所述第一相似度阈值。也就是说,在形似字库的迭代过程中,字库迭代模块对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

进一步的,在本申请提供的另一种优选实施方式中,所述字库迭代模块还用于:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的笔画序列、候选字单元的笔画序列;

当候选字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值,则将候选字单元加入形似字库;

其中,所述第二占比阈值小于所述第一占比阈值。

这里字库迭代模块计算目标字单元的笔画序列在候选字单元的笔画序列的占比,与筛选模块11计算目标字单元的笔画序列在非目标字单元的笔画序列的占比原理相同,此处不再赘述。

当候选字单元的笔画序列包括目标字单元的笔画序列,且目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值,字库迭代模块将候选字单元加入形似字库。需要指出的是,这里的第二占比阈值小于前文所述第一占比阈值。也就是说,在形似字库的迭代过程中,字库迭代模块对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

进一步的,在本申请提供的另一种优选实施方式中,所述字库迭代模块还用于:

获取用户校对文本、对应用户校对文本的错误文本;

将用户校对文本作为目标字单元,将对应用户校对文本的错误文本作为候选字单元;

获取目标字单元的四角号码序列、候选字单元的四角号码序列;

根据目标字单元的四角号码序列、候选字单元的四角号码序列,计算候选字单元相对于目标字单元的编辑距离;

获取候选字单元的预设字频;

根据候选字单元相对于目标字单元的编辑距离,候选字单元的预设字频,计算候选字单元相对于目标字单元的相似指标;

当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库;

其中,所述第二指标阈值小于所述第一指标阈值。

这里字库迭代模块计算候选字单元相对于目标字单元的相似指标,与前文综合评价模块12计算综合形近字集合内若干形近字单元相对于目标字单元的相似指标的公式相同,此处不再赘述。

当候选字单元相对于目标字单元的相似指标超过第二指标阈值,将候选字单元加入形似字库。需要指出的是,这里的第二指标阈值小于前文所述第一指标阈值。也就是说,在形似字库的迭代过程中,对于候选字单元的相似度评价标准较低。这是因为形似字库的迭代过程是增加体量的过程,因此形似字库迭代过程的筛选标准会低于形似字库构建过程的筛选标准。

还需要指出的是,以上形似字库迭代过程中,字库迭代模块对于候选字单元的筛选标准满足候选字单元的表意文字描述序列相对于目标字单元的表意文字描述序列的相似度高于第二相似度阈值、目标字单元的笔画序列在候选字单元的笔画序列的占比超过第二占比阈值、候选字单元相对于目标字单元的相似指标超过第二指标阈值中至少一种维度的筛选标准,即可将候选字单元加入形似字库。

这样迭代的形似字库更符合用户输入习惯,进而能够提高校对系统的准确性和专业性。

需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 空心字库生成方法和空心字库生成系统
  • 字库生成方法、字库生成系统和服务器
技术分类

06120116508324