掌桥专利:专业的专利平台
掌桥专利
首页

一种基于造字机理的甲骨字生成方法

文献发布时间:2023-06-19 11:39:06


一种基于造字机理的甲骨字生成方法

技术领域

本发明涉及文字处理技术领域,具体地说,特别涉及一种基于造字机理的甲骨字生成方法。

背景技术

文字信息化是信息化的重要内容,现有的中文信息处理主要基于字库方式,现有的汉字字库存在很多不足如1)没有长期稳定的国家标准和国际标准;2)不符合汉字造字规律,不能很好的传承中华文明;3)不能满足社会的需求;4)信息熵高,信息处理效率低。对于甲骨字这种没有字库的集外字,如何能让计算机像处理现代文字一样处理甲骨文字,越来越成为计算机学者和文字与语言学者共同关注的课题。但是,多年来,在甲骨文信息化过程中,一直存在三个难以解决的问题:一是甲骨文难以定形,甲骨文字字形复杂,存在较多的异体字和合体字,很难像现代汉字一样确定每一个甲骨文字的字形结构和类型;二是甲骨文字难以定量,大量的未释字和新出土的甲骨字难以表示;三是甲骨文字难以输入计算机。为此,许多学者试图通过研究和设计字形库来解决计算机中甲骨文字形的显示和打印问题,通过设计各种各样的输入编码方案来解决甲骨文的输入问题。多年来的实践证明,对于规范的现代汉字,可以使用这样的办法去解决;但对于甲骨文字,这一方法并不完全适用。

发明内容

为了解决现有技术的问题,本发明实施例提供了一种基于造字机理的甲骨字生成方法。所述技术方案如下:

一方面,提供了一种基于造字机理的甲骨字生成方法,包括以下步骤:

建立原型构件库;

识别甲骨字的构成及构件;

建立甲骨文智能造字的数学模型;

根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;

将所述新的甲骨文符进行编码,然后保存至甲骨文字库。

进一步地,所述原型构件库包括甲骨字原型的具体构成、甲骨字原型构件的数量、甲骨字原型构件。

进一步地,所述建立原型构件库的步骤具体为:

规划原型构件库;

设计原型构件库;

提取原型构件;

实现原型构件库;

分析调整原型构件;

维护原型构件库。

进一步地,所述甲骨字的构成是指甲骨字构件按照一定的组合规则生成甲骨字的过程,描述甲骨字基元在甲骨字图形中的位置关系。

进一步地,还包括:通过分步胶囊体系结构识别甲骨字的构成及构件;

所述分步胶囊体系结构包括第一层模块、第二层模块以及第三次模块;

所述第一次模块为卷积层模块,通过多层卷积模块提取甲骨文字符图片中空间特征信息,每层卷积后都采用激活函数进行正则化;

所述第二层模块为胶囊网络层,在所述卷积层模块后加入胶囊网络模块,所述第二层模块包括两层胶囊网络;每个胶囊网络对应一个甲骨文构件;两层胶囊网络之间的通过动态路由算法进行多次迭代更新;

第三层模块为重构模块,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息。

进一步地,所述识别甲骨字的构成及构件的步骤具体为:

创建用于对甲骨字符数据集进行分类的分步胶囊体系结构;

在第一层模块中,提取甲骨文字符的结构信息;

在第二层模块中,第一层胶囊网络接收到卷积层模块传递过来的数据,在甲骨文字符数据集上进行多目标预测,判断该甲骨字符是否包含对应的构件,通过激活向量来表示每个甲骨文构件出现的概率、位置、大小、和方向;第一层胶囊网络中,每个胶囊对应一个甲骨文构件,进过动态路由算法多次迭代更新,筛选出更接近目标的甲骨文构件传递到第二层胶囊网络中;

在第三层模块中,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息;

将甲骨文字形图片输入已训练的甲骨文构件库,得到第二层模块的预测向量组,通过计算每个甲骨文构件对应的激活向量的模长,得到每个甲骨文构件的预测概率,然后识别出甲骨文字形中所包含的甲骨文构件。

进一步地,所述生成甲骨文智能造字的数学模型的步骤具体为:

根据点集拓扑学理论,设S为甲骨字所有甲骨字结构组成的集合,|S|<|Q|,S为有限集;甲骨字结构组成的集合可用以下公式来描述:

进一步地,所述根据所述甲骨文智能造字的数学模型,甲骨字自动生成的步骤具体为:

a)根据甲骨字的结构的数学描述,进行甲骨字原型的选取;

b)把甲骨字原型p

c)在甲骨字图形空间中,用一个或多个甲骨字构件F(s

d)字形的统一处理,对自动生成的甲骨字的字体和字形进行选择,需要构建一个函数T

其中,函数T

进一步地,所述将所述新的甲骨文符进行编码的步骤具体为:

分析甲骨字符;

研究编码方法;

制定编码规则;

对编码进行试验;

计算和分析试验结果;

完善甲骨字的编码。

本发明实施例提供的技术方案带来的有益效果是:

(1)将认知心理学和甲骨字造字原理相结合,提出了基于构件的甲骨文智能造字理论,建立了甲骨字智能造字的数学模型,设计出甲骨字智能造字的计算机体系结构。

(2)依据甲骨字的特殊性兼顾计算机处理效率,采用Capsule网络自动识别并标记出甲骨字中所包含的构件,提出“甲骨字结构+甲骨字原型”的编码方案。

(3)给出了甲骨字原型映射知识获取的方法,提出了用语义层次网络组织和表示甲骨字智能造字的思想。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于造字机理的甲骨字生成方法的流程图;

图2是本发明实施例的原型构件库建立过程的流程图;

图3是本发明实施例的基于Capsule网络的甲骨文构件识别流程图;

图4是本发明实施例的甲骨字编码过程的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明提供了一种基于造字机理的甲骨字生成方法,参见图1,包括以下步骤:

建立原型构件库;

识别甲骨字的构成及构件;

建立甲骨文智能造字的数学模型;

根据所述甲骨文智能造字的数学模型,生成新的甲骨字符;

将所述新的甲骨文符进行编码,然后保存至甲骨文字库。

进一步地,所述原型构件库包括甲骨字原型的具体构成、甲骨字原型构件的数量、甲骨字原型构件。

本实施例中,一种基于造字机理的甲骨字生成方法的流程具体参见图1,附图中,Capsule网络即为胶囊网络。

进一步地,参见图2,所述建立原型构件库的步骤具体为:

规划原型构件库;

设计原型构件库;

提取原型构件;

实现原型构件库;

分析调整原型构件;

维护原型构件库。

进一步地,所述甲骨字的构成是指甲骨字构件按照一定的组合规则生成甲骨字的过程,描述甲骨字基元在甲骨字图形中的位置关系。

进一步地,还包括:通过分步胶囊体系结构识别甲骨字的构成及构件;

所述分步胶囊体系结构包括第一层模块、第二层模块以及第三次模块;

所述第一次模块为卷积层模块,通过多层卷积模块提取甲骨文字符图片中空间特征信息,每层卷积后都采用激活函数进行正则化;

所述第二层模块为胶囊网络层,在所述卷积层模块后加入胶囊网络模块,所述第二层模块包括两层胶囊网络;每个胶囊网络对应一个甲骨文构件;两层胶囊网络之间的通过动态路由算法进行多次迭代更新;

第三层模块为重构模块,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息。

进一步地,参见图3,所述识别甲骨字的构成及构件的步骤具体为:

创建用于对甲骨字符数据集进行分类的分步胶囊体系结构;

在第一层模块中,提取甲骨文字符的结构信息;

在第二层模块中,第一层胶囊网络接收到卷积层模块传递过来的数据,在甲骨文字符数据集上进行多目标预测,判断该甲骨字符是否包含对应的构件,通过激活向量来表示每个甲骨文构件出现的概率、位置、大小、和方向;第一层胶囊网络中,每个胶囊对应一个甲骨文构件,进过动态路由算法多次迭代更新,筛选出更接近目标的甲骨文构件传递到第二层胶囊网络中;

在第三层模块中,将对应的胶囊网络的激活向量重新构成甲骨文构件的图片,通过重构图像与原始图像的对比,计算出重构损失,使激活向量得到更多的有用信息;

将甲骨文字形图片输入已训练的甲骨文构件库,得到第二层模块的预测向量组,通过计算每个甲骨文构件对应的激活向量的模长,得到每个甲骨文构件的预测概率,然后识别出甲骨文字形中所包含的甲骨文构件。

进一步地,所述生成甲骨文智能造字的数学模型的步骤具体为:

根据点集拓扑学理论,设S为甲骨字所有甲骨字结构组成的集合,|S|<|Q|,S为有限集;甲骨字结构组成的集合可用以下公式来描述:

进一步地,所述根据所述甲骨文智能造字的数学模型,甲骨字自动生成的步骤具体为:

a)根据甲骨字的结构的数学描述,进行甲骨字原型的选取;

b)把甲骨字原型p

c)在甲骨字图形空间中,用一个或多个甲骨字构件F(s

d)字形的统一处理。对自动生成的甲骨字的字体和字形进行选择,需要构建一个函数T

其中,函数T

具体地,深入分析认知心理学中的原型理论,得出甲骨字这个客体是无法定量的,而组成甲骨字的原型是有限的。依据认知心理学的原型匹配理论,可以认为甲骨字是由“象形”和“指事”符号(原型)按照某种规则进行组合而造出来的,原型是甲骨字的基本组成成分。在此基础上,依据甲骨文字的特殊性兼顾计算机处理效率总结出甲骨字原型提取准则。以1024个已释甲骨字为实验,进行原型提取实验为甲骨字智能造字打下基础。设P为甲骨字符集的所有原型的集合,因为|P|<|Ω|,所以P为有限集;设pi是P集合中的元素,所有甲骨字符原型组成的集合的数学表达式如下:

进一步地,参见图4,所述将所述新的甲骨文符进行编码的步骤具体为:

分析甲骨字符;

研究编码方法;

制定编码规则;

对编码进行试验;

计算和分析试验结果;

完善甲骨字的编码。

本实施例中,利用已有的甲骨字文字字形数据,通过SVM,深度神经网络等方法研究了甲骨字识别技术。利用计算机对甲骨字的字形、笔迹进行甲骨字的识别,又反过来推动了甲骨字的整理工作。同时,本项目还将收集一大批手写甲骨字形扩充甲骨文字符集,利用深度学习形成构件原型库的初始实验集合。根据原型构件的目标要求,设计甲骨字原型构件提取流程。对不能拼组的甲骨字符进行分析,确定需要增加的原型构件,然后对原型构件库进行调整。

字形结构是描述字形的基本成分之间的关系的规则。结构规则库的建立是甲骨字形自动生成的前提,结构规则库的建立必须遵循汉字系统的结构性原理,便于认知,便于计算机处理。先按层次和平面分析法分析甲骨字符的结构,最后对甲骨字符的结构进行分类总结。

通过扩充和完善甲骨文原型构件库和结构规则库,采用Capsule网络自动识别甲骨字中的构件及位置空间向量得出甲骨字符自动生成的规律,然后创建造字知识库。依据造字知识库进行构件拼组生成新的甲骨字符。

本发明实施例提供的技术方案带来的有益效果是:

(1)将认知心理学和甲骨字造字原理相结合,提出了基于构件的甲骨文智能造字理论,建立了甲骨字智能造字的数学模型,设计出甲骨字智能造字的计算机体系结构。

(2)依据甲骨字的特殊性兼顾计算机处理效率,采用Capsule网络自动识别并标记出甲骨字中所包含的构件,提出“甲骨字结构+甲骨字原型”的编码方案。

(3)给出了甲骨字原型映射知识获取的方法,提出了用语义层次网络组织和表示甲骨字智能造字的思想。

以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于造字机理的甲骨字生成方法
  • 一种基于汉字造字方法生成人工智能知识图谱的方法
技术分类

06120113007585