掌桥专利:专业的专利平台
掌桥专利
首页

铭文的识别方法、存储介质和计算机设备

文献发布时间:2023-06-19 09:24:30


铭文的识别方法、存储介质和计算机设备

技术领域

本发明涉及考古领域,尤其涉及一种铭文的识别方法、存储介质和计算机设备。

背景技术

在如今的考古领域,尽管很多实际的考察设备已经在慢慢得到改善,但是在实际考古的过程中仍然存在考古工作者准确识别铭文的难题,从而在考古工作的开展过程中形成一定的障碍,延迟了考古工作的开展进度。

目前,在考古领域亟需一种对铭文进行自动识别的技术,在识别过程中自动检测铭文的缺陷以及进行缺陷的自动补救,以此来减少考古工作者在实际工作中遇到的技术难题,帮助考古工作这更加快速地确定出铭文的真实含义,从而评价铭文的价值。

发明内容

本发明的主要目的是提供一种铭文的识别方法、存储介质和计算机设备,以实现古文物铭文的自动识别。

第一方面,本申请提供一种铭文的识别方法,包括以下步骤:获取包含有铭文文字的铭文图像信息;利用训练过的铭文文字识别神经网络模型对所述铭文图像信息中的铭文文字进行自动识别,获得铭文文字的识别结果。

在一个实施例中,利用训练过的铭文文字识别神经网络模型对所述铭文图像信息中的铭文文字进行自动识别,获得铭文文字的识别结果,包括:提取铭文图像信息中的铭文文字的笔画特征,根据所述铭文文字的笔画特征确定铭文文字所属的文字类型;根据预存的所述文字类型的文字,对铭文图像信息中的铭文文字进行识别,获得铭文文字的识别结果。

在一个实施例中,根据所述铭文文字的笔画特征确定铭文文字的文字类型,包括:将铭文文字的笔画特征与预存的多种文字类型的文字的笔画特征进行匹配,根据匹配结果在预存的文字类型中确定出铭文文字所属的文字类型。

在一个实施例中,根据匹配结果在预存的文字类型中确定出铭文文字所属的文字类型,包括:对于预存的每种文字类型,将铭文文字的笔画特征与预存的该种文字类型的文字的笔画特征进行匹配,确定匹配成功的笔画特征的数量占铭文文字的笔画特征的总数量的比值,将所述比值作为铭文文字属于该种文字类型的概率;将铭文文字属于每种文字类型的概率与预设概率阈值进行比较,当所述概率大于或等于预设概率阈值时,将该种文字类型作为铭文文字的可能文字类型;在所述可能文字类型中,选择最大的所述概率所对应的文字类型作为铭文文字所属的文字类型。

在一个实施例中,在获得铭文文字的识别结果之后,所述方法还包括步骤:根据铭文文字的识别结果,对所述铭文图像信息中的铭文文字进行修复。

在一个实施例中,在获得铭文文字的识别结果之后,所述方法还包括步骤:根据所述铭文图像信息中的铭文文字所属的文字类型,按照铭文文字与指定语言之间的对应关系,将铭文文字的识别结果翻译成指定语言。

在一个实施例中,所述将铭文文字的识别结果翻译成指定语言,包括以下步骤:将铭文文字的识别结果翻译成指定语言,并按照指定语言的语法规则对所述翻译结果进行分析和调整,确定出符合指定语言的语法规则的翻译结果进行输出。

在一个实施例中,所述指定语言包括现代汉语。

在一个实施例中,所述铭文文字识别神经网络模型通过以下步骤构建:获取用于训练铭文文字识别神经网络模型的样本数据集,其中,所述样本数据集包括多个对应于不同文字类型的样本子集,每个所述样本子集包括一种文字类型及该种文字类型的文字的笔画特征,以及该种文字类型下的相互关联的残缺的文字及其对应的完整的文字;利用所述样本数据集对铭文文字识别神经网络模型进行训练,获得训练后的铭文文字识别神经网络模型。

在一个实施例中,所述铭文文字识别神经网络模型为反向传播神经网络模型。

第二方面,本申请提供一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上文所述的铭文的识别方法的步骤。

第三方面,本申请提供一种计算机设备,包括处理器和存储有程序代码的存储介质,所述程序代码被所述处理器执行时,实现如上文所述的铭文的识别方法的步骤。

本发明的技术方案能够对古文物上的铭文文字进行自动识别,进而能够将识别出的铭文文字翻译为指定语言并输出。利用本申请的技术方案,考古工作者在实际考古工作中对于古文物上面的铭文无需再翻阅大量的古书和相关资料,能够直接自动完成对当前铭文的识别并实时翻译成汉语,同时,对于残缺的铭文文字还能够实现自动修复补全,大大减少了考古工作者的工作量,为考古工作者带来极大的便利。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:

图1为根据本申请一示例性实施方式的铭文的识别方法的流程图;

图2为根据本申请一具体实施例的包含有铭文文字的铭文图像信息的示意图;

图3为根据本申请一具体实施例的铭文的识别装置的结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

本实施例提供一种铭文的识别方法,图1为根据本申请一示例性实施方式的铭文的识别方法的流程图,如图1所示,该方法可以包括以下步骤:

S100:获取包含有铭文文字的铭文图像信息。

S200:利用训练过的铭文文字识别神经网络模型对所述铭文图像信息中的铭文文字进行自动识别,获得铭文文字的识别结果。

其中,可以使用扫描设备对古文物进行扫描,从而得到包含有铭文文字的铭文图像信息。铭文图像信息例如可以是如图2所示的包含有铭文文字的铭文图像信息。

所述铭文文字识别神经网络模型通过以下步骤构建:1)获取用于训练铭文文字识别神经网络模型的样本数据集,其中,所述样本数据集包括多个对应于不同文字类型的样本子集,每个所述样本子集包括一种文字类型及该种文字类型的文字的笔画特征,以及该种文字类型下的相互关联的残缺的文字及其对应的完整的文字;2)利用所述样本数据集对铭文文字识别神经网络模型进行训练,获得训练后的铭文文字识别神经网络模型。优选的,该铭文文字识别神经网络模型可以为反向传播神经网络模型。

具体的,利用训练过的铭文文字识别神经网络模型对所述铭文图像信息中的铭文文字进行自动识别,获得铭文文字的识别结果,可以包括:提取铭文图像信息中的铭文文字的笔画特征,根据所述铭文文字的笔画特征确定铭文文字所属的文字类型,在确定铭文文字所属的文字类型之后,根据预存的所述文字类型的文字,对铭文图像信息中的铭文文字进行识别,获得铭文文字的识别结果。

其中,根据所述铭文文字的笔画特征确定铭文文字的文字类型,包括:将铭文文字的笔画特征与预存的多种文字类型的文字的笔画特征进行匹配,根据匹配结果在预存的文字类型中确定出铭文文字所属的文字类型。

具体的,根据匹配结果在预存的文字类型中确定出铭文文字所属的文字类型,包括:对于预存的每种文字类型,将铭文文字的笔画特征与预存的该种文字类型的文字的笔画特征进行匹配,确定匹配成功的笔画特征的数量占铭文文字的笔画特征的总数量的比值,将所述比值作为铭文文字属于该种文字类型的概率;将铭文文字属于每种文字类型的概率与预设概率阈值进行比较,当所述概率大于或等于预设概率阈值时,将该种文字类型作为铭文文字的可能文字类型;在所述可能文字类型中,选择最大的所述概率所对应的文字类型作为铭文文字的文字类型。

例如,对于一条包含有铭文文字的铭文图像信息,在其中共提取了100条铭文文字的笔画特征。预存的文字类型包括甲骨文、大篆和小篆三种文字类型,则将该100条依次与甲骨文的、大篆和小篆的笔画特征进行匹配。其中,在该100条笔画特征中,与甲骨文匹配成功的条数为30条,与大篆匹配成功的条数为60条,与小篆匹配成功的条数为80条,则该铭文图像信息中的铭文文字属于甲骨文、大篆和小篆的概率分别为30%、60%和80%。预设概率阈值为60%,则大篆和小篆即为该铭文图像信息中的铭文文字的可能文字类型。继而,在大篆和小篆中选择最大的概率对应的文字类型作为铭文文字所属的文字类型,即,该铭文图像信息中的铭文文字所属的文字类型为小篆。在确定出该铭文图像信息中的铭文文字属于小篆之后,可以将预存的小篆字体的文字与铭文图像信息中的铭文文字进行比对,以识别出铭文图像信息中的铭文文字,从而得到铭文文字的识别结果。

在获得铭文文字的识别结果之后,可以根据铭文文字的识别结果,对所述铭文图像信息中的铭文文字进行修复。

古文物上的铭文文字经过了漫长的岁月,难免会有残缺不全的文字。在铭文文字的识别结果中可以确定铭文图像信息中的每个铭文文字都是什么字,进而对铭文图像信息中的铭文文字进行修复。

另外,在获得铭文文字的识别结果之后,还可以根据所述铭文图像信息中的铭文文字所属的文字类型,按照铭文文字与指定语言之间的对应关系,将铭文文字的识别结果翻译成指定语言。例如,所述指定语言包括现代汉语、英语等。

更进一步的,将铭文文字的识别结果翻译成指定语言,并按照指定语言的语法规则对所述翻译结果进行分析和调整,确定出符合指定语言的语法规则的翻译结果进行输出。

本发明的技术方案能够对古文物上的铭文文字进行自动识别,进而能够将识别出的铭文文字翻译为指定语言并输出。利用本申请的技术方案,考古工作者在实际考古工作中对于古文物上面的铭文无需再翻阅大量的古书和相关资料,能够直接自动完成对当前铭文的识别并实时翻译成汉语,同时,对于残缺的铭文文字还能够实现自动修复补全,大大减少了考古工作者的工作量,为考古工作者带来极大的便利。

实施例二

图3为根据本申请一具体实施例的铭文的识别装置的结构示意图。本实施例提供一个铭文识别方法的具体实施例,该方法步骤可以利用图3所示的装置执行。本实施例的铭文的识别方法可以包括以下步骤:

S21:使用特定的古文物扫描设备完成对古文物的扫描,得到该古文物上的铭文数据。

S22:将古文物扫描设备与电脑端铭文采集模块进行连接通信,古文物扫描设备将所获取的古文物上的铭文数据自动传输到电脑端的铭文采集模块。

S23:特征提取模块的主要目的是实现对历史铭文数据进行特征提取。

S24:将特征提取模块所提取的铭文的特征作为特征匹配模块的输入,特征匹配模块通过将铭文的特征与预存的铭文数据进行匹配,根据匹配结果确定铭文的文字类型和识别结果。

其中,特征提取模块和特征匹配模块的组合实现了铭文文字识别神经网络模型的功能。该模型在对铭文进行识别之前通过了大量的训练,训练所用的样本数据都是标准化后的文字类型,从而能够更充分的训练该神经网络的分类模型进行更精准的铭文分类。

优选的,可以利用BP(Back Propagation,反向传播)神经网络模型对特征参数进行特征分析并分类。BP神经网络通过对输入的样本进行学习,使用反向传播算法对网络的权值和偏差进行反复的训练和优化,使得输出的向量与期望向量尽可能接近。在实际的验证中,BP神经网络相对于其他的分类算法,准确性更高,更适合捕捉到此铭文的分类操作。

铭文文字识别神经网络模型对输入的铭文进行特征分析,与预存的特征数据进行匹配,待匹配完成后,将其作为数据转换模块的输入。

S25:数据转换模块的主要作用是将识别出的铭文类别和铭文文字的识别结果自动转换成相应的语言输出,例如可以转换成现代汉语输出。

S26:数据处理模块的主要作用是对数据转换模块输出的现代汉语根据现代汉语的语法规则进行进一步过滤处理,订正数据转换模块输出的现代汉语中存在的语病等一系列问题,以使得输出的现代汉语标准化,保证输出的现代汉语能够更加符合现代汉语的语法规则。

S27:将标准化后的现代汉语自动更新到相应的PC端系统上,完成考古工作的整体流程化和通用化。

在本实施例的技术方案中,通过古文物扫描设备对古文物进行扫描,利用智能算法完成古文物上的铭文与数据库中的铭文的自动匹配,并转换成现代汉语输出,完成对残缺铭文的识别和翻译,为考古工作者识别铭文的工作带来极大的便利。

实施例三

本实施例提供一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现如上文所述的铭文的识别方法的步骤。

存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。存储介质的例子包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

实施例四

本实施例提供一种计算机设备,包括处理器和存储有程序代码的存储介质,所述程序代码被所述处理器执行时,实现如上文所述的铭文的识别方法的步骤。

在一个示例中,计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash FLASH RAM)。内存是计算机可读介质的示例。

需要注意的是,这里所使用的的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要说明的是,本申请的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便这里描述的本申请的实施方式例如能够除了在这里图示或描述的那些以外的顺序实施。

应当理解的是,本说明书中的示例性实施方式可以由多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施方式。提供这些实施方式是为了使得本申请的公开彻底且完整,并且将这些示例性实施方式的构思充分传达给本领域普通技术人员,而不应当理解为对本发明的限制。

相关技术
  • 铭文的识别方法、存储介质和计算机设备
  • 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质
技术分类

06120112154833