掌桥专利:专业的专利平台
掌桥专利
首页

基于盲文点级语义增强的盲文字符检测识别方法和系统

文献发布时间:2024-04-18 19:58:21


基于盲文点级语义增强的盲文字符检测识别方法和系统

技术领域

本发明涉及计算机视觉领域,具体涉及一种基于盲文点级语义增强的盲文字符检测识别方法和系统。

背景技术

盲文翻译可以帮助没有任何盲文基础的明眼人阅读盲文,也可以提升盲文教师的工作效率,有利于促进盲文教育的发展,提高盲人的受教育机会。盲文字符检测识别是翻译流程的第一个环节。现有的技术在检测识别盲文时,对于模糊的盲文无法准确地识别,最终造成翻译结果的错误。

现有技术的解决方式是通过扩充模型训练的数据集以提升模型的精度,并且尽量减少图片中的噪声,例如使用扫描设备获得高质量的图片。但盲文的数据集制作困难,成本较高。使用扫描设备拍摄图片也不够便捷,限制了方法使用范围。

发明内容

本发明要克服现有技术的上述缺点,提供一种基于盲文点级语义增强的盲文字符检测识别方法和系统。

为了解决上述技术问题,基于盲文点级语义增强的盲文字符检测识别方法,包括如下:

S110,通过计算机视觉技术获取图片中盲文字符的位置和类别置信度;

S120,通过计算机视觉技术获取图片像素的凸点置信度;

S130,利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度;

S140,利用非极大值抑制算法筛选最终的盲文字符位置与类别。

进一步的,步骤S110所述的通过计算机视觉技术获取图片中盲文字符的位置和类别置信度,具体包括:

S1101,对盲文图片采用双线性插值进行缩放预处理;

S1102,使用RetinaNet模型对盲文图片进行盲文检测,得到盲文图片中每个盲文字符的坐标集合c

S1103,根据坐标集合c

进一步的,步骤S120所述的通过计算机视觉技术获取图片像素的凸点置信度,具体包括:

S1201,对RetinaNet模型中特征金字塔方法的输出f={f

S1202,对f′采用通道注意力增强的卷积神经网络,获得高为h,宽为w的原图中每个像素点的凸点置信度p

进一步的,步骤S130利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度,具体包括:

S1301,从p

S1302,计算c

S1303根据积分图和盲文点坐标计算每个盲文凸点置信度P

S1304计算盲文字符的最终置信度。对c

进一步的,步骤S140所述的利用非极大值抑制算法筛选最终的盲文字符位置与类别,具体包括:

S1401,设置置信度阈值t=0.3;

S1402,设置盲文字符坐标的IoU阈值t

S1403,对c中每一个盲文字符选取置信度最高的类别作为盲文字符的类别,删除置信度小于阈值t的字符;

S1404,将所有盲文字符按置信度排序,选取置信度最高的盲文字符;

S1405,将得到的盲文字符记为主字符。计算这个字符与剩余字符的IoU,删除次框;删除IoU>t

S1406,回到S1404,直到所有的字符全部被处理;

S1407,将所有的主字符作为检测结果。

本发明的第二个方面涉及一种基于盲文点级语义增强的盲文字符检测识别系统,包括

盲文字符的位置和类别置信度获取模块,通过计算机视觉技术获取图片中盲文字符的位置和类别置信度;

凸点置信度获取模块,通过计算机视觉技术获取图片像素的凸点置信度;

最终置信度计算模块,利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度;

盲文字符位置与类别筛选模块,利用非极大值抑制算法筛选最终的盲文字符位置与类别。

本发明的第三方面涉及一种基于盲文点级语义增强的盲文字符检测识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现本发明的一种基于盲文点级语义增强的盲文字符检测识别方法。

本发明的第四个方面涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种基于盲文点级语义增强的盲文字符检测识别方法。

本发明的有益效果是,本发明提供的基于盲文点级语义增强的盲文字符检测识别方法,其中,所述方法通过计算机视觉技术获取图片中盲文字符的位置和类别置信度;通过计算机视觉技术获取图片像素的凸点置信度;利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度;利用非极大值抑制算法筛选最终的盲文字符位置与类别。改进了现有技术中利用目标检测模型对盲文字符进行检测和识别时,对模糊盲文点无法准确判断的问题,通过盲文点级的语义增强提高了模型对于模糊盲文的判断力,从而提高了盲文字符检测识别的准确度。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明实施例所提供的基于盲文点级语义增强的盲文字符检测识别方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

实施例1

如图1所示,本实施例1提供了一种基于盲文点级语义增强的盲文字符检测识别方法,所述方法包括:针对模糊盲文的检测识别困难问题,提出一种解决方案。

具体来说,所述方法包括:

S110:通过计算机视觉技术获取图片中盲文字符的坐标位置和类别置信度。

具体来说,通过RetinaNet模型对图片中每个像素预测3个盲文字符四个角点的位置,通过RetinaNet模型对图片中每个像素预测3个盲文字符的类别置信度。

S120:利用计算机视觉技术获取图片像素的凸点置信度。

具体来说,利用RetinaNet模型中特征金字塔方法的输出作为输入,将输入使用最近邻插值缩放到同一大小后进行连接。然后使用通道注意力增强的卷积神经网络获得每个像素的凸点置信度。

S130:利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度。

所述利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度的方法包括:

从像素的凸点置信度构建积分图I;

计算预测盲文字符中包含的6个盲文点坐标集合;

根据积分图和盲文点坐标计算每个盲文凸点置信度;

将每个预测的盲文字符的6个盲文点置信度与盲文字符的类别置信度相乘计算盲文字符的最终置信度。

S140:利用非极大值抑制算法筛选最终的盲文字符位置与类别。

具体来说,利用非极大值抑制算法筛选最终的盲文字符位置与类别包括:

S1401,设置置信度阈值t=0.3;

S1402,设置盲文字符坐标的IoU阈值t

S1403,对c中每一个盲文字符选取置信度最高的类别作为盲文字符的类别,删除置信度小于阈值t的字符;

S1404,将所有盲文字符按置信度排序,选取置信度最高的盲文字符;

S1405,将得到的盲文字符记为主字符。计算这个字符与剩余字符的IoU,删除次框。删除IoU>t

S1406,回到S1404,直到所有的字符全部被处理;

S1407,将所有的主字符作为检测结果;

综上所述,本发明提供的基于盲文点级语义增强的盲文字符检测识别方法,其中,所述方法通过计算机视觉技术获取图片中盲文字符的位置和类别置信度;通过计算机视觉技术获取图片像素的凸点置信度;通过盲文字符的类别置信度与区域内的凸点置信度筛选盲文字符。改进了现有技术中,利用目标检测模型对盲文字符进行检测和识别时,对模糊盲文点无法准确判断的问题,从而提高了检测识别的准确度。

实施例2

本实施例涉及一种基于盲文点级语义增强的盲文字符检测识别系统,用于实现实施例1所述的一种基于盲文点级语义增强的盲文字符检测识别方法,包括:

盲文字符的位置和类别置信度获取模块,通过计算机视觉技术获取图片中盲文字符的位置和类别置信度;

凸点置信度获取模块,通过计算机视觉技术获取图片像素的凸点置信度;

最终置信度计算模块,利用像素的凸点置信度和盲文字符的坐标与类别置信度计算最终置信度;

盲文字符位置与类别筛选模块,利用非极大值抑制算法筛选最终的盲文字符位置与类别。

实施例3

本实施例涉及一种基于盲文点级语义增强的盲文字符检测识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现实施例1的一种基于盲文点级语义增强的盲文字符检测识别方法。

实施例4

本实施例涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现实施例1的一种基于盲文点级语义增强的盲文字符检测识别方法。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

相关技术
  • 一种基于图像语义分割的车牌字符分割与识别方法及系统
  • 一种基于语义增强双编码器的方面级情感三元组抽取方法及系统
技术分类

06120116484744