掌桥专利:专业的专利平台
掌桥专利
首页

截图、电子文档的识别方法、系统、终端、介质

文献发布时间:2023-06-19 11:42:32


截图、电子文档的识别方法、系统、终端、介质

技术领域

本发明涉及计算机图像识别技术领域,尤其涉及一种图像截图、电子文档的识别方法、系统、终端、介质。

背景技术

目前可参考的技术有频域分析、谱分析、滤波等传统图像处理技术,也可以参考拍摄图片的EXIF信息(如果图片是非拍摄的就没有该信息)。图片的EXIF是指:可交换图像文件格式,英文:Exchangeable image file format。如果EXIF信息完整,比如有曝光时间('ExposureTime')则认为其是摄像头直接拍摄的,为非目标图片,这里不考虑数字图片的拷贝问题,因为数字图片只要是拷贝则新拷贝的图片就与原图片是完全一致的,但本技术只是针对其中手机截图、电脑截图、电子文档的识别。

通过上述分析,现有技术存在的问题及缺陷为:

为识别一般图片与手机截图、电脑截图、电子文档,尝试过以下四种现有技术:

(1)使用传统的图像处理技术,如谱分析、滤波等,利用Fourier变换将问题转化到频域上分析,因为检测图片具有复杂多样性,使其在频域上很难找到一种稳定的特征供我们检测。

(2)对原始图片,使用目前流行的深度学习模型—卷积神经网络(CNN)分类的方法进行训练,预测效果也不行,原因也是因为检测图片具有复杂多样性。

(3)对原始图片,研究其RGB分布规律,进行统计分析,效果也很差。

(4)EXIF信息很容易因为数据格式间的转换,不同设备间的传输而破坏,实际中很难具有通用性。

解决以上问题及缺陷的难度为:要检测的图片具有复杂多样性,使其无论在原始空间域上采用图片分类模型(CNN)或研究其RGB分布规律,还是在频域使用谱分析、滤波等传统技术手段都不具有可行性。

解决以上问题及缺陷的意义为:本算法绕开了以上问题,发明了一种新的基于像素点检测的算法,可以简单、准确、快速的对手机截图、电脑截图、电子文档进行识别。

发明内容

为克服相关技术中存在的问题,本发明公开实施例提供了一种对图像截图、电子文档的识别方法、系统、终端、介质。尤其涉及一种基于像素点检测的对手机截图、电脑截图、电子文档的识别方法,所述技术方案如下:

根据本发明公开实施例的第一方面,提供一种基于像素点检测的对手机截图、电脑截图、电子文档的识别方法,应用于信息数据处理终端,所述基于像素点检测的对手机截图、电脑截图、电子文档的识别方法包括:

所述信息数据处理终端获取的图像的四个边中只要有一个边的边框处的某行或某列像素值完全等于其最邻近的某行或某列的像素值,则判定该图片不是在正常情况下拍摄的。原因在于即便在一个很亮或很暗的环境中,拍摄出的照片一行或一列会包含上千个像素点,其与最邻近行或列的像素点值完全相等,这在实际拍摄成像中几乎是不可能事件。

其中,为了确保准确,在判断条件之后再检测一下图片的EXIF信息(没有则跳过该步骤直接输出上一步判定结果,并保存),如果没有曝光时间('ExposureTime')这个属性的话,则进一步认定其为目标图片,将其保存起来。

所述信息数据处理终端包括:手机、电脑、摄像头或能获取图像信息的智能拍摄设备。

所述基于像素点检测的对手机截图、电脑截图、电子文档的识别方法进一步包括:

所述信息数据处理终端以图片尺寸为960×1708为例,检测二个边框处点的像素值,在尺寸960边,如果第1列与第2列所含点的像素值都相等;或者在尺寸1708边,如果第1行与第2行所含点的像素值都相等,则认为所述图片为目标图片。这里的目标图片指手机截图、电脑截图、电子文档。

根据本发明公开实施例的第二方面,提供一种基于像素点检测的对手机截图、电脑截图、电子文档的识别系统,应用于信息数据处理终端,所述基于像素点检测的对手机截图、电脑截图、电子文档的识别系统包括:

图像像素值获取模块,用于获取图像边框处及其最邻近的某行或某列的像素值;

目标图片判定模块,用于对图像像素值获取模块获取的像素值进行判定,检测边框处某行或某列的像素值是否完全等于其最邻近的某行或某列的像素值,完全相等则为目标图片。

优选地,所述基于像素点检测的对手机截图、电脑截图、电子文档的识别系统进一步包括:

目标图片进一步核实模块,用于判定获取的图像照片为目标图片后,如果该图片还存在EXIF信息(没有则跳过该步骤直接输出上一步判定结果,并保存)则再检测其EXIF信息,若没有曝光时间,则进一步认定为该获取的图像照片为目标图片;

储存模块,用于对目标图片进一步核实模块核实后的结果进行保存。

根据本发明公开实施例的第三方面,提供一种信息数据处理终端,所述信息数据处理终端实施基于像素点检测的对手机截图、电脑截图、电子文档的识别方法。

根据本发明公开实施例的第四方面,提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:

信息数据处理终端获取的图像四个边中只要有一个边的边框处某行或某列像素值完全等于所述边框处最邻近的某行或某列的像素值,则判定该获取的图像照片为目标图片;

判定该获取图像照片为目标图片后,如果该图片不存在EXIF信息,则跳过该步骤直接输出上一步判定结果,并保存;

如果该图片还存在EXIF信息,则再检测其EXIF信息,若没有曝光时间,则进一步认定该获取的图像照片为目标图片,并保存。

根据本发明公开实施例的第五方面,提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述基于像素点检测的对手机截图、电脑截图、电子文档的识别方法。

本发明公开的实施例提供的技术方案可以包括以下有益效果:

随着人工智能、大数据的发展,对各种图片审核业务的需求变得越来越多,本专利的应用场景中,每天要面对线上数万张图片的审核,如何快速识别出目标图片变得至关重要。这里,目标图片是指图片的手机截图、电脑截图以及电子文档,为不合法图片;合法图片是指摄像头直接拍摄的各种资料,比如各种证明。

因为不需要遍历一张图片的所有像素点,而只需要检测边框处的信息,所以本发明的检测速度会很快,在实际测试中精度超过95%,召回率85.3%(线上随机测试10831张图片,本算法检测297张不合格,包括:手机截图、电脑截图、电子文档。297张中人工判断285张为不合格,在10831中人工判断334张为不合格),又快又好的实现了检测需求,这是本算法的优点。

但也有一些情况是本算法目前无法检测的,究其原因是该图片边框处的像素值分布不再单一,不再具有第1行(列)的像素值等于第2行(列)的像素值这样的性质。

本发明快速准确的检测出手机截图、电脑截图、电子文档。本发明的核心思想是检测图片边框处两行或两列的像素值是否完全一样,以一种简单的方法,解决现有技术存在的各种复杂情况。

结合实验或试验数据和现有技术对比得到的效果和优点:如图3:

输入:若干张图片,放在111文件夹下。

输出:返回是手机截图或电脑截图或电子文档的图片名称,并打印算法检测的时间。

当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,显示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的基于像素点检测的对手机截图、电脑截图、电子文档的识别方法流程图。

图2是本发明实施例提供的基于像素点检测的对手机截图、电脑截图、电子文档的识别系统示意图。

图2中:1、图像像素值获取模块;2、目标图片判定模块;3、目标图片进一步核实模块;4、储存模块。

图3是本发明实施例提供的算法检测时间界面图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示,本发明提供一种基于像素点检测的手机截图、电脑截图、电子文档的识别方法,应用于信息数据处理终端,包括:

S101,信息数据处理终端获取的图像的四个边中只要有一个边的边框处的某行或某列像素值完全等于最邻近的某行或某列的像素值,则判定为该获取的图像照片为目标图片。

S102,判定为该获取的图像照片为目标图片后,如果该图片还存在EXIF信息(若没有则跳过该步骤直接输出上一步判定结果,并保存)则再检测其EXIF信息,若没有曝光时间,则进一步认定为该获取的图像照片为目标图片,并保存。

在本发明中,所述信息数据处理终端包括:手机、电脑、摄像头或能获取图像信息的智能拍摄设备。

作为优选实施例,基于像素点检测的对手机截图、电脑截图、电子文档的识别方法进一步包括:

所述信息数据处理终端以图片尺寸为960×1708为例,检测二个边框处点的像素值,在尺寸960边,如果第1列与第2列所含点的像素值都相等;或者在尺寸1708边,如果第1行与第2行所含点的像素值都相等,则认为所述图片为目标图片。

如图2所示,在本说明中,提供一种基于像素点检测的对手机截图、电脑截图、电子文档的识别系统,应用于信息数据处理终端,包括:

图像像素值获取模块1,用于获取图像边框处及其最邻近的某行或某列的像素值;

目标图片判定模块2,用于对图像像素值获取模块获取的像素值进行判定,检测边框处某行或某列的像素值是否完全等于其最邻近的某行或某列的像素值,完全相等则为目标图片。目标图片进一步核实模块3,用于判定获取的图像照片为目标图片后,如果该图片还存在EXIF信息(若没有则跳过该步骤直接输出上一步判定结果,并保存)则再检测其EXIF信息,若没有曝光时间,则进一步认定为该获取的图像照片为目标图片;

储存模块4,用于对目标图片进一步核实模块核实后的保存。

下面结合具体实施例对本发明的技术方案作进一步描述。

实施例

本发明公开实施例所提供的基于像素点检测的对手机截图、电脑截图、电子文档的识别方法核心思想是认为截图或电子文档中会存在一些像素值都一样的规则连通区域,考虑到实际情况及算法的速度,常检测图像边框处的第1行或第1列与其临近行或列的像素值是否相等,因为正常拍摄时即使有细微的、人眼无法分辨的差异其与邻近行或列的像素点值也不太可能完全一样。

具体地,本发明公开实施例所提供的基于像素点检测的对手机截图、电脑截图、电子文档的识别方法包括:

图像的四个边中只要有一个边其边框处的某行或某列像素值完全等于其最邻近的某行或某列的像素值,则认为该照片不是正常情况下拍摄的。原因在于即便在一个很亮或很暗的环境中,拍摄出的照片一行或一列会包含上千个像素点,其与最邻近行或列的像素点值完全相等,这在实际拍摄成像中几乎是不可能事件。

其中,为了确保准确,在判断条件之后再检测一下图片的EXIF信息(若没有则跳过该步骤直接输出上一步判定结果,并保存),如果没有曝光时间('ExposureTime')这个属性的话,则进一步认定其为目标图片,将其保存起来。

在10,831张图片上测试,其准确率超过95%,且速度也很快。原因是为了速度,只检测图像边框处的像素值,从实际测试情况看,这足以覆盖大部分情况,召回率为85.3%。

在本发明手机截图检测的示例中,其尺寸为960×1708,这里检测了二个边框处点的像素值:在尺寸960这个边,如果第1列与第2列所含点的像素值都相等(这样共检测了1708对像素点);或者在尺寸1708这个边,如果第1行与第2行所含点的像素值都相等(这样共检测了960对像素点),则认为其为目标图片,算法检测时间:0.03秒(Intel Core i5,1.4GHz),如图3。其中图3说明:

输入:若干张图片,放在111文件夹下。

输出:返回是手机截图或电脑截图或电子文档的图片名称,并打印算法检测的时间。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

相关技术
  • 截图、电子文档的识别方法、系统、终端、介质
  • 一种通用文档识别方法、系统、终端及存储介质
技术分类

06120113022435