从视频图像进行文档检测

文献发布时间：2023-06-19 11:27:38

背景技术

用户扫描文档以将纸件文档保存为电子文件。与实体地打印的文档相比电子文件更容易存储和管理。文档可以是由各种设备扫描的。例如，平台式扫描仪或多功能设备可以扫描插入到机器中的文档。最近，与扫描仪相反正在使用移动设备。例如，用户可以拍照文档的照片，并且文档可以被保存为图像。

附图说明

图1是本公开的示例系统的框图；

图2是本公开的用于从视频图像检测多个文档的示例装置的框图；

图3是本公开的在从视频图像检测和跟踪多个文档时装置的示例显示的框图；

图4是本公开的用于从视频图像检测和跟踪多个文档的示例方法的流程图；以及

图5是存储由处理器执行以从视频图像检测和跟踪多个文档的指令的示例非暂态计算机可读存储介质的框图。

具体实施方式

在此描述的示例提供用以自动地检测和跟踪由移动终端设备捕获的视频图像内的多个文档的装置和方法。如在上面讨论的那样，移动终端设备被用于捕获文档的图像，而不是在传统的扫描仪中扫描图像。然而，当在单个图像中包括了多个文档时，文档可能不被分离成分离的文件或图像。分离地捕获每个文档的图像可能是乏味并且耗时的。

在此的示例提供了一种装置，其能够自动地检测和跟踪由移动终端设备捕获的视频图像内的多个文档。例如，用户可以在实况视频捕获中捕获若干个不同的文档。移动终端设备可以分析视频图像的每个帧以标识每个文档或多个文档。移动终端设备于是可以在视频图像被连续地捕获的同时跟踪每个文档或多个文档。

在一个示例中，移动终端设备可以提供围绕在视频图像中被检测和跟踪的文档的可视指示符。如果可视指示符正确地标识视频图像中的每个文档，则用户可以拍照文档的静止照片。移动终端设备于是可以针对在视频图像中被检测和跟踪的每个文档生成分离的文件或图像。作为结果，用户可以使用由移动终端设备捕获的单个图像“扫描”多个文档。

图1图示本公开的用以从视频图像检测多个文档的示例系统100。在一个示例中，系统100可以包括移动终端设备102。移动终端设备102可以是智能电话、平板计算机等。

移动终端设备102可以被用于捕获多个文档106

在一个示例中，文档106可以是任何类型的实体文档或纸件。移动终端设备102可以捕获文档106的视频图像108，并且针对文档106

换句话说，可以从包含多个文档的视频图像108生成分离的电子文件110。换句话说，移动终端设备102可以针对在视频图像108的单个帧中捕获的每个文档106生成分离的电子文件110。

为了说明，视频图像108可以包括三个文档106。可以分析视频图像108(如在下面进一步详细讨论的那样)以检测三个文档106中的每个文档。然后每个文档可以被从视频图像108分离出来并且被转换成分离的电子文件110。换句话说，文档106的分离的电子文件110可以是从多个文档106的单次同时扫描生成的。

然后可以存储电子文件110以用以稍后使用。例如，表示不同的文档106的每个电子文件110可以是与在相同的视频图像108中捕获的其它文档106分离地查看或处理的。

图2图示本公开的移动终端设备102的框图。在一个示例中，移动终端设备102可以包括处理器202、检测设备204、跟踪设备206、显示器104和视频相机208。应当注意，移动终端设备102已经被简化以便于解释，并且可以包括未示出的附加组件。例如，移动终端设备102可以包括非暂态计算机可读介质(例如，随机存取存储器、只读存储器、硬盘驱动器等)、无线电收发器、通信接口、电力源或电池等。

在一个示例中，处理器202可以被通信地耦合到检测设备204、跟踪设备206、显示器104和视频相机208。处理器202可以控制检测设备204、跟踪设备206、显示器104和视频相机208的执行。例如，处理器202可以执行存储在存储器中的用以控制与检测设备204、跟踪设备206、显示器104和视频相机208相关联的操作的指令。

在一个示例中，视频相机208可以是任何类型的红、绿、蓝(RGB)视频相机。视频相机208可以被用于捕获实况视频(例如，连续的视频帧序列)或捕获照片(例如，静止图像)。由视频相机208捕获的图像可以被显示在显示器104上。在一个示例中，视频相机208可以被用于捕获文档106的视频图像108，如在上面描述和在图1中图示那样。

在一个示例中，由视频相机208捕获的图像可以被转发到检测设备204和跟踪设备206(例如，经由处理器202)。检测设备204可以分析视频图像108的每个帧，以检测视频图像108中的文档106中的每个文档。跟踪设备206可以分析视频图像108的帧序列，以跟踪由检测设备204标识的每个文档106。

在一个示例中，在检测到文档之后，显示器104可以经由显示器104将检测到的文档106标识给用户。图3图示显示器104的示例图形用户界面(GUI)。在一个示例中，用户可以将移动终端设备102保持在文档106上方以使得视频相机208可以捕获视频图像302。

在一个示例中，移动终端设备102可以包括可以检测光的量、对比度、颜色饱和度等的传感器。视频相机208可以基于由传感器采集的信息自动地调整设置(例如，亮度、焦距、曝光补偿、曝光长度等)。在示例中，移动终端设备102可以包括闪光灯。如果传感器指示周围或环境光不足以捕获文档106的正确的视频图像，则处理器202可以引起闪光灯提供附加的光。

视频相机208可以捕获视频图像302。视频图像302可以被由检测设备204分析以检测文档106。跟踪设备206可以在逐帧基础上分析视频图像302，以跟踪在捕获到视频图像302时检测到的文档106。

当检测到文档106时，处理器202可以引起生成围绕在视频图像302中检测到的每个文档106的可视指示符304。例如，可以围绕文档106

在一个示例中，可视指示符304可以是围绕文档106中的每个文档的相同的颜色或形状。在另一示例中，可视指示符304可以是围绕文档106中的每个文档的不同的颜色、不同的形状或者这两者的组合。

可视指示符304可以在显示器104中向用户提供用以确认文档106已经被正确地标识的提示。如果用户满意文档106已经被正确地标识，则用户可以按压快门按钮306以经由视频相机208捕获文档106的静止图像。

当在视频相机208的视野内添加或移除文档时，检测设备204和跟踪设备206可以即时地标识新的文档106。当检测到新的文档或文档被移除时，可以随着视频图像302被捕获而动态地添加或移除可视指示符304。

在一个示例中，文档106的静止图像然后可以被处理以从静止图像中分离出每个文档106。然后可以针对从捕获自视频图像302的静止图像分离出的每个文档106生成分离的电子文件110。

如在上面讨论的那样，检测设备204可以分析视频图像108或302的每个帧以检测每个文档106。在一个示例中，检测设备204可以对视频的帧或图像执行预处理。预处理可以包括移除颜色或将帧从彩色图像转换成灰度图像，或者对图像应用模糊以消除高频噪声(例如，3×3高斯模糊核、双边滤波等)。

检测设备204还可以检测视频帧中的边缘。可以通过分析视频帧的像素并且标识具有亮度上的急剧改变的相邻像素来检测边缘。“急剧改变”可以是由阈值限定的。例如，大于阈值的在相邻像素之间的亮度改变可以被检测为边缘。一些其它边缘检测方法可以包括Canny边缘检测器。

在检测到边缘之后，执行外形检测。外形检测可以分析视频的帧以找到边缘的连接外形以定位页面候选。换句话说，分析被检测为可能的边缘的像素，并且可以遵从作为可能的边缘的像素的路径以形成外形的多边形近似。在找到外形之后，可以使用一组几何约束来确定可以对应于文档或页面轮廓的外形。

在一个示例中，可以被使用的约束可以包括在多边形近似中具有在4和7之间的顶点数量，多边形近似是凸的，多边形近似的面积在用户限定的阈值之上(例如，在合期望的大小或面积之上)，并且多边形近似的至少两个相对的侧是平行的。平行性的量可以是由用户限定的阈值来设置的(例如在0-5度的平行内)。

在一个示例中，检测设备204可以对可以是页面的每个多边形近似执行视角校正。例如，如果文档呈现为在一定方向上旋转或伸长(例如用户以并非垂直于图像的角度握持视频相机208)，则检测设备204可以校正视角。作为结果，文档可以呈现为矩形。

可以是视频帧中的页面或文档的多边形近似的坐标然后可以被转发到跟踪设备206。跟踪设备206然后可以分析视频图像108或302的帧序列，以基于由检测设备204获得的多边形近似的坐标来跟踪可能的文档。

在一个示例中，跟踪设备206可以保持多边形近似(下文中为“多边形”)的列表，多边形近似可以是由检测设备204针对每个帧检测到的可能的文档。相应的多边形列表中的每个多边形可以被在两个帧之间配对。例如，针对视频图像的第一帧的多边形列表可以被与针对视频图像的第二帧的多边形列表配对。换句话说，当前帧的多边形列表可以被与先前帧的多边形列表配对。

在对每个多边形配对之后，可以计算各多边形的质心之间的距离。如果该距离大于距离阈值，则可以利用另一多边形来修复该多边形。换句话说，视频相机208可能已经在视频图像108或302的帧之间移动，并且当前帧中的多边形可能未与先前帧中的多边形正确地配对。

然而，如果距离低于距离阈值，则多边形可以被确定为在帧之间正确配对。可以基于多边形之间的距离来生成内插四边形。在一个示例中，可以使用欧几里德内插。例如，多边形的每个像素的坐标的中点可以被用于创建内插四边形的轮廓。

在一个示例中，内插四边形可以被用于生成围绕相应的文档106的可视指示符304。换句话说，可视指示符304可以是围绕位于配对的多边形之间的距离的中间距离处的区域而绘制的。

在一个示例中，距离本身可以被用于计算多边形是更靠近第一帧还是第二帧。换句话说，可以在没有距离阈值的情况下执行当前帧中的多边形是否与先前帧中的多边形正确地配对的确定。

为了通过示例进行说明，如果距离是x个单位，则x的距离可以被归一化为在0和1之间的值，因为视频帧的大小是已知的，并且因此两个多边形之间的最大可能距离已知。归一化距离可以被用作为用以计算中间多边形的实际位置的权重。换句话说，归一化距离可以是加权平均值。换句话说，通过将距离“x”解释为配对的多边形之间的相似度或不相似度的度量，中间多边形的坐标可以是第一多边形的坐标的“x倍”加上第二多边形的坐标的“(1-x)倍”。作为结果，中间多边形可以是该对的线性混合。最终位置可以是在该对中的两个多边形之间的线中的某个位置。

在一个示例中，可以调整比例以使得距离x可以取决于距离x的最初值而与一个多边形相比更偏好另一多边形。在一种实现中，可以取距离x的平方根，其仍然可以产生在0和1之间的值，但是使权重“弯曲”，使得中间多边形的计算可以与第二多边形相比更偏好第一多边形(例如，先前帧中的多边形)。

在一个示例中，帧可以包括与先前帧相比不同数量的多边形。对于未被配对的多边形，可以将零值添加到具有更少的多边形的帧的多边形列表中。例如，如果第一帧具有10个检测到的多边形并且第二帧具有9个检测到的多边形，则可以利用零值填补针对第二帧的多边形列表。

在一个示例中，可以针对多边形列表中的每个多边形来跟踪存续时间值。存续时间值可以随着不具有对应的多边形来与来自被分析的先前帧的多边形配对的每个后续帧而递减。如果对于多边形而言存续时间值期满，则多边形可以被从列表移除并且被确定为假阳性。

例如，检测设备204可能已经标识出可能是在帧1中的文档的多边形近似。当跟踪设备206分析一系列帧时，在针对帧1的多边形列表中将针对多边形的存续时间值设置为10。检测设备204可能检测不到在帧2中的对应的多边形近似。因此，来自帧1的多边形近似保持未配对，并且存续时间值递减到9。在9个帧之后，没有检测到对应的多边形近似。作为结果，来自帧1的多边形近似可以被移除并且被标识为假阳性。

检测设备204和跟踪设备206可以针对由视频相机208捕获的每个视频帧连续地重复上面描述的功能。如上面指明那样，当用户确认已经在显示器104中示出的视频图像302中正确地标识了文档时，用户可以按压快门按钮306以捕获静止图像。检测设备204和跟踪设备206于是可以停止处理视频帧。可以分析静止图像，并且可以分离在静止图像中标识的文档106以形成在视频图像108或302中的相应的文档106的分离的电子文件110。

图4图示用于从视频图像检测和跟踪多个文档的示例方法400的流程图。在示例中，方法400可以是由在图5中图示并且在下面描述的装置100或装置500执行的。

在框402处，方法400开始。在框404处，方法400捕获多个文档的视频图像。例如，用户可能想要扫描多个文档以形成文档的电子版本。然而，并非分离地扫描每个文档，方法400可以捕获多个文档的单个视频图像，并且从该单个视频图像生成每个文档的分离的电子文件。

在框406处，方法400在视频图像的每个帧中检测多个文档。在一个示例中，移动终端设备中的检测设备可以检测视频图像的每个帧内的每个文档。例如，对于视频图像的每个帧，可以执行预处理、边缘检测和外形检测。然后，可以基于边缘检测和外形检测来检测每个文档。

在一个示例中，预处理可以包括从视频图像的帧中移除颜色并且应用模糊来消除高频噪声。在一个示例中，方法400还可以对被检测到的多个文档中的每个文档执行视角校正。例如，一些文档可能被部分地旋转，或者图像可能已经被以引起失真的角度捕获。

在框408处，方法400跟踪在视频图像的每个帧中检测到的多个文档。例如，可以从一帧到另一帧地跟踪每个文档以确保文档被正确地标识。换句话说，假设视频相机相对静止，所标识的文档应当具有最小的从一帧到另一帧的移动。

在一个示例中，可以通过保持在视频图像的每个帧中检测到的多边形的列表来跟踪文档。来自于来自第一帧的多边形列表的每个多边形然后可以被与第二帧中的相应的多边形列表中的每个多边形配对。第一帧和第二帧可以是相继的帧。

如在上面描述的那样，可以计算被配对的多边形之间的距离。然后可以围绕位于所计算的距离的中间距离处的区域绘制可视指示符。

如在上面指明的那样，如果两个帧之间的多边形列表不同，则可以将零值添加到具有更低数量的多边形的多边形列表中。可以对被与零值配对的每个多边形分配存续时间值。如果在存续时间值达到0之前没有在视频图像的与具有存续时间值的多边形配对的后续帧中找到多边形，则那么可以将多边形从多边形列表中移除。换句话说，多边形可能已经是在帧中检测到的假阳性。

在框410处，方法400显示围绕被检测和跟踪的多个文档中的每个文档的可视指示符。可视指示符可以向用户提供指示已经在视频图像中标识了文档的提示。

在框412处，方法400响应于接收到基于可视指示符正确地检测到多个文档中的每个文档的指示而捕获多个文档的照片。例如，如果用户相信在框410中正确地标识了文档，则用户可以按压快门按钮以捕获静止图像。视频帧的处理可以被重复(例如，框404-410)，直到快门按钮被激活以指示正确地检测到了文档。

在框414处，方法400针对多个文档中的每个文档生成分离的图像。换句话说，可以从包含所有文档的单个视频图像生成针对每个文档的分离的文件。作为结果，用户不需要捕获每个文档的分离的照片来扫描文档并且生成电子文件。相反，用户可以将所有文档放置在视频相机的视野内，并且移动终端设备可以自动地针对每个文档生成分离的电子文件。在框416处，方法400结束。

图5图示装置500的示例。在示例中，装置500可以是装置100。在示例中，装置500可以包括处理器502和非暂态计算机可读存储介质504。非暂态计算机可读存储介质504可以包括指令506、508、510、512和514，当由处理器502执行时，这些指令引起处理器502执行各种功能。

在示例中，指令506可以包括用以检测视频图像中的多个文档的指令。指令508可以包括用以跟踪视频图像的每个帧中的多个文档的指令。指令510可以包括用以显示围绕被检测和跟踪的多个文档中的每个文档的轮廓的指令。指令512可以包括用以响应于围绕多个文档中的每个文档正确地绘制了轮廓的确认而捕获多个文档的图像的指令。指令514可以包括用以针对多个文档中的每个文档生成分离的图像的指令。

将领会的是，上面公开的和其它的特征和功能或者它们的替换的各种变型可以被组合成许多其它不同的系统或应用。本领域技术人员随后可以作出各种目前未预见或未预期的替换、修改、变化或其改进，这些也意图被由随后的权利要求涵盖。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：R·F·B·皮科利;R·里巴尼;V·拉佛卡德;J·F·C·D·梅洛;R·博尔赫斯;
专利申请人：惠普发展公司有限责任合伙企业;