掌桥专利:专业的专利平台
掌桥专利
首页

一种基于Faster R-CNN算法的图书盘点方法及系统

文献发布时间:2023-06-19 09:47:53


一种基于Faster R-CNN算法的图书盘点方法及系统

技术领域

本发明属于人工智能领域,具体涉及一种基于Faster R-CNN算法的图书盘点方法及系统。

背景技术

图书的流通、搬迁以及大规模开架借阅模式下读者对图书的随意放置,都有可能造成图书的实际信息与馆藏信息不符,比如经常会出现读者在图书馆书目检索系统中查到某书在馆,但到对应架位却无法找到此书的情况,影响了图书的借阅。

图书盘点作为图书馆的一项基础性的常态化工作,有助于馆员了解本馆纸质资源的情况。通过盘点,工作人员可以准确掌握图书的数量、位置以及在架情况,提高图书馆的服务水平和管理质量;但盘点往往需要耗费大量的人力和时间。

现有技术中,利用机器人进行图书盘点,具有无人值守,非接触、高效等优势,可以突破传统图书盘点方式的瓶颈问题,比如人力、注意力、耐心、时间、设备、成本等,能够使图书盘点工作得到根本性的改善,也让常规化的图书盘点成为可能。但也存在一些问题,机器人在未来很长一段时间都不能大范围普及应用,并且机器人读取信息的准确率、定位算法、纠错能力、与人的互动方面都存在优化的空间。

针对上述技术问题,本发明提供一种基于Faster R-CNN算法的图书盘点方法及系统,本案由此产生。

发明内容

本发明的目的在于提供一种基于Faster R-CNN算法的图书盘点方法,以解决图书盘点往往需要耗费大量的人力和时间的技术问题;

为实现上述目的,本发明具体提供的技术方案为:一种基于Faster R-CNN算法的图书盘点方法,包括步骤一;图像采集设备采集书架图书图像;步骤二:将书架图书图像传输至图像处理单元;步骤三:图像处理单元通过Faster R-CNN算法对采集的书架图书图像处理至符合图像识别;步骤四:把采集的图像信息还原为数字书架;步骤五:将数字书架传输至图像采集设备进行可视化的盘点整理书架。

进一步,所述Faster R-CNN算法对应的图书标签为二维码。

进一步,所述Faster R-CNN算法包括如下步骤:

步骤一:在整个图像上使用一个CNN,提取出特征图;

步骤二:区域候选网络,通过网络训练的方式从特征图中获取目标的大致位置;

步骤三:池化,利用前面获取到的位置,从特征图中抠出要用于分类的目标,并池化成固定长度的数据。

步骤四:将池化后的卷积特征送到全连接层进行分类和回归。

进一步,所述步骤二中的区域候选网络包括如下步骤:

一、把特征图分割成多个小区域,识别出哪些小区域是前景,哪些是背景,并打上对应的标签,对RPN进行训练使它对任意输入都具备识别前景、背景的能力;

二、边框回归,用于获取前景区域的大致坐标,通过训练anchor 与目标窗口之间的偏移量,得到所有候选框的位置和尺寸,即卷积特征。

进一步,所述池化为任意大小的卷积特征转换成固定长度的向量。

进一步,图像采集设备对书架图书连续采集形成若干书架图书图像,若干书架图书图像中包括图书的标签及所在书架、层架的信息。

进一步,所述图书的标签包括图书的位置、顺序和图书内容信息。

进一步,结合图书书库、图书层架,图书在架信息,图书元数据把采集的信息还原为数字书架。

进一步,通过可视化数字书架与图书在书架的信息对比进行盘点统计,完成书架整理。

本发明的另一目的在于提供一种图书盘点系统,以解决现有技术中机器人读取信息的准确率、定位算法、纠错能力、与人的互动方面都存在优化的空间。

为实现上述目的,本发明具体提供的技术方案为:一种基于Faster R-CNN算法的图书盘点系统,包括

图像采集单元,用于采集、存储和传输书架图像;

图像处理单元,通过Faster R-CNN算法用于处理图像、检测图像、识别图书标签;

数据应用单元,用于把图书标签信息进行整理,并结合原始图像,还原为数字书架,进行书架可视化管理和统计。

上述方案的实现,本发明相对于现有技术的优点为:

一、实施成本低,馆员在应用程序中,用手机相机对书架进行逐层拍照即可。而RFID盘点设备价格昂贵,通常馆里购买数量有限。而且,与RFID标签相比,一维/二维条码标签的成本具有绝对的优势。

二、实施过程简单,对图书使用RFID进行盘点管理,需要对图书以集中的方式实施RFID标签的加工,同时需调试各种RFID设备:盘点车、手持盘点设备等等。而采用深度神经网络的盘点技术,只需要在图书脊背上粘贴带有一维或二维的条码即可。

三、运行维护简单,相比RFID盘点车、手持设备等软件和硬件系统的维护,基于深度神经网络的盘点技术仅需软件形态的盘点系统和条码,其维护难度大大下降。

四、业务门槛较低,RFID盘点技术需对馆员进行长时间的技术培训,同时还需进行业务流程的变更才能实现。而基于深度神经网络的图书盘点技术只需馆员具备基本的拍照能力,能拍摄较为清晰的层架图片,便可由服务器完成层架图书的盘点。

五、可识别架上图书的顺序,RFID盘点技术受射频信号不稳定性的影响,无法准确的获取图书在层架中的先后顺序,而基于深度神经网络的图书盘点技术通过一维/二维条码在照片中的位置,可对架上的图书进行准确的排序。

六、盘点准确度高,基于实验和数据分析,验证了基于深度神经网络的图书盘点与RFID盘点相比,其盘点准确率达到99%以上,平均每本书耗时不到1秒。RFID技术由于射频信号的发散性,读写设备经常会误读到其它层位的图书,RFID标签易受钢制书架屏蔽、反射影响,影响了盘点结果。

七、盘点速度较快,基于深度神经网络的图书盘点速度平均每本图书小于1秒,同照片中条码越多则盘点速度越快。与RFID盘点技术相比,此技术速度优势明显。

八、适用性较强,RFID盘点技术对于异形书、超大开本等无法正常摆放的图书,只能借助图像采集、图像识别和机器学习技术来完成盘点。而基于深度神经网络的图书盘点技术仅通过照片即可完成异形书、超大开本等图书的盘点。

九、与其他系统兼容性较好,既可与图书馆的磁条防盗系统兼容,实现图书的借阅、盘点和防盗;也可与RFID防盗系统兼容,实现图书的借阅、盘点和防盗;更可与其他自动化系统(如机器人盘点) 对接,仅需该类设备提供层架图片即可。

十、可还原盘点现场,基于深度神经网络的盘点技术可对层架照片进行长期保存,如遇到图书缺失的情况,馆员调取图片即可完成图书的核查。而RFID盘点技术中,RFID信号采集为一次性的,无法还原盘点现场,从而大大增加了盘点核查的工作量。

本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1为本发明一实施例的系统构成示意图;

图2为本发明一实施例的方法流程示意图;

图3为本发明一实施例的图像采集示意图;

图4为本发明一实施例的Faster R-CNN算法示意图;

图5为本发明一实施例的RFID、一维条码、二维条码的盘点准确率对比图;

图6为本发明一实施例的RFID、一维条码、二维条码的盘点召回率对比图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,一种基于Faster R-CNN算法的图书盘点系统,包括

S101图像采集单元,用于采集、存储和传输书架图像;

S102图像处理单元,用于处理图像、检测图像、识别图书标签;

S103数据应用单元,用于把图书标签信息进行整理,并结合原始图像,还原为数字书架,进行书架可视化管理和统计。

其中,图像处理单元和数据应用单元一般为计算机中运用,但不限于计算机。

如图2所示,一种基于Faster R-CNN算法的图书盘点方法

S201采集图像,使用图像采集设备,对书架照片进行连续采集,并记录照片的顺序、所在的书架、层架等信息。

图像采集过程中,需综合考虑现场光线、图书排放、书籍污损、干扰物等情况,保证采集的图像清晰、图书标签无遗漏。

S202存储图像,对采集的图像文件进行存储,存储过程中需注意设备的性能、容量、寿命、经济性等。

S203传输图像,在条件允许时,使用合适的数据传输手段,把图像文件传输至图像处理单元。

S204处理图像,对接收到的照片进行处理,使之符合图像识别的要求。

S205检测和识别图像,对处理完成的照片,通过识别深度学习算法进行标签识别。深度学习算法设计和使用了一种灵活的算法引擎,算法引擎中可以根据不同的图书标签、替换为不同的算法内核,如 SSD、Fast R-CNN、ResNet、Mask R-CNN、rfcn-rcnn、SSD-mobile等。通过识别图书标签,可以进一步确定标签所在的位置、顺序和图书标签的内容。

S206还原书架,结合图书书库、图书层架,图书在架信息,图书元数据等,把采集的信息还原为数字书架。

S207盘点统计,通过数字书架,书架图像等,与图书在架信息对比,实现图书错放、漏放、盘亏、盘盈、污损等视角的分析和可视化应用。

结合图4所示,Faster R-CNN是一个典型的深度神经网络模型。它将传统的selective search(选择搜索)提取目标的方法替换成网络训练来实现,并调用GPU的并行计算能力,使得全流程的检测、分类速度大幅提升。

Faster R-CNN算法具体为:

第一步:在整个图像上使用一个CNN,提取出feature map(特征图)。

第二步:RPN(Region Proposal Network,区域候选网络):通过网络训练的方式从feature map中获取目标的大致位置,分两步:(1) RPN classification,把feature map分割成多个小区域(即先验框,称为anchor),识别出哪些小区域是前景,哪些是背景,并打上对应的label,有了labels就可以对RPN进行训练使它对任意输入都具备识别前景、背景的能力;(2)RPN bounding box regression(边框回归),用于获取前景区域的大致坐标,该过程也是个训练的过程,通过训练anchor与目标窗口之间的偏移量,得到所有候选框的位置和尺寸,即ROI(Regions of Interest,候选框在feature map上的位置)。

第三步:ROI Pooling(ROI池化):利用前面获取到的位置,从 feature map中抠出要用于分类的目标,并池化(池化:即把任意大小的卷积特征转换成固定长度的向量)成固定长度的数据。

第四步:将池化后的ROI特征送到全连接层进行分类和回归。

基于深度神经网络的快速盘点框架:针对业内现有盘点方法的缺点,本文采用目标检测算法,提出一种基于深度神经网络的图书盘点框架。该框架使用一维/二维条码作为标签,将标签粘贴在图书脊背上,用手机对层架图书拍照或录制小视频,然后通过目标检测算法识别出照片(或视频帧)中多个一维/二维条码,最后通过条码识别来实现图书编码的读取。其中,一维条码可采用EAN码、39码、128码、及 Codabar(库德巴码)等,二维条码可采用Data Matrix码,一维/ 二维条码均可满足厘米级图书厚度的盘点需求。

在一维/二维条码标签的基础上,基于深度神经网络的图书盘点框架分三个阶段完成在架图书的盘点:

检测阶段:通过目标检测算法完成目标(条码)所在区域的检测;排序阶段:截取检测目标(条码)并根据目标(条码)坐标进行排序;

识别阶段:读取目标(条码)数值,并计算盘点结果。

在上述三阶段中,最核心的检测阶段采用目标检测算法中常见的 Faster R-CNN模型或SSD-ResNet模型。前者是two-stage方法,用于二维条码的检测,主要思路是先通过CNN(Convolutional Neural Networks,卷积神经网络)产生一系列稀疏的候选框,然后对这些候选框进行分类与回归,优势是准确度高;后者是 one-stage方法,用于一维条码的检测,思路是均匀地在图片的不同位置进行密集抽样,抽样时可采用不同尺度和长宽比,然后利用 CNN提取特征后直接进行分类与回归,整个过程只需要一步,优势是速度快,图像分辨率比较低,也能保证检测的精度。

接下来对现有技术和本发明实施例的盘点速度及优点进行论述:

实验环境和过程:实验对三类图书进行了盘点,其中RFID盘点技术选择高校图书馆常用的带有超高频标签的图书;对于二维条码,采用基于Faster R-CNN的图书盘点技术,;对于一维条码,采用基于 SSD-ResNet的图书盘点技术,仅将二维条码替换为一维条码。

测试环境由10个书架共计2137本图书构成。在测试中,先后对此10个书架进行了10次盘点测试,每次测试时随机抽取100本图书模拟借出的图书。为模拟真实场景,书架上图书包括排列整齐的图书和倾斜一定角度的图书

实验中,RFID图书盘点的过程由馆员使用手持RFID盘点设备,通过手持RFID读头逐层逐本扫描完成盘点;基于深度神经网络的图书盘点,由馆员使用华为P30手机对图书层架进行拍照并上传至原型系统中。

实验结果:为了评估实验效果,我们对基于深度神经网络的图书盘点方式与基于RFID的图书盘点方式进行了对比测试实验,对比指标为系统的盘点速度、准确率、精确率、召回率四个方面。

盘点速度:RFID盘点与基于深度神经网络的盘点实验结果如表2 所示。10次实验中,RFID盘点平均用时为1109.2秒,二维条码盘点平均用时为720.6秒,一维条码盘点平均用时为723.5秒。从表1可知,基于深度神经网络的盘点技术在速度上明显优于RFID盘点技术,约为RFID盘点的65%左右,即基于深度神经网络的盘点技术在速度上提升约35%。

表1 RFID、一维条码、二维条码盘点的速度对比

盘点性能:对盘点性能采用准确率、精确率、召回率三个指标进行评价。首先引入样本的4个统计属性:

TP:True Positive,即盘点系统判断正确,这本书在架上;

TN:True Negative,即盘点系统判断正确,这本书不在架上;

FP:False Positive,即盘点系统判断错误,这本书实际是不在架上的,原因可能是RFID读头读穿了层架;

FN:False Negative,即盘点系统判断错误,这本书实际是在架上的,原因可能是RFID标签漏读、一维/二维条码标签未被识别。

表2 RFID、一维条码、二维条码盘点性能的对比

对测试数据集进行实验,得出了每次盘点的统计属性值,如表2 所示。根据表2的4个统计属性,对盘点结果采用准确率(A)、精确率(P)和召回率(R)进行综合评价。评价指标公式定义如下:

根据表2和式1可得出三类图书盘点的准确率、精确率和召回率。在精确率方面,RFID盘点精确率约为94.1%,一维条码、二维条码盘点的精确率均为100.0%。也就是说基于深度神经网络的图书盘点技术能够较为正确的识别出所有在架图书,相比RFID图书盘点提高了将近6个百分点。

在准确率和召回率方面,根据表2的结果,图5、图6分别给出了三类图书盘点在准确率与召回率的对比。在盘点准确率方面,RFID 图书盘点约为90.7%,基于深度神经网络的一维条码约为99.9%,基于深度神经网络的二维条码约为99.3%。在盘点召回率方面,RFID图书盘点约为95.8%,基于深度神经网络的一维条码约为99.9%,基于深度神经网络的二维条码约为99.2%。也就是说基于深度神经网络的盘点技术的准确程度能达到99%以上,较RFID盘点技术有大幅提升。

相关技术
  • 一种基于Faster R-CNN算法的图书盘点方法及系统
  • 一种基于SSD-ResNet算法的图书盘点方法及系统
技术分类

06120112305330