一种电子卷宗材料上传和识别并行的方法及系统

文献发布时间：2023-06-19 12:07:15

技术领域

本发明属于大数据处理领域，涉及一种电子卷宗材料上传和识别并行的方法及系统。

背景技术

在电子卷宗随案同步生成中，用户进行电子卷宗的材料上传自动归目的常规流程是用户上传一批材料，接着系统对上传后的这批材料进行OCR识别，识别后进行自动分目逻辑处理然后系统把对应的材料分配到指定的目录。

在这个过程中，用户会进行两次等待，第一次是在材料上传时，第二次是在OCR识别和自动归目分配时，基于两个必要流程，如100张图片上传需要30秒，识别需要30秒(例子按20QPS，单图片6秒计算)，总花60秒，用户需要等待两个流程串行任务时间总合，材料越多，时间花费越长。

发明内容

有鉴于此，本发明的目的在于提供一种电子卷宗材料上传和识别并行的方法及系统。

为达到上述目的，本发明提供如下技术方案：

一种电子卷宗材料上传和识别并行的方法，该方法包括以下步骤：

S1：在用户进行批量材料上传时，按时间段对上传的材料进行分组，在上传材料时，发送识别任务；

S2：光学字符识别OCR接到识别任务后，进行OCR识别，并改变识别状态，标记任务为“材料识别中”；

S3：不断接受分组材料识别材料，待最后一组材料发送到OCR识别任务，标记材料为“接收完毕”；

S4：OCR识别完最后一批材料，调用自动归目算法，实现电子卷宗材料按目录进行归类和标识。

可选的，所述S1中，在发送识别任务时，还发送分组材料的批次信息用于任务状态识别，批次信息包括批次序号和是否最后批次。

可选的，所述识别任务为：

字段名称为id，字段类型为int，字段含义为记录id，为主键；

字段名称为Dabs，字段类型为Varchar(50)，字段含义为记录卷宗编号，不是主键；

字段名称为Fydm，字段类型为Varchar(10)，字段含义为法院代码，不是主键；

字段名称为Ajbs，字段类型为Varchar(5)，字段含义为案件标识，不是主键；

字段名称为zt，字段类型为int，字段含义为：状态为0时，表示材料接收中，状态为1时，表示材料接收完毕，状态为2时，表示材料识别完毕，不是主键；

字段名称为Recive_begin，字段类型为datetime，字段含义为任务开始接收时间，不是主键；

字段名称为Recive_end，字段类型为datetime，字段含义为任务结束接收时间，不是主键；

字段名称为Ocr_begin，字段类型为datetime，字段含义为识别开始时间，不是主键；

字段名称为Ocr_end，字段类型为datetime，字段含义为识别结束时间，不是主键；

字段名称为File_count，字段类型为int，字段含义为材料总数，不是主键。

可选的，所述OCR识别服务接收材料并识别时，直到完成带有“是否最后批次”信息的分组材料后，再行调用自动归目算法完成自动归目。

可选的，所述自动归目算法为：

将数据分成两个单独的集合：训练集合和测试集合；

训练集合用于训练机器学习模型的样本；

测试集合用于检查机器学习模型如何处理看不见的数据在训练过程中的样本；

使用90％的数据形成训练集合进行训练，并使用10％的数据形成测试集合进行测试；

采用决策树、逻辑回归、随机森林和神经网络训练机器学习模型。

可选的，在发送识别任务时，按一个时间段为时间窗，把上传上来的材料进行分组融合并发送识别任务。

可选的，所述时间段为2S。

可选的，在所述S4中，对任务状态进行管理，当所有待识别的任务发送完毕时，状态会变为接收完毕，只有在这个状态下并且材料全部识别完成时才会进入下一个阶段的自动归目任务。

种计算机系统，包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-8任一项所述的方法。

一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法。

本发明的有益效果在于：本发明从用户第一时间窗材料上传的完成后随即进行识别任务，让材料上传与OCR识别并行，减少OCR识别任务的等待时间，以达到减少总耗时的目的。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明流程图；

图2为本发明并行流程图；

图3为分组任务状态识别流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

一、材料上传同时进行OCR识别、归目任务

整体上传、状态维持、并行任务流程如图1和2所示，系统会在用户进行批量上传时分组发送识别任务以达到并行减少用户总体等待的目的。

二、识别任务状态维持和判断

在图3分组任务状态识别流程中可以看到，当用户进行批量材料上传时分组的任务会带有状态参数发送到OCR识别任务中，任务会通过传入状态判断是继续接收材料还是结束接收进行自动归目的分配。

表1识别任务ocr_task列表

本发明是一种电子卷宗批量材料上传时并行自动归目识别的解决方案，该方案包括：卷宗材料上传分时识别方案是从用户第一时间窗材料上传的完成后随即进行识别任务，让材料上传与OCR识别并行，减少OCR识别任务的等待时间，以达到减少总耗时的目的。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的一种电子卷宗材料上传和识别并行的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王杰华;蒋昆;杨洪;
专利申请人：上海交大慧谷通用技术有限公司;

上一篇：一种增强绝缘表面附着力的工艺及装备
下一篇：一种脑波智能驾驶系统