掌桥专利:专业的专利平台
掌桥专利
首页

一种基于半监督学习的政务文本归档方法及系统

文献发布时间:2024-04-18 19:58:21


一种基于半监督学习的政务文本归档方法及系统

技术领域

本发明涉及机器学习及智慧政务技术领域,具体地说是一种基于半监督学习的政务文本归档方法及系统。

背景技术

随着电子政务的发展,自动化流程在政府系统中的应用更加普遍,无纸化办公已成为必然趋势。然而,当办理业务时,仍然存在大量的纸质材料需要电子化、归档处理;目前采用较多的仍是人工录入归档,而过多的人工干预容易造成归档识别的不确定性,且人工归档效率低。

发明内容

本发明的技术任务是针对以上不足之处,提供一种基于半监督学习的政务文本归档方法及系统,提高政务文本识别归类的准确性,减少因为过多的人工干预造成的识别归档不确定性,进而提高业务服务水平;有助于信息资料电子化,极大地方便政务数据的管理。

本发明解决其技术问题所采用的技术方案是:

一种基于半监督学习的政务文本归档方法,包括手工录入阶段和自动归档阶段,手工录入阶段,在业务办理时,由办理人员扫描材料并输入或者选择标签,后台程序将扫描的材料按照标签存储至指定路径下,完成文本归档;自动归档阶段,由办理人员扫描材料,通过自动校验模块判断材料所属的标签,后台程序根据标签将扫描的材料存储至指定路径下;

自动归档阶段启动自学习机制,首先提取各标签下文本材料的特征向量,然后建立标签与文本材料特征向量的关系,最后将关系表更新到自动校验模块,依次循环往复,实现标签的动态管理;

其中,文本材料来自人工标定文本和自动标定文本,人工标定文本具有确切的文本材料与标签的对应关系,自动标定文本具有不确定性,需要自动标定文本加入惩罚机制,控制噪声文本信息进入训练机;经过训练之后,获取模型,更新至自动校验模块,依次循环往复,实现不间断的模型优化。

本方法将人工录入归档改为自动归档,为政务办事提供极大便捷性;在应用场景中,提高政务文本识别归类的准确性,减少因为过多的人工干预造成的识别归档不确定性,进而提高业务服务水平;完善的自动归档方法可以有助于信息资料电子化,极大地方便政务数据的管理。

优选的,所述自动校验模块,对获取的实时材料信息进行处理,对于文字材料,提取字符串,作为文本的归类依据之一;然后将这组具有描述文本特征的字符串转化为特征向量。

进一步的,由于提取的字符串包含很多无价值的字符,需要通过设计策略,提取多个可以描述该文本特征的字符。

进一步的,预先创建一套标签集,其对应了要归档的目录;同时预先构建每条标签对应的特征向量,组成一组标签的特征向量集;

将由刚录入材料生成的特征向量逐一在标签的特征向量集中作相关性分析;由此获取一组相关性较强的标签,并且为达到比较高的准确率,可通过控制相关度来获取相关性最强的标签,如果没有满足条件的标签,可选择创建该标签,或者统一定义为其他;

通过获取的标签,查询归档信息资源库,获取归档信息;

最终,根据归档信息,由后端程序执行归档操作。

优选的,该方法的实现业务主要包括数据采集、信息录入、归档管理和数据存储管理,对包括证照类、合同、委托书、政策法规、证明材料的文本进行归档;其中,

数据采集方式包括采用高拍仪、扫描仪、电子材料、便携设备拍摄方式获取政务文本;

信息录入包括人工审核录入和自动审核录入模式;

归档管理根据是否预先已有归档目录,包括新建归档目录和现有归档目录管理;

数据管理包括数据存储、ER索引、数据查询、数据删除,以方便数据能够充分利用到其他业务。

优选的,该方法的实现包括任务调度模块、业务处理模块、数据管理模块和AI服务模块,其中,

任务调度模块作为Controller(主控制),协调各个模块之间的运行,包括开启或关闭自动归档模式、开启或关闭自学习模式;

业务处理模块负责业务办理时的事项,包括输入/选择标签、扫描材料、存储操作;

数据管理模块负责数据的增删改查,协调数据资源;

AI服务模块负责智能计算服务,包括提供文字识别、策略判断。

优选的,该方法的具体实现包括手工录用阶段、半监督学习阶段和无监督学习阶段,

在手工录入阶段,按照常规的方法录入材料图像,逐渐积累大量的、有效的、带有标签的政务文本图像;

在半监督学习阶段,一方面继续实施手工录入,另一方面开启自学习模型,充分利用已积累的样本图片进行分类学习,逐步优化识别准确率,即手工录入和自学习是同时进行的;在达到一定积累后,开启自学习功能辅助手工录入;

在无监督学习阶段,此时系统已具备自主学习能力,且具有较高的准确率,完全不需要手工录入归档,办事人仅需提交材料即可实现文本图像材料的自动归档。

本发明还要求保护一种基于半监督学习的政务文本归档系统,该系统实现上述的基于半监督学习的政务文本归档方法;该系统包括交互客户端、应用服务器集群、AI服务器集群、各类数据与数据库系统以及用于完善功能的组件;

所述交互客户端包括业务大厅、移动客户端、Web客户端以及管理员客户端,提供用户信息录入、查阅等功能,提供管理员用户运维功能;

应用服务器集群用于实现系统的基础功能, AI服务器集群用于为系统提供AI计算服务;通过配置中心,实现定制归档任务、控制系统运行参数;

部署数据库服务,提供数据存储、增删改查操作,同时部署消息队列服务、缓存服务用于增强系统的稳定性。

优选的,各类客户端通过Nginx+防火墙的模式连接网关集群,以确保系统信息安全;

个人客户的移动设备、Web客户端由公有云经防火墙来访问系统,完成业务办理;业务大厅、内部的私有设备和运维客户端由私有云来访问系统。

优选的,后端服务器包括应用服务器(App Server)、AI服务器(AI Server)和数据库服务器(DB Server),根据任务类型的不同,分别运行应用程序接口服务(API Service)、AI服务(AI Service)和数据库(DB)操作任务。

本发明的一种基于半监督学习的政务文本归档方法及系统与现有技术相比,具有以下有益效果:

1、充分利用现有的办事流程,实现半监督学习的政务文本归档方案;

2、基于有标签材料的自学习流程,提高了算法的准确性和效率;

3、加入惩罚机制和阈值控制(相关度控制),增强了算法的鲁棒性和稳定性;

4、此技术方案的实施,大大节省了人力、物力成本,提高的业务办理效率;

5、系统采用模块化设计、开发,计算资源占用小,部署简单,应用方便。

附图说明

图1是本发明实施例提供的基于半监督学习的政务文本归档方法实现流程示图;

图2是本发明实施例提供的基于半监督学习的政务文本归档方法业务逻辑示图;

图3是本发明实施例提供的基于半监督学习的政务文本归档方法业务实施流程示图;

图4是本发明实施例提供的自学习流程示图;

图5是本发明实施例提供的系统功能模块组成示图;

图6是本发明实施例提供的基于半监督学习的政务文本归档系统部署示图;

图7是本发明实施例提供的基于半监督学习的政务文本归档系统网络架构示图。

具体实施方式

本发明实施例提供一种基于半监督学习的政务文本归档方法,包括手工录入阶段和自动归档阶段。参考图3所示,手工录入阶段,在业务办理时,由办理人员扫描材料并输入或者选择标签,后台程序将扫描的材料按照标签存储至指定路径下,完成文本归档,这也是现行的业务处理方案;自动归档阶段,由办理人员扫描材料,通过自动校验模块判断材料所属的标签,后台程序根据标签将扫描的材料存储至指定路径下。

自动归档阶段启动自学习机制,首先提取各标签下文本材料的特征向量,然后建立标签与文本材料特征向量的关系,最后将关系表更新到自动校验模块,依次循环往复,实现标签的动态管理,达到自学习的目的。

其中,文本材料来自人工标定文本和自动标定文本,人工标定文本具有确切的文本材料与标签的对应关系,自动标定文本具有不确定性,需要自动标定文本加入惩罚机制,控制噪声文本信息进入训练机;经过训练之后,获取模型,更新至自动校验模块,依次循环往复,实现不间断的模型优化。参考图4所示,

惩罚机制是指在机器学习中常用的一种控制正则化过程对误差调整的机制,通常由惩罚函数及其系数来实现,本文中对详细的惩罚机制未作限定,但要达到的目的是一致的,均是增强机器学习模型的拟合能力,做出更准确的推断。

自动校验模块是实现半监督学习的关键,旨在较少的人为干预下,获取录入材料的可归档信息。具体实现过程是:对获取的实时材料信息进行处理,对于文字材料,提取字符串,作为文本的归类依据之一;由于提取的字符串包含很多无价值的字符,需要通过设计策略,提取多个可以描述该文本特征的字符;然后将这组具有描述文本特征的字符串转化为特征向量。

可预先创建一套标签集,其对应了要归档的目录;同时预先构建每条标签对应的特征向量,组成一组标签的特征向量集;

此时,便可将由刚录入材料生成的特征向量逐一在标签的特征向量集中作相关性分析;于是便可获取一组相关性较强的标签,并且为达到比较高的准确率,可通过控制相关度来获取相关性最强的标签,如果没有满足条件的标签,可选择创建该标签,或者统一定义为其他;

通过获取的标签,查询归档信息资源库,获取归档信息;

最终,根据归档信息,由后端程序执行归档操作。

该过程如图1所示。

如图2所示,该方法的实现业务主要由数据采集、信息录入、归档管理和数据存储管理四部分组成,主要可以对证照类、合同、委托书、政策法规、证明材料等文本进行归档。其中,

数据采集可采用多种方式,例如采用高拍仪、扫描仪、电子材料、便携设备等手段获取政务文本;

信息录入阶段主要分为人工审核录入和自动审核录入两种模式;

归档管理根据是否预先已有归档目录,包括新建归档目录和现有归档目录管理两种情况;

数据管理阶段,主要包括数据存储、ER索引、数据查询、数据删除,以方便数据能够充分利用到其他业务。

ER索引:ER全称为Entity Relationship,译为实体关系,常用图的形式来表达,即实体关系图,其是一种提供了实体、属性和联系的方法;利用该方法,建立办理事项实体与各类材料以及材料与材料之间的关系,提供描述这种复杂关系的索引,即称为ER索引。

如图5所示,该方法的实现包括任务调度模块、业务处理模块、数据管理模块和AI服务模块,其中,

任务调度模块作为Controller(主控制),协调各个模块之间的运行,包括开启或关闭自动归档模式、开启或关闭自学习模式等;

业务处理模块负责业务办理时的事项,包括输入/选择标签、扫描材料、存储操作等;

数据管理模块负责数据的增删改查,协调数据资源;

AI服务模块主要提供文字识别、策略判断等智能计算服务。

如下以某市智慧审批系统中政务文本自动归档的实现过程来具体描述本方法的应用:

该项目要求将办理业务群众提供的文本归档,常见的文本材料有身份证、营业执照、银行卡、合同、委托书、政策法规、证明材料等,材料类型一般分为拍照、扫描件、电子材料等。归档的材料可以用于政务系统内部的资源共享,减少其他环节的办事流程,提高办事效率。

一般地,采用人工审核录入的方式对提交的材料逐一审核、归档。随着业务量的增长,大量的材料审核工作严重影响了事项办理进度,甚至带来归档出错风险,需要一种智能的方法实现对提交材料的自动审核和归档。

利用该方法,充分利用现有系统进行优化升级。具体来说,基于该方法的实施分为三个阶段,分别为手工录用阶段、半监督学习阶段和无监督学习阶段。

在手工录入阶段,按照常规的方法录入材料图像,逐渐积累大量的、有效的、带有标签的政务文本图像。

在半监督学习阶段,一方面继续实施手工录入,另一方面开启自学习模型,充分利用已积累的样本图片进行分类学习,逐步优化识别准确率,即手工录入和自学习是同时进行的,甚至在达到一定积累后,开启自学习功能辅助手工录入。

在无监督学习阶段,此时系统已具备自主学习能力,且具有较高的准确率,完全不需要手工录入归档,办事人仅需提交材料即可实现文本图像材料的自动归档。

采用该方法开发系统时,可考虑分为四大模块:任务调度、业务处理、数据管理、AI服务。该架构充分考虑解耦化设计,将前三者的开发任务由前后端工程师开发,使用政务系统主流的Java语言,可以做到与其他系统的兼容,同时,AI服务由算法工程师开发,使用业界主流的Python语言,充分发挥算法优势,为系统全域提供web服务,快速优化迭代更新。

文字识别技术在政务系统数字化建设中的应用非常广泛,可以提高行政效能和服务水平,被广泛应用在政府公文数字化处理、表格信息数字化录入、智慧城市数据文本化和自动分类等应用场景,文字识别技术的应用加快了政务系统的处理速度,降低了政务系统的处理成本。文本自动归档是基于人工智能技术的文件整理和管理方法,帮助用户快速、准确地识别并归档各种文档、图片、音频及视频文件。文本自动归档主要采用自然语言处理、机器学习、深度学习等技术进行文档分类、标签化、归档等过程。

机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。简单的归纳就是,是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习;没标签则为无监督学习。另外,有监督和无监督中间包含的一种学习算法是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。隐藏在半监督学习下的基本规律在于:数据的分布不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。

本发明实施例还提供一种基于半监督学习的政务文本归档系统,该系统实现上述实施例所述的基于半监督学习的政务文本归档方法;如图6所示,该系统包括交互客户端、应用服务器集群、AI服务器集群、各类数据与数据库系统以及用于完善功能的组件等。

所述交互客户端包括业务大厅、移动客户端、Web客户端以及管理员客户端等,提供用户信息录入、查阅等功能,提供管理员用户运维功能。

外部的各类客户端通过“Nginx+防火墙”的模式连接网关集群,以确保系统信息安全。

系统内部提供了应用服务器集群和AI服务器集群,应用服务器集群用于实现系统的基础功能, AI服务器集群用于为系统提供AI计算服务;通过配置中心,可实现定制归档任务、控制系统运行参数;

PHP应用服务器集群:PHP全称为Hypertext Preprocessor,中文名为“超文本预处理器”,是一种通用开源脚本语言;基于该语言,可开发应用服务器集群,具有高并发、分布式的特点。K8s:其全称为kubernetes,因其名字过长,用“8”替代了中间8个字母;其是一款开源的、著名的基于容器的集群管理平台,本文中用于构建AI服务器集群,提供docker(容器)管理与负载均衡。另外,类型的管理平台比较多,技术选型阶段可根据实际选择适合自己的服务管理平台。

部署数据库服务,提供数据存储、增删改查操作,同时部署消息队列服务、缓存服务用于增强系统的稳定性。Kafka是Apache旗下的一款开源的分布式流媒体平台,是一种高吞吐量、持久性、分布式的发布订阅的消息队列系统。Redis是开源免费的,遵守BSD协议,是一个高性能的key-value非关系型数据库,本文中用于实现缓存服务。

如图7所示,介绍了基于该方法开发的系统的网络架构图。个人客户的移动设备、Web客户端由公有云经防火墙来访问系统,完成业务办理;业务大厅、内部的私有设备和运维客户端由私有云来访问系统。

后端服务器包括应用服务器(App Server)、AI服务器(AI Server)和数据库服务器(DB Server),根据任务类型的不同,分别运行应用程序接口服务(API Service)、AI服务(AI Service)和数据库(DB)操作等任务。

通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

除说明书所述的技术特征外,均为本专业技术人员的已知技术。

相关技术
  • 一种票据自动归档系统及归档方法
  • 一种基于文本循环神经网络的政务文本分类方法及系统
  • 一种基于自训练半监督学习的文本实体抽取方法及系统
技术分类

06120116480499