掌桥专利:专业的专利平台
掌桥专利
首页

一种基于大数据分析的OFD版式文件的自动签章方法及系统

文献发布时间:2023-06-19 11:49:09


一种基于大数据分析的OFD版式文件的自动签章方法及系统

技术领域

本发明涉及自动签章技术领域,并且更具体地,涉及一种基于大数据分析的OFD版式文件的自动签章方法及系统。

背景技术

印章的使用,最繁琐的便是确定印章加盖位置,无论是传统的纸质文件盖章还是无纸化办公的电子印章盖章,都无法避免需要人工确定盖章位置。

目前已经有很多电子印章产品提供了自动签章功能,但需要用户预设盖章定位信息,如关键文字定位盖章、绝对坐标定位盖章等信息。但很多应用场景中文档内容差异较大、无法精确的进行预设定位信息,用户只能逐个文档打开进行手动签章,无法实现真正的高效率办公的目的。

发明内容

本发明提出一种基于大数据分析的OFD版式文件的自动签章方法及系统,以解决如何实现自动签章的问题。

为了解决上述问题,根据本发明的一个方面,提供了一种基于大数据分析的OFD版式文件的自动签章方法,所述方法包括:

构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;

获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;

根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;

接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。

优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。

优选地,其中所述方法还包括:

采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。

优选地,其中所述方法还包括:

针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。

优选地,其中所述根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:

根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;

选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;

对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;

根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;

将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。

根据本发明的另一个方面,提供了一种基于大数据分析的OFD版式文件的自动签章系统,所述系统包括:

自动签章模型构建单元,用于构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息;

规则信息确定单元,用于获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息;

自动签章模型训练单元,用于根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型;

自动签章单元,用于接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。

优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。

优选地,其中所述系统还包括:

优化单元,用于采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。

优选地,其中所述系统还包括:

模型评价单元,用于针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。

优选地,其中所述自动签章单元,根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:

根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;

选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;

对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;

根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;

将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。

本发明提供了一种基于大数据分析的OFD版式文件的自动签章方法及系统,基于用户日常手动签章的位置信息进行数据采集和分析,确定经过训练的自动签章模型,并接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章;本发明通过用户日常手动盖章操作的积累,逐渐生成自己使用习惯的自动签章信息库,实现用户日常文档的自动签章,提高了签章效率。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:

图1为根据本发明实施方式的基于大数据分析的OFD版式文件的自动签章方法100的流程图;

图2为根据本发明实施方式的利用5W2H分析法对电子签章业务进行分析的示意图;

图3为根据本发明实施方式的自动签章模型的结构图;

图4为根据本发明实施方式的对文档进行自动签章的流程图;

图5为根据本发明实施方式的基于大数据分析的OFD版式文件的自动签章系统500的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于大数据分析的OFD版式文件的自动签章方法100的流程图。如图1所示,本发明实施方式提供的基于大数据分析的OFD版式文件的自动签章方法,基于用户日常手动签章的位置信息进行数据采集和分析,确定经过训练的自动签章模型,并接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章;本发明通过用户日常手动盖章操作的积累,逐渐生成自己使用习惯的自动签章信息库,实现用户日常文档的自动签章,提高了签章效率。本发明实施方式提供的基于大数据分析的OFD版式文件的自动签章方法100,从步骤101处开始,在步骤101构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息。

优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。

在本发明中,在构建自动签章模型之前,先对传统的电子签章业务进行数据分析,根据不同的数据指标进行细化分析,得要想要的数据指标,从而建设对应的数据模型。如图2所示,采用5W2H分析法进行分析。通过5W2H分析法,分析得到(HOW)需要解决自动选择印章用印、(HOW)需要解决自动定位盖章、(WHY)通过数据分析实现自动盖章,提高用印效率,解放人力、(WHAT)需要通过数据分析进行文件分类,如业务类型、(WHO)用印有个人印章和公章两大类型、涉及到客户端签章和服务器签章两大种类、(WHEN)保证自动签章的盖章速度、高效;(WHERE)针对盖章请求的业务系统,提供清晰的入口参数。

在建立自动签章模型时,根据分析得到的数据指标进行建模。如图3所示,自动签章模型包括基础信息和规则信息;基础信息包括印章信息和用户信息;规则信息包括盖章中心的核心文字、盖章位置与核心文字的相对X坐标和相对Y坐标以及盖章位置预设范围内的相关文字。

在步骤102,获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息。

在本发明中,获取用户的历史签章文档,并以签章位置为中心解析预设范围的文字内容,对解析得到的文字内容进行分词。其中,针对签章坐标中心的文字生成核心文字,根据签章位置与核心文字的位置关系确定相对x、y坐标,同时以签章文字为中心,获取上下两行的文字内容,同样进行分词入库,从而确定规则信息。根据基础信息和规则信息的关系确定自动签章模型。其中,在确定新的规则信息后,如果没有类似的规则信息,则创建新的自动签章模型;如果有类似信息,则进行模型训练。

在步骤103,根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型。

优选地,其中所述方法还包括:

采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。

优选地,其中所述方法还包括:

针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。

在本发明中,采集用户每次针对文档手动盖章的位置信息并入库,针对同一个模型数据不断完善不同的文字内容以及每个内容的频度,锻炼每一个模型的可用性和适用性;定义每个文字使用的次数即为频度,针对每个模型中多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;;若X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为盖章位置。

在本发明中,针对每个模型,设置对应的最小频度,通过最小频度对已经锻炼的数据进行筛选,进行模型评价,使用已盖章的文档进行重复盖章测试,确定自动盖章位置与已盖章的位置差异,根据位置差异进行模型评价。其中,评价模型质量的常用指标有:平均误差率、判定系数R2;评估分类预测模型质量的常用指标:正确率、查全率、查准率、ROC曲线和AUC值等。其中,

当评价某个模型符合应用标准时,用户在盖章时可不打开文档进行自动盖章。

在步骤104,接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。

优选地,其中所述根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:

根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;

选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;

对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;

根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;

将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。

如图4所示,在本发明中,当用户发起发起文档盖章请求时,自动盖章的步骤包括:(1)根据用户信息检索模型库中的核心文字;(2)根据最大频度筛选文字,如果有多个可选项,则从最高频度文字开始逐个利用,用印成功则结束,否则继续利用下一个核心文字;(3)根据选定的核心文字关联出模型库中的相关文字;(4)使用最大频度筛选出可用相关文字;(5)根据选定的核心文字在待签章文档中查询文字出现的位置,并对预设范围的内容进行提取、分词,然后与可用相关文字库进行比对;如果比对结果满足要求,则在此位置进行盖章;如果不满足则继续查询、比对。

另外,除了OFD版式电子文件,本发明的方法也适用于PDF、DOC等其他版式的电子文件。

本发明还能够基于用户日常手动盖章的位置信息,继续优化已存在的自动签章模型,逐步调整参数信息,进行丰富和优化。

图5为根据本发明实施方式的基于大数据分析的OFD版式文件的自动签章系统500的结构示意图。如图5所示,本发明实施方式提供的基于大数据分析的OFD版式文件的自动签章系统500,包括:自动签章模型构建单元501、规则信息确定单元502、自动签章模型训练单元503和自动签章单元504。

优选地,所述自动签章模型构建单元501,用于构建初始的自动签章模型;其中,所述自动签章模型,包括:基础信息和规则信息。

优选地,其中所述基础信息,包括:印章信息和用户信息,所述规则信息,包括:签章位置中心的核心文字、签章位置与核心文字的相对坐标信息和相关文字。

优选地,所述规则信息确定单元502,用于获取用户的至少一个历史签章文档,对所述至少一个历史签章文档以签章位置为中心解析预设范围内的文字内容,并对所述文字内容进行分词处理,获取每个历史签章文档对应的规则信息。

优选地,所述自动签章模型训练单元503,用于根据用户的基础信息和每个历史签章文档对应的规则信息对所述初始的自动签章模型进行训练,以获取经过训练的自动签章模型。

优选地,其中所述系统还包括:

优化单元,用于采集用户每次对文档手动盖章的位置信息,并计算每个文字使用的次数,确定每个文字对应的频度,优化自动签章模型的可用性和适用性;针对每个自动签章模型中的多个文字内容生成对应的频繁项集:{X,Y1,Y2,…,Yn}=>Z;即X,Y1,Y2,…,Xn出现在同一个区域,则X所在区域为签章位置;其中,X为核心文字,Y1,Y2,…,Xn为相关文字;Z为盖章区域。

优选地,其中所述系统还包括:

模型评价单元,用于针对每个自动签章模型,设置对应的最小频度,通过最小频度进行模型评价,使用已签章的文档进行重复签章测试,确定自动签章位置与已签章位置的差异;其中,评价模型质量的指标包括:平均误差率和线性回归判定系数R2。

优选地,所述自动签章单元504,用于接收用户根据待签章文档发送的文档签章请求,对所述文档签章请求进行解析,确定目标基础信息,并根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章。

优选地,其中所述自动签章单元504,根据所述目标基础信息利用所述经过训练的自动签章模型自动对所述待签章文档进行签章,包括:

根据所述目标基础信息确定对应的经过训练的自动签章模型,并利用对应的经过训练的自动签章模型确定至少一个核心文字;

选取所述至少一个核心文字中频度最大的文字作为目标核心文字,根据所述目标核心文字关联出模型库中的相关文字,并选取所述相关文字中频度最大的文字作为目标相关文字;

对所述待签章文档进行分析,确定所述目标核心文字在所述待签章文档中的位置,获取目标核心文字坐标信息;

根据所述目标核心文字坐标信息和预设的分析范围确定内容提取区域,并对所述内容提取区域中的文字进行识别和分词处理,以获取分词数据;

将所述分词数据与所述目标中满足频度要求的相关文字进行比对,当匹配度大于预设的最小匹配度时,在所述目标核心文字坐标信息处进行签章。

本发明的实施例的基于大数据分析的OFD版式文件的自动签章系统500与本发明的另一个实施例的基于大数据分析的OFD版式文件的自动签章方法100相对应,在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 一种基于大数据分析的OFD版式文件的自动签章方法及系统
  • 一种基于云服务的OFD文件签章验证方法、系统及设备
技术分类

06120113065683