掌桥专利:专业的专利平台
掌桥专利
首页

基于RPA和AI的文件比对方法、装置、设备及存储介质

文献发布时间:2023-06-19 13:49:36


基于RPA和AI的文件比对方法、装置、设备及存储介质

技术领域

本发明实施例涉及流程自动化技术领域,具体而言,涉及一种基于RPA和AI的文件比对方法、装置、设备及存储介质。

背景技术

RPA(Robotic Process Automation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。

AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

RPA具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Hand work+Head work,正在极大的改变劳动力的价值。

在日常工作中,常常需要对两个版本的合同、法条等文件进行比对,以确定新产生的文件相对于原始文件发生了哪些变化。然而,目前在进行文件比对时,需要人工获取待比对的两个文件,然后进行人工比对和人工标记差异性。当需要对比的文件较多或者待对比文件页数较多时,就需要工作人员做重复性低价值的文件比对劳动,从而占用大量工作时间,工作效率较低。

发明内容

本发明实施例提供一种基于RPA和AI的文件比对方法、装置、设备及存储介质,不仅可以实现文件比对的自动化,还可以突出显示两文件间的差异,从而提高了用户查找文件差异的效率。

第一方面,本发明实施提供了一种基于RPA和AI的文件比对方法,所述方法应用于客户端,所述方法包括:

S1、接收机器人流程自动化RPA机器人上传的参考文件和比对文件;

S2、将所述参考文件和所述比对文件发送给服务器;

S3、接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果;

S4、根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本,其中,在所述比对文件中突出显示的差异文本为所述比对文件相对于所述参考文件存在差异的文本,在所述参考文件中突出显示的差异文本为所述参考文件相对于所述比对文件存在差异的文本。

可选的,所述差异性比对结果包括至少一条差异信息,每条差异信息包括差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本、在所述参考文件中的差异文本的差异位置信息,以及在所述比对文件中的差异文本的差异位置信息,所述差异位置信息包括差异文本所属分页的分页标识、差异文本在所属分页的坐标信息。

可选的,所述S4包括:

S41、将所述坐标信息转换成划分DIV元素位置信息;

S42、当所述DIV元素位置信息进入所属文件的显示区域时,根据所述DIV元素位置信息对应的差异类型和所述DIV元素位置信息对应的分页标识,对所述分页标识指示的分页中所述DIV元素位置信息处的差异文本进行突出显示。

可选的,所述S4还包括:

S43、针对同一条差异信息,根据在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息以及差异类型,生成身份证标识号ID,并分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定;

S44、当接收到基于所述参考文件或者所述比对文件触发的第一同步定位指令时,将与所述第一同步定位指令对应的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,在所述S3之后,所述方法还包括:

S5、根据所述差异性比对结果在预设显示区域显示差异明细,所述预设显示区域为除了参考文件显示区域和比对文件显示区域以外的区域,所述差异明细包括每条差异信息中的差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本。

可选的,在所述S43之后,所述方法还包括:

S45、将所述ID与所述差异明细中对应的差异信息进行绑定;

S46、当接收到基于所述差异明细触发的第二同步定位指令时,获取与所述第二同步定位指令对应的所述差异明细中的差异信息绑定的ID;

S47、将与获取的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,在所述S4之前,所述方法还包括:

S6、接收针对第一滚动条的滚动指令,所述第一滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条;

S7、根据所述滚动指令确定所述第一滚动条当前已滚动的长度占滚动区域总长度的比例;

S8、根据所述比例滚动第二滚动条,以使得所述第一滚动条与所述第二滚动条同步滚动,所述第二滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条,但与所述第一滚动条不同。

可选的,所述S4包括:

根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示当前滚动到显示区域的差异文本。

可选的,所述S2包括:

S21、利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本;

S22、当目标文件为包含多页文本的文件时,将所述目标文件的多页文本拼接为上下文连续的一页文本,获得目标文本,当所述目标文件为包含单页文本的文件时,从所述目标文件中获取单页文本作为目标文本,其中,当所述目标文件为所述参考文件时,所述目标文本为参考文本,当所述目标文件为所述比对文件时,所述目标文本为比对文本;

S23、将所述参考文本和所述比对文本发送给所述服务器。

第二方面,本发明实施例提供了一种基于RPA和AI的文件比对装置,所述装置应用于客户端,所述装置包括:

接收单元,用于接收机器人流程自动化RPA机器人上传的参考文件和比对文件;

发送单元,用于将所述参考文件和所述比对文件发送给服务器;

所述接收单元,还用于接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果;

显示单元,用于根据所述差异性比对结果在所述比对文件和/或所述参考文件中突出显示差异文本,其中,在所述比对文件中突出显示的差异文本为所述比对文件相对于所述参考文件存在差异的文本,在所述参考文件中突出显示的差异文本为所述参考文件相对于所述比对文件存在差异的文本。

可选的,所述差异性比对结果包括至少一条差异信息,每条差异信息包括差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本、在所述参考文件中的差异文本的差异位置信息,以及在所述比对文件中的差异文本的差异位置信息,所述差异位置信息包括差异文本所属分页的分页标识、差异文本在所属分页的坐标信息。

可选的,所述显示单元,包括:

转换模块,用于将所述坐标信息转换成划分DIV元素位置信息;

显示模块,用于当所述DIV元素位置信息进入所属文件的显示区域时,根据所述DIV元素位置信息对应的差异类型和所述DIV元素位置信息对应的分页标识,对所述分页标识指示的分页中所述DIV元素位置信息处的差异文本进行突出显示。

可选的,所述显示单元还包括:

生成模块,用于针对同一条差异信息,根据在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息以及差异类型,生成身份证标识号ID;

绑定模块,用于分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定;

第一同步模块,用于当接收到基于所述参考文件或者所述比对文件触发的第一同步定位指令时,将与所述第一同步定位指令对应的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,所述显示单元,还用于在接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果之后,根据所述差异性比对结果在预设显示区域显示差异明细,所述预设显示区域为除了参考文件显示区域和比对文件显示区域以外的区域,所述差异明细包括每条差异信息中的差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本。

可选的,所述绑定模块,还用于在分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定之后,将所述ID与所述差异明细中对应的差异信息进行绑定;

所述显示单元还包括:

获取模块,用于当接收到基于所述差异明细触发的第二同步定位指令时,获取与所述第二同步定位指令对应的所述差异明细中的差异信息绑定的ID;

第二同步模块,用于将与获取的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,所述接收单元,还用于在根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本之前,接收针对第一滚动条的滚动指令,所述第一滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条;

确定单元,用于根据所述滚动指令确定所述第一滚动条当前已滚动的长度占滚动区域总长度的比例;

同步滚动单元,用于根据所述比例滚动第二滚动条,以使得所述第一滚动条与所述第二滚动条同步滚动,所述第二滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条,但与所述第一滚动条不同。

可选的,所述显示单元,用于根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示当前滚动到显示区域的差异文本。

可选的,所述发送单元,包括:

识别模块,用于利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本;

拼接模块,用于当目标文件为包含多页文本的文件时,将所述目标文件的多页文本拼接为上下文连续的一页文本,获得目标文本,当所述目标文件为包含单页文本的文件时,从所述目标文件中获取单页文本作为目标文本,其中,当所述目标文件为所述参考文件时,所述目标文本为参考文本,当所述目标文件为所述比对文件时,所述目标文本为比对文本;

发送模块,用于将所述参考文本和所述比对文本发送给所述服务器。

第三方面,本发明实施例提供了一种计算设备,所述计算设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。

本发明实施例提供的基于RPA和AI的文件比对方法、装置、设备及存储介质,能够由RPA机器人自动将待比对的参考文件和比对文件上传至客户端,由客户端将参考文件和比对文件传输给服务器进行差异性比对,最后可以根据服务器返回的差异性比对结果在比对文件和/或参考文件中突出显示差异文本。由此可知,与现有技术中需要人工比对文件相比,本发明实施例能够利用RPA机器人自动触发客户端发送两个待比对的文件给服务器进行自动比对,从而不仅可以节省人力,让原本需要做文件比对的人员有时间去做更有价值的工作,还可以提高文件比对的效率;与现有技术需要人工标记差异性相比,本发明实施例可以直接在参考文件和/或比对文件中突出显示差异文本,从而可以提高差异文本的可读性,进而可以提高用户查找两文件间差异的效率。其中,在客户端向服务器发送参考文件和比对文件时,可以先利用OCR(Optical Character Recognition,光学字符识别)对参考文件和比对文件进行识别,再将这两个文件中包含多页文本的文件进行文本拼接,获得单页且上下文连续的参考文本以及单页且上下文连续的比对文本,最后将参考文本和比对文本发送给服务器进行差异性比对,从而可以使得服务器直接结合上下文对两个文本进行比对,而无需服务器做其他处理,进而可以提高服务器进行文件比对的效率和准确性。

此外,本发明实施例还可以实现的技术效果包括:

1、用户可以通过参考文件显示区域、比对文件显示区域或者差异明细显示区域触发同步定位指令,使得客户端针对同一条差异信息进行同步突出显示,从而提高了用户查看差异文本的效率。

2、用户可以通过拖动参考文件显示区域或者比对文件显示区域的滚动条,使得客户端针对这两个显示区域进行同步滚动,从而提高了用户查看文本的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于RPA和AI的文件比对方法的流程图;

图2是本发明实施例提供的一种显示差异性比对结果的示例图;

图3是本发明实施例提供的另一种显示差异性比对结果的示例图;

图4是本发明实施例提供的一种基于RPA和AI的文件比对装置的组成框图;

图5是本发明实施例提供的一种基于RPA和AI的文件比对系统架构图;

图6是本发明实施例提供的另一种基于RPA和AI的文件比对系统架构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在日常工作中,常常需要人工对不同版本的文件进行差异性比对,该工作不仅重复性强、难度低,还十分消耗时间,进而导致公司对自动化比对文件的需求越来越急迫。而RPA(Robotic Process Automation,机器人流程自动化)技术可以通过用户使用界面,智能理解所在电子设备的已有应用,将重复的、基于规则、大批量的常规操作自动化,如自动重复读取邮件、读取Office组件、操作数据库及网页、客户端软件等,采集数据并进行繁琐的计算,并批量生成所需的文件和报告,从而通过RPA技术能够大幅降低人力成本的投入,有效提高办公效率。AI(Artificial Intelligence,人工智能)技术可以突破固定规则,模拟人的思维、意识来自动化处理一些更复杂的应用场景。基于此,本发明实施例提供了一种结合RPA和AI两种技术来自动化比对文件,从而不仅可以省去人力,提高文件比对的效率,还可以突出显示两文件间的差异,提高了用户查找文件差异的效率。

下面对本发明实施例进行详细说明。

在本发明实施例的描述中,术语“参考文件”是指在进行差异性比对时,被作为参考依据的文件,“比对文件”是指被比对的两个文件中除了作为参考依据以外的文件,在实际应用中,参考文件的版本往往低于比对文件,参考文件和比对文件可以为任何领域的文件,比如可以为合同文件、金融类文件、程序文件等。

在本发明实施例的描述中,术语“多页文件”是指大于或者等于两页文本内容的文件,术语“多页文本”是指大于或者等于两页的文本。

在本发明实施例的描述中,术语“OCR”是指光学字符识别(Optical CharacterRecognition),具体是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在本发明实施例中,可以基于RPA机器人利用OCR技术将纸质文档中的文字转换成为黑白点阵的图像文件,再由客户端利用OCR技术从图像文件中识别出图像文件中包含的文本内容,也可以基于RPA机器人利用OCR技术从纸质文档中获取文本内容,生成包含文本内容的文本文件(即一种可编辑文件),再由客户端直接从文本文件中提取文本内容。

在本发明实施例的描述中,术语“客户端”是具有文件比对需求的业务系统前端,“服务器”是指具有文件比对需求的业务系统后端。“客户端”可以为业务系统对应的应用软件,也可以为浏览器,以便RPA机器人通过浏览器访问业务系统的网站。术语“RPA机器人”可以集成在客户端中,也可以以插件等形式嵌入客户端中,也可以与客户端相互独立,只要RPA机器人能够自动化访问客户端即可,本发明实施例对RPA机器人的具体形式不做限定。

在本发明实施例的描述中,术语“NLP”是指自然语言处理(Natural LanguageProcessing),其以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。

在本发明实施例的描述中,术语“拼接”是指将待拼接的内容连接在一起,而不改变原始内容。通过将多页文本进行拼接,可以在保留原有文本内容排列顺序的基础上,让多页文本内容无缝衔接。

在本发明实施例的描述中,术语“预设比对算法”是指确定比对文本相对于参考文本所存在差异的具体比对方法,可以按照预设比对单元对参考文本和比对文本分批次进行比对,直至比对完成,具体比对过程可参见S120的详解。其中,术语“预设比对单元”是指每次被比对的文本的大小,具体可以根据实际情况而定,可以为一个词组、一个句子或一个段落等。

在本发明实施例的描述中,术语“差异性比对”是指对比参考文本和比对文本之间存在哪些差异。术语“差异性比对结果”是指在将参考文本和比对文本进行差异性比对后获得的包括至少一条差异信息的结果,每条差异信息包括差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本、在所述参考文件中的差异文本的差异位置信息,以及在所述比对文件中的差异文本的差异位置信息,所述差异位置信息包括差异文本所属分页的分页标识、差异文本在所属分页的坐标信息。术语“差异类型”用于表征差异的类别,主要包括内容删除、内容增加和内容修改。术语“分页标识”用于指示当前分页位于整个文件的第几页。对于术语“坐标信息”而言,可以针对每个分页建立坐标系,以每个分页的第一个字符位置处作为原点,分别以水平向右和垂直向下为横轴和纵轴,从而可以为分页中每个字符生成对应的坐标。术语“差异文本”是指当前文件中与另一个文件所不同的文本内容。

在本发明实施例的描述中,术语“突出显示”是一种能够将差异文本与其他文本明显区分开的显示方式,突出显示的方式包括不限于以下一种或多种的组合:加粗字体、更换字体颜色、增加字体底色、加亮字体、增大字体、更换为斜体、增加下划线、增加删除线等。

在本发明实施的描述中,术语“鉴权”是指验证发送参考文件和比对文件的客户端是否具有进行文件比对的权限,具体可以通过验证客户端的用户信息是否满足该权限要求来实现鉴权。

在本发明实施的描述中,术语“DIV元素位置信息”是指DIV(DIVision,划分)元素在网络界面的位置信息,术语“DIV元素”用来为HTML(Hyper Text Markup Language,超文本标记语言)文档内块级(block-level)内容提供结构和背景的元素。

在本发明实施的描述中,术语“绑定”是指建立待绑定的至少两个参数的映射关系,使得通过其中一个参数,可以查找到另一个参数。

在本发明实施的描述中,术语“差异明细”为针对每一处差异的具体描述信息,差异明细包括每条差异信息中的差异类型、在参考文件中的差异文本、在比对文件中的差异文本。

在本发明实施的描述中,术语“同步定位指令”是一种指示将同一条差异信息涉及的差异文本进行同步显示的指令。

在本发明实施的描述中,术语“同步滚动”是指将至少两个滚动条的滚动进度保持一致的一种滚动方式。

图1是本发明实施例提供的一种基于RPA和AI的文件比对方法,该方法主要应用于客户端,具体包括:

S100、接收RPA机器人上传的参考文件和比对文件。

具体的,本发明实施例可以在能够登录客户端的电子设备中配置RPA程序(可以集成或嵌入客户端,也可以独立于客户端),以使电子设备可以按照RPA程序中设定的规则,模拟用户的鼠标键盘操作自动登录客户端,并通过访问客户端触发客户端生成包括参考文件和比对文件的文件比对请求,向服务器发送该文件比对请求,以便服务器对参考文件和比对文件进行差异性比对。其中,在登录客户端时,客户端可以弹出包含验证码图像的登录界面,这种情况下RPA机器人可以对验证码图像进行OCR识别,获得验证码图像中的验证码内容,并将验证码内容输入到对应的编辑框,从而成功登录客户端。

参考文件和比对文件可以存储在客户端中,也可以存储在电子设备的其他存储空间,也可以是纸质文件。当存储在电子设备的其他存储空间时,RPA机器人可以从所述其他存储空间查找参考文件和比对文件,并将参考文件和比对文件上传到客户端,例如通过点击上传按钮的方式将这两个文件上传到客户端,也可以通过拖拽的方式将这两个文件拖到指定区域以实现文件上传,也可以为其他上传方式。当参考文件和/或比对文件为纸质文件时,RPA机器人可以利用OCR技术先将纸质文件转换为图像文件或者转换为文本文件(即纸质文件中的文本内容构成的可编辑文件),然后再利用上述方法上传到客户端。

当客户端接收到RPA上传的参考文件和比对文件后,可以对参考文件和比对文件进行渲染,以向用户展示上传的文件。具体的,当参考文件和/或比对文件为word文件时,可以先将word文件转换成PDF文件,然后利用客户端自带的渲染库进行渲染,且当PDF文件为多页文件时,进行多页渲染;当参考文件和/或比对文件为除tiff格式外的图片文件时,可以利用客户端自带的渲染库进行渲染;当参考文件和/或比对文件为tiff格式的图片文件时,可以利用tiff格式的专有渲染库进行渲染。其中,将word文件转换成PDF文件时,可以由客户端发送给服务器执行转换操作,再由服务器反馈给客户端PDF文件进行渲染。

S110、将所述参考文件和所述比对文件发送给服务器。

客户端接收到RPA机器人上传的参考文件和比对文件后,可以接收RPA机器人触发的文件比对指令,然后直接根据文件比对指令生成包括参考文件和比对文件的文件比对请求,向服务器发送该文件比对请求,以便服务器对参考文件和比对文件进行差异性比对。然而,服务器接收到参考文件和比对文件之后,往往需要先识别这两个文件中的文本,才能进行差异性比对,若向服务器发送文件比对请求的客户端比较多,会导致服务器进行文件比对的效率降低。为了减轻服务器的负担,从而提高文件比对效率,本发明实施例可以由客户端先利用OCR对参考文件和比对文件进行识别,获得参考文件的至少一页文本以及比对文件的至少一页文本,再将识别出的文本发送给服务器进行差异性比对。

在实际应用中,若直接将参考文件的至少一页文本与比对文件的至少一页文本进行单页比对,即将参考文件的第N页与比对文件的第N页进行比对,而不关注各页之间的关联关系,则很容易发生比对结果不准确的情况。例如,参考文件包括两页文本,比对文件在参考文件的第一页文本和第二页文本之间添加了一页文本,从而构成三页文本,若采用单页比对的方法对这两个文件进行比对,则比对结果为参考文件第二页文本与比对文件的第二页文本内容不同,参考文件没有第三页文本,使得比对结果为比对文件的第三页文本在参考文件中不存在,也就是说,采用单页比对的方法,会导致整体比对结果为两个文件除了第一页文本相同外,其他均不相同。

为了避免发生比对结果不准确的问题,本发明实施例在客户端利用OCR对参考文件和比对文件进行识别,获得参考文件的至少一页文本以及比对文件的至少一页文本之后,先进行文本拼接,再将拼接后的文本发送给服务器。具体的,当目标文件为包含多页文本的文件时,将所述目标文件的多页文本拼接为上下文连续的一页文本,获得目标文本,当所述目标文件为包含单页文本的文件时,从所述目标文件中获取单页文本作为目标文本,其中,所述目标文件包括参考文件或比对文件,当所述目标文件为所述参考文件时,所述目标文本为参考文本,当所述目标文件为所述比对文件时,所述目标文本为比对文本;将所述参考文本和所述比对文本发送给所述服务器。

其中,上下文连续是指保持原有文字的先后顺序。将参考文件或者比对文件的多页文本拼接为上下文连续的一页文本的具体方法可以为按照参考文件或者比对文件的分页顺序,将多页文本依次进行拼接,从而获得上下文连续的一页文本。

需要补充的是,为了提高客户端与服务器之间的通信安全,服务器可以对客户端的用户信息进行鉴权,以验证用户是否具有文件比对权限。具体的,客户端在向服务器发送参考文件和比对文件时,还可以携带客户端的用户信息,以便服务器先根据用户信息对客户端进行鉴权,当确定鉴权通过时,再对参考文件和比对文件进行差异性比对。其中,用户信息可以为客户端账号,可以为与该客户端账号绑定的手机号,还可以为用户等级或者其他信息,本发明实施对用户信息的具体内容不做限定,可以根据具体情况而定。对用户信息鉴权的方法可以有多种,包含但不限于以下两种:(1)将该用户信息与具有权限的用户列表进行匹配,若匹配成功,则确定该用户信息对应的用户有权限,即鉴权通过,若匹配失败,则确定该用户信息对应的用户没有权限,即鉴权失败;(2)判断该用户信息中的用户等级是否超过预设等级,若超过预设等级,则鉴权通过,若未超过预设等级,则鉴权失败。

S120、接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果。

服务器接收到参考文件和比对文件后,可以根据预设比对算法,对参考文件和比对文件进行差异性比对。具体的,可以按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果。在按照预设比对单元对参考文本和比对文本进行比对的过程中,若确定正在比对的参考子文本(预设比对单元的参考文本)与比对子文本(预设比对单元的比对文本)内容相同,则将对应的比对子结果确定为内容相同;若确定正在比对的参考子文本在比对文本中不存在,则将对应的比对子结果确定为内容删除;若确定正在比对的比对子文本在参考文本中不存在,则将对应的比对子结果确定为内容增加。在实际应用中,两个文本之间的差异除了包括内容相同、内容删除和内容增加外,还应该包括内容修改。因此,为了让用户能够更直观地看出比对文本相对于参考文本的区别,可以针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。其中,预设比对单元的大小可以根据实际情况而定,可以为一个词组、一个句子、一个段落等。

需要补充的是,在对两个文本进行比对时,除了简单地判断文本内容本身使用的字符或文字是否相同外,还可以结合NLP技术对参考子文本与比对子文本进行语义分析,当所述参考子文本与所述比对子文本的含义相同但使用的字符或文字不同时,可以确定对应的比对子结果为内容相同。另外,本发明实施例还可以支持自定义过滤规则,忽略无意义的差异,即当参考子文本和比对子文本之间的差异中存在满足预设过滤规则的差异时,忽略所述满足预设过滤规则的差异。例如,可以设定一个句子有无助词“的”不影响比对结果。服务器在向客户端发送差异性比对结果时,也可以发送忽略的差异,以便客户端向用户展示忽略的差异。

当比对子结果为内容增加、内容删除或者内容修改时,可以针对该比对子结果生成一条差异性信息,以便在获得所有差异信息后,将所有差异信息反馈给客户端。其中,每条差异信息包括差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本、在所述参考文件中的差异文本的差异位置信息,以及在所述比对文件中的差异文本的差异位置信息,所述差异位置信息包括差异文本所属分页的分页标识、差异文本在所属分页的坐标信息。一个比对子结果对应一条差异信息,差异类型包括内容增加、内容删除、内容修改。分页标识用于指示当前分页位于整个文件的第几页。对于坐标信息而言,可以针对每个分页建立坐标系,以每个分页的第一个字符位置处作为原点,分别以水平向右和垂直向下为横轴和纵轴,从而可以为分页中每个字符生成对应的坐标。

在一种实施方式中,当客户端将参考文件和比对文件发送给服务器后,服务器可以对参考文件和比对文件进行比对的任务添加到任务队列中,并将比对任务和该比对任务的任务状态存储到任务数据库中,并在该比对任务的任务状态发生改变时,及时更新任务数据库中的任务状态。客户端可以接收RPA机器人触发的比对任务状态查询指令,并将比对任务状态查询指令发送给所述服务器,以使得所述服务器从任务数据库中查询比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。其中,当比对任务未被执行时,任务状态可以是未处理,当比对任务正在被执行时,任务状态可以是处理中,当比对任务执行完成时,任务状态可以为已完成。

此外,服务器可以主动向客户端反馈差异性比对结果,也可以被动向客户端反馈差异性比对结果。其中,被动向客户端反馈差异性比对结果的具体实现方式可以为:客户端接收RPA机器人触发的比对结果查询指令,并将比对结果查询指令发送给服务器,服务器根据比对结果查询指令向客户端发送对应的差异性比对结果。

其中,RPA机器人触发客户端发送比对结果查询指令或者比对任务状态查询指令的具体实现方式包括但不限于RPA机器人通过点击客户端上的比对结果查询按钮或比对任务状态查询按钮的方式触发客户端生成并发送对应的指令。

S130、根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本。

其中,在所述比对文件中突出显示的差异文本为所述比对文件相对于所述参考文件存在差异的文本,在所述参考文件中突出显示的差异文本为所述参考文件相对于所述比对文件存在差异的文本。突出显示的方式包括不限于以下一种或多种的组合:加粗字体、更换字体颜色、增加字体底色、加亮字体、增大字体、更换为斜体、增加下划线、增加删除线等。当差异性比对结果中包括多种差异类型时,不同差异类型突出显示的方式可以相同,也可以不同。

本步骤的具体实现方式可以为:将所述坐标信息转换成DIV元素位置信息;当所述DIV元素位置信息进入所属文件的显示区域时,根据所述DIV元素位置信息对应的差异类型和所述DIV元素位置信息对应的分页标识,对所述分页标识指示的分页中所述DIV元素位置信息处的差异文本进行突出显示。其中,DIV是层叠样式表中的定位技术,DIV元素是用来为HTML文档内块级(block-level)内容提供结构和背景的元素。为参考文件和比对文件分别封装一个显示区域,且一个显示区域为一个组件,例如可以在界面上封装两个从左到右排列的显示区域分别显示参考文件和比对文件,且当参考文件和/或比对文件中文本较多,而无法一次性显示全面时,可以增加滚动条的滚动显示功能。

需要说明的是,当根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本时,若当前差异信息中包含的差异类型为内容删除,则可以仅在参考文件中突出显示被删除的文本,也可以分别突出显示内容删除前的文本和内容删除后保留的文本,即将该差异信息中包含的在参考文件中的差异文本和在比对文件中的差异文件均进行突出显示。若当前差异信息中包含的差异类型为内容增加,则可以仅在比对文件中突出显示增加的内容,也可以分别突出显示内容增加前的文本和内容增加后的文本,即将该差异信息中包含的在参考文件中的差异文本和在比对文件中的差异文件均进行突出显示。若当前差异信息中包含的差异类型为内容修改,则可以突出显示内容修改前的文本和内容修改后的文本,即将该差异信息中包含的在参考文件中的差异文本和在比对文件中的差异文件均进行突出显示。

示例性的,图2是参考文件和比对文件的部分文本内容,可以直接在参考文件和比对文件中突出显示差异文本,用户可以通过拖动参考文件和比对文件的滚动条进行浏览。其中,加粗加下划线的文本是指发生修改的文本,加斜加大的文本是指在比对文件中增加的文本,加删除线的文本是指在比对文件中删除的文本。

在一种实施方式中,在针对参考文件和比对文件分别封装独立的显示区域的情况下,当用户需要针对某一处差异进行比对查看时,需要分别拖动两个文件的滚动条进行查看,操作比较繁琐。为了提高用户查看差异的效率,本发明实施例可以针对同一条差异信息,根据在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息以及差异类型,生成ID(Identity Document,身份证标识号),并分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定,当接收到基于所述参考文件或者所述比对文件触发的第一同步定位指令时,将与所述第一同步定位指令对应的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

其中,生成ID的具体实现方式包括但不限于:按照预设顺序,将在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息以及差异类型进行拼接,获得一个字符串。其中,不同差异类型可以使用不同的字符表示,例如“内容删除”、“内容增加”和“内容修改”可以依次使用“1”、“2”和“3”进行表示。第一同步定位指令是当用户点击参考文件或者比对文件的显示区域时生成的指令。当客户端接收到第一同步定位指令时,会激活对应的ID。对于参考文件或者比对文件对应的组件而言,会判断激活的ID与自身包含的ID是否相同,若自身包含相同的ID,则可以将该ID对应的DIV元素位置信息处的差异文本进行突出显示,并且当DIV元素位置信息不在显示区域时,则会将DIV元素位置信息滚动到显示区域进行显示。例如,针对同一条差异信息,当参考文件中的差异文本“电子设备”位于参考文件的第2页,比对文件中的差异文本“计算终端”位于比对文件的第3页时,用户在参考文件的第2页的文本“电子设备”处进行点击,客户端会自动进行同步,使得比对文件自动滚动到第3页,并突出显示文本“计算终端”。

在一种实施方式中,为了给用户提供更多查看差异的途径,方便用户根据个人习惯进行查看,本发明实施例还可以根据所述差异性比对结果在预设显示区域显示差异明细,所述预设显示区域为除了参考文件显示区域和比对文件显示区域以外的区域,所述差异明细包括每条差异信息中的差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本。此外,还可以对差异性比对结果进行汇总,将汇总结果显示在除了参考文件显示区域、比对文件显示区域、预设显示区域以外的显示区域。汇总结果包括差异信息总条数、差异信息所处的分页标识。例如,汇总结果为“比对后发现,在参考文件的第1、3、5、8页存在差异,两份文件共存在20处差异”。

示例性的,如图3所示,客户端在显示差异时,不仅会在参考文件和/或比对文件中突出显示差异文本,还会在右侧显示比对结果。比对结果中上半部分是整体比对结果(即所述汇总结果),下半部分是详细对比结果(即差异明细)。用户可通过拖动详细比对结果显示区域的滚动条浏览差异明细。

由于预设显示区域与参考文件显示区域、比对文件显示区域分别独立,所以用户查看预设显示区域时,参考文件显示区域、比对文件显示区域显示的内容不会改变。在这种情况下,若用户想要结合差异明细在参考文件和比对文件中查看具体内容,则需要用户分别拖动参考文件显示区域和比对文件显示区域的滚动条来实现,操作比较繁琐。为了提高用户基于差异明细查看差异的效率,本发明实施例可以将所述ID与所述差异明细中对应的差异信息进行绑定;当接收到基于所述差异明细触发的第二同步定位指令时,获取与所述第二同步定位指令对应的所述差异明细中的差异信息绑定的ID;将与获取的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

其中,第二同步定位指令是当用户点击预设显示区域时生成的指令。当客户端接收到第二同步定位指令时,会激活第二同步定位指令对应的差异明细中的差异信息绑定的ID。对于参考文件或者比对文件对应的组件而言,会判断激活的ID与自身包含的ID是否相同,若自身包含相同的ID,则可以将该ID对应的DIV元素位置信息处的差异文本进行突出显示,并且当DIV元素位置信息不在显示区域时,则会将DIV元素位置信息滚动到显示区域进行显示。

在一种实施方式中,无论是在对两个文件进行比对前,还是比对后,当用户查看两个文件时,需要分别拖动两个文件显示区域的滚动条才能实现两者同步查看,操作比较繁琐。为了提高用户查阅两个文件的效率,本发明实施例可以接收针对第一滚动条的滚动指令;根据所述滚动指令确定所述第一滚动条当前已滚动的长度占滚动区域总长度的比例;根据所述比例滚动第二滚动条,以使得所述第一滚动条与所述第二滚动条同步滚动。也就是说,对于第一滚动条而言,只会跟随用户的拖动而滚动,而不会进行同步滚动,对于第二滚动条而言,会随着第一滚动条的滚动而滚动。

所述第一滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条,所述第二滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条,但与所述第一滚动条不同。也就是说,当第一滚动条是参考文件显示区域的滚动条,第二滚动条是比对文件显示区域的滚动条;当第一滚动条是比对文件显示区域的滚动条,第二滚动条是参考文件显示区域的滚动条。

例如,当用户滚动参考文件显示区域的滚动条时,客户端就会实时计算参考文件显示区域的滚动条当前已滚动的长度占滚动区域总长度的比例(如当前已滚动的长度是2cm,滚动区域总长度是10cm,比例为0.2),并根据该比例将比对文件显示区域的滚动条滚动到0.2比例处(如当前已滚动的长度是3cm,滚动区域总长度是12cm,则会滚动到2.4cm处)。

在进行差异比对前,若用户触发同步滚动,则可以直接显示同步滚动后的文本。在进行差异比对后,若用户触发同步滚动,则可以根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示当前滚动到显示区域的差异文本,对于当前滚动到显示区域的其他文本,常规显示即可,而无需突出显示。

本发明实施例提供的基于RPA和AI的文件比对方法,能够由RPA机器人自动将待比对的参考文件和比对文件上传至客户端,由客户端将参考文件和比对文件传输给服务器进行差异性比对,最后可以根据服务器返回的差异性比对结果在比对文件和/或参考文件中突出显示差异文本。由此可知,与现有技术中需要人工比对文件相比,本发明实施例能够利用RPA机器人自动触发客户端发送两个待比对的文件给服务器进行自动比对,从而不仅可以节省人力,让原本需要做文件比对的人员有时间去做更有价值的工作,还可以提高文件比对的效率;与现有技术需要人工标记差异性相比,本发明实施例可以直接在参考文件和/或比对文件中突出显示差异文本,从而可以提高差异文本的可读性,进而可以提高用户查找两文件间差异的效率。其中,在客户端向服务器发送参考文件和比对文件时,可以先利用OCR(Optical Character Recognition,光学字符识别)对参考文件和比对文件进行识别,再将这两个文件中包含多页文本的文件进行文本拼接,获得单页且上下文连续的参考文本以及单页且上下文连续的比对文本,最后将参考文本和比对文本发送给服务器进行差异性比对,从而可以使得服务器直接结合上下文对两个文本进行比对,而无需服务器做其他处理,进而可以提高服务器进行文件比对的效率和准确性。

基于上述方法实施例,本发明的另一个实施例还提供了一种基于RPA和AI的文件比对装置,所述装置应用于客户端,如图4所示,所述装置包括:

接收单元20,用于接收机器人流程自动化RPA机器人上传的参考文件和比对文件;

发送单元22,用于将所述参考文件和所述比对文件发送给服务器;

所述接收单元20,还用于接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果;

显示单元24,用于根据所述差异性比对结果在所述比对文件和/或所述参考文件中突出显示差异文本,其中,在所述比对文件中突出显示的差异文本为所述比对文件相对于所述参考文件存在差异的文本,在所述参考文件中突出显示的差异文本为所述参考文件相对于所述比对文件存在差异的文本。

可选的,所述差异性比对结果包括至少一条差异信息,每条差异信息包括差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本、在所述参考文件中的差异文本的差异位置信息,以及在所述比对文件中的差异文本的差异位置信息,所述差异位置信息包括差异文本所属分页的分页标识、差异文本在所属分页的坐标信息。

可选的,所述显示单元24,包括:

转换模块,用于将所述坐标信息转换成划分DIV元素位置信息;

显示模块,用于当所述DIV元素位置信息进入所属文件的显示区域时,根据所述DIV元素位置信息对应的差异类型和所述DIV元素位置信息对应的分页标识,对所述分页标识指示的分页中所述DIV元素位置信息处的差异文本进行突出显示。

可选的,所述显示单元24还包括:

生成模块,用于针对同一条差异信息,根据在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息以及差异类型,生成身份证标识号ID;

绑定模块,用于分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定;

第一同步模块,用于当接收到基于所述参考文件或者所述比对文件触发的第一同步定位指令时,将与所述第一同步定位指令对应的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,所述显示单元24,还用于在接收所述服务器发送的所述比对文件相对于所述参考文件的差异性比对结果之后,根据所述差异性比对结果在预设显示区域显示差异明细,所述预设显示区域为除了参考文件显示区域和比对文件显示区域以外的区域,所述差异明细包括每条差异信息中的差异类型、在所述参考文件中的差异文本、在所述比对文件中的差异文本。

可选的,所述绑定模块,还用于在分别将所述ID与在所述参考文件中差异文本的DIV元素位置信息、在所述比对文件中差异文本的DIV元素位置信息进行绑定之后,将所述ID与所述差异明细中对应的差异信息进行绑定;

所述显示单元24还包括:

获取模块,用于当接收到基于所述差异明细触发的第二同步定位指令时,获取与所述第二同步定位指令对应的所述差异明细中的差异信息绑定的ID;

第二同步模块,用于将与获取的ID绑定的所有DIV元素位置信息处的差异文本同步进行突出显示。

可选的,所述接收单元20,还用于在根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本之前,接收针对第一滚动条的滚动指令,所述第一滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条;

确定单元,用于根据所述滚动指令确定所述第一滚动条当前已滚动的长度占滚动区域总长度的比例;

同步滚动单元,用于根据所述比例滚动第二滚动条,以使得所述第一滚动条与所述第二滚动条同步滚动,所述第二滚动条包括参考文件显示区域的滚动条或者比对文件显示区域的滚动条,但与所述第一滚动条不同。

可选的,所述显示单元,用于根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示当前滚动到显示区域的差异文本。

可选的,所述发送单元22,包括:

识别模块,用于利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本;

拼接模块,用于当目标文件为包含多页文本的文件时,将所述目标文件的多页文本拼接为上下文连续的一页文本,获得目标文本,当所述目标文件为包含单页文本的文件时,从所述目标文件中获取单页文本作为目标文本,其中,当所述目标文件为所述参考文件时,所述目标文本为参考文本,当所述目标文件为所述比对文件时,所述目标文本为比对文本;

发送模块,用于将所述参考文本和所述比对文本发送给所述服务器。

基于上述实施例,本发明的另一个实施例还提供了一种计算设备,所述计算设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的方法。其中,处理器与存储装置相耦合。

基于上述方法实施例,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的方法。

基于上述实施例,本发明实施例还提供了一种基于RPA和AI的文件比对系统,所述系统包括RPA机器人30、客户端32和服务器34。如图5所示,RPA机器人30可以与客户端32相互独立,如图6所示,RPA机器人30可以是客户端32的一部分。

所述RPA机器人30,用于登录所述客户端32,并将参考文件和比对文件上传至所述客户端32,触发所述客户端32将所述参考文件和所述比对文件发送给服务器34进行差异性比对;

所述客户端32,用于接收RPA机器人上传的参考文件和比对文件,将所述参考文件和所述比对文件发送给服务器;

所述服务器34,用于根据预设比对算法对所述参考文件和所述比对文件进行差异性比对,获得所述比对文件相对于所述参考文件的差异性比对结果;

所述客户端32,还用于接收所述服务器发送的差异性比对结果,根据所述差异性比对结果,在所述比对文件和/或所述参考文件中突出显示差异文本,其中,在所述比对文件中突出显示的差异文本为所述比对文件相对于所述参考文件存在差异的文本,在所述参考文件中突出显示的差异文本为所述参考文件相对于所述比对文件存在差异的文本。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。

另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

相关技术
  • 基于RPA和AI的文件比对方法、装置、设备及存储介质
  • 基于RPA及AI的文件处理方法、装置、设备及介质
技术分类

06120113822597