导航：首页> 计算；推算；计数>基于AI和RPA的文件标注方法、装置、设备和介质

基于AI和RPA的文件标注方法、装置、设备和介质

文献发布时间：2023-06-19 13:49:36

技术领域

本公开涉及人工智能(Artificial Intelligence，简称AI)和机器人流程自动化(Robotic Process Automation，简称RPA)领域，尤其涉及一种基于AI和RPA的文件标注方法、装置、设备和介质。

背景技术

RPA是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

随着RPA的普及，越来越多的企业使用RPA帮助员工完成重复的劳动，但是在模型的训练过程中，依然需要大量的人工对文件进行标注，以获取训练数据。比如，通过大量的人工标注PDF文件或图片获取训练数据，对文档结构信息和视觉信息进行建模，如，通用文档预训练模型LayoutLM，让模型在预训练阶段进行多模态对齐。

然而上述的文件标注方式，无法选择不连续的文字和提取图片上的文字，不包含文字在文档中的位置信息，无法满足模型训练的需求。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开提出一种基于AI和RPA的文件标注方法、装置、设备和介质，以实现RPA系统通过确定目标图片中的文本标注区域范围，以及区域范围内的文本标注结果，实现了图片中文本信息的提取以及文本中不连续文字的选择，同时可获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，可满足模型训练的需求。

本公开第一方面实施例提出了一种基于AI和RPA的文件标注方法，包括：RPA系统获取文件标注请求；其中，所述文件标注请求用于对待标注文件进行标注；所述RPA系统响应于所述文件标注请求，生成与所述文件标注请求对应的响应结果；所述RPA系统根据所述响应结果，绘制所述待标注文件对应的目标图片；所述RPA系统响应于鼠标事件，确定所述目标图片中的文本标注的区域范围；所述RPA系统根据对所述待标注文件进行光学字符识别OCR所获取的第一文本信息和所述第一文本信息的各个文本片段对应的位置信息，确定所述区域范围内的文本标注结果。

本公开第二方面实施例提出了一种基于AI和RPA的文件标注装置，所述文件标注装置应用与RPA系统，包括：获取模块，用于获取文件标注请求；其中，所述文件标注请求用于对待标注文件进行标注；生成模块，用于响应于所述文件标注请求，生成与所述文件标注请求对应的响应结果；绘制模块，用于根据所述响应结果，绘制所述待标注文件对应的目标图片；第一确定模块，用于响应于鼠标事件，确定所述目标图片中的文本标注的区域范围；第二确定模块，用于根据对所述待标注文件进行光学字符识别OCR所获取的第一文本信息和所述第一文本信息的各个文本片段对应的位置信息，确定所述区域范围内的文本标注结果。

本公开第三方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本公开上述第一方面实施例所述的方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本公开上述第一方面实施例所述的方法。

本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本公开上述第一方面实施例所述的方法。

本公开实施例所提供的技术方案包含如下的有益效果：

通过RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注；RPA系统响应于所述文件标注请求，生成与文件标注请求对应的响应结果；RPA系统根据所述响应结果，绘制所述待标注文件对应的目标图片；RPA系统响应于鼠标事件，确定所述目标图片中的文本标注的区域范围；RPA系统根据对所述待标注文件进行光学字符识别OCR所获取的第一文本信息和所述第一文本信息的各个文本片段对应的位置信息，确定所述区域范围内的文本标注结果。由此，RPA系统通过确定目标图片中的文本标注区域范围，以及区域范围内的文本标注结果，实现了图片中文本信息的提取以及文本中不连续文字的选择，同时可获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，可满足模型训练的需求。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种基于AI和RPA的文件标注方法的流程示意图；

图2为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图；

图3为本公开实施例所提供的区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息示意图；

图4为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图；

图5为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图；

图6为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图；

图7为本公开实施例提供的一种基于AI和RPA的文件标注装置的结构示意图；

图8示出了适于用来实现本公开实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的基于AI和RPA的文件标注方法、装置、设备和介质。

图1为本公开实施例所提供的一种基于AI和RPA的文件标注方法的流程示意图。

本公开实施例提供的基于AI和RPA的文件标注方法，可应用于本公开实施例的基于AI和RPA的文件标注装置，该装置可被配置于电子设备中。其中，该电子设备可以是个人电脑、移动终端等，移动终端例如为手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图1所示，该基于AI和RPA的文件标注方法可以包括以下步骤：

步骤101，RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注。

在本公开实施例中，用户可通过交互界面向RPA系统发送文件标注请求，以使RPA系统根据文件标注请求对待标注文件进行标注。其中，需要说明的是，文本标注请求可用于对待标注文件进行标注。

步骤102，RPA系统响应于文件标注请求，生成与文件标注请求对应的响应结果。

进一步地，RPA系统根据获取到的文件标注请求，生成与标注请求对应的响应结果，其中，响应结果中可包括：与文件标注请求对应的待标注文件、待标注文件对应的转换图片；以及基于光学字符识别(Optical Character Recognition，简称OCR)获取待标注文件对应的第一文本信息以及第一文本信息中各个文本片段对应的位置信息。其中，文本片段对应的位置信息可包括文本中各个词语及文字分别对应的位置信息。其中，各个词语及文字对应的位置信息可为各个词语及文字相对于页面中的位置，如，词语或文字相对于页面的四个顶点的坐标信息。

步骤103，RPA系统根据响应结果，绘制待标注文件对应的目标图片。

作为一种示例，响应结果中的待标注文件可包括一个或多个待标注子文件，可根据待标注子文件的数量的不同，采用不同的方式绘制待标注文件对应的目标图片。

作为一种示例，在待标注文件中包括多个待标注子文件时，RPA系统可根据多个待标注子文件对应的文本信息以及文本信息中各个文本片段对应的位置信息，绘制待标注子文件对应的目标子图片，将目标子图片进行拼接，获取待标注文件对应的目标图片。

作为另一种示例，在待标注文件中包括一个待标注子文件时，RPA系统可对该待标注文件对应的第一文本信息以及第一文本信息中各个文本片段对应的位置信息，绘制待标注文件对应的目标图片。

步骤104，RPA系统响应于鼠标事件，确定目标图片中的文本标注的区域范围。

在本公开实施例中，RPA系统可根据鼠标事件确定目标图片中的文本标注的区域范围。比如，在鼠标事件依次包括：鼠标点击事件、鼠标移动事件和鼠标抬起事件时，可确定鼠标事件确定的文本标注的区域范围。

步骤105，RPA系统根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息各个文本片段对应的位置信息，确定区域范围内的文本标注结果。

在本公开实施例中，可根据区域范围的坐标信息确定区域范围所属的待标注子文件，进而，获取待标注子文件在第一文本信息中对应的第二文本信息，以及在第一文本信息的各个文本片段中对应的第二文本信息的各个文本片段，接着，根据区域范围相对于待标注子文件的位置信息，从第二文本信息以及第二文本信息的各个文本片段中确定区域范围内的文本标注结果。

作为一种应用场景，比如，在招标公告和红头文件中，本公开实施例的文件标注方法能够将非结构化的长文本转换为结构化数据，并协助用户完成文档关键信息的智能提取。

综上，通过RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注；RPA系统响应于文件标注请求，生成与文件标注请求对应的响应结果；RPA系统根据响应结果，绘制待标注文件对应的目标图片；RPA系统响应于鼠标事件，确定目标图片中的文本标注的区域范围；RPA系统根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。由此，RPA系统通过确定目标图片中的文本标注区域范围，以及区域范围内的文本标注结果，实现了图片中文本信息的提取以及文本中不连续文字的选择，同时可获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，可满足模型训练的需求。

为了获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，如图2所示，图2为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图，在本公开实施例中，可确定区域范围所属的待标注子文件，根据区域范围相对于区域范围所属的待标注子文件的位置信息，以及待标注子文件在待标注文件中位置信息，从而，在第一文本信息和第一文本信息的各个文本片段对应的位置信息中，确定区域范围内的文本标注结果。图2所示实施例可包括如下步骤：

步骤201，RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注。

步骤202，RPA系统响应于文件标注请求，生成与文件标注请求对应的响应结果。

步骤203，RPA系统根据响应结果，绘制待标注文件对应的目标图片。

步骤204，RPA系统响应于鼠标事件，确定目标图片中的文本标注的区域范围。

步骤205，RPA系统根据区域范围的顶点坐标信息以及待标注文件中的待标注子文件的高度信息，确定区域范围所属的待标注子文件。

在本公开实施例中，RPA系统可预先设置每个待标注子文件的高度信息，进而，RPA系统可根据区域范围的顶点坐标信息(如，左上顶点)确定区域范围的顶点相对于待标注子文件对应的目标子图片的原点的高度信息，根据该高度信息以及该每个待标注子文件对应的目标子图片的高度信息，可确定区域范围所属的待标注子文件。比如，区域范围的顶点相对于待标注子文件对应的目标图片的原点的高度大于一个待标注子文件对应的目标子图片的高度，且小于两个待标注子文件对应的目标子图片的高度，可确定区域范围属于第二个待标注子文件。

步骤206，RPA系统确定区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息。

举例而言，如图3所示，以待标注文件为pdf文件为例，页面上的元素从外到内依次是：窗口对象window.document，绘制pdf文件的绘图对象canvas，canvas相对于document的位置为left和top，page和canvas之间没有间距。pdf文件的多个待标注子文件对应的目标子图片(page1，page2等)，以区域范围所属的待标注子文件对应的目标子图片为page2为例，区域范围左上角坐标为(x，y)，区域范围相对于待标注子文件对应的目标子图片page2的位置信息为relativeLeft＝x-left，relativeRight＝x-left+width，relativeTop＝y-top-pageHeight*(PageNo-1)，relativeBottom＝relativeTop+height。其中，width、height分别为区域范围的宽度和高度，区域范围的宽度和高度可根据标注的结束坐标与起始坐标计算而获取。如，区域范围标注的起始坐标为(x，y)，区域范围标注的结束坐标为(x1，y1)，区域范围的宽度可为|x1-x|，区域范围的高度可为|y1-y|。

步骤207，RPA系统根据位置信息，在第一文本信息和第一文本信息的各个文本片段对应的位置信息中，确定区域范围内的文本标注结果。

可选地，RPA系统根据区域范围所属的待标注子文件在待标注文件中的位置信息，确定区域范围所属的待标注子文件在第一文本信息中对应的第二文本信息；RPA系统根据第二文本信息与第一文本信息的对应关系，在第一文本信息各个文本片段对应的位置信息中确定第二文本信息的各个文本片段对应的位置信息；RPA系统根据区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息，确定区域范围内在第二文本信息中的第三文本信息；RPA系统根据第三文本信息与第二文本信息的对应关系，在第二文本信息的各个文本片段对应的位置信息中确定第三文本信息的各个文本片段对应的位置信息；RPA系统将第三文本信息和第三文本信息的各个文本片段对应的位置信息，作为区域范围内的文本标注结果。

也就是说，RPA系统在确定区域范围所属的待标注子文件后，可根据该待标注子文件在待标注文件中的位置信息，确定该待标注子文件在第一文本信息中对应的第二文本信息，比如，RPA系统确定区域范围所属的待标注子文件为待标注文件中的第二页，可在第一文本信息中确定第二页的待标注子文件对应的第二文本信息。接着，RPA系统根据第二文本信息与第一文本信息的对应关系，在第一文本信息各个文本片段对应的位置信息中可确定第二文本信息的各个文本片段对应的位置信息。进一步地，RPA系统根据区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息，在第二文本信息中确定区域范围对应的第三文本信息，RPA系统根据第三文本信息与第二文本信息的对应关系，在第二文本信息的各个文本片段对应的位置信息中确定第三文本信息的各个文本片段对应的位置信息；RPA系统将第三文本信息和第三文本信息的各个文本片段对应的位置信息，作为区域范围内的文本标注结果。

在本公开实施例中，RPA系统可将区域范围相对于区域范围所属的待标注子文件的目标子图片的位置信息，以及区域范围的文本标注结果进行标签标注和保存，以作为模型的训练数据，以满足模型训练的需求。比如，可作为通用文档预训练模型的训练数据。

作为一种应用场景，通用文档预训练模型可结合文档结构信息和视觉信息进行多模态对齐，该模型可应用于表单理解、票据理解、文档图像分类等任务。

在本公开实施例中，步骤201-204可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过RPA系统根据区域范围的顶点坐标信息以及待标注文件中的待标注子文件的高度信息，确定区域范围所属的待标注子文件；RPA系统确定区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息；RPA系统根据位置信息，在第一文本信息和第一文本信息的各个文本片段对应的位置信息中，确定区域范围内的文本标注结果。由此，可准确地确定区域范围内的文本标注结果，从而获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息。

为了准确地确定目标图片中的文本标注的区域范围，实现图片中文本信息的提取以及文本中不连续文字的选择，如图4所示，图4为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图，在本公开实施例中，可通过鼠标点击事件、鼠标移动事件和鼠标抬起事件确定目标图片中的文本标注的区域范围。图4所示实施例可包括如下步骤：

步骤401，RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注。

步骤402，RPA系统响应于文件标注请求，生成与文件标注请求对应的响应结果。

步骤403，RPA系统根据响应结果，绘制待标注文件对应的目标图片。

步骤404，RPA系统监听目标图片的鼠标事件；其中，鼠标事件依次包括：鼠标点击事件、鼠标移动事件和鼠标抬起事件。

在本公开实施例中，RPA系统可通过监听函数监听目标图标的鼠标事件，在鼠标事件依次包括鼠标点击事件(mousedown事件)、鼠标移动事件(mousemove事件)和鼠标抬起事件(mouseup事件)时，可确定在目标图片中进行文本标注的区域范围的选择。

步骤405，RPA系统根据鼠标点击事件，确定区域范围的第一坐标。

进而，RPA系统通过监听鼠标的点击事件，可将鼠标的点击事件的坐标作为区域范围的起始坐标，即第一坐标。

步骤406，RPA系统根据鼠标移动事件和鼠标抬起事件，确定区域范围的第二坐标。

进一步地，RPA系统通过监听鼠标的移动事件和鼠标抬起事件，可确定区域范围的结束坐标，即第二坐标。

步骤407，RPA系统根据第一坐标和第二坐标，确定区域范围的高度值和宽度值。

比如，可将第一坐标中的横坐标与第二坐标的横坐标相减，将相减结果的绝对值作为区域范围的宽度值。将第一坐标中的纵坐标与第二坐标的纵坐标相减，将相减结果的绝对值作为区域范围的高度值。

步骤408，RPA系统将第一坐标、第二坐标以及区域范围的高度值和宽度值的围合区域，作为目标图片中的文本标注的区域范围。

在本公开实施例中，RPA系统将第一坐标的横坐标与区域范围的宽度值相加，可获取第三坐标，RPA系统将第一坐标的纵坐标与区域范围的高度值相加，可获取第四坐标，将第一坐标、第二坐标、第三坐标和第四坐标围合的围合区域，作为目标图片中的文本标注的区域范围。需要说明的是，为了更加准确地确定区域范围内的文本标注结果，同一时间内目标图片中的文本标注的区域范围的数量为一个，该区域范围可通过标签

实现。

步骤409，RPA系统根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。

在本公开实施例中，步骤401-403、409可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过RPA系统监听目标图片的鼠标事件；其中，鼠标事件依次包括：鼠标点击事件、鼠标移动事件和鼠标抬起事件；RPA系统根据鼠标点击事件，确定区域范围的第一坐标；RPA系统根据鼠标移动事件和鼠标抬起事件，确定区域范围的第二坐标；RPA系统将第一坐标、第二坐标以及区域范围的高度值和宽度值的围合区域，作为目标图片中的文本标注的区域范围。由此，RPA系统响应于鼠标事件，可准确地确定目标图片中的文本标注的区域范围，实现图片中文本信息的提取以及文本中不连续文字的选择。

为了获取与待标注请求对应的响应结果，如图5所示，图5为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图，在本公开实施例中，在待标注文件为非图片的情况下，可先将待标注文件转换为转换图片，进而，根据光学字符识别对转换图片进行字符识别，获取待标注文件对应的第一文本信息以及第一文本信息的各个文本片段对应的位置信息。图5所示实施例可包括如下步骤：

步骤501，RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注。

步骤502，RPA系统根据文件标注请求，获取与文件标注请求对应的待标注文件。

在本公开实施例中，RPA系统可根据文件标注请求中的待标注文件的标识获取与文件标注请求对应的待标注文件。其中，文件标注请求中可包括待标注文件的标识。

步骤503，RPA系统将待标注文件进行图片转换，获取与待标注文件对应的转换图片。

在本公开实施例中，在待标注文件不为图片的情况下，可将待标注文件进行图片转换。

作为一种示例，可通过文档图片转换技术将待标注文件转换为图片，将转换后的图片作为转换图片。比如，可通过pdf.js插件将pdf文件转换为图片。

步骤504，RPA系统基于光学字符识别对转换图片进行字符识别，以获取待标注文件对应的第一文本信息以及第一文本信息的各个文本片段对应的位置信息。

进而，RPA系统基于光学字符识别对转换图片进行字符识别，将识别到的文本信息作为待标注文件对应的第一文本信息，并将识别到的文本信息中的每个字或词的位置信息(如，文本信息中的每个字或词在页面中的上下左右4个顶点的x和y轴坐标)作为第一文本信息的各个文本片段对应的位置信息。其中，需要说明的是，为了避免图片不清晰，可将转换图片放大预设倍数，将放大预设倍数的转换图片发送给光学字符识别接口，以对转换图片进行字符识别。

步骤505，RPA系统将待标注文件、待标注文件对应的第一文本信息和第一文本信息的各个文本片段对应的位置信息，作为与文件标注请求对应的响应结果。

在本公开实施例中，RPA系统可将与文件标注请求对应待标注文件、待标注文件对应的第一文本信息和第一文本信息的各个文本片段对应的位置信息，作为与文件标注请求对应的响应结果。

步骤506，RPA系统根据响应结果，绘制待标注文件对应的目标图片。

步骤507，RPA系统响应于鼠标事件，确定目标图片中的文本标注的区域范围。

步骤508，RPA系统根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。

在本公开实施例中，步骤501、506-508可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过RPA系统根据文件标注请求，获取与文件标注请求对应的待标注文件；RPA系统将待标注文件进行图片转换，获取与待标注文件对应的转换图片；RPA系统基于光学字符识别对转换图片进行字符识别，以获取待标注文件对应的第一文本信息以及第一文本信息的各个文本片段对应的位置信息；RPA系统将待标注文件、待标注文件对应的第一文本信息和第一文本信息的各个文本片段对应的位置信息，作为与文件标注请求对应的响应结果。由此，RPA系统根据文件标注请求，可准确地获取与待标注请求对应的响应结果。

为了准确地绘制待标注文件对应的目标图片，如图6所示，图6为本公开实施例所提供的另一种基于AI和RPA的文件标注方法的流程示意图，在本公开实施例中，可确定待标注子文件对应的目标子图片，根据多个目标子图片，可确定待标注文件对应的目标图片。图6所示实施例可包括如下步骤：

步骤601，RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注。

步骤602，RPA系统响应于文件标注请求，生成与文件标注请求对应的响应结果。

步骤603，RPA系统获取响应结果中的待标注文件的多个待标注子文件。

在本公开实施例中，待标注文件可包括多个待标注子文件或者一个待标注子文件。比如，待标注文件为pdf文件，pdf文件的页数可为一页或多页，在pdf文件的页数为一页时，待标注文件仅包括一个待标注子文件，在pdf文件的页数为多页时，RPA系统可将每页pdf文件作为待标注文件的一个待标注子文件。多页pdf文件可包括多个待标注子文件。对于多页pdf文件中每个待标注子文件，RPA系统可对每个待标注子文件进行标识，该标识可用于标识每个待标注子文件在待标注文件中的位置。

步骤604，RPA系统针对每个待标注子文件，创建与待标注子文件对应的绘图对象。

在本公开实施例中，对于每个待标注子文件，可创建与待标注子文件对应的绘图对象，以及根据待标注子文件的属性信息创建页面对象，比如，绘图对象为canvas对象，页面对象为page对象，page对象包括待标注子文件的高度信息和宽度信息。

可以理解的是，绘图对象创建时，RPA系统为其设置默认的宽度值和高度值，为了使绘制的目标图片与待标注文件大小具有对应关系(如，大小一致)，在本公开实施例中，RPA系统可根据页面对象中的待标注子文件的属性信息调整绘图对象的尺寸信息。

步骤605，RPA系统根据待标注子文件在待标注文件中的位置信息，确定待标注子文件在第一文本信息中对应的文本信息。

作为一种示例，对于每个待标注子文件，RPA系统可对每个待标注子文件进行标识，该标识可用于标识每个待标注子文件在待标注文件中的位置，RPA系统可根据待标注子文件在待标注文件中的位置信息，确定待标注子文件在第一文本信息中对应的文本信息。比如，待标注子文件在待标注文件中所属的位置为第二页，可在第一文本信息中获取第二页待标注子文件对应的文本信息。

步骤606，根据文本信息与第一文本信息的对应关系，在第一文本信息的各个文本片段对应的位置信息中确定文本信息的各个文本片段对应的位置信息。

进一步地，在确定待标注子文件在第一文本信息中对应的文本信息后，根据该文本信息与第一文本信息之间的对应关系，可在第一文本信息的各个文本片段对应的位置信息中，确定该文本信息的各个文本片段对应的位置信息。

步骤607，RPA系统根据绘图对象的尺寸信息，和待标注子文件对应的文本信息和文本信息的各个文本片段对应的位置信息，绘制待标注子文件对应的目标子图片。

进而，RPA系统根据绘图对象的尺寸信息，结合待标注子文件对应的文本信息和文本信息的各个文本片段对应的位置信息，绘制待标注子文件对应的目标子图片。其中，需要说明的是，目标子图片与待标注子文件的大小相同，目标子图片可包括待标注子文件的文本信息以及文本信息的各个文本片段对应的位置信息。

步骤608，RPA系统将多个待标注子文件对应的目标子图片进行图片拼接，以得到目标图片。

进一步地，RPA系统将多个待标注子文件对应的目标子图片进行图片拼接，将多个目标子图片的拼接结果作为目标图片。

步骤609，RPA系统响应于鼠标事件，确定目标图片中的文本标注的区域范围。

步骤610，RPA系统根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。

在本公开实施例中，步骤601-602、609-610可以分别采用本公开的各实施例中的任一种方式实现，本公开实施例并不对此作出限定，也不再赘述。

综上，通过RPA系统获取响应结果中的待标注文件的多个待标注子文件；RPA系统针对每个待标注子文件，创建与待标注子文件对应的绘图对象；根据文本信息与第一文本信息的对应关系，在第一文本信息的各个文本片段对应的位置信息中确定文本信息的各个文本片段对应的位置信息；RPA系统根据绘图对象的尺寸信息，和待标注子文件对应的文本信息和文本信息的各个文本片段对应的位置信息，绘制待标注子文件对应的目标子图片；RPA系统将多个待标注子文件对应的目标子图片进行图片拼接，以得到目标图片。由此，RPA系统根据多个待标注子文件以及待标注子文件对应的文本信息和文本信息的各个文本片段对应的位置信息，可准确地绘制待标注文件对应的目标图片。

本公开实施例的基于AI和RPA的文件标注方法，通过RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注；RPA系统响应于所述文件标注请求，生成与文件标注请求对应的响应结果；RPA系统根据所述响应结果，绘制所述待标注文件对应的目标图片；RPA系统响应于鼠标事件，确定所述目标图片中的文本标注的区域范围；RPA系统根据对所述待标注文件进行光学字符识别OCR所获取的第一文本信息和所述第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。由此，RPA系统通过确定目标图片中的文本标注区域范围，以及区域范围内的文本标注结果，实现了图片中文本信息的提取以及文本中不连续文字的选择，同时可获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，可满足模型训练的需求。

与上述图1至图6实施例提供的基于AI和RPA的文件标注方法相对应，本公开还提供一种基于AI和RPA的文件标注装置，由于本公开实施例提供的基于AI和RPA的文件标注装置与上述图1至图6实施例提供的基于AI和RPA的文件标注方法相对应，因此在基于AI和RPA的文件标注方法的实施方式也适用于本公开实施例提供的基于AI和RPA的文件标注装置，在本公开实施例中不再详细描述。

图7为本公开实施例提供的一种基于AI和RPA的文件标注装置的结构示意图。

如图7所示，该基于AI和RPA的文件标注装置700可以包括：获取模块710、生成模块720、绘制模块730、第一确定模块740和第二确定模块750。

其中，获取模块710，用于获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注；生成模块720，用于响应于文件标注请求，生成与文件标注请求对应的响应结果；绘制模块730，用于根据响应结果，绘制待标注文件对应的目标图片；第一确定模块740，用于响应于鼠标事件，确定目标图片中的文本标注的区域范围；第二确定模块750，用于根据对待标注文件进行光学字符识别OCR所获取的第一文本信息和第一文本信息的各个文本片段对应的位置信息，确定区域范围内的文本标注结果。

作为本公开实施例的一种可能实现方式，第二确定模块750，用于：根据区域范围的顶点坐标信息以及待标注文件中的待标注子文件的高度信息，确定区域范围所属的待标注子文件；确定区域范围相对于区域范围所属的待标注子文件对应的目标子图片的位置信息；根据位置信息，在第一文本信息和第一文本信息的各个文本片段对应的位置信息中，确定区域范围内的文本标注结果。

作为本公开实施例的一种可能实现方式，第二确定模块750，还用于：根据区域范围所属的待标注子文件在待标注文件中的位置信息，确定区域范围所属的待标注子文件在第一文本信息中对应的第二文本信息；根据第二文本信息与第一文本信息的对应关系，在第一文本信息的各个文本片段对应的位置信息中确定第二文本信息各个文本片段对应的位置信息；根据区域范围相对于区域范围所属的待标注子文件的位置信息，确定区域范围内在所述第二文本信息中的第三文本信息；根据第三文本信息与第二文本信息的对应关系，在第二文本信息的各个文本片段对应的位置信息中确定第三文本信息的各个文本片段对应的位置信息；将第三文本信息和第三文本信息的各个文本片段对应的位置信息，作为区域范围内的文本标注结果。

作为本公开实施例的一种可能实现方式，第一确定模块740，用于：监听目标图片的鼠标事件；其中，鼠标事件依次包括：鼠标点击事件、鼠标移动事件和鼠标抬起事件；根据鼠标点击事件，确定区域范围的第一坐标；根据鼠标移动事件和鼠标抬起事件，确定区域范围的第二坐标；根据第一坐标和第二坐标，确定区域范围的高度值和宽度值；将第一坐标、第二坐标以及区域范围的高度值和宽度值的围合区域，作为目标图片中的文本标注的区域范围。

作为本公开实施例的一种可能实现方式，生成模块720，用于：根据文件标注请求，获取与文件标注请求对应的待标注文件；将待标注文件进行图片转换，获取与待标注文件对应的转换图片；基于光学字符识别OCR对所述转换图片进行字符识别，以获取所述待标注文件对应的第一文本信息以及所述第一文本信息的各个文本片段对应的位置信息；将待标注文件、待标注文件对应的第一文本信息和第一文本信息的各个文本片段对应的位置信息，作为与文件标注请求对应的响应结果。

作为本公开实施例的一种可能实现方式，绘制模块730，用于：获取响应结果中的待标注文件的多个待标注子文件；针对待标注文件中的每个待标注子文件，创建与待标注子文件对应的绘图对象；根据待标注子文件在所述待标注文件中的位置信息，确定待标注子文件在第一文本信息中对应的文本信息；根据文本信息与第一文本信息的对应关系，在第一文本信息中各个文本片段对应的位置信息中确定文本信息的各个文本片段对应的位置信息；根据绘图对象的尺寸信息，和待标注子文件对应的文本信息和文本信息的各个文本片段对应的位置信息，绘制待标注子文件对应的目标子图片；将多个待标注子文件对应的目标子图片进行图片拼接，以得到目标图片。

作为本公开实施例的一种可能实现方式，基于AI和RPA的文件标注装置700还包括：处理模块。其中，处理模块，用于将区域范围相对于区域范围所属的待标注子文件的位置信息，以及区域范围内的第三文本信息和所述第三文本信息的各个文本片段对应的位置信息进行标签标注和保存，以作为模型的训练数据。

本公开实施例的基于AI和RPA的文件标注装置，通过RPA系统获取文件标注请求；其中，文件标注请求用于对待标注文件进行标注；RPA系统响应于所述文件标注请求，生成与文件标注请求对应的响应结果；RPA系统根据所述响应结果，绘制所述待标注文件对应的目标图片；RPA系统响应于鼠标事件，确定所述目标图片中的文本标注的区域范围；RPA系统根据对所述待标注文件进行光学字符识别OCR所获取的第一文本信息和所述第一文本信息的各个文本片段对应的位置信息，确定所述区域范围内的文本标注结果。由此，RPA系统通过确定目标图片中的文本标注区域范围，以及区域范围内的文本标注结果，实现了图片中文本信息的提取以及文本中不连续文字的选择，同时可获取到标注的区域范围内的文本信息以及文本信息中文本片段的位置信息，可满足模型训练的需求。

为了实现上述实施例，本公开实施例还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述任一方法实施例所述的基于AI和RPA的文件标注方法。

为了实现上述实施例，本公开实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述任一方法实施例所述的基于AI和RPA的文件标注方法。

为了实现上述实施例，本公开实施例还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如前述任一方法实施例所述的基于AI和RPA的文件标注方法。

如图8所示，图8是根据本公开实施例所提供的基于AI和RPA的文件标注方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的基于AI和RPA的文件标注方法。本公开的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本公开所提供的基于AI和RPA的文件标注方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的基于AI和RPA的文件标注方法对应的程序指令/模块(例如，附图7所示的获取模块710、生成模块720、绘制模块730、第一确定模块740和第二确定模块750)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的基于AI和RPA的文件标注方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义表示模型的生成的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至基于AI和RPA的文件标注的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

基于AI和RPA的文件标注方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与基于AI和RPA的文件标注的生成的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

另外，本公开的技术方案中所涉及的信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提出的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨子杰;汪冠春;胡一川;褚瑞;李玮;
专利申请人：北京来也网络科技有限公司;来也科技(北京)有限公司;

上一篇：一种通过机器学习和大数据相结合的加油量精准测量系统
下一篇：结合RPA和AI的报表处理方法及装置