一种结合RPA和AI的图像信息提取方法及装置

文献发布时间：2023-06-19 11:39:06

技术领域

本申请涉及机器人流程自动化(Robotic Process Automation，RPA)、AI(Artificial Intelligence，人工智能)技术领域，特别涉及一种结合RPA和AI的图像信息提取方法及装置。

背景技术

机器人流程自动化(Robotic Process Automation，RPA)是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。人工智能(ArtificialIntelligence，AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，RPA和AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

相关技术中，为了实现图像信息的提取，通常会采用通过开发AI的扩展插件或使用其它语言解析结果的方式存到本地文件中，然后在RPA开发工具里去调用本地文件的数据来实现结合RPA和AI的自动化流程。这样一来，势必需要写大量代码从配置的AI平接口中获取结果数据，然后再写大量提取代码从结果数据中获取指定结果的值，导致存在耗时久、效率较低的技术问题。

发明内容

本申请旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本申请的一个目的在于提出一种结合RPA和AI的图像信息提取方法，能够在完全未编写任何代码的情况下，通过简单的操作和拖拽即可完成将半结构化票据的信息通过自定义的模板识别后抽取到结构化表格的智能机器人流程。

本申请的第二个目的在于提出一种结合RPA和AI的图像信息提取装置。

本申请的第三个目的在于提出一种计算设备。

本申请的第四个目的在于提出一种计算机可读存储介质。

为达到上述目的，本申请第一方面实施例提出了一种结合RPA和AI的图像信息提取方法，包括：打开机器人流程自动化RPA平台上的向导界面；在所述向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，其中，所述识别器根据人工智能AI平台上配置的自定义模板来配置，所述模板名称和所述字段根据所述AI平台上配置的自定义模板的名称和需要提取识别结果的字段来选择；运行所述可视化的结构代码，以提取所述图像的识别结果，并将提取出的所述识别结果赋值为预设变量。

根据本申请实施例的结合RPA和AI的图像信息提取方法，能够在完全未编写任何代码的情况下，通过简单的操作和拖拽即可完成将半结构化票据的信息通过自定义的模板识别后抽取到结构化表格的智能机器人流程。

另外，根据本申请上述实施例提出的结合RPA和AI的图像信息提取方法还可以具有如下附加的技术特征：

在本申请的一个实施例中，所述图像为以下任意一种：截图文件、图片格式的文件和PDF格式的文件。

在本申请的一个实施例中，所述AI平台上配置有所述自定义模板对应的信息提取规则，所述AI平台基于光学字符识别OCR和自然语言处理NLP进行信息提取。

在本申请的一个实施例中，还包括：根据用户输入的操作命令，将所述预设变量中的所述识别结果输出或写入预设文件中。

在本申请的一个实施例中，所述打开机器人流程自动化RPA平台上的向导界面，包括：在所述RPA平台上的流程块编辑视图上，响应于用户对配置AI图标的点击操作，打开所述向导界面。

在本申请的一个实施例中，还包括：在所述RPA平台上的流程图编辑界面上，响应于所述用户对流程块组件上的编辑图标的点击操作，打开所述流程块编辑视图。

在本申请的一个实施例中，还包括：登录所述RPA平台；创建流程；创建流程完成后，打开所述流程图编辑界面。

在本申请的一个实施例中，所述RPA平台的登录账号与所述AI平台的登录账号一致。

为达到上述目的，本申请第二方面实施例提出了一种结合RPA和AI的图像信息提取装置，包括：打开模块，被配置为打开机器人流程自动化RPA平台上的向导界面；生成模块，被配置为所述向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，其中，所述识别器根据人工智能AI平台上配置的自定义模板来配置，所述模板名称和所述字段根据所述AI平台上配置的自定义模板的名称和需要提取识别结果的字段来选择；赋值模块，被配置为运行所述可视化的结构代码，以提取所述图像的识别结果，并将提取出的所述识别结果赋值为预设变量。

本申请实施例的结合RPA和AI的图像信息提取装置，能够在完全未编写任何代码的情况下，通过简单的操作和拖拽即可完成将半结构化票据的信息通过自定义的模板识别后抽取到结构化表格的智能机器人流程。

另外，根据本申请上述实施例提出的结合RPA和AI的图像信息提取装置还可以具有如下附加的技术特征：

在本申请的一个实施例中，所述图像为以下任意一种：截图文件、图片格式的文件和PDF格式的文件。

在本申请的一个实施例中，所述AI平台上配置有所述自定义模板对应的信息提取规则，所述AI平台基于光学字符识别OCR和自然语言处理NLP进行信息提取。

在本申请的一个实施例中，还包括：输出/写入模块，被配置为根据用户输入的操作命令，将所述预设变量中的所述识别结果输出或写入预设文件中。

在本申请的一个实施例中，所述打开模块，还被配置为：在所述RPA平台上的流程块编辑视图上，响应于用户对配置AI图标的点击操作，打开所述向导界面。

在本申请的一个实施例中，所述打开模块，还被配置为：在所述RPA平台上的流程图编辑界面上，响应于所述用户对流程块组件上的编辑图标的点击操作，打开所述流程块编辑视图。

在本申请的一个实施例中，所述打开模块，还被配置为：登录所述RPA平台；创建流程；创建流程完成后，打开所述流程图编辑界面。

在本申请的一个实施例中，所述RPA平台的登录账号与所述AI平台的登录账号一致。

为达到上述目的，本申请第三方面实施例提出了一种计算设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如本申请第一方面实施例所述的结合RPA和AI的图像信息提取方法。

为达到上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面实施例所述的结合RPA和AI的图像信息提取方法。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请一个实施例的结合RPA和AI的图像信息提取方法的流程示意图；

图2为根据本申请一个实施例的一种可视化的结构代码的示意图；

图3为根据本申请另一个实施例的结合RPA和AI的图像信息提取方法的流程示意图；

图4为根据本申请一个实施例的一种创建新流程工程的示意图；

图5为根据本申请一个实施例的一种进入流程块编辑视图的示意图；

图6为根据本申请一个实施例的一种打开向导界面的示意图；

图7为根据本申请一个实施例的一种配置识别器的示意图；

图8为根据本申请一个实施例的一种选择图像的来源的示意图；

图9为根据本申请一个实施例的一种选择模板名称以及选择字段的示意图；

图10为根据本申请一个实施例的结合RPA和AI的图像信息提取装置的框图；

图11为根据本申请另一个实施例的结合RPA和AI的图像信息提取装置的框图；

图12为根据本申请一个实施例的计算设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面结合附图来描述本申请实施例的一种结合RPA和AI的图像信息提取方法及装置。

为了清楚理解本申请实施例的技术方案，下面对本申请实施例涉及到的关键词汇进行解释：

RPA：机器人流程自动化(Robotic Process Automation)系统是一种应用程序，它通过模仿最终用户在电脑的手动操方式，提供了另一种方式来使最终用户手动操作流程自动化。UiBot Creator(RPA平台)是RPA流程的开发平台。

结合RPA和AI：将机器人流程自动化(RPA)与人工智能(ArtificialIntelligence，简称AI)能力结合的一种智能化流程。UiBot Mage(AI能力平台)就是专门提供人工智能能力的平台。

自定义模板识别：是UiBot Mage中的一种AI能力，开发者可通过这种AI能力创建自定义的识别模板，用于识别各种发票、票据等半结构化数据类型的图像后通过信息抽取出结构化的数据，以通过自定义模板来解决成千上万种不同结构票据的精准识别问题。

图1为根据本申请一个实施例的结合RPA和AI的图像信息提取方法的流程示意图。

如图1所示，本申请实施例的结合RPA和AI的图像信息提取方法，包括：

S1、打开机器人流程自动化RPA平台上的向导界面。

本申请实施例中，可以通过触发相应控件，打开RPA平台上的向导界面。

其中，RPA平台，可以为UiBot Creator。

S2、在向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，其中，识别器根据人工智能AI平台上配置的自定义模板来配置，模板名称和字段根据AI平台上配置的自定义模板的名称和需要提取识别结果的字段来选择。

本申请实施例中，可以通过配置识别器、选择图像的来源、选择模板名称和字段，实现可视化的结构代码的生成。

其中，图像，可以为以下任意一种：截图文件、图片格式的文件和PDF(PortableDocument Format，可携带文档格式)格式的文件。

其中，AI平台，可以为UiBot Mage。

需要说明的是，本申请中，可视化的结构代码可于可视化视图中生成。

其中，在可视化试图中，所有命令的顺序、包含关系都以方块堆叠的形式展现，且适当的隐藏了其中的部分细节，较容易理解。可视化视图体现出了UiBot作为RPA平台的“简单”这一重要特点，且可视化视图的表现方式、详略程度、美观程度等均达到了相对均衡的状态。这样一来，极大降低了操作者的学习成本，也就是说，即使是不具备任何编程经验的操作者，亦可根据可视化视图进行学习。

举例而言，如图2所示，可视化的结构代码2-1可于可视化视图2-2中生成。

S3、运行可视化的结构代码，以提取图像的识别结果，并将提取出的识别结果赋值为预设变量。

本申请实施例中，在生成可视化的结构代码后，可以直接运行，运行的引擎会自动根据命令的指令，按照预设顺序将图像的识别结果根据预设条件进行提取，并依次赋值给预设变量。

其中，预设顺序，可以为从上至下的顺序。

其中，预设条件，可以为预先设定的任一模板条件。

其中，预设变量，可以为“arrayRet”变量(计算机语言中能储存计算结果或能表示值的抽象概念)。

由此，本申请提出的图像信息提取方法，可以通过打开RPA平台上的向导界面，并在向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，进而运行可视化的结构代码，以提取图像的识别结果，并将提取出的识别结果赋值为预设变量，使得在完全未编写任何代码的情况下，通过简单的操作和拖拽即可完成将半结构化票据的信息通过自定义的模板识别后抽取到结构化表格的智能机器人流程。

图3为根据本申请另一个实施例的结合RPA和AI的图像信息提取方法的流程示意图。

如图3所示，本申请实施例的结合RPA和AI的图像信息提取方法，包括：

S1、打开机器人流程自动化RPA平台上的向导界面。

需要说明的是，本申请中，可以在RPA平台上的流程图编辑界面上，响应于用户对流程块组件上的编辑图标的点击操作，打开流程块编辑视图。进一步地，可以进行登录RPA平台、创建流程、创建流程完成后，打开流程图编辑界面。其中，RPA平台的登录账号与AI平台的登录账号一致。

作为一种可能的实现方式，可以预先对自定义识别模板及信息抽取规则进行配置。可选地，可以通过UiBot帐号登录UiBot Mage平台配置自定义识别模板及信息抽取规则。

进一步地，可以通过UiBot帐号登录UiBot Creator，创建一个新流程工程。进一步地，点击确定控件确定新建流程后，即进入流程图编辑界面。举例而言，如图4所示，可以创建一个流程名4-1命名为自定义模板识别票据的新流程工程，点击确定控件4-2确定新建流程后，即进入流程图编辑界面。

进一步地，可以点击流程块组件上的编辑图标进入流程块编辑视图。举例而言，如图5所示，可以点击流程块组件5-1上的编辑图标5-2进入流程块编辑视图。

进一步地，可以在RPA平台上的流程块编辑视图上，响应于用户对配置AI图标的点击操作，打开向导界面。

其中，流程块，可以为Mage AI。

举例而言，如图6所示，可以通过点击Mage AI图标6-1，打开Mage AI的向导界面。

其中，AI平台上配置有自定义模板对应的信息提取规则，AI平台基于光学字符识别OCR(Optical Character Recognition)和自然语言处理NLP(Natural LanguageProcessing)进行信息提取。

下面分别针对配置识别器、选择图像的来源、选择模板名称以及选择字段过程进行解释说明。

针对配置识别器，作为一种可能的实现方式，以图7为例，可以已在Mage平台配置自定义模板，这样一来，在UiBot Creator上直接选择即可，无需用户输入配置信息，即可实现针对试图连接的Mage的配置信息的选择。

针对选择图像的来源，作为一种可能的实现方式，以图8为例，可以选择图像、截图或PDF格式文件等作为需要识别的图像。

针对选择模板名称以及选择字段，作为一种可能的实现方式，以图9为例，可以选择模板“银行承兑汇票”(在Mage平台配置的模板名称)，选择需要提取识别结果的字段(在Mage平台配置的模板下需获取识别结果的字段)。

S3、运行可视化的结构代码，以提取图像的识别结果，并将提取出的识别结果赋值为预设变量。

本申请提出的图像信息提取方法，还包括以下步骤S4。

S4、根据用户输入的操作命令，将预设变量中的识别结果输出或写入预设文件中。

本申请实施例中，开发者只需在“获取块内结果...”的命令块下面插入其它操作命令，将预设变量结果输出或做其它开发使用均可，例如可以将人名、方式、增持/减持、股数的预设结果依次写入Excel的单元格中(常用的RPA开发操作，通过拖拽命令方式可简单实现)。

综上所述，本申请提出的图像信息提取方法，能够实现低代码甚至零代码开发结合RPA和AI的自动化流程，全程可视化操作，简化了结合RPA和AI能力的开发难度，甚至对于没有编程基础的开发者，也可以很好的理解并开发出结合RPA和AI的流程。开发者只需在AI平台学会配置自定义模板识别的模板、字段及匹配规则后，在RPA开发阶段几乎无编程基础就可以完成结合自定义模板识别AI能力的智能机器人流程开发和实际应用。

图10为根据本申请一个实施例的结合RPA和AI的图像信息提取装置的框图。

如图10所示，本申请实施例的结合RPA和AI的图像信息提取装置1000，包括：打开模块110、生成模块120和赋值模块130。其中，

打开模块110，被配置为打开机器人流程自动化RPA平台上的向导界面；

生成模块120，被配置为所述向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，其中，所述识别器根据人工智能AI平台上配置的自定义模板来配置，所述模板名称和所述字段根据所述AI平台上配置的自定义模板的名称和需要提取识别结果的字段来选择；

赋值模块130，被配置为运行所述可视化的结构代码，以提取所述图像的识别结果，并将提取出的所述识别结果赋值为预设变量。

在本申请的一个实施例中，所述图像为以下任意一种：截图文件、图片格式的文件和PDF格式的文件。

在本申请的一个实施例中，所述AI平台上配置有所述自定义模板对应的信息提取规则，所述AI平台基于光学字符识别OCR和自然语言处理NLP进行信息提取。

在本申请的一个实施例中，如图11所示，该图像信息提取装置1000，还包括：

输出/写入模块140，被配置为根据用户输入的操作命令，将所述预设变量中的所述识别结果输出或写入预设文件中。

在本申请的一个实施例中，打开模块110，还被配置为：

在所述RPA平台上的流程块编辑视图上，响应于用户对配置AI图标的点击操作，打开所述向导界面。

在本申请的一个实施例中，打开模块110，还被配置为：

在所述RPA平台上的流程图编辑界面上，响应于所述用户对流程块组件上的编辑图标的点击操作，打开所述流程块编辑视图。

在本申请的一个实施例中，打开模块110，还被配置为：

登录所述RPA平台；

创建流程；

创建流程完成后，打开所述流程图编辑界面。

在本申请的一个实施例中，所述RPA平台的登录账号与所述AI平台的登录账号一致。

需要说明的是，本申请实施例的结合RPA和AI的图像信息提取装置中未披露的细节，请参照本发明上述实施例中的结合RPA和AI的图像信息提取方法所披露的细节，这里不再赘述。

由此，本申请提出的图像信息提取装置，可以通过打开RPA平台上的向导界面，并在向导界面上配置识别器、选择图像的来源、选择模板名称以及选择字段，以生成可视化的结构代码，进而运行可视化的结构代码，以提取图像的识别结果，并将提取出的识别结果赋值为预设变量，使得在完全未编写任何代码的情况下，通过简单的操作和拖拽即可完成将半结构化票据的信息通过自定义的模板识别后抽取到结构化表格的智能机器人流程。

为了实现上述实施例，如图12所示，本申请还提出一种计算设备，包括存储有可执行程序代码的存储器701；与所述存储器701耦合的处理器702；所述处理器702调用所述存储器701中存储的所述可执行程序代码，执行上述结合RPA和AI的图像信息提取方法。

为了实现上述实施例，本申请还提出一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述结合RPA和AI的图像信息提取方法。

在本申请的各种实施例中，应理解，上述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

另外，在本申请各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本申请实施例公开的一种结合RPA和AI的图像信息提取方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：汪冠春;胡一川;褚瑞;李玮;张旭;
专利申请人：北京来也网络科技有限公司;来也科技(北京)有限公司;