掌桥专利:专业的专利平台
掌桥专利
首页

业务流程数据处理方法和装置

文献发布时间:2023-06-19 09:47:53


业务流程数据处理方法和装置

技术领域

本发明涉及数据处理技术领域,尤其是涉及一种业务流程数据处理方法和装置。

背景技术

业务流程的固化与复用在业务智能与流程管理中都具有重要意义。现有的业务流程挖掘与固化技术旨在从与信息系统相关联的事件日志中抽取信息,发现业务流程模型,并使用所得模型对业务流程进行校验与改进的工作。现有的业务流程依赖于结构化的事件日志,在实际情况中,流程文件、专家经验案事件信息都是业务流程的载体。

现有技术具有以下缺点:(1)业务的流程挖掘的一般方法是将结构化的事件日志从企业信息系统产生的原始日志中提取出来,但所提取的流程通常非常琐碎,聚焦于细节,让人无法确定该流程的宏观操作,同时容易混淆相似流程,无法消除用户的动作歧义。(2)另一种方法是通过专家进行业务流程与经验的总结与归纳,但该方法的效率较低,同时存在大量的重复劳动,同一类业务流程经验相互重合现象。(3)目前已有海量的案事件信息、专家经验信息,但缺少合适的数据库实现高效的存储与结合领域特点的业务流程表示。(4)目前业务流程知识缺少分类、融合、推理等智能化操作。

发明内容

有鉴于此,本发明的目的在于提供一种业务流程数据处理方法和装置,以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。

第一方面,本发明实施例提供了一种业务流程数据处理方法,方法包括:接收检索词;基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。

在本发明较佳的实施例中,上述业务流程模型包含保密数据和非保密数据。

在本发明较佳的实施例中,上述业务流程模型通过以下步骤建立:获取业务流程数据;从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式;计算多个三元组之间的距离,基于距离融合多个三元组;基于融合后的多个三元组构建业务流程模型。

在本发明较佳的实施例中,上述获取业务流程数据的步骤,包括:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。

在本发明较佳的实施例中,上述从业务流程数据中获取多个三元组的步骤,包括:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。

在本发明较佳的实施例中,上述计算多个三元组之间的距离的步骤,包括:基于语义网络和词林的方式,计算多个三元组之间的距离。

在本发明较佳的实施例中,上述元组包括第一三元组和第二三元组;上述基于距离融合多个三元组的步骤,包括:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。

在本发明较佳的实施例中,上述基于距离融合多个三元组的步骤之后,方法还包括:将融合后的多个三元组保存在业务流程数据库中。

在本发明较佳的实施例中,上述基于距离融合多个三元组的步骤之后,方法还包括:对融合后的多个三元组进行分类,得到分类结果;将融合后的多个三元组保存在业务流程数据库中的步骤,包括:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。

第二方面,本发明实施例还提供一种业务流程数据处理装置,装置包括:检索词接收模块,用于接收检索词;业务流程确定模块,用于基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。

本发明实施例带来了以下有益效果:

本发明实施例提供的一种业务流程数据处理方法和装置,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。

本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种业务流程数据处理方法的流程图;

图2为本发明实施例提供的一种业务流程模型的建立方法的流程图;

图3为本发明实施例提供的一种图结构存储的业务流程经验固化和复用引擎的框架示意图;

图4为本发明实施例提供的一种业务流程数据处理装置的结构示意图;

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

目前,业务流程建模在办公自动化、工业制造等领域得到了广泛的应用。目前的流程挖掘数据来源主要为日志数据,知识来源较为单一。具有代表性流程挖掘算法有基于遗传算法的流程挖掘、基于日志分类的挖掘算法和基于执行模式的挖掘算法。这些算法在日志完整性、控制流结构、噪声处理和模型质量控制等方面各有利弊。在未来,日志数据的处理、解决特殊控制流结构和挖掘结果的可视化是流程挖掘研究的发展方向。基于此,本发明实施例提供的一种业务流程数据处理方法和装置,立足于一般业务流程知识,对上述需要解决的问题进行研究与分析,实现了一种图结构存储的业务流程经验固化和复用引擎。

本发明实施例将专家业务流程归纳,形成本体模型;基于本体模型,完成规则合并、过滤;完成高层语义流程推理。高层本体模型建立,简化了基于日志的流程挖掘环境,便于分阶段分析日志行为/动作的语义涵义,利于自动理解用户动作意图/消除用户动作歧义。最后利用图数据库完成业务流程的存储与表示,可以支持高效率导入与高可视化展示。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种业务流程数据处理方法进行详细介绍。

实施例1

参见图1所示的一种业务流程数据处理方法的流程图,该业务流程数据处理方法包括如下步骤:

步骤S102,接收检索词。

本实施例中的检索词可以是时间、地点、人物、事项的分类、要做的事情等,本实施例中对检索词不做限定。用户如果想要检索某一时间要做的事情,可以输入时间的检索词;用户如果想要输入在某一地点应该做的事情,可以输入地点的检索词;如果用户想要输入有关特定人物的事项,可以将该特定人物作为检索词;如果用户想要查找某一分类的事项,可以将该分类作为检索词输入;如果用户想要输入某一步骤接下来要做的事情,可以将该步骤的部分字词作为检索词输入。

另外需要说明的是,除了本实施例中提到的检索词的类型,检索词还可以为其他内容,这里不做限定。本实施例中的检索词可以为1个或者多个字、词或者语句的集合。

步骤S104,基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。

业务流程模型预先根据从业务流程数据中获取的多个三元组建立,业务流程数据可以理解为每个业务具体的业务流程,业务流程数据的主要来源可以是案例、专家经验、规章制度、办事流程等,并分为内部数据与外部数据两类该层将业务流程分为外部与内部两类,以确保内部流程的保密性。

三元组的形式可以为实体-关系-实体,通过三元组可以清楚地展示每两个实体间的联系。例如:业务流程数据为:员工A在11月14日去了公司X,和员工B进行了当面沟通,从上述业务流程数据中,可以至少提取2个三元组,分别是:员工A-11月14日-公司X,以及员工A-当面沟通-员工B。

在获取检索词之后,可以将检索词输入预先建立的业务流程模型中,查找该检索词对应的检索结果,并将检索结果显示给用户,从而让帮助用户熟悉或了解业务流程。本实施例中的检索结果可以包括业务流程推理、业务流程检索、业务流程问答、业务流程决策。

本发明实施例提供的一种业务流程数据处理方法,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。

实施例2

本发明实施例还提供一种业务流程模型的建立方法;该方法在上述实施例方法的基础上实现;该方法重点描述建立业务流程模型的具体实现方式。

如图2所示的一种业务流程模型的建立方法的流程图,该业务流程模型的建立方法包括如下步骤:

步骤S202,获取业务流程数据。

本实施例中具体的业务流程可以参见图3所示的一种图结构存储的业务流程经验固化和复用引擎的框架示意图,业务流程数据来源于案例、专家经验、规章制度、办事流程等,并分为保密数据与非保密数据两类,该层将业务流程分为外部(即非保密数据)与内部(即保密数据)两类,以确保内部流程的保密性。

其中,可以通过下述步骤获取业务流程数据:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。

可以利用scrapy(抓取)爬虫的方式,进行网络数据(网络数据可以包括网页、图片和文本)的爬取,从而获得业务流程数据,也可以编写脚本,从内部数据库(即样本数据库)中导入业务流程数据。

步骤S204,从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式。

如图3所示,业务流程抽取可以基于词库、nlp(自然语言处理)等方式实现,例如:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。

提取三元组也可以称为关系抽取,关系抽取的主要任务就是,给定一段句子文本,抽取句子中的两个实体以及实体之间的关系,以此来构成一个三元组(s,p,o),s是subject表示主实体,o为object表示客实体,p为predicate表示两实体间的关系。总的来说,(s,p,o)可以理解的“s的p是o”。当然一个句子中可能不止两个实体,从而也不止一种关系,要做的就是尽可能多的、且正确的抽取句子中的关系实体对。

具体来说,可以先从一大段文本(即业务流程数据)抽取若干条句子(文本链条),之后从若干条句子(文本链条)中抽取多个关系实体对(三元组)。

步骤S206,计算多个三元组之间的距离,基于距离融合多个三元组。

如图3所示,在抽取多个三元组之后,需要对三元组进行融合,如对近似的三元组进行融合,可以称为业务流程经验融合。业务流程经验融合包括实例、概念融合,使用hownet(语义网络)与词林等,计算jaccard(杰卡德)距离等方法实现,例如:基于语义网络和词林的方式,计算多个三元组之间的距离。

对于任意两个三元组(如第一三元组和第二三元组),可以通过下述方式融合:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。

首先可以计算第一三元组和第二三元组的jaccard距离,如果计算得到的jaccard距离小于预设的距离阈值,则说明第一三元组和第二三元组内容非常接近,可以融合。

如图3所示,融合后的三元组可以存储在业务流程数据库中,例如:将融合后的多个三元组保存在业务流程数据库中,即图3中的业务流程经验存储。

业务流程经验存储可以使用MongoDB(基于分布式文件存储的数据库)、ES(Elasticsearch,分布式全文检索数据库)、Neo4j(面向网络的数据库)实现混合存储存储,并将实例映射至流程本体模型中。MongoDB不是关系数据库,但是它有许多关系数据库的特点,它具有存储结构,同时读写语句简洁方便,内部也有明显的层次架构。本实施例的系统在MongoDB中多是文本、半结构化的表现形式。本实施例使用ES搜索引擎对流程进行索引,以便在使用时提高检索效率,其内在的中文分词插件和倒排索引模式都大大方便了本实施例提供的方法的应用。Neo4j以(实体-关系-实体)的三元组形式存储流程,实现流程推理、流程聚类等工作。

除了使用数据库存储之外,本实施例还可以对融合后的三元组进行分类,例如:对融合后的多个三元组进行分类,得到分类结果;并将分类得到的分类结果也保存在数据库中,例如:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。如图3所示,本实施例的分类可以从事务类型、场景、时间、地点实现细粒度分类。

步骤S208,基于融合后的多个三元组构建业务流程模型。

在使用MongoDB、ES、Neo4j实现混合存储之后,可以将实例映射至流程本体模型中,从而得到业务流程模型。如图3所示,在得到业务流程模型之后,可以实现业务流程经验应用,即用户在该层实现与系统的交互,由用户输入或发送请求,系统再由底层依次往上传递信息。本文基于图数据库推理,自然语言理解等技术开发业务流程检索、决策、问答、推理四类应用,并为经验交流、数据共享、检测预警、决策流程提供思路。

本实施例提供的上述方法,当用户进行某项具体业务流程时,可依赖本引擎得知该业务的上层本体,使用户理解整体业务流程逻辑;同时图数据库会为进行知识推理操作,返回后续业务,为用户提供后续业务流程参考,方便用户决策;对于海量数据来源,能够实现自动化处理,实现高效数据治理。

现在给出一具体实例,某地公安机关构建业务流程模型,首先确定群众办事类、办案流程类、侦查打击技战法类三类情景,并基于三类情景定义出子类本体,如办案流程类的子类为刑事案件流程、民事案件流程等,而刑事案件流程类的子类受案、立案、侦查、执行刑罚等,依此类推。

接着对办事办案流程、公安技战法等数据进行流程抽取,以三元组形式存储至图数据库中。举例来说,公安视频侦查技战法为:首先调取该地方圆1公里的监控视频,接着进行不同地区的视频碰撞,寻找嫌疑人出没声影,最后将地点相连,推测嫌疑人行动轨迹。基于上述技战法,则可以对每一句话进行三元组抽取工作。得到调取监控-视频碰撞-寻找身影-地点相连-推测轨迹,这一链条,在完成流程融合,实体消歧等工作后,将这一链条以三元组形式(调取监控-视频碰撞-寻找身影)(寻找身影-地点相连-推测轨迹)存储在知识图谱中。

本发明实施例提供的上述方法,基于知识图谱具有数据导入简单快捷、展示形式多样直观等特点,能够完成流程推理、流程融合、流程消歧等操作,方便了各类基于流程知识的应用。

该方式中公开了图结构存储的业务流程经验固化和复用方法和业务流程处理与应用框架,业务流程经验固化与复用方法新颖,立足业务流程本体层,脱离了繁琐的业务细节,提供对业务流程的宏观理解,并能够实现流程推理、流程融合等功能。并且,该方法较具有为完整的业务流程处理与应用框架。

实施例3

对应于上述方法实施例,本发明实施例提供了一种业务流程数据处理装置,如图4所示的一种业务流程数据处理装置的结构示意图,该业务流程数据处理装置包括:

检索词接收模块41,用于接收检索词;

业务流程确定模块42,用于基于检索词从预先建立的业务流程模型中进行检索,确定检索词对应的业务流程;其中,业务流程模型基于从业务流程数据中获取的多个三元组建立。

本发明实施例提供的一种业务流程数据处理装置,在接收到检索词后,将将所持输入基于从业务流程数据中获取的多个三元组建立的业务流程模型中进行检索,可以确定检索词对应的业务流程;该方式中,可以脱离繁琐的业务细节,提供对业务流程的宏观理解,可以提供较为完整的业务流程处理与应用框架。

上述业务流程模型包含保密数据和非保密数据。

上述装置还包括业务流程模型建立模块,用于:获取业务流程数据;从业务流程数据中获取多个三元组;三元组的形式为实体、关系、实体的形式;计算多个三元组之间的距离,基于距离融合多个三元组;基于融合后的多个三元组构建业务流程模型。

上述业务流程模型建立模块,用于:通过爬虫的方式从预先获得的业务流程样本中获取业务流程数据;其中,业务流程样本包括网页、图片和文本;或者,基于预先编写的脚本从样本数据库中导入业务流程数据。

上述业务流程模型建立模块,用于:基于词库和自然语言处理的方式,从业务流程数据中提取至少一条文本链条;从至少一条文本链条中提取多个三元组。

上述业务流程模型建立模块,用于:基于语义网络和词林的方式,计算多个三元组之间的距离。

上述三元组包括第一三元组和第二三元组;上述业务流程模型建立模块,用于:如果第一三元组和第二三元组的距离小于预设的距离阈值,融合第一三元组和第二三元组。

上述业务流程模型建立模块,还用于:将融合后的多个三元组保存在业务流程数据库中。

上述业务流程模型建立模块,还用于:对融合后的多个三元组进行分类,得到分类结果;上述业务流程模型建立模块,还用于:将融合后的多个三元组和三元组对应的分类结果保存在业务流程数据库中。

本发明实施例提供的业务流程数据处理装置,与上述实施例提供的业务流程数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

实施例4

本发明实施例还提供了一种电子设备,用于运行上述业务流程数据处理方法;参见图5所示的一种电子设备的结构示意图,该电子设备包括存储器100和处理器101,其中,存储器100用于存储一条或多条计算机指令,一条或多条计算机指令被处理器101执行,以实现上述业务流程数据处理方法。

进一步地,图5所示的电子设备还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。

其中,存储器100可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述业务流程数据处理方法,具体实现可参见方法实施例,在此不再赘述。

本发明实施例所提供的业务流程数据处理方法和装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种业务流程数据处理方法、装置、电子设备及存储介质
  • 业务流程数据处理方法和装置
技术分类

06120112301104