掌桥专利:专业的专利平台
掌桥专利
首页

一种基于NLP的业务数据报表分析方法和系统

文献发布时间:2023-06-19 19:20:08


一种基于NLP的业务数据报表分析方法和系统

技术领域

本发明涉及数据分析领域,特别是指一种基于NLP的业务数据报表分析方法和系统。

背景技术

数据分析是以表格、图表的形式来动态展示数据,管理单位能够通过报表进行数据展示与分析,进而用于辅助管理,让决策有数据可依,有效的解决数据过于分散,难以有效利用;手工做报表,效率低准确性差;报表需求多变,无法快速响应。目前市场上大多数数据分析、软件开发提供商都可以提供数据分析报表系统。但是目前数据分析系统与使用者的交互模式大多单一、低效,体现在:

1、使用者必须具备一定的数据分析基础知识和信息化系统操作能力,才能操作生成有效的数据报表。

2、交互渠道单一,传统数据分析报表系统仅提供固定选择或拖拽组合的方式实现数据报表生成,模式单一且效率低下。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于NLP的业务数据报表分析方法和系统,为数据分析系统优化提供了新的交互手段,解决非技术工作人员的需求痛点,降低学习成本,提高业务数据分析效率。

本发明采用如下技术方案:

一种基于NLP的业务数据报表分析方法,包括:

建立业务模型和数据模型;

输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与业务模型关联比对;

比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成;

将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息。

具体地,建立业务模型和数据模型,所述建立业务模型具体为:

将业务事项进行分类并关联,将业务内容和实际的数据结构相绑定。

具体地,建立业务模型和数据模型,所述建立数据模型具体包括:

定义数据源:数据源是指数据库应用程序所使用的数据库或者数据库服务,提供查询所需要的数据的器件或原始文件;

数据仓库:即抽取(extract)、转换(transform)、加载(load),不同数据源使用的数据格式、数据规范、数据表达不同;

数据模型建立:建立不同的筛选维度,每一个维度对应多个项;所述筛选维度包括但不限于时间、用户、地域、事项。

具体地,识别出数据分析需求中的关键字和语义逻辑,具体为:

依据贝叶斯公式算法,假定S表示一个句子,由一连串特定顺序排列的词w1,w2,w3,...,wn组成;N代表句子的长度;P(S)=P(w1,w2,w3,...,wn)即该句式在语料库中的概率;利用条件概率的公式,S这个序列出现的概率等于每个词出现的条件概率相乘,于是P(w1,...,wn)展开为:

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1);

其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是已知第一个词的前提下;第二个词出现的概率;以此类推,词wn出现的概率取决于它前面全部的词;

依据逻辑重构的句式和概率高低的判断,得出最高可能性的自然语言逻辑句子。

具体地,比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成,具体为:

数据立方体生成:构建匹配的相应模型,通过解析模型,再从底层数据仓库中抽取相应的数据,通过各个维度进行排列组合,然后将这些不同的维度组合对应出来的度量聚合值进行预计算,形成了数据立方体;

报表模型预设:预设多种图形报表,匹配用户输入的报表需求,将数据立方体的维度数据整合生成用户指定的最终报表。

本发明实施例提供一种基于NLP的业务数据报表分析系统,包括:

模型建立单元:建立业务模型和数据模型;

需求分析单元:输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与数据模型关联比对;

报表生成单元:比对后的结果对照业务模型,生成技术执行代码,实现数据报表生成;

反馈单元:将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息。

具体地,所述模型建立单元,建立业务模型和数据模型,建立业务模型具体为:

将业务事项进行分类并关联,将业务内容和实际的数据结构相绑定。

具体地,所述模型建立单元,建立业务模型和数据模型,所述建立数据模型具体包括:

定义数据源:数据源是指数据库应用程序所使用的数据库或者数据库服务,提供查询所需要的数据的器件或原始文件;

数据仓库:即抽取(extract)、转换(transform)、加载(load),不同数据源使用的数据格式、数据规范、数据表达不同;

数据模型建立:建立不同的筛选维度,每一个维度对应多个项;所述筛选维度包括但不限于时间、用户、地域、事项。

具体地,所述需求分析单元中,识别出数据分析需求中的关键字和语义逻辑,具体为:

依据贝叶斯公式算法,假定S表示一个句子,由一连串特定顺序排列的词w1,w2,w3,...,wn组成;N代表句子的长度;P(S)=P(w1,w2,w3,...,wn)即该句式在语料库中的概率;利用条件概率的公式,S这个序列出现的概率等于每个词出现的条件概率相乘,于是P(w1,...,wn)展开为:

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1);

其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是已知第一个词的前提下;第二个词出现的概率;以此类推,词wn出现的概率取决于它前面全部的词;

依据逻辑重构的句式和概率高低的判断,得出最高可能性的自然语言逻辑句子。

具体地,所述报表生成单元中,比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成,具体为:

数据立方体生成:构建匹配的相应模型,通过解析模型,再从底层数据仓库中抽取相应的数据,通过各个维度进行排列组合,然后将这些不同的维度组合对应出来的度量聚合值进行预计算,形成了数据立方体。

报表模型预设:预设多种图形报表,匹配用户输入的报表需求,将数据立方体的维度数据整合生成用户指定的最终报表。

由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:

本发明提供一种基于NLP的业务数据报表分析方法,包括:建立业务模型和数据模型;输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与业务模型关联比对;比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成;将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息;本发明提供的方法,为数据分析系统优化提供了新的交互手段,解决非技术工作人员的需求痛点,降低学习成本,提高业务数据分析效率。

附图说明

图1为本发明实施例提供的一种基于NLP的业务数据报表分析方法流程图;

图2为本发明实施例提供的业务模型实例;

图3为本发明实施例提供的功能实现流程图;

图4为本发明实施例提供的系统架构图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

说话、自然语言文本是人最自然的沟通方式。如果系统能够提供语音或自然文本交互功能,那么用户几乎无需学习成本,只要提出需求,就能获得系统的反馈。结合自然语言处理(NLP)技术形成相应的政务数据分析图表可以大大提高政务数据分析系统的可理解性和交互性。

传统的自然语言生成方法可以生成预定义格式的文本描述,这种类型的文本描述在对格式要求较为严谨、需求比较固定的情况下通常有很好的效果。但随着用户对数据分析灵活性和交互性的需求越来越高,非技术用户更希望得到能够满足其特定需求的描述,而不是包含大量无用信息的分析结果。目前的自然语言交互应用,大多在任务型对话机器人领域取得一定的成功。一个意图通常对应一个具体的待执行任务,比如“请导出窗口排队数据”,对应的就是一个简单的任务。

当用户意图为多角度多层次的数据需求时,就需要系统本身理解足够多的维度。同时,自然语言的表述往往是模糊的,因此需要建立足够丰富的数据分析模型,尽可能去满足或贴近用户所有可能的需求。

如图1,为本发明提供的一种基于NLP的业务数据报表分析方法流程图,具体包括:

一种基于NLP的业务数据报表分析方法,包括:

S101:建立业务模型和数据模型;

业务模型决定了业务报表的维度,但是传统业务报表维度主要以文件依据解读、用户需求等方式确定,存在以下问题:

(1)文件要求以及用户需求多变。考核性文件和临时性文件时常变动,每次变更都需要一定的时间完成分析和开发工作。

(2)涉及重复或无效建设。大多报表系统都是依赖开发商的每年付费版本更新,当一年中出现多次需求变更的时候,过去的版本的相应模块会被废弃,且出现一年中多次改造升级,不利于财政成本控制。

本发明实施例基于多年智慧行业的业务分析积累和技术沉淀,从业务维度的多样性和关联性入手,建立相关业务模型;

将事项进行分类并关联,将业务内容和实际的数据结构相绑定,如图2为建立的“城乡居民参保登记”事项业务模型所示,通过模型分析得出,城乡居民参保登记事项所包含的所有维度有:办事人、办理人、办理时间、办结时间、申报时间、办理地点、办理窗口、服务评价、事项评价、关联业务类数据、申报材料、是否“一件事一次办”、涉及电子证照调用、业务缴费等等。

本发明业务模型的优势在于:(1)将所有维度一一梳理,不会出现缺漏情;(2)所有维度被完全打散可以随时调用并满足报表需求;(3)所有维度字段都有其来源,方便数据溯源。

该部分可通过人工业务梳理、导入事项清单自动生成、人工智能分析参照以上模型实现。

数据模型建立并非传统意义上的建立多个数据报表模板,而是依次建立数据源、数据仓库、数据模型,形成一套完整的数据获取、数据仓储、数据抽取流程,建立数据模型:

(1)定义数据源:为了实现多维度的关联查询,首先需要明确数据源,数据源是指数据库应用程序所使用的数据库或者数据库服务,提供查询所需要的数据的器件或原始文件。在数据源中存储了所有建立数据库连接的信息,就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,即可将指定的数据通过接口汇聚至数据仓库。

(2)数据仓库ETL:即抽取(extract)、转换(transform)、加载(load),不同数据源使用的数据格式、数据规范、数据表达有可能存在不用,ETL的过程重点在于将不同的数据以统一格式存储,便于下一步数据加工的抽取。

(3)数据模型建立:模型建立的核心在于建立不同的筛选维度,例如:某年某月某日某时某分某人于某地办了某事,即可建立时间、用户、地域、事项等维度,每一个维度都对应多个项,例如时间维度对应有年、月、日、时、分。模型建立有利于后续数据抽取和整合报表。

数据模型的目的是根据需求,匹配正确的业务模型,例如:公积金业务、不动产登记业务、工程建设审批业务等;后台需要通过不同的数据模型以匹配不同业务的需求,结合业务需求和预设的算法形成相应的报表模型,例如:折线图,柱状图等等,最终将形成不同业务的数据分析模型。

S102:输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与业务模型关联比对;

提供人机交互页面,交互界面主要用于采集非技术人员的数据加工需求,采集方式包括:语音输入、文本输入等,输入数据分析的需求;

依据语言语义、语法规则、关键词的识别和提取,形成结构化的逻辑语句,例如:用户输入(语音或输入)“我想查看公积金中心窗口本月份的服务差评评价数据折线图”,其解构和逻辑重组如下:

我—查看—公积金中心窗口(业务关键字)--本月份(范围关键字)--服务评价(业务数据关键字)--差评评价(数据维度关键字)--折线图(模型关键字)。

本质过程也是一个“判断该句式是该意思的概率有多大”的问题:

(1)在语音识别系统中,统计语言模型有利于提高系统的识别率,对于汉语自然语言识别来说,建立汉语言的语料库才能对语句解析概率做出相应的计算,因此在语言逻辑重构或解析的步骤之前,应解构词组、建立语料库。

(2)统计语言模型可采用较为广泛应用的N-gram统计语言模型,依据贝叶斯公式算法,假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,w3,...,wn组成。N代表句子的长度。P(S)=P(w1,w2,w3,...,wn)即该句式在语料库中的概率。利用条件概率的公式。S这个序列出现的概率等于每个词出现的条件概率相乘,于是P(w1,...,wn)展开为:

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1);其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是已知第一个词的前提下。第二个词出现的概率;以此类推,词wn出现的概率取决于它前面全部的词。

(3)最终依据逻辑重构的句式和其概率高低的判断,得出最高可能性的自然语言逻辑句子。

S103:比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成;

数据立方体生成:构建匹配的相应模型,通过解析模型,再从底层数据仓库中抽取相应的数据,通过各个维度进行排列组合,然后将这些不同的维度组合对应出来的度量聚合值进行预计算,形成了数据立方体。

报表模型预设:预设多种图形报表,匹配用户输入的报表需求,将数据立方体的维度数据整合生成用户指定的最终报表。

S104:将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息。

如图3为本发明实施例提供的功能实现流程图;

如图4为本发明实施例提供的系统架构图,包括用户层、访问层、应用层、支撑层和数据层,其中用户层提供不同的用户角色,包括非技术人员和管理员,访问层提供用户交互界面和后台配置管理见面,用户需求输入就是在这一层,应用层包括:用户交互、配置管理,用户交互包括用户登录、自然语言输入、系统反馈、报表展示;配置管理包括:账号管理、报表配置、模型配置以及关键字字典;支撑层包括数据分析模型、自然语言分析、指令构建、指令模型比对;数据层包括业务数据库、用户数据库、临时数据库、关键词数据库。

本发明实施例提供一种基于NLP的业务数据报表分析系统,包括:

模型建立单元201:建立业务模型和数据模型;

业务模型决定了业务报表的维度,但是传统业务报表维度主要以文件依据解读、用户需求等方式确定,存在以下问题:

(1)文件要求以及用户需求多变。考核性文件和临时性文件时常变动,每次变更都需要一定的时间完成分析和开发工作。

(2)涉及重复或无效建设。大多报表系统都是依赖开发商的每年付费版本更新,当一年中出现多次需求变更的时候,过去的版本的相应模块会被废弃,且出现一年中多次改造升级,不利于财政成本控制。

本发明实施例基于多年智慧行业的业务分析积累和技术沉淀,从业务维度的多样性和关联性入手,建立相关业务模型;

将事项进行分类并关联,将业务内容和实际的数据结构相绑定,如图2为建立的“城乡居民参保登记”事项业务模型所示,通过模型分析得出,城乡居民参保登记事项所包含的所有维度有:办事人、办理人、办理时间、办结时间、申报时间、办理地点、办理窗口、服务评价、事项评价、关联业务类数据、申报材料、是否“一件事一次办”、涉及电子证照调用、业务缴费等等。

本发明业务模型的优势在于:(1)将所有维度一一梳理,不会出现缺漏情;(2)所有维度被完全打散可以随时调用并满足报表需求;(3)所有维度字段都有其来源,方便数据溯源。

该部分可通过人工业务梳理、导入事项清单自动生成、人工智能分析参照以上模型实现。

数据模型建立并非传统意义上的建立多个数据报表模板,而是依次建立数据源、数据仓库、数据模型,形成一套完整的数据获取、数据仓储、数据抽取流程,建立数据模型:

(1)定义数据源:为了实现多维度的关联查询,首先需要明确数据源,数据源是指数据库应用程序所使用的数据库或者数据库服务,提供查询所需要的数据的器件或原始文件。在数据源中存储了所有建立数据库连接的信息,就像通过指定文件名称可以在文件系统中找到文件一样,通过提供正确的数据源名称,即可将指定的数据通过接口汇聚至数据仓库。

(2)数据仓库ETL:即抽取(extract)、转换(transform)、加载(load),不同数据源使用的数据格式、数据规范、数据表达有可能存在不用,ETL的过程重点在于将不同的数据以统一格式存储,便于下一步数据加工的抽取。

(3)数据模型建立:模型建立的核心在于建立不同的筛选维度,例如:某年某月某日某时某分某人于某地办了某事,即可建立时间、用户、地域、事项等维度,每一个维度都对应多个项,例如时间维度对应有年、月、日、时、分。模型建立有利于后续数据抽取和整合报表。

数据模型的目的是根据需求,匹配正确的业务模型,例如:公积金业务、不动产登记业务、工程建设审批业务等;后台需要通过不同的数据模型以匹配不同业务的需求,结合业务需求和预设的算法形成相应的报表模型,例如:折线图,柱状图等等,最终将形成不同业务的数据分析模型。

需求分析单元202:输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与数据模型关联比对;

提供人机交互页面,交互界面主要用于采集非技术人员的数据加工需求,采集方式包括:语音输入、文本输入等,输入数据分析的需求;

依据语言语义、语法规则、关键词的识别和提取,形成结构化的逻辑语句,例如:用户输入(语音或输入)“我想查看公积金中心窗口本月份的服务差评评价数据折线图”,其解构和逻辑重组如下:

我—查看—公积金中心窗口(业务关键字)--本月份(范围关键字)--服务评价(业务数据关键字)--差评评价(数据维度关键字)--折线图(模型关键字)。

本质过程也是一个“判断该句式是该意思的概率有多大”的问题:

(1)在语音识别系统中,统计语言模型有利于提高系统的识别率,对于汉语自然语言识别来说,建立汉语言的语料库才能对语句解析概率做出相应的计算,因此在语言逻辑重构或解析的步骤之前,应解构词组、建立语料库。

(2)统计语言模型可采用较为广泛应用的N-gram统计语言模型,依据贝叶斯公式算法,假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,w3,...,wn组成。N代表句子的长度。P(S)=P(w1,w2,w3,...,wn)即该句式在语料库中的概率。利用条件概率的公式。S这个序列出现的概率等于每个词出现的条件概率相乘,于是P(w1,...,wn)展开为:

P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1);其中P(w1)表示第一个词w1出现的概率;P(w2|w1)是已知第一个词的前提下。第二个词出现的概率;以此类推,词wn出现的概率取决于它前面全部的词。

(3)最终依据逻辑重构的句式和其概率高低的判断,得出最高可能性的自然语言逻辑句子。

报表生成单元203:比对后的结果对照业务模型,生成技术执行代码,实现数据报表生成;

数据立方体生成:构建匹配的相应模型,通过解析模型,再从底层数据仓库中抽取相应的数据,通过各个维度进行排列组合,然后将这些不同的维度组合对应出来的度量聚合值进行预计算,形成了数据立方体。

报表模型预设:预设多种图形报表,匹配用户输入的报表需求,将数据立方体的维度数据整合生成用户指定的最终报表。

反馈单元204:将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息。

本发明提供一种基于NLP的业务数据报表分析方法,包括:建立业务模型和数据模型;输入数据分析需求,识别出数据分析需求中的各个关键字和语义逻辑并与业务模型关联比对;比对后的结果对照数据模型,生成技术执行代码,实现数据报表生成;将数据报表结果返回人机交互页面,若比对失败,则反馈相应的失败信息;本发明提供的方法,为数据分析系统优化提供了新的交互手段,解决非技术工作人员的需求痛点,降低学习成本,提高业务数据分析效率。

上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

技术分类

06120115869568