掌桥专利:专业的专利平台
掌桥专利
首页

一种基于关键词提取算法的数据治理方法

文献发布时间:2023-06-19 19:28:50


一种基于关键词提取算法的数据治理方法

技术领域

本发明涉及数据治理领域,具体涉及一种基于关键词提取算法的数据治理方法。

背景技术

在现有数据治理工作中,由于数据资源的来源复杂和结构迥异,导致数据治理工作人员需要耗费大量的时间精力规整原始数据和元数据;同时,公安系统的特殊性和涉密性,让互联网环境下的常规技术无法在其中发挥作用。如何让多源异构数据规整,快速提取关键信息并入数据仓库,并向现代化公安系统提供定向有效数据,辅助支撑公安业务流转,这是笔者认为促进行业发展的重要一点。

发明内容

鉴于现有技术中存在的技术缺陷和技术弊端,本发明实施例提供克服上述问题或者至少部分地解决上述问题的一种基于关键词提取算法的数据治理方法,具体方案如下:

一种基于关键词提取算法的数据治理方法,所述方法包括:

步骤1,通过终端设备获取输入的语句或文本;

步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;

步骤3,基于转换成后的数据,进行对应数据的治理工作。

进一步地,步骤2具体包括

获取输入的语句或文本后,通过LDA主题模型关键词提取算法提取语句或文本中的关键词,并按关键词的词性进行分类。

进一步地,所述通过LDA主题模型关键词提取算法提取语句或文本中的关键词具体包括:

步骤2.1:对语句或文本进行词性和停用词的处理;

步骤2.2:基于处理后的语句或文本,构造词典,并构造LDA主题模型;

步骤2.3:通过LDA主题模型输出主题的词及词的权重。

进一步地,所述方法还包括:

基于提取的关键词名词在数据仓库中自动生成新表A,在数据仓库中对新表A结构和字段进行检查,并判断是否是否可用。

进一步地,所述方法还包括:

若新表A不可用,则表示缺少字段,并添加缺少字段。

进一步地,所述方法还包括:

在数据仓库中对新表A各字段血缘进行标注,以便检查和备用。

进一步地,所述方法还包括:

在数据仓库中对关键字名词进行全局搜索,包括数据表名和数据表字段,将符合关键词的数据提取出,根据语句中关键词或新表A中字段提取对应的主键字段和时间字段进行去重后,裁剪指定字段数据汇入新表A。

进一步地,所述方法还包括,通过对关键词动词进行解析,解析出对应的指令。例如:同比、环比、以...分类等等。

进一步地,所述方法还包括:

对所述指令进行检查,判断指令是否可用。

进一步地,所述方法还包括:

将指令带入新表A中,进行对应的数据治理工作。

本发明具有以下有益效果:

与现有技术相比,本发明在数据进场后,可迅速进行重点信息提取清洗,支撑公安系统相应的业务。降低在终端设备输入的专业性和局限性,对操作人员更加友好,并在流程中的每一步,操作人员都可以检查中间输出结果是否偏离计划方向,及时调整。

附图说明

图1为本发明实施例提供的一种基于关键词提取算法的数据治理方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,作为本发明的第一实施例,提供一种基于关键词提取算法的数据治理方法,所述方法包括:

步骤1,通过终端设备获取输入的语句或文本;

其中,终端设备包括电脑、警务通、警务平板等等,此类设备均可提供语句或文本输入模块;

步骤2,通过治理平台将所述语句或文本解析转换成对应的数据;

步骤3,基于转换成后的数据,进行对应的数据治理工作。

本发明在数据进场后,可迅速进行重点信息提取清洗,支撑公安系统相应的业务。降低在终端设备输入的专业性和局限性,对操作人员更加友好,并在流程中的每一步,操作人员都可以检查中间输出结果是否偏离计划方向,及时调整。

优选地,步骤2具体包括

获取输入的语句或文本后,通过LDA主题模型关键词提取算法提取语句或文本中的关键词,并按关键词的词性进行关键词分类。

优选地,所述方法还包括:

基于提取的关键词名词在数据仓库中自动生成新表A,在数据仓库中对新表A结构和字段进行检查,并判断是否是否可用,若新表A不可用,则表示缺少字段,并添加缺少字段。

优选地,所述方法还包括:

在数据仓库中对新表A各字段血缘进行标注,以便检查和备用。

优选地,所述方法还包括:

在数据仓库中对关键字名词进行全局搜索,包括数据表名和数据表字段,将符合关键词的数据提取出,根据语句中关键词或新表A中字段提取对应的主键字段和时间字段进行去重后,裁剪指定字段数据汇入新表A。

优选地,所述方法还包括,通过对关键词动词进行解析,解析出对应的指令。例如:同比、环比、以...分类等等。

对所述指令进行检查,判断指令是否可用,将可用指令带入新表A中,进行对应的数据治理工作。

优选地,所述通过LDA主题模型关键词提取算法提取语句或文本中的关键词具体包括:

步骤2.1:对语句或文本进行词性和停用词的处理;

步骤2.2:基于处理后的语句或文本,构造词典,并构造LDA主题模型;

步骤2.3:通过LDA主题模型输出主题的词及词的权重。

作为本发明的第二实施例,所述述LDA主题模型代码包括三部分,具体如下:

/>

/>

/>

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于LDA算法的调度语音关键词提取方法
  • 一种基于关键词表达式的文本元数据提取方法
技术分类

06120115920394