掌桥专利:专业的专利平台
掌桥专利
首页

电力知识语义分析系统及方法

文献发布时间:2024-04-18 19:58:53


电力知识语义分析系统及方法

技术领域

本申请涉及电力知识语义分析技术领域,尤其涉及一种电力知识语义分析系统及方法。

背景技术

电力行业作为国家重大的基础能源体系,应用领域遍布广泛,但是随着全世界对环境保护的日趋关注以及各国对能源管理的创新与改革,对电力行业提出了节能环保和信息化等要求。

随着互联网、云计算、物联网技术的应用与普及,“大数据”成了推动行业发展的新动力,电力大数据成为电力领域改革发展的新思路。随着电力领域的发展,电力信息的利用率达到瓶颈期,为了提高电力数据的有效利用,实现电力系统的智能化、自动化,人工智能与电力领域的结合成了新的发展方向。

借助移动互联、人工智能等先进信息与通信技术,实现各种信息传感设备与通信信息资源结合,可以衍生出更智能的电力系统,为电力系统的安全运行、有效管理、精准投资、优质服务提供了一条新出路。因此,如何从大规模电力文本信息中心挖掘和分析有用知识,串联电力领域内零散的知识点成为电力系统智能化的重要发展方向。

现有的文本提取方法多采用知识图谱匹配或者自然语言处理的预训练模型实现对电力文本的关键信息的提取,但是电力文本的来源和类型多种多样,并不是所有的文本描述都符合电力行业的语言标准,从而使得电力文本的语义分析准确性较低。

因此,迫切需要找到一种提高电力文本信息提取准确性的语义分析方法。

发明内容

本申请提供了一种电力知识语义分析系统及方法,旨在提高电力文本信息提取准确性。

第一方面,本申请提供一种电力知识语义分析系统,所述系统包括:

文本预处理模块,用于对电力知识文本进行分词处理;

文本标准化模块,用于根据电力知识图谱,对所述电力知识文本进行标准化;

语义分析模块,用于根据预训练模型,对电力文本标准化的分词以及句子进行语义分析,确定电力文本的语义信息;

数据库,用于存储所述电力知识图谱。

进一步地,所述系统还包括:

知识图谱构建模块,用于根据电力领域专业知识,构建所述电力知识图谱第二方面,本申请提供一种电力知识语义分析方法,所述方法包括:

获取待分析的电力知识文本;

基于文本预处理模块,对所述电力知识文本中的各分句进行分词处理,获得各个分句对应的分词集合;

基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体;

基于所述各分词对应的专业实体,对所述分词集合中的分词进行替换,获得所述分句对应的专业实体分词集合;

基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息。

进一步地,所述方法还包括:

获取电力领域的专业领域知识;

基于预设专业领域字典,对所述专业领域知识进行特征提取,获得目标实体和实体关系;

基于所述目标实体和实体关系,构建所述电力知识图谱。

进一步地,所述基于所述目标实体和实体关系,构建所述电力知识图谱,包括:

基于预训练模型,对所述专业领域知识中的知识文本进行分词和词性标注,确定所述目标实体的词性标签;

基于所述目标实体、所述目标实体的词性标签和所述实体关系,构建所述电力知识图谱。

进一步地,所述基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体,包括:

在所述电力知识图谱中存在至少两个所述分词的匹配结果时,基于所述分词对应的所述分词集合,获得所述分词的上下文信息;

基于所述上下文信息,确定所述分词的词性标签;

基于所述词性标签,在所述匹配结果中确定所述分词对应的所述专业实体。

进一步地,所述基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息,包括:

基于句法分析模块,对所述专业实体分词进行语义分类,确定所述专业实体分词的语义标签;

基于所述专业实体分词集合中和所述专业实体分词的语义标签,确定所述专业实体分词集合对应的电力知识文本句子的语义信息。

第三方面,本申请还提供一种电力知识语义分析装置,所述电力知识语义分析装置包括:

知识文本获取模块,用于获取待分析的电力知识文本;

文本分词模块,用于基于文本预处理模块,对所述电力知识文本中的各分句进行分词处理,获得各个分句对应的分词集合;

实体识别模块,用于基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体;

分词标准化模块,用于基于所述各分词对应的专业实体,对所述分词集合中的分词进行替换,获得所述分句对应的专业实体分词集合;

语义信息获取模块,用于基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息。

第四方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的电力知识语义分析方法的步骤。

第五方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的电力知识语义分析方法的步骤。

本申请提供一种电力知识语义分析系统及方法,本申请系统包括文本预处理模块,用于对电力知识文本进行分词处理;文本标准化模块,用于根据电力知识图谱,对所述电力知识文本进行标准化;语义分析模块,用于根据预训练模型,对电力文本标准化的分词以及句子进行语义分析,确定电力文本的语义信息;数据库,用于存储所述电力知识图谱。通过上述系统,通过文本预处理模块,对电力知识文本进行分词处理,以便于根据电力知识图谱,对分词进行实体匹配,从而实现电力知识文本的标准化,使得预训练模型对标准化后的分词以及句子的分析结果更准确,提高电力文本信息提取准确性。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的一种电力知识语义分析系统的结构示意图;

图2为本申请提供的一种电力知识语义分析方法第一实施例的流程示意图;

图3为本申请提供的一种语义角色标注方法的流程示意图;

图4为本申请提供的一种电力知识语义分析方法第二实施例的流程示意图;

图5是本申请提供的一种电力知识语义分析装置的结构示意图;

图6是本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参照图1,图1为本申请提供的一种电力知识语义分析系统的结构示意图。

如图1所示,该系统包括终端、服务器和数据库,所述终端和所述服务器通信连接,所述数据库和所述服务器通信连接。

其中,所述终端包括手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等。

其中,所述服务器可以是独立一台服务器,或者是服务器群。

其中,所述终端用于电力领域知识文本的获取和上传;所述服务器可以包括文本预处理模块、文本分析模块以及知识图谱构建模块,用于电力知识文本的语义分析处理。

以下,将基于该设备智能控制系统对本申请的实施例提供的设备智能控制方法进行详细介绍。

请参照图2,图2为本申请提供的一种电力知识语义分析方法第一实施例的流程示意图。

如图2所示,该电力知识语义分析方法包括步骤S101至步骤S105。

步骤S101、获取待分析的电力知识文本;

在一实施例中,随着电力信息化的不断深入和电能应用领域的不断拓宽,电力数据正以前所未有的速度增长,并且由于各级电力调度中心在建设信息化平台过程中缺乏标准化的数据输出格式的规定,使得数据来源种类不一,导致数据表示格式多样,除了结构化的数据格式外,大部分数据以文本、音频、视频等非结构化的形式存储。上述数据均可以作为待分析的电力知识文本,通过本申请提供的电力知识语义分析方法进行语义分析。

此外,由于电力生产和电力服务各个环节都会产生数据,导致电力数据的维度很多。这些数据一起构成了庞大、零散、多源、异构、多维、多形式的电力数据资源。

步骤S102、基于文本预处理模块,对所述电力知识文本中的各分句进行分词处理,获得各个分句对应的分词集合;

在一实施例中,分词指的是将一个文字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文的词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比英文要复杂得多、困难得多。

在一实施例中,分词方法可以包括基于词典的分词方法和基于统计的分词方法。

其中,基于词典的分词方法首先会建立一个充分大的词典,然后依据一定的策略扫描句子,若句子中的某个子串与词典中的某个词匹配,则分词成功。常见的扫描策略有:正向最大匹配、逆向最大匹配、双向最大匹配和最少词数分词。

在一实施例中,基于统计的分词方法是从大量已经分词的文本中,利用统计学习方法来学习词的切分规律,从而实现对未知文本的切分。常用的统计学习方法有:隐马尔可夫模型(HMM)、条件随机场(CRF)和基于深度学习的方法。

步骤S103、基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体;

在一实施例中,根据电力知识图谱,将分词集合中的分词与专业实体进行匹配,从而确定每一个分词对应的专业实体。

在一实施例中,可以通过文本匹配算法搜索知识图谱,确定分词对应的专业实体。

在一实施例中,文本匹配算法可以包括相似度计算方法以及词向量计算方法等。

在一实施例中,文本相似度计算方法可以包括余弦相似度、曼哈顿距离、欧氏距离以及JACcard距离等。

在一实施例中,词向量计算方法可以包括词袋模型(one-hot、TF)以及词向量预训练(word2vector、fasttext、glove)等。

步骤S104、基于所述各分词对应的专业实体,对所述分词集合中的分词进行替换,获得所述分句对应的专业实体分词集合;

在一实施例中,在确定分词对应的专业实体之后,将文本中的分词替换成专业实体,在替换过程中,可以检验替换后的语义,进一步地判断该专业实体是否准确。

其中,如果替换后句子的语义不变,则表示该专业实体匹配准确;反之,则不准确,继续进行文本匹配或者不做替换。

步骤S105、基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息。

在一实施例中,语义分析是指根据句子的句法结构和句子中每个实词的词义推导出来能够反映这个句子意义的某种形式化表示,将人类能够理解的自然语言转化为计算机能够理解的形式语言。

在一实施例中,通过语义角色标注方法,实现对电力知识文本的语义信息的分析。

进一步地,基于句法分析模块,对所述专业实体分词进行语义分类,确定所述专业实体分词的语义标签;基于所述专业实体分词集合中和所述专业实体分词的语义标签,确定所述专业实体分词集合对应的电力知识文本句子的语义信息。

在一实施例中,如图3所示,语义角色标注(SRL)的步骤包括句法分析、候选论元剪除、论元识别、论元标注以及后处理。

在一实施例中,句法分析的方式有很多种,可以包括基于规则的分析方式、基于统计的分析方式以及基于神经网络的分析方法。

在一实施例中,句法分析可以分为完全句法分析、局部句法分析以及依存句法分析方法。

其中,完全句法分析是通过一系列的句法分析过程最终得到一个句子的完整的句法树。

局部句法分析不要求得到完全的句法分析树,只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。

依存句法分析的主要任务是分析出词与词之间的依存关系。现代依存语法理论认为句法关系和词义体现在词之间的依存关系中。而且,参加组成一个结构的成分(词)之间是不平等(有方向)的,一些成分从属于另一些成分,每个成分只能从属于至多一个成分。而且,哪个两个词之间有依存关系是根据句法规则和词义来定义的。例如:主语、宾语从属于谓语等。

本实施例提供一种电力知识语义分析方法,通过文本预处理模块,对电力知识文本进行分词处理,以便于根据电力知识图谱,对分词进行实体匹配,从而实现电力知识文本的标准化,使得预训练模型对标准化后的分词以及句子的语义分析结果更准确,提高电力文本信息提取准确性。

请参照图4,图4为本申请提供的一种电力知识语义分析方法第二实施例的流程示意图。

如图4所示,所述方法还包括步骤S201至步骤S203.

步骤S201、获取电力领域的专业领域知识;

在一实施例中,电力领域的专业领域知识数据来源包括维基百科、百度百科、学术期刊、专利等,这类数据存在大量的电力领域知识,包括电力系统、智能电网等科技名词的详细介绍,从中可以分析提取电力热点领域中的技术术语,并分析其间的关联关系。

步骤S202、基于预设专业领域字典,对所述专业领域知识进行特征提取,获得目标实体和实体关系;

在一实施例中,可以从论文数据、百科网站等多种数据源中分析提取与电力领域相关的专业术语及其详细解释,构建电力领域的专业词典。

在一实施例中,领域知识图谱的本体构建方法主要包括由知识驱动的自顶向下(Top-down)式、由数据驱动的自底向上(Bottom-up)式以及两者的组合方式。其中,自顶向下式是指通过业务专家人工编制或利用已有的结构化知识库获取电力领域知识本体的结构信息,进而将知识本体加入到知识库;自底向上式则是指从开放非结构化数据中提取实体、概念、关系、属性、属性值等信息,选取置信度高的对象作为候选,分析归纳成底层结构信息,逐层向上最终形成知识本体并加入到知识库。

在一实施例中,电力领域数据来源广泛,传统电力知识工程系统、专家经验知识库等结构化数据,可直接用来指导知识图谱本体自顶向下的构建。同时,电力领域实际业务中所产生的各类数据以及专家、技术人员的主观经验等半/非结构化的数据也蕴含了丰富的电力领域行业知识。

在一实施例中,为确保知识图谱本体的完备性,利用专业领域词典和信息提取技术对电力领域行业知识数据中的目标实体和实体关系加以识别,并对识别的结果进行归纳抽象,最终将抽象出的概念映射或补充到电力领域知识图谱本体中,从而实现本体自底向上的构建。

步骤S203、基于所述目标实体和实体关系,构建所述电力知识图谱。

在一实施例中,知识图谱本质上是一种语义网络,节点代表实体或属性,边代表实体之间以及实体与属性之间的各种语义关系。

其中,实体是指客观存在于现实世界并且具有区分性的对象或事物,比如中国、桃子等。属性是描述实体特征的信息,比如面积、成熟度等。关系是知识图谱最重要的特征,据此才能实现万事万物的互联,从而支撑语义理解、情报检索等多种应用。

进一步地,基于预训练模型,对所述专业领域知识中的知识文本进行分词和词性标注,确定所述目标实体的词性标签;基于所述目标实体、所述目标实体的词性标签和所述实体关系,构建所述电力知识图谱。

在一实施例中,因为在中文中,一个词语可能会存在一词多义的情况,从而导致识别结果不准确。所以,在构建电力知识图谱时,可以通过命名实体识别的方式,对电力知识图谱中的实体进行词性标注,从而对相同实体不同词性进行分别录入,保证电力知识图谱的知识全面性和准确性。

在一实施例中,命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、机构名、日期时间、专有名词等。通常包括两部分:实体的边界识别以及确定实体的类型(人名、地名、机构名或其他)。

在一实施例中,通过命名实体识别可以实现对目标实体的词性标注和关系抽取,从而避免一词多义导致的实体识别错误问题。

进一步地,在所述电力知识图谱中存在至少两个所述分词的匹配结果时,基于所述分词对应的所述分词集合,获得所述分词的上下文信息;基于所述上下文信息,确定所述分词的词性标签;基于所述词性标签,在所述匹配结果中确定所述分词对应的所述专业实体。

在一实施例中,在进行电力知识的实体识别过程中,存在一个分词匹配到多个专业实体时,此时可以根据分词所在的句子提取上下文信息,比如分析前后的动词、名词或者其他分词的属性,确定该分词的词性标签,然后根据词性标签进一步缩小在电力知识图谱中的搜索范围,从而提高实体识别的准确性。

请参阅图5,图5是本申请提供的一种电力知识语义分析装置的结构示意图,该电力知识语义分析装置用于执行前述的电力知识语义分析方法。其中,该电力知识语义分析装置可以配置于服务器中。

如图5所示,该电力知识语义分析装置300,包括:知识文本获取模块301、文本分词模块302、实体识别模块303、分词标准化模块304和语义信息获取模块305。

知识文本获取模块301,用于获取待分析的电力知识文本;

文本分词模块302,用于基于文本预处理模块,对所述电力知识文本中的各分句进行分词处理,获得各个分句对应的分词集合;

实体识别模块303,用于基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体;

分词标准化模块304,用于基于所述各分词对应的专业实体,对所述分词集合中的分词进行替换,获得所述分句对应的专业实体分词集合;

语义信息获取模块305,用于基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息。

在一实施例中,所述电力知识语义分析装置300,还包括知识图谱构建模块,用于获取电力领域的专业领域知识;基于预设专业领域字典,对所述专业领域知识进行特征提取,获得目标实体和实体关系;基于所述目标实体和实体关系,构建所述电力知识图谱。

在一实施例中,所述知识图谱构建模块,还用于基于预训练模型,对所述专业领域知识中的知识文本进行分词和词性标注,确定所述目标实体的词性标签;基于所述目标实体、所述目标实体的词性标签和所述实体关系,构建所述电力知识图谱。

在一实施例中,所述知识图谱构建模块,还用于在所述电力知识图谱中存在至少两个所述分词的匹配结果时,基于所述分词对应的所述分词集合,获得所述分词的上下文信息;基于所述上下文信息,确定所述分词的词性标签;基于所述词性标签,在所述匹配结果中确定所述分词对应的所述专业实体。

在一实施例中,所述语义信息获取模块305,还用于基于句法分析模块,对所述专业实体分词进行语义分类,确定所述专业实体分词的语义标签;基于所述专业实体分词集合中和所述专业实体分词的语义标签,确定所述专业实体分词集合对应的电力知识文本句子的语义信息。

需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述电力知识语义分析方法实施例中的对应过程,在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。

请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器。

参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种电力知识语义分析方法。

处理器用于提供计算和控制能力,支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种电力知识语义分析方法。

该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

应当理解的是,处理器可以是中央处理单元(CentralProcessingUnit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:

获取待分析的电力知识文本;

基于文本预处理模块,对所述电力知识文本中的各分句进行分词处理,获得各个分句对应的分词集合;

基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体;

基于所述各分词对应的专业实体,对所述分词集合中的分词进行替换,获得所述分句对应的专业实体分词集合;

基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息。

在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,还用于实现:

获取电力领域的专业领域知识;

基于预设专业领域字典,对所述专业领域知识进行特征提取,获得目标实体和实体关系;

基于所述目标实体和实体关系,构建所述电力知识图谱。

在一个实施例中,所述处理器在实现所述基于所述目标实体和实体关系,构建所述电力知识图谱时,用于实现:

基于预训练模型,对所述专业领域知识中的知识文本进行分词和词性标注,确定所述目标实体的词性标签;

基于所述目标实体、所述目标实体的词性标签和所述实体关系,构建所述电力知识图谱。

在一个实施例中,所述处理器在实现所述基于预设的电力知识图谱,对所述分词集合中的分词进行专业实体匹配,确定所述分词集合中各分词对应的专业实体时,用于实现:

在所述电力知识图谱中存在至少两个所述分词的匹配结果时,基于所述分词对应的所述分词集合,获得所述分词的上下文信息;

基于所述上下文信息,确定所述分词的词性标签;

基于所述词性标签,在所述匹配结果中确定所述分词对应的所述专业实体。

在一个实施例中,所述处理器在实现所述基于预训练模型,对所述专业实体分词集合中的各专业实体分词进行语义角色标注,获得所述电力知识文本的语义信息时,用于实现:

基于句法分析模块,对所述专业实体分词进行语义分类,确定所述专业实体分词的语义标签;

基于所述专业实体分词集合中和所述专业实体分词的语义标签,确定所述专业实体分词集合对应的电力知识文本句子的语义信息。

本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一种电力知识语义分析方法。

其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

技术分类

06120116510979