掌桥专利:专业的专利平台
掌桥专利
首页

实体分类方法、装置及可读存储介质

文献发布时间:2023-06-19 11:57:35


实体分类方法、装置及可读存储介质

技术领域

本公开涉及计算机技术领域,尤其涉及一种实体分类方法、装置及可读存储介质。

背景技术

知识图谱中,实体是现实世界中的对象或者概念,关系则用来连接两个实体以描述实体之间的联系,比如人物与人物之间的朋友关系,人物与企业之间的雇佣关系,人物与作品之间的主演、导演、创作关系等。知识图谱中存在大量的实体,存储着客观世界的事实数据,为了更好的组织和管理这些实体数据,为上层业务方提供数据支持,需要对知识图谱中的实体进行分类。

相关技术中,均是根据实体的特征属性、语义信息等实体自身固有的特性进行实体分类,并未考虑实体与实体之间的相互关联关系,使得实体分类的结果不够准确。

发明内容

为克服相关技术中存在的问题,本公开提供一种实体分类方法、装置及可读存储介质。

根据本公开实施例的第一方面,提供一种实体分类方法,包括:

获取待分类实体;

获取已分类实体和所述已分类实体中的第一词语;

提取所述已分类实体的第一实体特征信息,并根据所述第一实体特征信息计算所述第一实体特征信息的第一实体特征向量表示,以及,根据所述第一词语计算所述第一词语的第一词向量表示;

构建实体图结构,其中,所述实体图结构中的节点包括由所述第一实体特征向量表示构成的第一实体节点、由所述第一词向量表示构成的第一词语节点,所述实体图结构中的边关系包括所述第一实体节点与所述第一词语节点之间的第一边关系、两个所述第一词语节点之间的第二边关系,所述第一边关系表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数,所述词频-逆文本频率指数表征该第一词语在该已分类实体中的关键程度,所述第二边关系表征对应的两个第一词语的共现信息;

根据所述实体图结构得到目标图卷积神经网络模型,并通过所述目标图卷积神经网络模型计算所述待分类实体分别属于至少一个预设类别的目标概率序列,并根据所述目标概率序列确定所述待分类实体所属的目标类别,其中,所述目标概率序列包括至少一个目标概率值。

可选地,所述实体图结构中的节点还包括由所述待分类实体的第二实体特征信息的第二实体特征向量表示构成的第二实体节点、由所述待分类实体中的第二词语的第二词向量表示构成的第二词语节点,所述实体图结构中的边关系还包括所述第一实体节点与所述第二词语节点之间的第三边关系、所述第二实体节点与所述第一词语节点之间的第四边关系、所述第二实体节点与所述第二词语节点之间的第五边关系、两个所述第二词语节点之间的第六边关系、第一词语节点与第二词语节点之间的第七边关系;

在所述构建实体图结构的步骤之前,所述方法还包括:

获取所述待分类实体中的所述第二词语;

提取所述待分类实体的所述第二实体特征信息,并根据所述第二实体特征信息计算所述第二实体特征信息的所述第二实体特征向量表示,以及,根据所述第二词语计算所述第二词语的所述第二词向量表示。

可选地,所述实体特征信息包括实体的属性信息和属性值信息。

可选地,所述根据所述实体图结构得到目标图卷积神经网络模型,包括:

根据所述实体图结构构建初始图卷积神经网络模型;

根据所述初始图卷积神经网络模型计算所述已分类实体分别属于所述至少一个预设类别的第一概率序列,所述第一概率序列包括至少一个第一概率值;

获取预先标注的所述已分类实体分别属于所述至少一个预设类别的第二概率序列,所述第二概率序列包括至少一个第二概率值;

确定所述第一概率值和所述第二概率值之间的差异信息,并根据所述差异信息对所述初始图卷积神经网络模型进行训练,以得到所述目标图卷积神经网络模型。

可选地,所述初始图卷积神经网络模型包括多层网络,每层网络对应至少一个权重矩阵;

所述根据所述差异信息对所述初始图卷积神经网络模型进行训练,包括:

针对每层网络,根据所述差异信息分别对该层网络所对应的至少一个权重矩阵进行调整。

可选地,所述根据所述目标概率序列确定所述待分类实体所属的目标类别,包括:

将所述目标概率序列中的最高目标概率值对应的预设类别作为所述目标类别。

可选地,在确定所述待分类实体所属的目标类别后,所述方法还包括:

将已确定目标类别的待分类实体存储到知识图谱中;

在接收到用户输入的查询信息的情况下,根据所述知识图谱中各个实体的类别确定与所述查询信息相关的结果信息。

根据本公开实施例的第二方面,提供一种实体分类装置,包括:

第一获取模块,被配置成用于获取待分类实体;

第二获取模块,被配置成用于获取已分类实体和所述已分类实体中的第一词语;

第一提取模块,被配置成用于提取所述已分类实体的第一实体特征信息,并根据所述第一实体特征信息计算所述第一实体特征信息的第一实体特征向量表示,以及,根据所述第一词语计算所述第一词语的第一词向量表示;

图结构构建模块,被配置成用于构建实体图结构,其中,所述实体图结构中的节点包括由所述第一实体特征向量表示构成的第一实体节点、由所述第一词向量表示构成的第一词语节点,所述实体图结构中的边关系包括所述第一实体节点与所述第一词语节点之间的第一边关系、两个所述第一词语节点之间的第二边关系,所述第一边关系表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数,所述词频-逆文本频率指数表征该第一词语在该已分类实体中的关键程度,所述第二边关系表征对应的两个第一词语的共现信息;

分类模块,被配置成用于根据所述实体图结构得到目标图卷积神经网络模型,并通过所述目标图卷积神经网络模型计算所述待分类实体分别属于至少一个预设类别的目标概率序列,并根据所述目标概率序列确定所述待分类实体所属的目标类别,其中,所述目标概率序列包括至少一个目标概率值。

可选地,所述实体图结构中的节点还包括由所述待分类实体的第二实体特征信息的第二实体特征向量表示构成的第二实体节点、由所述待分类实体中的第二词语的第二词向量表示构成的第二词语节点,所述实体图结构中的边关系还包括所述第一实体节点与所述第二词语节点之间的第三边关系、所述第二实体节点与所述第一词语节点之间的第四边关系、所述第二实体节点与所述第二词语节点之间的第五边关系、两个所述第二词语节点之间的第六边关系、第一词语节点与第二词语节点之间的第七边关系;

所述装置还包括:第三获取模块,被配置成用于在所述图结构构建模块构建实体图结构之前,获取所述待分类实体中的所述第二词语;

第二提取模块,被配置成用于提取所述待分类实体的所述第二实体特征信息,并根据所述第二实体特征信息计算所述第二实体特征信息的所述第二实体特征向量表示,以及,根据所述第二词语计算所述第二词语的所述第二词向量表示。

可选地,所述分类模块,包括:

模型构建子模块,被配置成用于根据所述实体图结构构建初始图卷积神经网络模型;

第一确定子模块,被配置成用于根据所述初始图卷积神经网络模型计算所述已分类实体分别属于所述至少一个预设类别的第一概率序列,所述第一概率序列包括至少一个第一概率值;

获取子模块,被配置成用于获取预先标注的所述已分类实体分别属于所述至少一个预设类别的第二概率序列,所述第二概率序列包括至少一个第二概率值;

训练子模块,被配置成用于确定所述第一概率值和所述第二概率值之间的差异信息,并根据所述差异信息对所述初始图卷积神经网络模型进行训练,以得到所述目标图卷积神经网络模型。

可选地,所述初始图卷积神经网络模型包括多层网络,每层网络对应至少一个权重矩阵;

所述训练子模块,包括:

调整子模块,被配置成用于针对每层网络,根据所述差异信息分别对该层网络所对应的至少一个权重矩阵进行调整。

可选地,所述分类模块,包括:

第二确定子模块,被配置成用于将所述目标概率序列中的最高目标概率值对应的预设类别作为所述目标类别。

可选地,所述装置还包括:

存储模块,被配置成用于在所述分类模块35确定所述待分类实体所属的目标类别后,将已确定目标类别的待分类实体存储到知识图谱中;

结果确定模块,被配置成用于在接收到用户输入的查询信息的情况下,根据所述知识图谱中各个实体的类别确定与所述查询信息相关的结果信息。

根据本公开实施例的第三方面,提供一种实体分类装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:执行本公开第一方面所提供的实体分类方法的步骤。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的实体分类方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果:

通过上述技术方案,根据构建的实体图结构得到目标图卷积神经网络模型,并通过该目标图卷积神经网络模型计算待分类实体分别属于至少一个预设类别的目标概率序列,并根据目标概率序列确定待分类实体所属的目标类别,以对待分类实体进行分类。其中,实体图结构可根据已分类实体构建,实体图结构中的边关系可包括第一实体节点与第一词语节点之间的第一边关系、两个第一词语节点之间的第二边关系,第一边关系可表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数,第二边关系可表征对应的两个第一词语的共现信息,第一词语是从已分类实体中提取出的,因此通过已分类实体与第一词语之间的关系以及两个第一词语之间的关系,可反映实体与实体之间的关系,使得相互联系越多的实体属于同一个类别的可能性越大,利用实体与实体之间的关系对待分类实体进行分类,可以提高实体分类的准确性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种实体分类方法的流程图。

图2是根据一示例性实施例示出的一种根据实体图结构得到目标图卷积神经网络模型的方法的流程图。

图3是根据一示例性实施例示出的一种实体分类装置的框图。

图4是根据一示例性实施例示出的一种实体分类装置的框图。

图5是根据一示例性实施例示出的一种实体分类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种实体分类方法的流程图,该方法可应用于具有处理能力的电子设备中,例如终端或服务器,如图1所示,该方法可包括步骤11至步骤15。

在步骤11中,获取待分类实体。

知识图谱中存在大量的实体,待分类实体可以是知识图谱中尚未确定类别的实体。值得说明的是,对于待分类实体的数量,可以是多个,本公开不做具体限制。

在步骤12中,获取已分类实体和已分类实体中的第一词语。

其中,已分类实体可以指的是已经预先完成分类的实体,可以是人工标注的类别或者通过相关技术中的方式确定的类别。已分类实体也可有多个,对其数量不做限制。已分类实体中的第一词语可以是该已分类实体中出现的一个或多个词语,如果该已分类实体中存在多个词语,则可以从该已分类实体中获取到多个第一词语。

在步骤13中,提取已分类实体的第一实体特征信息,并根据第一实体特征信息计算第一实体特征信息的第一实体特征向量表示,以及,根据第一词语计算第一词语的第一词向量表示。

如果已分类实体有多个,该步骤可以针对每一已分类实体,提取该已分类实体的第一实体特征信息。示例地,实体的实体特征信息可包括实体的属性信息和属性值信息,属性值信息即属性信息的值。例如,人物类实体的属性信息可包括姓名、性别、出生日期、职业、职务等,性别这一属性信息的属性值信息为男或女,职业这一属性信息的属性值信息例如为演员、歌手、教师等。再例如,语言类实体的属性信息可包括笔画、部首;作品类实体的属性信息可包括作品名称、作品体裁、作品简介。

在一可选实施方式中,可将已分类实体的属性信息和属性值信息中词频小于预设词频阈值的词语去除,将去除之后的文本作为该已分类实体的第一实体特征信息。其中,词频可以指的是词语在知识图谱中出现的次数,如果某一词语的词频小于预设词频阈值,可表征该词语出现的次数较少,该词语中的字出现错误的可能性较高,因此可将该词语去除。

在提取出已分类实体的第一实体特征信息后,可根据第一实体特征信息计算第一实体特征信息的第一实体特征向量表示,以及,根据第一词语计算第一词语的第一词向量表示。示例地,可以通过对第一实体特征信息中的词嵌入向量(Word Embedding)进行加权求和得到该第一实体特征向量表示,或者通过独热编码(one-hot编码)方法得到该第一实体特征向量表示,另外,在知识图谱构建完备的情况下,也可通过翻译嵌入(TranslatingEmbedding)算法或者深度游走(Deep Walk)算法得到该第一实体特征向量表示。

针对已分类实体中的第一词语,可根据该第一词语,通过用来产生词向量的相关模型,例如Word2vec模型,计算该第一词语的第一词向量表示。

在步骤14中,构建实体图结构。

考虑到在得到用于对待分类实体进行分类的目标图卷积神经网络模型时,需要预先构建初始图卷积神经网络模型,然后对初始图卷积神经网络模型进行训练得到该目标图卷积神经网络模型,在构建初始图卷积神经网络模型时,模型中权重矩阵的设置需要参考实体图结构中已分类实体的类别,因此可根据已分类实体构建实体图结构。

其中,该实体图结构中的节点包括由第一实体特征向量表示构成的第一实体节点、由第一词向量表示构成的第一词语节点。实体图结构中的边关系包括第一实体节点与第一词语节点之间的第一边关系、两个第一词语节点之间的第二边关系。

第一边关系可表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数(TF-IDF,Term Frequency-Inverse Document Frequency),词频-逆文本频率指数表征该第一词语在该已分类实体中的关键程度,词频-逆文本频率指数越高,可表征该第一词语在该已分类实体中的关键程度越高、第二边关系可表征对应的两个第一词语的共现信息,也即两个第一词语在知识图谱中的共现信息。

本公开中,通过构建实体图结构,建立实体与词语之间的关系以及词语与词语之间的关系,其中词语是从实体中提取出的,因此实体与词语之间的关系以及词语与词语之间的关系可反映实体与实体之间的关系,从而可以利用实体与实体之间的相互关联关系对待分类实体进行分类,可以提高实体分类的准确性。

在步骤15中,根据实体图结构得到目标图卷积神经网络模型,并通过目标图卷积神经网络模型计算待分类实体分别属于至少一个预设类别的目标概率序列,并根据目标概率序列确定待分类实体所属的目标类别。其中,目标概率序列包括至少一个目标概率值。

预设类别可以是预先设置的,例如人物类、语言类、作品类,对于预设类别的数量,本公开不做具体限制,可以是一个也可以是多个。通过目标图卷积神经网络模型计算的、待分类实体分别属于至少一个预设类别的目标概率序列,可包括至少一个目标概率值。

其中,根据目标概率序列确定待分类实体所属的目标类别,可包括:将目标概率序列中的最高目标概率值对应的预设类别作为目标类别。

举例来说,例如待分类实体属于人物类实体的目标概率值为0.9,属于语言类实体的目标概率值为0.05,属于作品类实体的目标概率值为0.05,则目标概率序列中最大目标概率值对应的预设类别为人物类,因此待分类实体为人物类实体的可能性最大,可确定该待分类实体所属的目标类别为人物类实体。

通过上述技术方案,根据构建的实体图结构得到目标图卷积神经网络模型,并通过该目标图卷积神经网络模型计算待分类实体分别属于至少一个预设类别的目标概率序列,并根据目标概率序列确定待分类实体所属的目标类别,以对待分类实体进行分类。其中,实体图结构可根据已分类实体构建,实体图结构中的边关系可包括第一实体节点与第一词语节点之间的第一边关系、两个第一词语节点之间的第二边关系,第一边关系可表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数,第二边关系可表征对应的两个第一词语的共现信息,第一词语是从已分类实体中提取出的,因此通过已分类实体与第一词语之间的关系以及两个第一词语之间的关系,可反映实体与实体之间的关系,使得相互联系越多的实体属于同一个类别的可能性越大,利用实体与实体之间的关系对待分类实体进行分类,可以提高实体分类的准确性。

本公开中,在构建实体图结构时,除了根据已分类实体进行构建外,还可根据待分类实体进行构建。

在步骤14构建实体图结构之前,本公开提供的实体分类方法还可包括:

获取待分类实体中的第二词语;

提取待分类实体的第二实体特征信息,并根据第二实体特征信息计算第二实体特征信息的第二实体特征向量表示,以及,根据第二词语计算第二词语的第二词向量表示。

待分类实体中的第二词语可以是该待分类实体中出现的一个或多个词语。实体的实体特征信息已在上文阐述,待分类实体的第二实体特征信息可包括待分类实体的属性信息和属性值信息。另外,计算实体特征向量表示和词向量表示的方式可参照步骤13中的示例,此处不再赘述。

实体图结构中的节点还可包括由待分类实体的第二实体特征信息的第二实体特征向量表示构成的第二实体节点、由待分类实体中的第二词语的第二词向量表示构成的第二词语节点。实体图结构中的边关系还可包括第一实体节点与第二词语节点之间的第三边关系、第二实体节点与第一词语节点之间的第四边关系、第二实体节点与第二词语节点之间的第五边关系、两个第二词语节点之间的第六边关系、第一词语节点与第二词语节点之间的第七边关系。

其中,实体节点与词语节点之间的边关系可表征对应的实体与对应的词语之间的词频-逆文本频率指数。例如,第一实体节点与第二词语节点之间的第三边关系,可表征对应的已分类实体与对应的第二词语之间的词频-逆文本频率指数;第二实体节点与第一词语节点之间的第四边关系,可表征对应的待分类实体与对应的第一词语之间的词频-逆文本频率指数;第二实体节点与第二词语节点之间的第五边关系,可表征对应的待分类实体与对应的第二词语之间的词频-逆文本频率指数。

词语与词语之间的边关系可表征两个词语的共现信息。例如,两个第二词语节点之间的第六边关系,可表征对应的两个第二词语的共现信息;第一词语节点与第二词语节点之间的第七边关系,可表征对应的第一词语与对应的第二词语的共现信息。

值得说明的是,同时根据待分类实体构建实体图结构,仅为可选实施方式,例如,如果采用Fast-GCN(Fast-Graph Convolutional Network,快速图卷积神经网络)进行实体分类,可以仅根据已分类实体的数据构建实体图结构,如果采用基础图卷积神经网络进行实体分类,可以同时根据已分类实体的数据和待分类实体的数据共同构建实体图结构。同时根据待分类实体构建实体图结构,可以使得在根据实体图结构构建初始图卷积神经网络模型时,模型中的权重矩阵的设置更加准确。

示例地,该实体图结构可表示为G=(V,E),其中,G表示实体图结构,E表示实体图结构中的边集合,V表示实体图结构中的节点集合,例如共n个节点,该n个节点包括上述的第一实体节点、第一词语节点、第二实体节点和第二词语节点,每一节点的向量维度为m,则n个节点构成的向量矩阵可表示为X∈R

其中,实体节点与词语节点之间的边关系可包括任一实体节点与任一词语节点之间的边关系,例如第一实体节点与第一词语节点之间的第一边关系、第一实体节点与第二词语节点之间的第三边关系、第二实体节点与第一词语节点之间的第四边关系、第二实体节点与第二词语节点之间的第五边关系。两个词语节点之间的边关系可包括两个第一词语之间的第二边关系、两个第二词语节点之间的第六边关系、第一词语节点与第二词语节点之间的第七边关系。

实体与词语之间的词频-逆文本频率指数越高,可表征该词语在该实体中的关键程度越大。示例地,可通过TF-IDF

两个词语的共现信息可通过两者在知识图谱中的共现信息确定。例如通过PMI(i,j)表示两个词语的共现信息,其中i表示两个词语中的其中一个词语,j表示另一词语,可通过如下公式确定该共现信息:

其中,#W(i)表示知识图谱中包含词语i的滑动窗口的个数,#W(j)表示知识图谱中包含词语j的滑动窗口的个数,#W(i,j)表示知识图谱中同时包含词语i和词语j的滑动窗口的个数,#W表示知识图谱中所有滑动窗口的个数,p(i)表示知识图谱中包含词语i的滑动窗口的个数占所有滑动窗口的概率,p(j)表示知识图谱中包含词语j的滑动窗口的个数占所有滑动窗口的概率,p(i,j)表示知识图谱中同时包含词语i和词语j的滑动窗口的个数占所有滑动窗口的概率。

如果共现信息PMI(i,j)为正值,可表征两个词语之间具有关联关系,该共现信息值越高表征词语之间的关联程度越大。

另外,实体图结构是由节点和边构成的不规则的结构,可通过邻接矩阵的形式对实体图结构进行表示,该邻接矩阵是一个方阵,行和列均是由n个节点组成。例如用A表示实体图结构G的邻接矩阵。在邻接矩阵中,如果实体与词语相同,则该实体与该词语完全相关,关联程度最高,如果两个词语相同,这两个词语的关联程度为1。如果计算出词语与词语之间的共现信息为负值,则这两个词语之间没有关联关系,关联程度为0。

由此构建实体图结构,并根据构建的实体图结构得到目标图卷积神经网络模型,通过该目标图卷积神经网络模型对知识图谱中的待分类实体进行分类,可以提高实体分类的准确性。

图2是根据一示例性实施例示出的一种根据实体图结构得到目标图卷积神经网络模型的方法的流程图,如图2所示,该方法可包括步骤151至步骤154。

在步骤151中,根据实体图结构构建初始图卷积神经网络模型。

示例地,该初始图卷积神经网络模型可包括多层网络,每层网络对应至少一个权重矩阵。以该初始图卷积神经网络模型包括两层网络为例,该初始图卷积神经网络模型可如下公式所示:

Z=softmax(AReLU(AXW0)W1)

其中,Z表示初始图卷积神经网络模型,A表示实体图结构的邻接矩阵表示,X表示实体图结构中节点的向量表示,W0表示其中一层网络的权重矩阵,W1表示另一层网络的权重矩阵。Softmax归一化指数函数,ReLU为线性整流函数。

在步骤152中,根据初始图卷积神经网络模型计算已分类实体分别属于至少一个预设类别的第一概率序列。该第一概率序列包括至少一个第一概率值。

预设类别已在上文说明,可以是预先设置的,例如人物类、语言类、作品类,对于预设类别的数量,本公开不做具体限制,可以是一个也可以是多个。该第一概率序列即包括通过模型计算出的已分类实体属于各个预设类别的第一概率值。

在步骤153中,获取预先标注的已分类实体分别属于至少一个预设类别的第二概率序列。该第二概率序列包括至少一个第二概率值。

在步骤154中,确定第一概率值和第二概率值之间的差异信息,并根据该差异信息对初始图卷积神经网络模型进行训练,以得到目标图卷积神经网络模型。

示例地,可将第一概率值和第二概率值的交叉熵损失作为该差异信息。

初始图卷积神经网络模型可包括多层网络,每层网络对应至少一个权重矩阵;根据差异信息对初始图卷积神经网络模型进行训练,可包括:针对每层网络,根据该差异信息分别对该层网络所对应的至少一个权重矩阵进行调整。例如调整上述W0和W1,以对该初始图卷积神经网络模型进行训练。

由此,可将已分类实体作为模型训练数据,对初始图卷积神经网络模型进行训练,从而得到训练完成的目标图卷积神经网络模型。

在确定待分类实体所属的目标类别后,本公开提供的实体分类方法还可包括:

将已确定目标类别的待分类实体存储到知识图谱中;

在接收到用户输入的查询信息的情况下,根据知识图谱中各个实体的类别确定与查询信息相关的结果信息。

在本公开的一种应用场景中,可以应用于智能问答的场景中,用户输入的查询信息可以是用户想要查询的词语、句子等,接收用户输入的查询信息的方式可以有多种,例如该查询信息可以是文字的形式,用户在搜索框中输入查询信息,可接收到用户在搜索框输入的该查询信息,或者,用户通过语音的形式说出查询信息,则可接收到音频形式的查询信息。

在接收到用户输入的查询信息的情况下,可根据知识图谱中各个实体的类别,确定与查询信息相关的结果信息。其中,与查询信息相关可以指的是与查询信息所属的类别相同,例如用户输入的查询信息为人物类,则可以提供与该查询信息相关的、类别为人物类的实体,作为结果信息反馈给用户。

通过上述技术方案,根据构建的实体图结构得到目标图卷积神经网络模型,并通过该目标图卷积神经网络模型对知识图谱中的待分类实体进行分类,充分考虑实体与实体之间的相互关系,可以提高实体分类的准确性。将已确定目标类别的待分类实体存储到知识图谱中,在接收到用户输入的查询信息的情况下,根据知识图谱中各个实体的类别确定与查询信息相关的结果信息,可以提高结果信息的准确性,满足用户的查询需求,使得结果信息符合用户的查询意图。

基于同一发明构思,本公开还提供一种实体分类装置,图3是根据一示例性实施例示出的一种实体分类装置的框图,如图3所示,该装置30可包括:

第一获取模块31,被配置成用于获取待分类实体;

第二获取模块32,被配置成用于获取已分类实体和所述已分类实体中的第一词语;

第一提取模块33,被配置成用于提取所述已分类实体的第一实体特征信息,并根据所述第一实体特征信息计算所述第一实体特征信息的第一实体特征向量表示,以及,根据所述第一词语计算所述第一词语的第一词向量表示;

图结构构建模块34,被配置成用于构建实体图结构,其中,所述实体图结构中的节点包括由所述第一实体特征向量表示构成的第一实体节点、由所述第一词向量表示构成的第一词语节点,所述实体图结构中的边关系包括所述第一实体节点与所述第一词语节点之间的第一边关系、两个所述第一词语节点之间的第二边关系,所述第一边关系表征对应的已分类实体与对应的第一词语之间的词频-逆文本频率指数,所述词频-逆文本频率指数表征该第一词语在该已分类实体中的关键程度,所述第二边关系表征对应的两个第一词语的共现信息;

分类模块35,被配置成用于根据所述实体图结构得到目标图卷积神经网络模型,并通过所述目标图卷积神经网络模型计算所述待分类实体分别属于至少一个预设类别的目标概率序列,并根据所述目标概率序列确定所述待分类实体所属的目标类别,其中,所述目标概率序列包括至少一个目标概率值。

可选地,所述实体图结构中的节点还包括由所述待分类实体的第二实体特征信息的第二实体特征向量表示构成的第二实体节点、由所述待分类实体中的第二词语的第二词向量表示构成的第二词语节点,所述实体图结构中的边关系还包括所述第一实体节点与所述第二词语节点之间的第三边关系、所述第二实体节点与所述第一词语节点之间的第四边关系、所述第二实体节点与所述第二词语节点之间的第五边关系、两个所述第二词语节点之间的第六边关系、第一词语节点与第二词语节点之间的第七边关系;

所述装置30还可包括:第三获取模块,被配置成用于在所述图结构构建模块34构建实体图结构之前,获取所述待分类实体中的所述第二词语;

第二提取模块,被配置成用于提取所述待分类实体的所述第二实体特征信息,并根据所述第二实体特征信息计算所述第二实体特征信息的所述第二实体特征向量表示,以及,根据所述第二词语计算所述第二词语的所述第二词向量表示。

可选地,所述分类模块35,可包括:

模型构建子模块,被配置成用于根据所述实体图结构构建初始图卷积神经网络模型;

第一确定子模块,被配置成用于根据所述初始图卷积神经网络模型计算所述已分类实体分别属于所述至少一个预设类别的第一概率序列,所述第一概率序列包括至少一个第一概率值;

获取子模块,被配置成用于获取预先标注的所述已分类实体分别属于所述至少一个预设类别的第二概率序列,所述第二概率序列包括至少一个第二概率值;

训练子模块,被配置成用于确定所述第一概率值和所述第二概率值之间的差异信息,并根据所述差异信息对所述初始图卷积神经网络模型进行训练,以得到所述目标图卷积神经网络模型。

可选地,所述初始图卷积神经网络模型包括多层网络,每层网络对应至少一个权重矩阵;

所述训练子模块,包括:

调整子模块,被配置成用于针对每层网络,根据所述差异信息分别对该层网络所对应的至少一个权重矩阵进行调整。

可选地,所述分类模块35,可包括:

第二确定子模块,被配置成用于将所述目标概率序列中的最高目标概率值对应的预设类别作为所述目标类别。

可选地,所述装置30还包括:

存储模块,被配置成用于在所述分类模块35确定所述待分类实体所属的目标类别后,将已确定目标类别的待分类实体存储到知识图谱中;

结果确定模块,被配置成用于在接收到用户输入的查询信息的情况下,根据所述知识图谱中各个实体的类别确定与所述查询信息相关的结果信息。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的实体分类方法的步骤。

图4是根据一示例性实施例示出的一种实体分类装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图4,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的实体分类方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实体分类方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述实体分类方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的实体分类方法的代码部分。

图5是根据一示例性实施例示出的一种实体分类装置1900的框图。例如,装置1900可以被提供为一服务器。参照图5,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述实体分类方法

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows Server

本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 实体分类方法、装置及可读存储介质
  • 实体分类方法、系统和计算机可读存储介质
技术分类

06120113117056