掌桥专利:专业的专利平台
掌桥专利
首页

实体风险指标的确定方法及装置

文献发布时间:2024-07-23 01:35:21


实体风险指标的确定方法及装置

技术领域

本申请主要涉及知识图谱技术领域,具体涉及一种实体风险指标的确定方法及装置。

背景技术

由于市场中企业数量众多以及企业面临的风险会在市场中迅速传播的特性,市政部门往往较难做到精细化、精确化以及及时的市场监管。近年来,随着算力的大幅提升、高质量数据的大量积累以及知识图谱相关算法的快速涌现,知识图谱迎来了一个快速发展的阶段,并大量应用于实际生产中。其中,在金融、风控、电商等领域尤其应用广泛。但现在对实体进行风险评估的方法主要是依靠深度神经网络对实体进行风险预测,没有考虑到实体所在集群的影响,导致无法准确确定实体风险指标。

也即,现有技术中实体风险指标的确定方法准确率不高。

发明内容

本申请提供一种实体风险指标的确定方法及装置,旨在解决现有技术中实体风险指标的确定方法准确率不高的问题。

第一方面,本申请提供一种实体风险指标的确定方法,所述实体风险指标的确定方法包括:

获取多个目标实体的实体历史交互信息;

从所述实体历史交互信息中抽取多个目标实体的实体关系;

基于所述多个目标实体的实体关系构建实体知识图谱;

基于所述实体知识图谱确定待预测实体的第一风险指标;

获取所述待预测实体所在的实体集群的集群风险指标,其中,每个所述实体集群包含至少两个实体;

基于所述待预测实体的第一风险指标和所述集群风险指标确定所述待预测实体的目标风险指标。

可选地,所述基于所述实体知识图谱确定待预测实体的第一风险指标,包括:

从所述实体知识图谱中获取多个标注实体的实体属性和对应的实体风险标签,其中,所述多个标注实体不包含所述待预测实体;

基于所述多个标注实体的实体属性和对应的实体风险标签训练预设图卷积网络模型,得到风险图卷积网络模型;

从所述实体知识图谱中获取所述待预测实体的实体属性;

将所述待预测实体的实体属性输入所述风险图卷积网络模型,得到所述待预测实体的第一风险指标。

可选地,所述获取所述待预测实体所在的实体集群的集群风险指标,包括:

将所述实体知识图谱输入预设图划分模型进行图划分,得到多个分割子图;

将每个所述分割子图中的实体划分为一个实体集群,得到多个所述实体集群;

获取各个实体集群的集群风险指标;

获取所述待预测实体所在的实体集群的集群风险指标。

可选地,所述实体关系包括竞争关系和寄递关系,所述从所述实体历史交互信息中抽取多个目标实体的实体关系,包括:

将两个所述目标实体确定为两个候选寄件实体;

若所述两个候选寄件实体之间存在寄递记录,则确定所述两个候选寄件实体之间的实体关系为寄递关系;

若所述两个候选寄件实体具有相同的收件实体,则从所述实体历史交互信息中获取所述两个候选寄件实体的行业类型和所述两个候选寄件实体与所述收件实体之间的托寄物类型;

若所述两个候选寄件实体属于同一行业类型,且所述两个候选寄件实体之间不存在寄递关系,且所述两个候选寄件实体与所述收件实体之间的托寄物类型相同,则确定所述两个候选寄件实体之间的实体关系为竞争关系。

可选地,所述获取各个实体集群的集群风险指标,包括:

获取所述实体集群中的竞争关系;

基于所述实体集群中的竞争关系及所述实体集群中的实体数量确定所述实体集群的竞争度;

基于所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

从所述实体知识图谱中获取所述实体集群中每个实体的寄递关系数量;

基于所述实体集群中各个实体的寄递关系数量总和及所述实体集群中的实体数量确定所述实体集群的活跃度;

基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

根据所述实体知识图谱计算所述实体集群中各个实体的实体重要性指标;

根据所述实体集群中各个实体的第一风险指标和各个实体的寄递关系数量计算所述实体集群中各个实体的第二风险指标;

基于所述实体集群中各个实体的实体重要性指标对所述实体集群中各个实体的第二风险指标进行加权求和,得到加权求和值;

基于所述加权求和值、所述实体集群的活跃度以及所述实体集群的竞争度计算所述实体集群的集群风险指标。

第二方面,本申请提供一种实体风险指标的确定装置,所述实体风险指标的确定装置包括:

第一获取单元,用于获取多个目标实体的实体历史交互信息;

抽取单元,用于从所述实体历史交互信息中抽取多个目标实体的实体关系;

构建单元,用于基于所述多个目标实体的实体关系构建实体知识图谱;

第一确定单元,用于基于所述实体知识图谱确定待预测实体的第一风险指标;

第二获取单元,用于获取所述待预测实体所在的实体集群的集群风险指标,其中,每个所述实体集群包含至少两个实体;

第二确定单元,用于基于所述待预测实体的第一风险指标和所述集群风险指标确定所述待预测实体的目标风险指标。

可选地,所述基于所述实体知识图谱确定待预测实体的第一风险指标,包括:

从所述实体知识图谱中获取多个标注实体的实体属性和对应的实体风险标签,其中,所述多个标注实体不包含所述待预测实体;

基于所述多个标注实体的实体属性和对应的实体风险标签训练预设图卷积网络模型,得到风险图卷积网络模型;

从所述实体知识图谱中获取所述待预测实体的实体属性;

将所述待预测实体的实体属性输入所述风险图卷积网络模型,得到所述待预测实体的第一风险指标。

可选地,所述获取所述待预测实体所在的实体集群的集群风险指标,包括:

将所述实体知识图谱输入预设图划分模型进行图划分,得到多个分割子图;

将每个所述分割子图中的实体划分为一个实体集群,得到多个所述实体集群;

获取各个实体集群的集群风险指标;

获取所述待预测实体所在的实体集群的集群风险指标。

可选地,所述实体关系包括竞争关系和寄递关系,所述从所述实体历史交互信息中抽取多个目标实体的实体关系,包括:

将两个所述目标实体确定为两个候选寄件实体;

若所述两个候选寄件实体之间存在寄递记录,则确定所述两个候选寄件实体之间的实体关系为寄递关系;

若所述两个候选寄件实体具有相同的收件实体,则从所述实体历史交互信息中获取所述两个候选寄件实体的行业类型和所述两个候选寄件实体与所述收件实体之间的托寄物类型;

若所述两个候选寄件实体属于同一行业类型,且所述两个候选寄件实体之间不存在寄递关系,且所述两个候选寄件实体与所述收件实体之间的托寄物类型相同,则确定所述两个候选寄件实体之间的实体关系为竞争关系。

可选地,所述获取各个实体集群的集群风险指标,包括:

获取所述实体集群中的竞争关系;

基于所述实体集群中的竞争关系及所述实体集群中的实体数量确定所述实体集群的竞争度;

基于所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

从所述实体知识图谱中获取所述实体集群中每个实体的寄递关系数量;

基于所述实体集群中各个实体的寄递关系数量总和及所述实体集群中的实体数量确定所述实体集群的活跃度;

基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

根据所述实体知识图谱计算所述实体集群中各个实体的实体重要性指标;

根据所述实体集群中各个实体的第一风险指标和各个实体的寄递关系数量计算所述实体集群中各个实体的第二风险指标;

基于所述实体集群中各个实体的实体重要性指标对所述实体集群中各个实体的第二风险指标进行加权求和,得到加权求和值;

基于所述加权求和值、所述实体集群的活跃度以及所述实体集群的竞争度计算所述实体集群的集群风险指标。

第三方面,本申请提供一种计算机设备,所述计算机设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面所述的实体风险指标的确定方法。

第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行第一方面所述的方法中的步骤。

本申请提供一种实体风险指标的确定方法及装置,该实体风险指标的确定方法包括:获取多个目标实体的实体历史交互信息;从实体历史交互信息中抽取多个目标实体的实体关系;基于多个目标实体的实体关系构建实体知识图谱;基于实体知识图谱确定待预测实体的第一风险指标;获取待预测实体所在的实体集群的集群风险指标,其中,每个实体集群包含至少两个实体;基于待预测实体的第一风险指标和集群风险指标确定待预测实体的目标风险指标。本申请在现有技术没有考虑到实体所在集群的影响,导致无法准确确定实体风险指标的情况下,创造性地提出一种实体风险指标的确定方法,在从实体历史交互信息中抽取实体和实体关系并构建实体知识图谱后,根据实体知识图谱计算实体的第一风险指标并结合实体所在实体集群的集群风险等级计算实体的目标风险指标,从而可以提高实体风险指标确定的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的实体风险指标的确定系统的场景示意图;

图2是本申请实施例中提供的实体风险指标的确定方法的一个实施例流程示意图;

图3是本申请实施例中提供的实体风险指标的确定装置的一个实施例结构示意图;

图4是本申请实施例中提供的计算机设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

本申请实施例提供一种实体风险指标的确定方法及装置,以下分别进行详细说明。

请参阅图1,图1为本申请实施例所提供的实体风险指标的确定系统的场景示意图,该实体风险指标的确定系统可以包括计算机设备100。

本申请实施例中,该计算机设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的计算机设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

本申请实施例中,上述的计算机设备100可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中计算机设备100可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备等,本实施例不限定计算机设备100的类别。

本领域技术人员可以理解,图1中示出的应用环境,仅仅是本申请方案的一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个计算机设备,可以理解的,该实体风险指标的确定系统还可以包括一个或多个可处理数据的其他计算机设备,具体此处不作限定。

另外,如图1所示,该实体风险指标的确定系统还可以包括存储器200,用于存储数据。

需要说明的是,图1所示的实体风险指标的确定系统的场景示意图仅仅是一个示例,本申请实施例描述的实体风险指标的确定系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着实体风险指标的确定系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

首先,本申请实施例中提供一种实体风险指标的确定方法,该实体风险指标的确定方法包括:获取多个目标实体的实体历史交互信息;从实体历史交互信息中抽取多个目标实体的实体关系;基于多个目标实体的实体关系构建实体知识图谱;基于实体知识图谱确定待预测实体的第一风险指标;获取待预测实体所在的实体集群的集群风险指标,其中,每个实体集群包含至少两个实体;基于待预测实体的第一风险指标和集群风险指标确定待预测实体的目标风险指标。

如图2所示,图2是本申请实施例中提供的实体风险指标的确定方法的一个实施例流程示意图,该实体风险指标的确定方法包括如下步骤S201~S206:

S201、获取多个目标实体的实体历史交互信息。

本申请实施例中,实体可以为企业,实体历史交互信息包括企业之间的历史寄递数据、历史投资数据以及历史招投标数据。实体历史交互信息为多个目标实体在预设历史时间段内的交互信息。历史寄递数据包括各个企业之间是否存在寄递记录、寄递记录中的托寄物类型、寄件次数以及企业所属行业类型等。其中,预设历史时间段可以为历史2个月、1个月等等,根据具体情况设定即可。

S202、从实体历史交互信息中抽取多个目标实体的实体关系。

信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取(RE)、命名实体识别(NER)、事件抽取(EE)。

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。关系抽取通常在识别出句子中的关键实体后,还需要抽取两个实体或多个实体之间的语义关系。语义关系通常用于连接两个实体,并与实体一起表达文本的主要含义。常见的关系抽取结果可以用SPO结构的三元组来表示,即(Subject,Predication,Object)。

在一个具体的实施例中,将实体历史交互信息输入预设信息抽取模型进行信息抽取,得到多个实体和多个实体之间的实体关系。预设信息抽取模型可以为BiLSTM+Attention+CRF模型。在其他实施例中,预设信息抽取模型还可以是BiLSTM-CRF、RNN-CRF、CNN-CRF等,根据具体情况选用即可。

在一个具体的实施例中,多个目标实体的实体关系可以包括竞争关系和寄递关系,从实体历史交互信息中抽取多个目标实体的实体关系,包括:

(1)将两个目标实体确定为两个候选寄件实体。

在一个具体的实施例中,将任意两个目标实体确定为两个候选寄件实体。

在另一个具体的实施例中,获取各个目标实体在预设历史时间段内的寄件次数,从寄件次数超过预设数量的多个目标实体中选取两个目标实体作为两个候选寄件实体。

(2)若两个候选寄件实体存在寄递记录,则确定两个候选寄件实体之间的实体关系为寄递关系。

(3)若两个候选寄件实体具有相同的收件实体,则从实体历史交互信息中获取两个候选寄件实体的行业类型和两个候选寄件实体与收件实体之间的托寄物类型。

具体的,判断两个候选寄件实体是否具有相同的收件实体,若两个候选寄件实体具有相同的收件实体,表明两个候选寄件实体可能存在竞争关系,则从实体历史交互信息中获取两个候选寄件实体的行业类型和两个候选寄件实体与收件实体之间的托寄物类型。若两个候选寄件实体不具有相同的收件实体,则确定两个候选寄件实体之间的实体关系不为竞争关系。

(4)若两个候选寄件实体属于同一行业类型,且两个候选寄件实体之间不存在寄递关系,且两个候选寄件实体与收件实体之间的托寄物类型相同,则确定两个候选寄件实体之间的实体关系为竞争关系。

若两个候选寄件实体属于同一行业类型,且两个候选寄件实体之间不存在寄递关系,且两个候选寄件实体与收件实体之间的托寄物类型相同,则确定两个候选寄件实体之间的实体关系为竞争关系。例如,对于实体A和实体B,若两者有共同的收件实体C,且A和B处于同一行业,且A和B都寄了相同类的物品给C,且A和B之间没有寄递往来,则A和B形成竞争关系。

S203、基于多个目标实体的实体关系构建实体知识图谱。

知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等。知识加工:对于经过融合的新知识,需要经过质量评估之后,才能将合格的部分加入到知识库中,以确保知识库的质量。

本申请实施例中,基于多个目标实体的实体关系进行知识融合、知识加工,构建实体知识图谱。

S204、基于实体知识图谱确定待预测实体的第一风险指标。

在一个具体的实施例中,基于实体知识图谱确定待预测实体的第一风险指标,可以包括:

(1)从实体知识图谱中获取多个标注实体的实体属性和对应的实体风险标签,其中,多个标注实体不包含待预测实体。

本申请实施例中,各个标注实体的实体属性可以包括企业注册资金、企业投融资金额、企业欠税额度、企业欠税次数、企业经营异常被处罚次数、企业近三年营收及利润等。将被吊销营业执照的企业的实体风险标签确定为“1”,将未被吊销营业执照的企业的实体风险标签确定为“0”。

(2)基于多个标注实体的实体属性和对应的实体风险标签训练预设图卷积网络模型,得到风险图卷积网络模型。

本申请实施例中,预设图卷积网络模型可以为GraphSAGE模型,GraphSAGE算法是斯坦福大学提出的一种图神经网络算法,用于图中的节点预测任务。与单独为每个节点训练节点嵌入不同,GraphSAGE通过对节点的邻居节点的特征做聚合和采样,学习一个函数来生成节点嵌入。

(3)从实体知识图谱中获取待预测实体的实体属性。

(4)将待预测实体的实体属性输入风险图卷积网络模型,得到待预测实体的第一风险指标。

将待预测实体的实体属性输入风险图卷积网络模型,得到待预测实体的第一风险指标。

S205、获取待预测实体所在的实体集群的集群风险指标。

其中,每个实体集群包含至少两个实体。

在一个具体的实施例中,可通过人工经验预先将多个目标实体划分为多个实体集群,并为各个实体集群设置对应的集群风险指标。读取待预测实体所在的实体集群的集群风险指标即可。

在另一个具体的实施例中,为了提高实体集群划分的准确性,基于预设的实体集群从属关系获取待预测实体所在的实体集群的集群风险指标,可以包括:

(1)将实体知识图谱输入预设图划分模型进行图划分,得到多个分割子图。

其中,预设图划分模型可以为GAP模型。GAP是一种无监督的基于深度学习的图分割算法,能够完成均衡的子图切分且具有较强的泛化能力。子图分割的目标是找到均衡的子图同时最小化边的割集。

定义图G=(V,E),其中V={v

给定子图S

对于多个子图集合{S

由于子图切割的时候会偏向于切割度比较小的节点,会导致子图切割不均匀。因此往往使用正则化的子图切割方式,即:

其中vol(S

GAP通过无监督的方式以及可微的损失函数训练模型,通过最小化正则化的切割方式来找到最有的子图切分。

定义Y

N(v

其中⊙A为与邻接矩阵A的元素积。

给定一个列向量D,D

是矩阵间的元素除。

对于一个包含n个节点g个子图的图而言,在具体场景中,子图中的节点为实体,为了达到均衡子图切割,每个子图中节点的数量应该为

可得GAP的损失函数:

GAP基于图的结构以及节点特征得到节点的图嵌入表示,通过全连接层将节点的图嵌入表示投影成节点属于子图的概率分布,最小化公式中的损失函数,基于反向传播完成整个模型的训练。

(2)将每个分割子图中的实体划分为一个实体集群,得到多个实体集群。

(3)获取各个实体集群的集群风险指标。

(4)获取待预测实体所在的实体集群的集群风险指标。

在一个具体的实施例中,各个实体集群的集群风险指标可通过人工经验确定。

在另一个具体的实施例中,获取待预测实体所在的实体集群的集群风险指标,可以包括:

(1)获取实体集群中的竞争关系。

其中,E(v

(2)基于实体集群中的竞争关系及实体集群中的实体数量确定实体集群的竞争度。

具体的,对于实体集群S

其中,Cpt(S

(3)基于实体集群的竞争度确定实体集群的集群风险指标。

在一个具体的实施例中,将实体集群的竞争度确定为实体集群的集群风险指标。

在另一个具体的实施例中,基于实体集群的竞争度确定实体集群的集群风险指标,包括:

(1)从实体知识图谱中获取实体集群中每个实体的寄递关系数量。

每个实体的寄递关系数量表示实体的寄递次数。

(2)基于实体集群中各个实体的寄递关系数量总和及实体集群中的实体数量确定实体集群的活跃度。

在一个具体的实施例中,对于实体集群S

其中,Act(S

(3)基于实体集群的活跃度和实体集群的竞争度确定实体集群的集群风险指标。

在一个具体的实施例中,将实体集群的活跃度和实体集群的竞争度之差确定为实体集群的集群风险指标。实体集群的集群风险指标H(S

其中,H(S

在另一个具体的实施例中,基于实体集群的活跃度和实体集群的竞争度确定实体集群的集群风险指标,包括:

(1)根据实体知识图谱计算实体集群中各个实体的实体重要性指标。

在实体知识图谱中,如果某些较为重要的实体出现风险,风险将会快速传播到与其紧密相关的其他实体,在社会层面上造成重大影响。体重要性指标可通过Pagerank算法计算得出。Pagerank最早由谷歌提出,用于计算网络中网页的重要性。

具体的,实体v

其中,对于实体v

(2)根据实体集群中各个实体的第一风险指标和各个实体的寄递关系数量计算实体集群中各个实体的第二风险指标。

具体的,将实体集群中各个实体的实体属性分别输入风险图卷积网络模型,得到实体集群中各个实体的第一风险指标PS(v

(3)基于实体集群中各个实体的实体重要性指标对实体集群中各个实体的第二风险指标进行加权求和,得到加权求和值。

具体的,加权求和值为

(4)基于加权求和值、实体集群的活跃度以及实体集群的竞争度计算实体集群的集群风险指标。

其中,PR(v

S206、基于待预测实体的第一风险指标和集群风险指标确定待预测实体的目标风险指标。

本申请实施例中,对待预测实体的第一风险指标和集群风险指标加权求和,得到待预测实体的目标风险指标。例如,待预测实体的第一风险指标的加权系数为0.6,集群风险指标的加权系数为0.4,根据具体情况设定。根据实体的风险指标和实体所在集群的集群风险指标共同确定待预测实体的目标风险指标,可以更准确确定待预测实体的目标风险指标。

为了更好实施本申请实施例中实体风险指标的确定方法,在实体风险指标的确定方法基础之上,本申请实施例中还提供一种实体风险指标的确定装置,如图3所示,实体风险指标的确定装置包括:

第一获取单元301,用于获取多个目标实体的实体历史交互信息;

抽取单元302,用于从所述实体历史交互信息中抽取多个目标实体的实体关系;

构建单元303,用于基于所述多个目标实体的实体关系构建实体知识图谱;

第一确定单元304,用于基于所述实体知识图谱确定待预测实体的第一风险指标;

第二获取单元305,用于获取所述待预测实体所在的实体集群的集群风险指标,其中,每个所述实体集群包含至少两个实体;

第二确定单元306,用于基于所述待预测实体的第一风险指标和所述集群风险指标确定所述待预测实体的目标风险指标。

可选地,所述基于所述实体知识图谱确定待预测实体的第一风险指标,包括:

从所述实体知识图谱中获取多个标注实体的实体属性和对应的实体风险标签,其中,所述多个标注实体不包含所述待预测实体;

基于所述多个标注实体的实体属性和对应的实体风险标签训练预设图卷积网络模型,得到风险图卷积网络模型;

从所述实体知识图谱中获取所述待预测实体的实体属性;

将所述待预测实体的实体属性输入所述风险图卷积网络模型,得到所述待预测实体的第一风险指标。

可选地,所述获取所述待预测实体所在的实体集群的集群风险指标,包括:

将所述实体知识图谱输入预设图划分模型进行图划分,得到多个分割子图;

将每个所述分割子图中的实体划分为一个实体集群,得到多个所述实体集群;

获取各个实体集群的集群风险指标;

获取所述待预测实体所在的实体集群的集群风险指标。

可选地,所述实体关系包括竞争关系和寄递关系,所述从所述实体历史交互信息中抽取多个目标实体的实体关系,包括:

将两个所述目标实体确定为两个候选寄件实体;

若所述两个候选寄件实体之间存在寄递记录,则确定所述两个候选寄件实体之间的实体关系为寄递关系;

若所述两个候选寄件实体具有相同的收件实体,则从所述实体历史交互信息中获取所述两个候选寄件实体的行业类型和所述两个候选寄件实体与所述收件实体之间的托寄物类型;

若所述两个候选寄件实体属于同一行业类型,且所述两个候选寄件实体之间不存在寄递关系,且所述两个候选寄件实体与所述收件实体之间的托寄物类型相同,则确定所述两个候选寄件实体之间的实体关系为竞争关系。

可选地,所述获取各个实体集群的集群风险指标,包括:

获取所述实体集群中的竞争关系;

基于所述实体集群中的竞争关系及所述实体集群中的实体数量确定所述实体集群的竞争度;

基于所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

从所述实体知识图谱中获取所述实体集群中每个实体的寄递关系数量;

基于所述实体集群中各个实体的寄递关系数量总和及所述实体集群中的实体数量确定所述实体集群的活跃度;

基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标。

可选地,所述基于所述实体集群的活跃度和所述实体集群的竞争度确定所述实体集群的集群风险指标,包括:

根据所述实体知识图谱计算所述实体集群中各个实体的实体重要性指标;

根据所述实体集群中各个实体的第一风险指标和各个实体的寄递关系数量计算所述实体集群中各个实体的第二风险指标;

基于所述实体集群中各个实体的实体重要性指标对所述实体集群中各个实体的第二风险指标进行加权求和,得到加权求和值;

基于所述加权求和值、所述实体集群的活跃度以及所述实体集群的竞争度计算所述实体集群的集群风险指标。

本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种实体风险指标的确定装置,计算机设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述实体风险指标的确定方法实施例中任一实施例中的方法的步骤。

如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。

存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。

计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:

获取多个目标实体的实体历史交互信息;从实体历史交互信息中抽取多个目标实体的实体关系;基于多个目标实体的实体关系构建实体知识图谱;基于实体知识图谱确定待预测实体的第一风险指标;获取待预测实体所在的实体集群的集群风险指标,其中,每个实体集群包含至少两个实体;基于待预测实体的第一风险指标和集群风险指标确定待预测实体的目标风险指标。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种实体风险指标的确定方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:

获取多个目标实体的实体历史交互信息;从实体历史交互信息中抽取多个目标实体的实体关系;基于多个目标实体的实体关系构建实体知识图谱;基于实体知识图谱确定待预测实体的第一风险指标;获取待预测实体所在的实体集群的集群风险指标,其中,每个实体集群包含至少两个实体;基于待预测实体的第一风险指标和集群风险指标确定待预测实体的目标风险指标。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。

具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种实体风险指标的确定方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

相关技术
  • 一种实体关系图的确定方法、装置、服务器及存储介质
  • 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
  • 一种大坝位移指标确定方法及装置
  • 一种数据指标确定方法和装置
  • 大气污染对人体健康风险指标确定方法、装置和电子设备
  • 确定风险指标值的方法及装置
技术分类

06120116678723