掌桥专利:专业的专利平台
掌桥专利
首页

信用风险的预测方法、装置、设备、介质和程序产品

文献发布时间:2023-06-19 11:19:16


信用风险的预测方法、装置、设备、介质和程序产品

技术领域

本公开涉及计算机技术领域,特别是涉及一种信用风险的预测方法、装置、设备、介质和程序产品。

背景技术

随着经济的繁荣发展,在市场交易和投资领域涌现出了大量作为信用关系当事人的信用主体,不同的信用主体不仅在信用体系中扮演着各自不同的主体角色,承担着各自不同的社会经济功能,而且通过交易和投资行为的进行使得这些原本独立的信用主体和其他信用主体之间形成了千丝万缕的关联关系,受这些复杂关联关系的影响,当某一个或某一些信用主体出现丧失信用的行为时,与其有着密切关联关系的信用主体产生信用风险的概率也将随之增加,有效地信用风险预测有助于在市场交易和投资领域中对信用主体进行风险预判以及预警。因此,对这些信用主体之间存在的关联关系进行深入分析和挖掘,来获得信用主体之间存在的显性、隐性的关联关系就显得非常重要。

相关技术也提供了一些对信用主体的信用风险进行预测的解决方案,但大多都是通过对信用主体自身的相关数据进行统计、分析和对比,来得出该信用主体的信用风险的预测结果,由于将该信用主体作为独立的个体进行统计、分析和对比,并未有效地利用该信用主体和其他信用主体之间形成的关联关系,数据分析的维度低,导致信用风险的预测结果准确率不高,且无法及时发现信用风险在信用主体之间的传导。

发明内容

为实现上述目标,本公开的一个方面提供了一种信用风险的预测方法,包括:获得信用主体的目标特征数据,该上述信用主体包含目标信用主体和非目标信用主体,上述目标特征数据用于表征上述信用主体的信用风险;对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱,该上述知识图谱用于表征上述信用主体中各信用主体自身的实体、属性以及上述各信用主体之间的关系;基于上述知识图谱,从上述非目标信用主体中确定出与上述目标信用主体具有关联关系的关联信用主体;以及基于上述目标信用主体的第一风险预测结果和上述关联信用主体的第二风险预测结果,确定上述目标信用主体的信用风险预测结果。

可选地,上述对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱包括:确定上述目标特征数据的数据结构,该不同的数据结构对应不同的知识抽取逻辑;根据上述数据结构,选择对应的知识抽取逻辑;基于上述对应的知识抽取逻辑,对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱。

可选地,在生成上述目标信用主体的知识图谱之前,上述方法还包括:构建用于描述上述信用主体的关联信息的领域本体;通过网络本体语言定义上述领域本体的所属类别以及隶属于上述所属类别的标识,该上述标识包括实体标识、属性标识以及关系标识,上述实体标识、属性标识以及关系标识存储在图数据库中;基于上述实体标识、属性标识以及关系标识,构建用于描述上述领域本体的关联信息的实体描述框架,该上述实体描述框架用于生成知识图谱。

可选地,上述数据结构包含结构化数据结构,上述基于上述对应的知识抽取逻辑,对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱包括:调用上述图数据库的知识抽取中间件对上述目标特征数据进行知识抽取来获得目标字段信息,该上述目标字段信息包含第一实体信息、第一属性信息以及第一关系信息;以及利用上述目标字段信息充填上述实体描述框架来生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述实体标识对应的到上述第一实体信息、与上述属性标识对应的上述第一属性信息以及与上述关系标识对应的上述第一关系信息。

可选地,上述数据结构包含非结构化数据结构,上述基于上述对应的知识抽取逻辑,对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱包括:对上述目标特征数据进行标注来获得标注序列信息,该上述标注序列信息包含第二实体信息和第二属性信息;基于弱监督学习的抽取方法对上述目标特征数据进行抽取来获得第二关系信息,该上述第二关系信息用于表征上述信用主体中两两信用主体之间的关系;以及基于上述第二实体信息、上述第二属性信息和上述第二关系信息生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述实体标识对应的到上述第二实体信息、与上述属性标识对应的上述第二属性信息以及与上述关系标识对应的上述第二关系信息。

可选地,上述基于上述第二实体信息、上述第二属性信息和上述第二关系信息生成上述目标信用主体的知识图谱包括:确定上述第二关系信息对应的置信度值;获取关系信息的置信度阈值;基于上述置信度阈值,从上述信用主体中抽取置信度值满足上述置信度阈值的第三关系信息;以及利用上述第二实体信息、上述第二属性信息和上述第三关系信息充填上述实体描述框架来生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述关系标识对应的上述第三关系信息。

可选地,上述方法还包括:通过网络本体语言的推理规则,对上述知识图谱进行推理来完善上述知识图谱;和/或对上述领域本体的所属类别进行一致性检测来清理异常上述类别。

可选地,上述从上述非目标信用主体中确定出与上述目标信用主体具有关联关系的关联信用主体包括:按照预设路径方向获得包含上述目标信用主体的最短路径,该上述预设路径方向包括出度和入度方向;通过预设社区发现算法获得上述知识图谱的社区划分结果,该处于同一社区的信用主体之间具有关联关系;基于上述包含上述目标信用主体的最短路径和/或上述知识图谱的社区划分结果,从上述非目标信用主体中确定出与上述目标信用主体具有关联关系的关联信用主体。

可选地,方法还包括:获取风险预测模型;将上述目标信用主体的目标特征数据输入上述风险预测模型来获得上述目标信用主体的第一风险预测结果;将上述关联信用主体的目标特征数据输入上述风险预测模型来获得上述关联信用主体的第二风险预测结果。

可选地,方法还包括:获取训练样本数据,该上述训练样本数据包括信用正常的信用主体的特征数据和信用低的信用主体的特征数据;以及训练上述训练样本数据来获得上述风险预测模型。

可选地,方法还包括:基于上述目标信用主体的信用风险预测结果,更新上述风险预测模型。

可选地,上述基于上述目标信用主体的第一风险预测结果和上述关联信用主体的第二风险预测结果,确定上述目标信用主体的信用风险预测结果包括:在上述第一风险预测结果表征上述目标信用主体的信用异常的情况下,确定上述目标信用主体的信用风险预测结果为高风险;或在上述第一风险预测结果表征上述目标信用主体的信用正常,上述第二风险预测结果表征上述关联信用主体中存在信用异常的关联信用主体的情况下,确定上述目标信用主体的信用风险预测结果为高风险;或在上述第一风险预测结果表征上述目标信用主体的信用正常,上述第二风险预测结果表征上述关联信用主体中不存在信用异常的关联信用主体的情况下,确定上述目标信用主体的信用风险预测结果为低风险。

为了实现上述目标,本公开的另一个方面提供了一种信用风险的预测装置,包括:第一获得模块,用于获得信用主体的目标特征数据,该上述信用主体包含目标信用主体和非目标信用主体,上述目标特征数据用于表征上述信用主体的信用风险;生成模块,用于对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱,该上述知识图谱用于表征上述信用主体中各信用主体自身的实体、属性以及上述各信用主体之间的关系;第一确定模块,用于基于上述知识图谱,从上述非目标信用主体中确定出与上述目标信用主体具有关联关系的关联信用主体;以及第二确定模块,用于基于上述目标信用主体的第一风险预测结果和上述关联信用主体的第二风险预测结果,确定上述目标信用主体的信用风险预测结果。

可选地,上述生成模块包括:第一确定子模块,用于确定上述目标特征数据的数据结构,该不同的数据结构对应不同的知识抽取逻辑;选择子模块,用于根据上述数据结构,选择对应的知识抽取逻辑;及生成子模块,用于基于上述对应的知识抽取逻辑,对上述目标特征数据进行知识抽取来生成上述目标信用主体的知识图谱。

可选地,在上述生成上述目标信用主体的知识图谱之前,上述装置还包括:第一构建模块,用于构建用于描述上述信用主体的关联信息的领域本体;定义模块,用于通过网络本体语言定义上述领域本体的所属类别以及隶属于上述所属类别的标识,该上述标识包括实体标识、属性标识以及关系标识,上述实体标识、属性标识以及关系标识存储在图数据库中;以及第二构建模块,用于基于上述实体标识、属性标识以及关系标识,构建用于描述上述领域本体的关联信息的实体描述框架,该上述实体描述框架用于生成知识图谱。

可选地,上述数据结构包含结构化数据结构,上述生成子模块包括:第一抽取单元,用于调用上述图数据库的知识抽取中间件对上述目标特征数据进行知识抽取来获得目标字段信息,该上述目标字段信息包含第一实体信息、第一属性信息以及第一关系信息;以及第一生成单元,用于利用上述目标字段信息充填上述实体描述框架来生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述实体标识对应的到上述第一实体信息、与上述属性标识对应的上述第一属性信息以及与上述关系标识对应的上述第一关系信息。

可选地,上述数据结构包含非结构化数据结构,上述生成子模块包括:标注单元,用于对上述目标特征数据进行标注来获得标注序列信息,该上述标注序列信息包含第二实体信息和第二属性信息;第二抽取单元,用于基于弱监督学习的抽取方法对上述目标特征数据进行抽取来获得第二关系信息,该上述第二关系信息用于表征上述信用主体中两两信用主体之间的关系;以及第二生成单元,用于基于上述第二实体信息、上述第二属性信息和上述第二关系信息生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述实体标识对应的到上述第二实体信息、与上述属性标识对应的上述第二属性信息以及与上述关系标识对应的上述第二关系信息。

可选地,上述第二生成单元包括:确定子单元,用于确定上述第二关系信息对应的置信度值;获取子单元,用于获取关系信息的置信度阈值;抽取子单元,用于基于上述置信度阈值,从上述信用主体中抽取置信度值满足上述置信度阈值的第三关系信息;生成子单元,用于利用上述第二实体信息、上述第二属性信息和上述第三关系信息充填上述实体描述框架来生成上述目标信用主体的知识图谱,该上述知识图谱包含与上述关系标识对应的上述第三关系信息。

可选地,装置还包括:推理模块,用于通过网络本体语言的推理规则,对上述知识图谱进行推理来完善上述知识图谱;和/或检测模块,用于对上述领域本体的所属类别进行一致性检测来清理异常上述类别。

可选地,上述第一确定模块包括:第一获得子模块,用于按照预设路径方向获得包含上述目标信用主体的最短路径,该上述预设路径方向包括出度和入度方向;第二获得子模块,用于通过预设社区发现算法获得上述知识图谱的社区划分结果,该处于同一社区的信用主体之间具有关联关系;第二确定子模块,用于基于上述包含上述目标信用主体的最短路径和/或上述知识图谱的社区划分结果,从上述非目标信用主体中确定出与上述目标信用主体具有关联关系的关联信用主体。

可选地,装置还包括:第一获取模块,用于获取风险预测模型;第二获得模块,用于第一将上述目标信用主体的目标特征数据输入上述风险预测模型来获得上述目标信用主体的第一风险预测结果;第三获得模块,用于将上述关联信用主体的目标特征数据输入上述风险预测模型来获得上述关联信用主体的第二风险预测结果。

可选地,装置还包括:第二获取模块,用于获取训练样本数据,该上述训练样本数据包括信用正常的信用主体的特征数据和信用低的信用主体的特征数据;以及训练模块,用于训练上述训练样本数据来获得上述风险预测模型。

可选地,装置还包括:更新模块,用于基于上述目标信用主体的信用风险预测结果,更新上述风险预测模型。

可选地,上述第二确定模块包括:第三确定子模块,用于在上述第一风险预测结果表征上述目标信用主体的信用异常的情况下,确定上述目标信用主体的信用风险预测结果为高风险;或第四确定子模块,用于在上述第一风险预测结果表征上述目标信用主体的信用正常,上述第二风险预测结果表征上述关联信用主体中存在信用异常的关联信用主体的情况下,确定上述目标信用主体的信用风险预测结果为高风险;或第五确定子模块,用于在上述第一风险预测结果表征上述目标信用主体的信用正常,上述第二风险预测结果表征上述关联信用主体中不存在信用异常的关联信用主体的情况下,确定上述目标信用主体的信用风险预测结果为低风险。

为了实现上述目标,本公开的另一方面提供了一种电子设备,包括:一个或多个处理器,存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的信用风险的预测方法。

为了实现上述目标,本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的信用风险的预测方法。

为了实现上述目标,本公开的另一方面提供了一种计算机程序,上述计算机程序包括计算机可执行指令,上述指令在被执行时用于实现如上所述的信用风险的预测方法。

根据本公开的实施例,基于通过链路数据实现数据管理和存储的知识库,来实现知识图谱技术在信用主体垂直领域的风险预测的落地,可以至少部分地解决相关技术中信用风险的预测方法中将该信用主体作为独立的个体进行统计、分析和对比,并未有效地利用信用主体之间存在的关联关系,导致对该信用主体的信用风险预测的结果准确率不高,信用主体的关联关系分析难度大、信用风险的传导发现不及时、且数据分析的维度低的技术问题,并因此可以实现分析数据的易扩展、关联关系的推理能力强,且便于查找的技术效果。

附图说明

通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:

图1示意性示出了适用于本公开实施例的系统架构;

图2示意性示出了根据本公开实施例的信用风险的预测方法流程图;

图3示意性示出了根据本公开实施例的实体描述框架图;

图4示意性示出了根据本公开实施例对结构化数据知识抽取流程图;

图5示意性示出了根据本公开实施例对非结构化数据知识抽取流程图;

图6示意性示出了根据本公开另一实施例的信用风险的预测方法的流程图;

图7示意性示出了根据本公开另一实施例的信用风险的预测方法的流程图;

图8示意性示出了根据本公开实施例的信用风险的预测装置的框图;

图9示意性示出了根据本公开实施例的适于实现上文描述的信用风险的预测方法的计算机可读存储介质产品的示意图;以及

图10示意性示出了根据本公开实施例的适于实现上文描述的信用风险的预测方法的电子设备的框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了上述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释 (例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和 C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A 和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程信用风险的预测装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/ 或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

相关技术大多都是通过对信用主体自身的相关数据进行统计、分析和对比,来得出该信用主体的信用风险的预测结果,由于将该信用主体作为独立的个体,并未有效地利用该信用主体和其他信用主体之间形成的关联关系,数据分析的维度低,导致信用风险的预测结果准确率不高,且无法及时发现信用风险在信用主体之间的传导。

因此,本公开提供了一种信用风险的预测方法,包括知识图谱构建阶段和信用风险预测阶段。在知识图谱构建阶段,首先获得信用主体的目标特征数据,该信用主体包含目标信用主体和非目标信用主体,目标特征数据用于表征信用主体的信用风险,然后对目标特征数据进行知识抽取来生成目标信用主体的知识图谱,该知识图谱用于表征信用主体中各信用主体对应的实体、属性以及各信用主体之间的关系。在信用风险预测阶段,首先基于知识图谱,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体,然后基于目标信用主体的第一风险预测结果和关联信用主体的第二风险预测结果,确定目标信用主体的信用风险预测结果。

风险预测在多种行业均为必须的业务环节。例如,在金融行业,需要对虚拟资源的发行主体是否存在违约风险进行监控。需要说明的是,本公开提供的信用风险的预测方法和装置可用于金融领域中,也可用于除金融领域之外的任意领域中。因此,对本公开所提供的信用风险的预测方法和装置的应用领域不做限定。

图1示意性示出了适用于本公开实施例的系统架构100。需要注意的是,图1所示仅为可应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括终端设备101、 102、103,网络104和服务器105。网络104用以在终端设备101、102、 103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105 交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本公开实施例所提供的信用风险的预测方法一般可以由服务器105执行。相应地,本公开实施例所提供的信用风险的预测装置一般可以设置于服务器105中。本公开实施例所提供的信用风险的预测方法也可以由不同于服务器105且能够与终端设备101、102、103 和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的信用风险的预测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的信用风险的预测方法流程图。

如图2所示,该方法200可以包括操作S210~操作S240。

在操作S210,获得信用主体的目标特征数据。在本公开中,信用主体包含目标信用主体和非目标信用主体。作为信用关系的当事人,信用主体是信用关系的承载者和信用活动的行为者,例如组织机构主体、人物主体等。其中组织机构主体可以包括但不限于企业、投资公司、银行,人物主体可以包括但不限于企业关键人物、投资人。

根据本公开的实施例,目标特征数据用于表征信用主体的信用风险,目标特征数据可以是行内数据,例如信用数据、财务数据以及银监数据等,也可以从指定的数据库直接拉取。例如,信用数据可以从中国人民银行征信中心对应的数据库中拉取,财务数据可以在财经网站对应的数据库中拉取,银监数据可以从银监会监管数据库中拉取。目标特征数据还可以是行外数据,例如法律数据、舆情数据、行业区域数据、房地产数据、海关数据、新闻数据等。

在操作S220,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱。在本公开中,知识图谱用于表征信用主体中各信用主体自身的实体、属性以及各信用主体之间的关系。知识图谱是对客观物理世界的一种结构化的符号表达,也是一个网状知识库,它由具有属性的实体通过关系链接而成,关系也包括自身的属性。从图论的角度理解,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。知识图谱构建的关键点在于企业之间关系的挖掘。企业与企业之间、企业与人物之间存在着各种关系。通过这些关系,可以构建企业关系网络,即企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在的关联,生成企业画像。

在操作S230,基于知识图谱,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体。在本公开中,关联信用主体可以是非目标信用主体中的部分信用主体,也可以是非目标信用主体中的全部信用主体。

在操作S240,基于目标信用主体的第一风险预测结果和关联信用主体的第二风险预测结果,确定目标信用主体的信用风险预测结果。

根据本公开的实施例,目标信用主体的信用风险预测结果不仅与目标信用主体的第一风险预测结果有关,也与关联信用主体的第二风险预测结果有关,两者共同确定信用风险预测结果,将银行的信息系统和互联网中的企业大数据高效地利用起来,将孤立的数据节点融合到统一的知识库中,打破企业孤点,实现客户企业信息的互联互通。

通过本公开的实施例,利用大数据充分挖掘企业风险数据价值,得到个人与法人显性、隐性的关联关系,识别具有某种共同特征实体组成的群体,计算某个事件在关联的实体之间传递的过程和传递的概率,为客户经理提供一个企业工商涉讼风险可视化试图,以此可以帮助银行在发放贷款之前及时预测有潜在风险的关联企业,做出预警和预判,同时也可以帮助银行在发放贷款之后及时发现潜在风险,提前启动催收流程,有效降低银行不良贷款的损失。

作为一种可选的实施例,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱包括:确定目标特征数据的数据结构,其中,不同的数据结构对应不同的知识抽取逻辑;根据数据结构,选择对应的知识抽取逻辑;以及基于对应的知识抽取逻辑,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱。

根据本公开的实施例,不同数据结构的目标特征数据实体和实体间相互关系的抽取方式不同。由于目标特征数据指的是能够表征监控对象发生信用违约行为可能性的数据,例如信用记录、财务数据等。因此目标特征数据的数据结构可以是图像、音频、文本和数字,对应的数据结构可以是结构化数据结构和非结构化数据结构。

通过本公开的实施例,针对不同的数据结构提供不同的知识抽取逻辑,使得知识图谱的构建以不同数据结构的数据为基础,可以较为全面客观地反映实体之间的关联关系。

作为一种可选的实施例,在生成目标信用主体的知识图谱之前,方法还包括:构建用于描述信用主体的关联信息的领域本体;通过网络本体语言定义领域本体的所属类别以及隶属于所属类别的标识,其中,标识包括实体标识、属性标识以及关系标识,实体标识、属性标识以及关系标识存储在图数据库中;以及基于实体标识、属性标识以及关系标识,构建用于描述领域本体的关联信息的实体描述框架,其中,实体描述框架用于生成知识图谱。

本公开引入本体(OntoIogy),即共享概念模型的形式化规范说明,在计算机领域,本体在语义层次上描述知识,可以看成描述某个学科领域知识的一个通用概念模型,该模型包含某个学科领域内的基本术语和术语之间的关系,或者称为概念以及概念之间的关系。本体是团体的共识,是相应领域内公认的概念集合,并不等同于个体。通过领域本体进行推理,领域本体研究的是特定领域内概念及概念之间的关系。

本公开根据企业关联信息这一领域所涉及到的数据的特点,对企业本体这一概念进行抽象和建模时,设置的属性(Property)可以包括但不限于背景信息属性、企业经营状态属性、主要人员属性以及历史风险属性。进一步地,还可以为每种属性设置与其对应的子属性(Sub Property),属性与子属性之间的对应关系详见表1所示。

具体实施时,可以利用对本体进行语义描述的网络本体语言 (Ontology WebLanguage,OWL)实现子属性的定义,例如可以使用 OWL中的rdfs:subPropertyOf定义子属性。需要说明的是,表1中所示的属性及其对应的子属性仅仅是示意性地,根据实际情况需要,可以自行定义不同于表1所示的属性以及与属性对应的子属性,本公开不限定。

表1

在OWL本体语言中进行本体的数据模式定义,主要需要定义类别、子类别、属性、子属性以及属性内在逻辑关系。在本公开中,通过分析企业关联信息的相关领域知识,对企业的类别、属性和部分子属性定义如表2所示。需要说明的是,表2中所示的企业的类别、属性和部分子属性仅仅是示意性地,根据实际情况需要,可以自行定义不同于表2所示的企业的类别、属性以及部分子属性,本公开对此不做具体限定。

作为一种可选的实施例,在本公开中除了可以定义类和属性之外,还可以定义实体之间的关系,实体之间的关系可以包含关系名称、关系类型以及实体之间的单向关系,该单向关系可以包含关系起点和关系终点。其中关系类型代表关系的不同类型和作用范围,包含法定关系、市场关系以及社会关系。具体地,市场关系目前主要是由于企业经营行为而产生的关系。社会关系的效应范围是一种人物社交范围内有效的关系类型。而法定关系表示受法律制约的关系类别。实体之间的关系如表3 所示。需要说明的是,表3中所示的实体之间的关系仅仅是示意性地,根据实际情况需要,可以自行定义不同于表3所示的实体之间的关系。

表2

表3

根据本公开的实施例,利用本体语言定义的类和属性,可以绘制出资源描述框架(Resource Description Framework,RDF)图,RDF也是实体描述框架图,是一个使用XML语法来表示的资料模型(Data Model),用来描述Web资源的特性,以及资源与资源之间的关系。RDF提供了一种用于表达这一信息、并使其能在应用程序间交换而不丧失语义的通用框架用于信息需要被应用程序处理而不是仅仅显示给人观看的场合。

图3示意性示出了根据本公开实施例的实体描述框架图。如图3 所示,在本公开的RDF图300中,可以使用实线标识类属性与对象属性之间的关联关系,使用虚线标识对象属性和子属性之间的关联关系。例如,使用实线标识类属性(Company)与对象属性之背景信息属性 (background information)、经营状态属性(management state)、历史风险属性(historical risk)以及主要人员属性(key personnel)之间的关联关系类属性与对象属性。使用虚线标识对象属性之主要人员属性 (key personnel)和子属性之法人代表(legalperson)以及参股股东 (share holder)之间的关联关系。在本公开中其他类属性、对象属性以及子属性的含义具体可参见前述表1~表3所示,此处不再赘述。

作为一种可选的实施例,数据结构包含结构化数据结构,基于对应的知识抽取逻辑,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱包括:调用图数据库的知识抽取中间件对目标特征数据进行知识抽取来获得目标字段信息,其中,目标字段信息包含第一实体信息、第一属性信息以及第一关系信息;以及利用目标字段信息充填实体描述框架来生成目标信用主体的知识图谱,其中,知识图谱包含与实体标识对应的到第一实体信息、与属性标识对应的第一属性信息以及与关系标识对应的第一关系信息。

在本公开中,结构化数据一部分为原始数据,可以是来自于银行的合作企业提供的数据库数据以及Json数据,一部分为附加数据,可以是来自于通过爬虫爬到的相关企业的百科网页数据,其中百科网页数据一方面作为附加数据可以对原始数据进行很好的补充,例如百科网页数据中的别名、缩略名等字段内容可以扩充实体的表达方式,对于下文建立实体同义词表有很大的帮助作用,另一方面百科网页数据具有较强的实时性,对于原始数据也可以起到一定的更新作用。

在本公开中,结构化数据中不仅包含有实体的基本信息数据,还包含有实体之间的关系信息数据,但是无论是实体的基本信息数据,还是实体之间的关系信息数据,这些数据的获取都需要将结构化数据和图数据库中所定义的实体和属性进行对应,并对实体之间的关系进行提取。具体实施时,通过分析结构化数据的字段信息可以发现,Json 数据中的BasicInfo字段对应图数据库中的实体的基本信息,可以包含注册资本、成立日期、经营状态、工商注册号等企业基本信息数据。 JudicialRisk字段包含企业风险信息,StockholderInfo字段包含企业的股东信息,KeyPersonInfo字段包含企业关键人物的信息,InvestListInfo 字段包含企业的对外投资数据,EnterpriseRelationship字段包含分支机构以及关联交易数据。

具体实施时,可以通过图数据库的中间件APOC抽取结构化数据,来获得结构化数据对应的实体和属性,并将实体导入图数据库中并完成属性的映射以及实体之间关系的生成。APOC支持对Json数据的解析,因此对于从不同的数据源获取到的数据,可以选择先将来自不同数据源的数据转换为具有统一Json数据格式的多个数据,再实现数据的批量化导入,也可以选择先将来自不同数据源的数据转换为具有统一Json数据格式的多个数据后进行拼接,再实现数据的批量化导入。在完成数据的批量化导入之后,背景信息数据、经营状态数据、主要人员数据以及历史风险数据将作为企业节点的属性进行存储。根据StockholderInfo、KeyPersonInfo以及InvestListInfo字段中包含的关系信息可以完成多种实体之间关联关系的构建,可以包括但不限于人物和企业实体对于某一企业的参股关系,企业内部关键人物的任职关系,以及企业对其他企业的投资关系以及关联交易关系。

图4示意性示出了根据本公开实施例对结构化数据知识抽取流程图。如图4所示,该方法400可以包括操作S410~操作S4120。

在操作S410,通过转码将数据编码统一为utf-8(一个字节包含8 个比特的编码格式)。在操作S420,将数据格式统一为Json格式。在操作S430,利用APOC中间件读取Json文件。在操作S440,mention 提取,得到文本中的mention,mention可以是前述目标字段信息。在操作S450,判断实体是否存在知识库中。若是,则执行操作S460,实体属性更新。若否,则执行操作S470,新建实体。在操作S480,遍历关联实体。在操作S490,判断关联实体是否存在知识库中。若否,则执行操作S4100,新建实体。若是,则执行操作S4110,实体属性更新。最后在操作S4120,建立实体间关系。

通过本公开的实施例,图数据库的中间件抽取结构化数据,将实体导入图数据库并完成属性的映射以及实体间关系的生成,实现针对结构化数据的准备和提取,为知识图谱的构建提供结构化数据的支撑。

作为一种可选的实施例,数据结构包含非结构化数据结构,基于对应的知识抽取逻辑,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱包括:对目标特征数据进行标注来获得标注序列信息,其中,标注序列信息包含第二实体信息和第二属性信息;基于弱监督学习的抽取方法对目标特征数据进行抽取来获得第二关系信息,其中,第二关系信息用于表征信用主体中两两信用主体之间的关系;以及基于第二实体信息、第二属性信息和第二关系信息生成目标信用主体的知识图谱,其中,知识图谱包含与实体标识对应的到第二实体信息、与属性标识对应的第二属性信息以及与关系标识对应的第二关系信息。

在本公开中,非结构化的文本数据采用经典的双向长短期记忆神经网络-条件随机场(BiLSTM-CRF)模型,该模型可以将命名实体的识别任务转换成按字符的输入序列的标注问题。

例如赔偿关系的标注样例如下:

(原文)一、被告张三、李四返还原告某某有限公司A支行贷款本金1097250.07元以及支付截止2014年3月11日止的积欠利息 82129.67元,共计1179378.74元。

(标注结果)一、[被告张三、李四/payer][返还/act][原告某某有限公司A支行/payee][贷款本金/type][1097250.07元/amt]以及[支付/act] 截止2014年3月11日止的[积欠利息/type][82129.67元/amt],共计 [1179378.74元/total]。

在本公开中,由于在完成针对非结构化的文本数据的实体识别之后,获取到的实体(包括企业实体和/或人物实体)还是离散的、无关联的节点,因此想要构建知识图谱形成企业实体和人物实体之间的关联关系网络,还需要抽取实体之间的关系。可以利用爬虫抓取到的相关企业的新闻数据,进行实体之间关联关系的抽取,可以包括人物实体和企业实体之间存在的任职关系、企业实体和企业实体之间的投资关系,或者企业实体和企业实体之间与股权交易有关的关联交易关系。

图5示意性示出了根据本公开实施例对非结构化数据知识抽取流程图。如图5所示,该方法500可以包括操作S510~操作S590。

在操作S510,数据准备。具体实施时导入先验数据。由于DeepDive 实现的是弱监督的关系抽取,因此优选地,训练数据是实体和实体之间已经确定的关系。可以将已有交易关系的企业实体作为训练数据,这些先验数据主要来自于知识库中的股权交易信息。在操作S520,数据入库。待抽取文章导入。具体实施时,首先将通过爬虫爬取到的大量新闻文本转换为表格文件,放到输入文件夹下,作为待抽取的文章。然后在DeepDive的主程序文件app.ddlog中建立对应的数据表,并导入数据库中。在操作S530,自然语言处理。使用自然语言处理方法进行文本处理来获得文本数据的NER/POS/词法依赖等序列,将以句子为单位,返回每句的分词、词性标准(POS)、命名实体识别(NER) 和句法分析的结果,将这些结果存入句子表中,为后续的特征抽取做准备。在操作S540,匹配候选实体对的已知关系,根据已知关系的实体对数据表,得到已知变量表。定义保存结果的数据表,打标的结果作为先验变量。抽取候选实体对的文本特征。首先定义一个特征表,该特征表的输入为实体对表和文本表,输入和输出属性在主程序文件。特征函数由DeepDive的ddlib库实现。获取窗口特征之后输入到特征表中。特征生成结果如表4所示。在操作S550,mention提取,得到文本中的mention,mention可以是前述目标字段信息。在操作S560,基于规则打标部分数据。具体实施时,对于样本标出正例样本以及负例样本,将候选实体和已知关系的先验数据进行关联,通过规则给其中的部分数据分配相应的标签。首先是定义标签表用于存储打标的监督数据。然后将准备的数据库数据导入表中,设置规则的id并且设置对应的权重,如果数据的可信度高可以为其设置较高的权重,相应地,如果数据的可信度低可以为其设置较低的权重。接着调用打标函数将抽取的数据存储到标签表。需要说明的是,由于不同的规则可能覆盖相同的实体对,导致给出不同的,甚至是相反的打标结果,因此本公开中要统一实体对之间的标签,对打标结果进行相加,在利用不同的规则完成打标之后,可以对打标结果进行统计得到标签。

表4

在操作S570,获得候选实体对。对实体抽取及候选实体对生成,得到总变量表。在这一步骤中要抽取文本中的候选实体,在抽取企业和人物关系时需要获取企业的候选实体以及人物的候选实体,并生成候选实体对,结合已知变量表生成总变量表。在操作S580,实体对特征提取,可以得到特征表。在操作S590,基于总变量表和特征表构建因子图,得到变量置信度。构建因子图并生成概率模型,实体对和特征表连接起来,通过特征因子的连接,对这些特征的权重进行全局的学习。对程序进行编译,执行程序生成概率模型。

作为一种可选的实施例,基于第二实体信息、第二属性信息和第二关系信息生成目标信用主体的知识图谱包括:确定第二关系信息对应的置信度值;获取关系信息的置信度阈值;基于置信度阈值,从信用主体中抽取置信度值满足置信度阈值的第三关系信息,利用第二实体信息、第二属性信息和第三关系信息充填实体描述框架来生成目标信用主体的知识图谱,知识图谱包含与关系标识对应的第三关系信息。

根据本公开的实施例,可以使用信息抽取工具DeepDive对于实体之间的关系进行弱监督的抽取,将置信度高于预设阈值的关系抽取结果导入到知识库中。

根据本公开的实施例,通过DeepDive完成实体之间关联关系的抽取之后,最终可以得到实体之间关联关系的置信度结果,如表5所示。在置信度的预设阈值为0.85的情况下,将置信度不低于0.85的关系数据认为是抽取结果中可靠性高的关系数据,可以将其导入到知识库中,相应地,将置信度低于0.85的关系数据认为是抽取结果中可靠性低的关系数据,可以不将其导入到知识库中。

表5

作为一种可选的实施例,方法还包括:通过网络本体语言的推理规则,对知识图谱进行推理来完善知识图谱;和/或对领域本体的所属类别进行一致性检测来清理异常类别。

具体实施时,可以采用Jena推理机的推理引擎进行本体推理。第一步,推理机中最重要的数据结构是Model模型对象,本公开应用Jena 提供的工厂类构建并初始化模型对象,其中包括顶层的数据模式本体以及三元组知识。第二步,生成自定义的推理机。具体实施时,可以基于Jena提供的注册器来实现,并且和Model模型对象进行关联得到 InfModel,以此赋予模型对象推理能力。第三步,根据业务需求,利用推理机提供的程序接口进行推理。Jena推理机的数据包含两部分,一部分数据是RDF格式的三元组知识,也就是领域企业实体、人物实体以及实体之间的关系。另一部分数据是上层数据约束模型,即本体信息。通过类别的多层次关系判断实体是否具有上下位关系,并且进行实体所属类别的完善,通过本体推理检测企业实体在类别定义时是否定义了两个不兼容的类型,通过自定义规则推理对实体之间所隐含的关系进行推理补全,根据构建的企业关联信息的领域本体以及Jena推理规则,可以应用专用词汇subClassOf子类别定义类别的子类关系,可以根据其传递性得到类别之间隐含的上下位关系。通过引入本体推理机来进行本体推理,推理出某一实体所在的隐含类别,对实体的所属类别进行补全。检测不一致性可以通过Jena的校验接口进行验证,可以获取到数据模式定义类别的不一致性。Jena推理机进行规则推理应用了语义网规则语言SWRL通过在推理机上编写相应的规则,也可以同时在推理规则中自定义多种规则来进行推理。

图6示意性示出了根据本公开另一实施例的信用风险的预测方法的流程图。如图6所示,该方法可以包括操作S610~操作S640。

在操作S610,自定义规则推理。具体实施时,基于自定义规则推理可以获取企业关联信息领域下实体间隐含的三元组关系。通过制定规则进行推理,一般是通过现有的RDF三元组知识以及设计的规则推理出更多的知识。首先需要设计对应的规则,然后按照本体以及Jena 提供的推理规范将这些规则转化为Jena的推理语句。推理文件的样式一般可以表示为[规则名:(RDF三元组)(RDF三元组)→(推理出的三元组)],通过规则名称去调用设计好的规则,结合已有的三元组知识进行推理。根据企业关联信息领域数据的特点设计相应的规则如下。

(1)Enterprise:has_share(X,Y):-enterprise:control(X,Y)

(2)Enterprise:has_transaction(Y,Z):-enterprise:has_share(X, Y),enterprise:has_share(X,Z)

(3)enterprise:subsidiary(X,Y):-enterprise:subsidiary(X,Y),enterprise:subsidiary(Y,Z)

定义的规则分别为:实际控制某企业的也是该企业的股东;如果一家企业分别持股了两家企业,则这两家企业也具有交易关系;如果企业X的子企业是Y,Y的子企业是Z,则Z也是X的子企业。

在操作S620,本体上下位推理。具体实施时,本体中定义了类别之间的关系以及类别的传递性。两个定义的类别之间,人类是生物的子类别,则人类和生物之间具有上下位关系。在推理机中使用 subClassOf定义子类,使用subPropertyOf定义子属性,判断概念1与概念2是否存在上下位关系。要判断两个概念“地产企业”与“企业”之间的上下位关系,推理机要遍历所有“地产企业”类别定义的所有上层类别,如果发现存在“企业”的概念定义在其上游,则判断出这两个概念间存在上下位关系。

在操作S630,实体类别补全。具体实施时,在本体语言中类别之间可以定义相应的关系,例如子类别关系、不相交关系等。一般当一个实体导入知识库是只会定义其属于某一类别,但是根据本体定义的类别间关系可能会致使某一实体还属于其他类别。通过应用OWL推理机,完成推理补全实体所在类别。原始数据中某集团属于地产企业的类别,补充类别后某集团也同时属于企业类和地产企业类。

在操作S640,类别不一致检测。具体实施时,在进行本体定义时,定义了两个类他们之间的关系为不相交关系,但是某一个实体属于这两个类别,这说明有一条三元组知识出现了异常,需要通过不一致性检测将这两条知识进行查找并返回,对其中异常数据进行清理。数据模式中定义企业类别和人物类别的关系为disjoint即互斥关系。遍历推理机中的三元组知识,返回实体中类别设置不一致的所有实体,之后将异常的数据进行清除。

通过本公开的实施例,通过知识库推理对企业关联信息知识图谱进行补充和完善,一些隐藏的知识以及结论需要通过知识推理来获取。可以采用Jena推理机的推理引擎进行本体推理,对于构建的知识图谱进行补充和完善。

作为一种可选的实施例,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体包括:按照预设路径方向获得包含目标信用主体的最短路径,其中,预设路径方向包括出度方向和入度方向;通过预设社区发现算法获得知识图谱的社区划分结果,其中,处于同一社区的信用主体之间具有关联关系;基于包含目标信用主体的最短路径和/或知识图谱的社区划分结果,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体。

具体实施时,通过最短路径以及社交网络分析法判断企业节点与低信用实体之间是否存在密切关系,对于企业外部关系的特征进行提取。通过学习正常信用企业和低信用企业的特征得到风控模型,将企业的基本属性、历史风险、外部关系三个维度的特征数据作为风控模型的输入,对企业风险进行识别。

其中企业基本属性类的特征变量用来描述企业的基本信息,可以包括注册资本、成立时间、经营状态、纳税人资质、实缴资本、人员规模、参保人数、税务评级、融资次数、融资金额、投资次数、投资金额。除此之外还可以获取到部分衍生的变量如表6所示。

其中企业历史风险类变量刻画的是企业出现的风险信息,包括涉诉信息条数、行政处罚次数、股权出质次数、股权出质数额、动产抵押次数、法人代表变更次数,如表7所示。

其中企业外部关系类变量刻画的是企业在图谱网络结构与其他高风险节点是否密切关联,及其在网络中的特征信息,包括其在网络中的一度、二度、三度关系中高风险实体的数目和比例,一级、二级社区中高风险实体的数目和比例,以及当前企业节点在网络中的度数和介数,如表8所示。

表6

表7

表8

根据本公开的实施例,通过最短路径算法判断企业实体与其他实体之间的远近关系,考虑到与高风险节点关系紧密的实体存在风险的可能也会较大,因此可基于投资关系和关联交易关系统计实体节点三度关系内包含的高风险节点数量和比例作为风控模型的部分输入特征。

在本公开中,在Neo4j图数据库中实现通过最短路径算法判断企业实体与其他实体之间的远近关系需要依赖Cypher语法进行查询,根据查询语句需要评估的关系谓词,规划Cypher查询语句中的最短路径可能会产生不同的查询计划。在Neo4j图数据库中内部如果可以搜索路径时进行关系谓词的评估,那么在Neo4j图数据库中将会采用快速双向广度优先的搜索算法进行查找。因此当路径中存在关系谓词时,基于这种快速搜索算法将始终能返回正确的最短路径查询结果。

但是在实际查找过程中,例如在查找企业关系的最短路径时,如果每个节点都带有企业的标签,或者在路径中没有对应的查找属性,将无法应用这种快速算法查找最短路径,此时Neo4j可能不得不使用较慢的穷举深度优先遍历算法来查找最短路径。意味着在具有非通用谓词的最短路径查询中查询计划将执行降级方案。比如在查询语句中,使用包含存在谓词条件的查询语句来查询结果,查询条件语句至少一个节点包含属性名称为一指定值,这种查询可能无法通过快速搜索算法返回结果。在这种情况下,Neo4j将回退到使用穷举搜索来枚举所有路径并进行返回结果。这两种算法的运行时间可能会存在数量级上的差异,因此确保使用快速方法对于关注返回时间的查询非常重要。当查询计划选择了穷举搜索时,穷举搜索仍然仅在快速算法未能找到任何匹配路径时执行。在某些情况下,回退到遍历的搜索可能会很大占用资源并耗费大量时间。如在两个节点之间没有最短路径的情况下,需要把forbid_exhaustive_shortestpath设置为true,以避免响应超时。

在Neo4j中使用Cypher查询语句进行最短路径的查询,基于最短路径获取当前企业的风险特征信息,查询当前的企业节点和低信用评分列表中的企业和人物的最短路径,路径长度不超过3,可以分别查询当前企业出度和入度两个方向,得到的路径长度越短,则说明当前企业和低信用评分列表中的人物,或者企业有较为密切的关联,表明当前企业节点可能有更高的商业信用风险。通过最短路径可以获得路径长度为1到3度关系中企业关联的高风险实体数目,以及路径长度为1到3度关系中企业关联的高风险实体所占比例。

社交网络分析的指标主要有网络中节点的度、节点之间的路径、点介数或边介数以及网络中的社区划分等。通过社交网络分析法分析相关指标在企业关联信息知识图谱中的作用,对于图谱网络中的风险控制有重要意义。在企业关联信息知识图谱中,对节点度的意义进行分析,在图谱的网络结构中度数较大的企业节点表示当前企业与其他企业有较多的交易或者投资行为,代表着当前的企业节点在网络中有着更大的影响力。

可选地,节点的度指的是在网络中所有n个节点和当前节点p有路径连接的实体数目。在有向图中包括出度和入度两个方向。如果当前节点p到节点i存在一条边进行连接时,度的值C

可选地,节点之间的路径,通常关注的是最短路径。最短路径即在网络中当前节点p与某一节点i之间所有连通路径中最短的一条。基于最短路径能得到两个节点之间的亲密度C

可选地,点介数和边介数,统称为介数,主要用来描述中介性。点介数和边介数的概念定义相似,求解介数的前提是计算网络中所有节点之间的最短路径,当前节点的点介数定义是这些最短路径中包含当前节点的路径数。同理某一条边的边介数是这些最短路径中包含当前边的路径数。介数或中介性在社交网络分析法中是一个较为重要的指标。中介性反应了一个节点或某条边的连通能力。在企业关联信息图谱中,当前节点的介数较大,说明在企业之间交易或投资的流向图中当前节点处于多个组织中间,这也一定程度上表明当前节点在网络中的重要性。网络中的社区发现,社区发现的过程类似于聚类过程,最终将网络模型划分为若干个社区,处在同一社区的节点之间关联密切,处在不同社区的节点之间关系疏远。常见的社区发现算法包括GN (GirvanNewman)算法、Louvain算法等。按照社区之间是否有重复的节点元素,算法可以分成有交叉社区和无交叉社区两种类别。在企业关联信息图谱中,通过社区发现对网络节点进行社区的划分,得到与当前节点密切关联的企业和人物实体,在风控过程中如某一节点和多个网络黑产节点处于同一社区,则可以认定该节点可能处于一个黑产集团,其风险系数更高。

通过本公开的实施例,不仅可以实现对总体特征进行描述,还可以将企业实体的全部特征变量分为三类,分别为企业基本属性类、企业历史风险类、以及企业外部关系类。对特征进行提取最好能达到选用较少的特征变量实现较优的模型效果,让选取的特征变量既可以反应出数据中各方面的信息,又可以达到较快的运行效率。

作为一种可选的实施例,方法还包括:获取风险预测模型;将目标信用主体的目标特征数据输入风险预测模型来获得目标信用主体的第一风险预测结果;以及将关联信用主体的目标特征数据输入风险预测模型来获得关联信用主体的第二风险预测结果。

作为一种可选的实施例,方法还包括:获取训练样本数据,其中,训练样本数据包括信用正常的信用主体的特征数据和信用低的信用主体的特征数据;以及训练训练样本数据来获得风险预测模型。

对企业节点进行风险评估,判断当前的企业实体是否存在较高的风险信息。具体实施时,可以构建合适的评价模型进行判断。训练评价模型的样本可以来自知识图谱中的企业信息,及其与其他实体的关联关系,所需要的负例样本是实体中的低信用企业节点,主要来自企业信息公示系统的公示数据,通过建立低信用实体列表保存这些存在较高风险的实体。低信用实体列表可以包括信用评价较差的个人,也可以包括风险较高的企业。其中信用评价较差的个人可以主要包括构建的知识图谱中涉及到的失信被执行人员、限制出行或者消费人员、以及部分网络黑产。风险较高的企业可以主要包括企业实体中被列入严重违法失信企业名单的企业、有行政处罚或违法行为的企业、以及列入经营异常名录的企业。

作为一种可选的实施例,方法还包括:基于目标信用主体的信用风险预测结果,更新风险预测模型。

通过目标信用主体的信用风险预测结果,可以更新风险预测模型,实现风险预测模型的实时更新,有利于提高信用风险预测的准确性。

作为一种可选的实施例,基于目标信用主体的第一风险预测结果和关联信用主体的第二风险预测结果,确定目标信用主体的信用风险预测结果包括:在第一风险预测结果表征目标信用主体的信用异常的情况下,确定目标信用主体的信用风险预测结果为高风险;或在第一风险预测结果表征目标信用主体的信用正常,第二风险预测结果表征关联信用主体中存在信用异常的关联信用主体的情况下,确定目标信用主体的信用风险预测结果为高风险;或在第一风险预测结果表征目标信用主体的信用正常,第二风险预测结果表征关联信用主体中不存在信用异常的关联信用主体的情况下,确定目标信用主体的信用风险预测结果为低风险。

通过本公开的实施例,将孤立的数据节点融合到统一的知识库中,充分挖掘企业风险数据价值,打破企业孤点,实现客户企业信息的互联互通,将银行的企业大数据高效的利用起来,深入挖掘个人与法人显、隐性关联关系,识别具有某种共同特征实体组成的群体,计算某个事件在关联的实体之间传递的过程和传递的概率等,为客户经理提供一个企业工商涉讼风险可视化视图。帮助银行在贷前阶段及时预测有潜在风险的关联企业,做出预警和预判,在贷后阶段帮助银行及时发现潜在风险,提前启动催收流程,有效降低银行不良贷款损失等。

图7示意性示出了根据本公开另一实施例的信用风险的预测方法的流程图。如图7所示,该预测方法可以包括操作S710~操作S750。

在操作S710,构建企业关联信息领域的领域本体,通过本体语言设计完成企业本体概念下的类以及属性的设计。

在操作S720,针对结构化数据进行知识抽取,通过图数据库中间件APOC抽取结构化数据,将实体导入图数据库并完成属性的映射及实体间关系的生成。

在操作S730,针对无结构化的文本数据设计实体识别和关系抽取的方法进行知识抽取,使用信息抽取工具DeepDive对于实体间关系进行弱监督的抽取,对于置信度高的结果导入到知识库中。

在操作S740,通过知识库推理对于企业关联信息知识图谱进行补充和完善,通过类别的多层次关系进行上下位推理以及类别补全,通过本体推理检测企业实体类别定义的不一致性,通过自定义规则推理对实体间隐含的关系进行推理补全。

在操作S750,基于企业关联信息知识图谱,通过最短路径以及社交网络分析法判断企业结点和低信用实体的亲密关系,对于企业外部关系的特征进行提取。通过企业基本属性、企业历史风险、企业外部关系三个维度的特征数据作为风控模型的输入,通过学习正常企业和低信用企业的特征得到风控模型对企业风险进行判别。

通过本公开的实施例,基于风险图谱的企业风险预测方法和系统,通过对企业结构化、非结构化等多元异构数据进行知识挖掘与重构,构建企业关联信息领域的风险图谱,分析目标企业的资质和信用,以及目标企业与低信用的企业是否存在密切关联。建立以企业为核心的企业风险模型,提供从多关系角度分析问题的能力,深层次挖掘个体与个体之间的潜力关系以及数据背后的价值,提升风险信息价值密度,深入挖掘个人与法人显性、隐性关联关系,获取企业之间隐藏的关联关系等有价值的信息,从而帮助银行评估风险优化决策。

图8示意性示出了根据本公开实施例的信用风险的预测装置的框图。如图8所示,该装置800可以包括第一获得模块810、生成模块820、第一确定模块830以及第二确定模块840。

第一获得模块810,用于获得信用主体的目标特征数据。信用主体包含目标信用主体和非目标信用主体,目标特征数据用于表征信用主体的信用风险。可选地,第一获得模块810例如可以用于执行图2 描述的操作S210,在此不再赘述。

生成模块820,用于对目标特征数据进行知识抽取来生成目标信用主体的知识图谱,知识图谱用于表征信用主体中各信用主体自身的实体、属性以及各信用主体之间的关系。可选地,生成模块820例如可以用于执行图2描述的操作S220,在此不再赘述。

第一确定模块830,用于基于知识图谱,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体。可选地,第一确定模块830例如可以用于执行图2描述的操作S230,在此不再赘述。

第二确定模块840,用于基于目标信用主体的第一风险预测结果和关联信用主体的第二风险预测结果,确定目标信用主体的信用风险预测结果。可选地,第二确定模块840例如可以用于执行图2描述的操作S240,在此不再赘述。

作为一种可选的实施例,生成模块820可以包括:第一确定子模块,用于确定目标特征数据的数据结构,不同的数据结构对应不同的知识抽取逻辑;选择子模块,用于根据数据结构,选择对应的知识抽取逻辑;生成子模块,用于基于对应的知识抽取逻辑,对目标特征数据进行知识抽取来生成目标信用主体的知识图谱。

作为一种可选的实施例,在生成目标信用主体的知识图谱之前,该装置800还可以包括:第一构建模块850,用于构建用于描述信用主体的关联信息的领域本体。定义模块860,用于通过网络本体语言定义领域本体的所属类别以及隶属于所属类别的标识,其中,标识包括实体标识、属性标识以及关系标识,实体标识、属性标识以及关系标识存储在图数据库中。第二构建模块870,用于基于实体标识、属性标识以及关系标识,构建用于描述领域本体的关联信息的实体描述框架,其中,实体描述框架用于生成知识图谱。

作为一种可选的实施例,数据结构包含结构化数据结构,生成子模块可以包括:第一抽取单元,用于调用图数据库的知识抽取中间件对目标特征数据进行知识抽取来获得目标字段信息,目标字段信息包含第一实体信息、第一属性信息以及第一关系信息;以及第一生成单元,用于利用目标字段信息充填实体描述框架来生成目标信用主体的知识图谱,其中,知识图谱包含与实体标识对应的到第一实体信息、与属性标识对应的第一属性信息以及与关系标识对应的第一关系信息。

作为一种可选的实施例,数据结构包含非结构化数据结构,生成子模块可以包括:标注单元,用于对目标特征数据进行标注来获得标注序列信息,其中,标注序列信息包含第二实体信息和第二属性信息;第二抽取单元,用于基于弱监督学习的抽取方法对目标特征数据进行抽取来获得第二关系信息,第二关系信息用于表征信用主体中两两信用主体之间的关系;以及第二生成单元,用于基于第二实体信息、第二属性信息和第二关系信息生成目标信用主体的知识图谱,其中,知识图谱包含与实体标识对应的到第二实体信息、与属性标识对应的第二属性信息以及与关系标识对应的第二关系信息。

作为一种可选的实施例,第二生成单元可以包括:确定子单元,用于确定第二关系信息对应的置信度值;获取子单元,用于获取关系信息的置信度阈值;抽取子单元,用于基于置信度阈值,从信用主体中抽取置信度值满足置信度阈值的第三关系信息;以及生成子单元,用于利用第二实体信息、第二属性信息和第三关系信息充填实体描述框架来生成目标信用主体的知识图谱,其中,知识图谱包含与关系标识对应的第三关系信息。

作为一种可选的实施例,该装置800还可以包括:推理模块880,用于通过网络本体语言的推理规则,对知识图谱进行推理来完善知识图谱;和/或检测模块890,用于对领域本体的所属类别进行一致性检测来清理异常类别。

作为一种可选的实施例,第一确定模块830可以包括:第一获得子模块,用于按照预设路径方向获得包含目标信用主体的最短路径,其中,预设路径方向包括出度方向和入度方向;第二获得子模块,用于通过预设社区发现算法获得知识图谱的社区划分结果,其中,处于同一社区的信用主体之间具有关联关系;第二确定子模块,用于基于包含目标信用主体的最短路径和/或知识图谱的社区划分结果,从非目标信用主体中确定出与目标信用主体具有关联关系的关联信用主体。

作为一种可选的实施例,该装置800还可以包括:第一获取模块 8100,用于获取风险预测模型。第二获得模块8110,用于第一将目标信用主体的目标特征数据输入风险预测模型来获得目标信用主体的第一风险预测结果。第三获得模块8120,用于将关联信用主体的目标特征数据输入风险预测模型来获得关联信用主体的第二风险预测结果。

作为一种可选的实施例,该装置800还可以包括:第二获取模块 8130,用于获取训练样本数据,其中,训练样本数据包括信用正常的信用主体的特征数据和信用低的信用主体的特征数据。训练模块8140,用于训练训练样本数据来获得风险预测模型。

作为一种可选的实施例,该装置800还可以包括:更新模块8150,用于基于目标信用主体的信用风险预测结果,更新风险预测模型。

作为一种可选的实施例,第二确定模块840可以包括:第三确定子模块,用于在第一风险预测结果表征目标信用主体的信用异常的情况下,确定目标信用主体的信用风险预测结果为高风险;或第四确定子模块,用于在第一风险预测结果表征目标信用主体的信用正常,第二风险预测结果表征关联信用主体中存在信用异常的关联信用主体的情况下,确定目标信用主体的信用风险预测结果为高风险;或第五确定子模块,用于在第一风险预测结果表征目标信用主体的信用正常,第二风险预测结果表征关联信用主体中不存在信用异常的关联信用主体的情况下,确定目标信用主体的信用风险预测结果为低风险。

需要说明的是,信用风险的预测装置部分实施例中各模块的实施方式、解决的技术问题、实现的功能、及达到的技术效果分别与信用风险的预测方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FNGA)、可编程逻辑阵列(NLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,第一获得模块、生成模块、第一确定模块、第二确定模块、第一确定子模块、选择子模块、生成子模块、第一构建模块、定义模块、第二构建模块、第一抽取单元、第一生成单元、标注单元、第二抽取单元、第二生成单元、确定子单元、获取子单元、抽取子单元、生成子单元、推理模块、检测模块、第一获得子模块、第二获得子模块、第二确定子模块、第一获取模块、第二获得模块、第三获得模块、第二获取模块、训练模块、更新模块、第三确定子模块、第四确定子模块以及第五确定子模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。

图9示意性示出了根据本公开实施例的适于实现上文描述的信用风险的预测方法的计算机可读存储介质产品的示意图。

在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在设备上运行时,程序代码用于使设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的信用风险的预测方法中的前述各项操作 (或步骤),例如,电子设备可以执行如图2中所示的操作S210~操作S240、如图4中所示的操作S410~操作S4120、如图5中所示的操作S510~操作S5100以及如图6中所示的操作S610~操作S640。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表) 包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(ENROM 或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图9所示,描述根据本发明的实施方式的信用风险的预测的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言一诸如 Java,C++等,还包括常规的过程式程序设计语言—诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAA)或广域网(WAA)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

图10示意性示出了根据本公开实施例的适于实现上文描述的信用 风险的预测方法的电子设备的框图。图10示出的电子设备仅仅是一个 示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示,根据本公开实施例的电子设备1000包括处理器1001, 其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分 1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的 动作和处理。处理器1001例如可以包括通用微处理器(例如CNU)、 指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电 路(ASIC)),等等。处理器1001还可以包括用于缓存用途的板载存储 器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不 同动作的单一处理单元或者是多个处理单元。

在RAM 1103中,存储有电子设备1100操作所需的各种程序和数据。处理器1101、ROM 1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101 也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例图2、图4、图5以及图6所示的各项操作。

根据本公开的实施例,电子设备1100还可以包括输入/输出(I/O) 接口1105,输入/输出(I/O)接口1105也连接至总线1104。系统1100 还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD) 等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAA卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的信用风险的预测方法的各项操作。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(ENROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和 /或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目标,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

相关技术
  • 信用风险的预测方法、装置、设备、介质和程序产品
  • 利用率预测方法、装置、计算设备、存储介质及程序产品
技术分类

06120112879588