掌桥专利:专业的专利平台
掌桥专利
首页

一种基于银行对公数据的知识图谱构建方法和装置

文献发布时间:2023-06-19 11:42:32


一种基于银行对公数据的知识图谱构建方法和装置

技术领域

本发明涉及信息技术领域,具体涉及一种基于银行对公数据的知识图谱构建方法和装置。

背景技术

银行业每天都要都要产生海量的交易数据,随着商业银行、金融机构业务的不断发展从而积累了大量的业务数据,并且正在以更快的速度增长,要从这些海量数据中提取出有价值的实体和关系至关重要。

近年来,随着大数据技术的快速发展和计算机运算的能力快速提升。机器学习以及深度学习技术在银行业使用越来越广发,并在很多应用场景取得了重大成果。2012年,谷歌提出了知识图谱的概念,用于增强搜索引擎功能,知识图谱其在本质上是一种概念网络,其节点表示客观物理世界中的实体,而边则表示实体之间存在的各种语义关系。通过这些关系,可以构建企业关系网络,也就是企业知识图谱。构建企业知识图谱,能够帮助我们从大量杂乱的数据中挖掘出企业潜在关联,生成企业画像。

据了解,尽管高效集成的机器学习算法在银行也具有广泛的应用,但由于银行业务分为对公业务和对私业务两大类,对于对公业务,目前已知的对公知识图谱节点繁多,充斥着大量无关紧要的实体和关系。如此庞大的数据也给银行及其监管机构的数据分析部门带来了巨大的挑战。当数据分析任务的复杂性比较高时,由于节点和关系繁多,存在大量信息冗余,海量数据的计算会导致难以承受的开销以及处理效率低下。如何对节点和关系繁多的海量金融数据进行知识图谱构建,并对其进行分析,从而达到发现和规避金融风险的目的,是一个目前亟待解决的技术问题。因此需要研发一种银行对公数据的知识图谱构建方法和装置,将图谱中节点类型和关系高度抽象,抽取重要关键信息同时剔除了大量无效实体,从而简化图谱关系结构,提高数据处理效率。

发明内容

针对现有技术存在的问题,本发明的目的在于解决现有技术中银行对公数据的知识图谱构建中节点和关系繁多导致数据处理效率较低的技术问题,提供一种基于银行对公数据的知识图谱构建方法和装置。

本发明提供一种基于银行对公数据的知识图谱构建方法,其特征在于,包括以下步骤:

S1.数据采集,为采集到的每个数据源建立主键;

S2.数据清洗,对原始数据中脏数据、缺失值、异常值进行处理;

S3.关联分析,分析主表中的主键和其它数据源中的主键关联率;

S4.加工数据集市,将步骤S3中需要参与构建数据集市的数据源按照主表中的主键进行合并;

S5.网络本体层设计,相对于实体层进行网络本体层设计,使得对公网络中只有两个本体,分别是人和企业;

S6.网络节点关系抽取,从步骤S4中构建出的数据集市抽取出所有的实体以及实体和实体之间的关系。

进一步,步骤S1中,使用数据采集模块进行数据采集,采集的数据源包括企业注册信息、法人治理、无形资产、税务数据、工商年检数据、法院诉讼、股权质押、工商处罚、企业贷款逾期信息、企业授信信息、企业流动资产和/或企业固定资产;以企业社会统一代码建立主键。

进一步,步骤S2中,对于缺失值的处理方法是删除缺失率大于第一阈值的变量列,对于缺失率小于第一阈值的可通过将缺失样本作为预测值,使用随机森林算法计算出预测该值进行填充;

进一步,步骤S2中,对于异常值的处理是将异常值作为一种状态使用特殊的标识进行填充,或将异常值剔除。

进一步,步骤S3中,所述主表为企业注册信息,所述主键为企业社会统一代码。

进一步,步骤S3中分析主表中的主键和其它数据源中的主键关联率,将关联率低于第二阈值的数据源设置为不参与数据集市的构建,将关联率高于第二阈值的数据源设置为参与数据集市的构建。

进一步,所述关联率的第二阈值设置为80%,关联率高于80%的数据源设置为参与数据集市的构建。

进一步,步骤S5中,对公数据网络中仅设置两个本体,分别是人和企业;仅设置人和人之间有一种关系;人和企业之间有三种关系;企业和企业之间有六种关系,去除其他本体和冗余关系。

进一步,人和人之间有一种关系,为亲属关系;人和企业之间有三种关系,分别为任职关系、投资关系和担保关系;企业和企业之间有六种关系,分别为投资关系、担保关系、诉讼关系、疑似关系、交易关系和供应关系。

另一方面,本发明提供一种基于银行对公数据的知识图谱构建装置,包括数据采集模块、数据清洗模块、关联分析模块、数据集市加工模块、网络本体层设计模块、和网络节点关系抽取模块,所述装置用于实现根据本发明所述的基于银行对公数据的知识图谱构建方法。

本发明的关键技术在于本发明对节点和关系繁多的海量金融数据进行知识图谱构建,将图谱中的节点抽象成人和企业两种节点,人和人一种关系,人和企业三种关系,企业和企业六种关系,从而剔除大量冗余节点和关系,实现图谱结构简化,将图谱中节点类型和关系高度抽象,抽取重要关键信息同时剔除了大量无效实体,从而简化图谱关系结构,提高数据处理效率。

附图说明

图1示出了根据本发明的基于银行对公数据的知识图谱构建方法的流程示意图。

图2示出了根据本发明的基于银行对公数据的知识图谱构建方法和装置的知识图谱架构示意图。

具体实施方式

下面将结合附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

知识图谱是构建银行金融图谱的基础,把银行海量的金融数据连接在一起而得到的一个金融关系网络。在一个存放金融数据的关系数据库中,存放的信息类型主要可以归纳为客户的基础信息、客户的所有的存款账户信息,银行的基础信息和所有的业务信息这四大类。其中,针对银行对公数据,本发明提出了一种关联网络的构建方法和装置。

关联网络模型中,是节点的集合,对于其中的每一个节点,都有一个标签和若干个属性,标签表示该节点所属类型,属性包括属性名和属性值,表示该节点所包含的各种信息。

而在银行的关系数据库中,金融数据都是以表的形式进行存储。所以在构建金融图谱时需要建立从银行关系数据库模式到金融图谱数据模式的映射关系,并根据映射关系进行数据转换,得到对应的金融图谱实体。

根据附图1和2,本发明提供了一种基于银行对公数据的关联网络构建方法和装置,可用于金融公司或者银行构建自己的对公知识图谱。参阅图1,构建过程包括如下步骤:

S1.数据采集,为采集到的每个数据源建立主键;

S2.数据清洗,对原始数据中脏数据、缺失值、异常值进行处理;

S3.关联分析,分析主表中的主键和其它数据源中的主键关联率;

S4.加工数据集市,将步骤S3中需要参与构建数据集市的数据源按照主表中的主键进行合并;

S5.网络本体层设计,相对于实体层进行网络本体层设计,使得对公网络中只有两个本体,分别是人和企业;

S6.网络节点关系抽取,从步骤S4中构建出的数据集市抽取出所有的实体以及实体和实体之间的关系。

相应地,所述基于银行对公数据的关联网络构建装置包括数据采集模块、数据清洗模块、关联分析模块、数据集市加工模块、网络本体层设计模块、网络节点关系抽取模块,分别实现上述功能。

详细的步骤如下所示:

步骤S1,使用数据采集模块进行数据采集,采集的数据源主要有以下几个:企业注册信息、法人治理、无形资产(专利、版权)、税务数据、工商年检数据、法院诉讼、股权质押、工商处罚、企业贷款逾期信息、企业授信信息、企业流动资产、企业固定资产等。采集到的每个数据源都需要建立主键,一般是以企业社会统一代码作为唯一标识,目的是为了之后数据源的合并;

步骤S2,待步骤一完成之后进入数据清洗过程;对原始数据中脏数据、缺失值、异常值进行处理,对于缺失值的处理方法是删除缺失率超过给定阈值的变量列,对于缺失率少于阈值的可通过将缺失样本作为预测值,使用随机森林算法来预测该值进行填充,也可直接对缺失值进行填充。对于异常值的处理是将异常值作为一种状态使用特殊的标识进行填充,也可以将异常值直接剔除;

步骤S3,待数据清洗完成之后进入关联分析;以企业注册信息作为主表,以企业社会统一代码作为主键,分析主表中的主键和其它数据源中的主键关联率,若关联率低于阈值那么该数据源将不参与数据集市的构建,若高于阈值那么该数据源会参与数据集市的构建。如主表中主键企业社会统一代码和税务数据中企业的社会统一代码的关联率大于80%,那么税务数据会参与后续数据集市的构建。若主表中主键企业社会统一代码和企业贷款逾期数据中企业的社会统一代码的关联率低于80%,那么企业贷款逾期数据不会参与到后续的数据集市构建过程;

步骤S4,待步骤S2和步骤S3完成之后开始加工数据集市;主要的操作过程是将步骤S3中需要参与构建数据集市的数据源按照主表中的主键企业社会统一代码进行合并的过程;

步骤S5,待数据集市构建完毕之后开始设计对公关联网络的本体层;本体层的设计如图2所示。该对公网络中只有两个本体,分别是人和企业。人和人之间有一种关系,是亲属关系;人和企业之间有三种关系,是任职关系、投资关系和担保关系;企业和企业之间有六种关系,是投资关系、担保关系、诉讼关系、疑似关系、交易关系和供应关系。具体关系如图2中所示。举例说明:张三是人这个本体的一个具体的实体,同时李四也是人这个本体的一个具体实体,公司A是企业这个本体的具体实体,公司B也是企业这个本体的一个具体实体。张三和李四之间是亲属关系,张三任职于公司公司A,李四投资了公司A,公司A投资了公司B。

步骤S6,按照设计的本体从步骤S4构建出的数据集市抽取出所有的实体以及实体和实体之间具体的关系。

本发明对于节点和关系繁多,存在大量信息冗余的对公海量金融数据进行知识图谱构建,将图谱中节点类型和关系高度抽象,抽取重要关键信息同时剔除了大量无效实体,从而简化图谱关系结构,提高数据处理效率。本发明的关键技术在于将图谱中的节点抽象成人和企业两种节点,人和人一种关系,人和企业三种关系,企业和企业六种关系,从而剔除大量冗余节点和关系,实现了数据的高效处理,更可以提高开发效率,减少维护成本。

本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例的各个过程,且能达到相同的技术效果。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

相关技术
  • 一种基于银行对公数据的知识图谱构建方法和装置
  • 一种基于医疗卫生大数据的知识图谱构建方法及装置
技术分类

06120113022341