一种风险企业识别方法、装置、设备和介质

文献发布时间：2023-06-19 18:49:33

技术领域

本发明涉及风险预测技术领域，尤其涉及一种风险企业识别方法、装置、设备和介质。

背景技术

随着我国经济的飞速发展，税务监管变得越来越重要，税务监管部门需要精准打击存在税务风险的风险企业，全面挖掘企业税务风险，所以如何识别风险企业就成为一个很有价值的问题。

现有的一种基于企业进销关系图谱的企业风险识别方法与系统中，其技术方案主要包括三个步骤，第一步是采集目标税务数据，构建企业关系图谱；第二步是采用图查询语句(Gremlin)计算企业进销相似度，筛选进销相似企业，第三步是通过企业的行业属性对比，判断进销相似企业的行业属性是否一致，进而识别风险企业。

现有技术中仅通过行业属性对比的方式，无法准确地识别出风险企业，因此如何提高风险企业识别的准确度就成为亟待解决的技术问题。

发明内容

本发明提供了一种风险企业识别方法、装置、设备和介质，用以解决现有技术中无法准确地识别出风险企业的问题。

本发明提供了一种风险企业识别方法，所述方法包括：

基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与所述每个第一节点存在二度关联的每个第二节点的子企业关系图谱；

根据所述子企业关系图谱中所述每个第二节点对应的属性标签及预先保存的风险模型，得到所述风险模型输出的所述子企业关系图谱中属性标签为企业的每个第二节点的第一向量；

针对所述属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的所述黑名单企业和所述黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

进一步地，所述方法还包括：

根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；

按照归一化后的每个第一向量的模值从大到小的顺序，将归一化后的每个第一向量的模值、以及对应的每个第二节点中包含的每个风险企业的标识信息输出。

进一步地，所述企业关系图谱的构建过程包括：

根据预先获取的税务数据中的企业的标识信息和企业员工的标识信息，构建关系图谱中企业和企业员工的节点，将对应的标识信息作为节点标识信息，若任一企业为黑名单信息中的黑名单企业，则将该企业对应的节点的属性标签设置为黑名单企业，否则，将该企业对应的节点的属性标签设置为企业，若任一企业员工为黑名单信息中的黑名单企业员工，则将该企业员工对应的节点的属性标签设置为黑名单企业员工，否则，将该企业员工对应的节点的属性标签设置为企业员工；

针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；

根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

进一步地，所述根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点包括：

根据该发票信息中包含的两个目标企业的标识信息和对应保存的预设关键字，其中所述预设关键字包括购买方和销售方，将所述两个目标企业中所述预设关键字为销售方的节点指向所述预设关键字为购买方的节点，将边中所述销售方的节点一侧设置为销项边，将所述边中所述购买方边的节点一侧设置为进项边，并将该发票信息中的交易金额、交易时间以及商品名称作为对应边的属性信息。

进一步地，所述根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点包括：

根据所述税务数据中目标企业员工的第一标识信息与任职企业的第一标识信息、以及职务信息，在所述关系图谱中连接从所述目标企业员工的节点向所述任职企业的节点，并将所述职务信息作为边的属性信息。

相应地，本发明提供了一种风险企业识别装置，所述装置包括：

确定模块，用于基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与所述每个第一节点存在二度关联的每个第二节点的子企业关系图谱；

处理模块，用于根据所述子企业关系图谱中所述每个第二节点对应的属性标签及预先保存的风险模型，得到所述风险模型输出的所述子企业关系图谱中属性标签为企业的每个第二节点的第一向量；

识别模块，用于针对所述属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的所述黑名单企业和所述黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

进一步地，所述装置包括：

输出模块，用于根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；按照归一化后的每个第一向量的模值从大到小的顺序，将归一化后的每个第一向量的模值、以及对应的每个第二节点中包含的每个风险企业的标识信息输出。

进一步地，所述装置包括：

模型构建模块，用于根据预先获取的税务数据中的企业的标识信息和企业员工的标识信息，构建关系图谱中企业和企业员工的节点，将对应的标识信息作为节点标识信息，若任一企业为黑名单信息中的黑名单企业，则将该企业对应的节点的属性标签设置为黑名单企业，否则，将该企业对应的节点的属性标签设置为企业，若任一企业员工为黑名单信息中的黑名单企业员工，则将该企业员工对应的节点的属性标签设置为黑名单企业员工，否则，将该企业员工对应的节点的属性标签设置为企业员工；针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

进一步地，所述模型构建模块，具体用于根据该发票信息中包含的两个目标企业的标识信息和对应保存的预设关键字，其中所述预设关键字包括购买方和销售方，将所述两个目标企业中所述预设关键字为购买方的节点指向所述预设关键字为销售方的节点，将所述边中所述销售方的节点一侧设置为销项边，将所述边中所述购买方边的节点一侧设置为进项边，并将该发票信息中的交易金额、交易时间以及商品名称作为对应边的属性信息。

进一步地，所述模型构建模块，具体用于根据所述税务数据中目标企业员工的第一标识信息与任职企业的第一标识信息、以及职务信息，在所述关系图谱中连接从所述目标企业员工的节点向所述任职企业的节点，并将所述职务信息作为边的属性信息。

相应地，本发明提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器中存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述风险企业识别方法中任一所述方法的步骤。

相应地，本发明提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述风险企业识别方法中任一所述方法的步骤。

本发明提供了一种风险企业识别方法、装置、设备和介质，由于该方法中基于预先构建完成的企业关系图谱，从企业关系图谱中确定出属性标签为黑名单企业和黑名单企业员工的每个第一节点及与每个第一节点存在二度关联的每个第二节点的子企业关系图谱，将子企业关系图谱输入到风险模型中，得到风险模型输出的属性标签为企业的每个第二节点的第一向量，针对属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的黑名单企业和黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业；由于本发明中是通过确定与黑名单企业与黑名单企业员工存在二度关联的每个企业和每个企业员工，从企业关系图谱中筛选出有可能的风险企业，根据每个企业在子企业关系图谱中的节点采用向量化表示后的第一向量值，确定第一向量值与黑名单企业和黑名单企业员工分别对应的第二向量的相似度，从而预测出在各方面均高度相似的风险企业，实现了对风险企业的准确识别。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种风险企业识别方法过程示意图；

图2为本发明实施例提供的一种风险企业识别方法的过程示意图；

图3为本发明实施例提供的一种微服务架构流程图；

图4为本发明实施例提供的一种风险企业识别的过程示意图；

图5为本发明实施例提供的一种风险企业识别装置的结构示意图；

图6为本申请提供的一种电子设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

为了提高风险企业识别的准确度，本发明实施例提供了一种风险企业识别方法、装置、设备和介质。

实施例1：

图1为本发明实施例提供的一种风险企业识别方法的过程示意图，该过程包括以下步骤：

S101：基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与所述每个第一节点存在二度关联的每个第二节点的子企业关系图谱。

为了提高风险企业识别的准确度，本发明实施例提供的了一种风险企业识别方法，该风险企业识别方法应用于电子设备，其中该电子设备可以是主机、平板电脑、笔记本电脑、智能手机等智能终端设备，也可以是服务器，其中该服务器可以是本地服务器，也可以是云端服务器，本发明实施例对此不做限制。

为了确定出有可能的风险企业，在本发明实施例中，预先构建有企业关系图谱，其中企业关系图谱是指基于企业与企业间的关系、企业与企业员工间的关系构建的有向图，企业关系图谱用于表示企业分别与其他企业以及企业员工之间关系。

基于预先构建完成的企业关系图谱，该电子设备根据企业关系图谱中每个节点的属性标签，确定出属性标签为黑名单企业的每个第一节点、属性标签为黑名单企业员工的每个第一节点，根据在企业关系图谱中的每个第一节点，该电子设备采用图查询语句进行企业关系的多层次逻辑查询，确定以每个第一节点为中心，与每个第一节点存在二度关联的每个第二节点。

具体的，该电子设备为了确定出与黑名单企业的每个第一节点存在二度关联的每个第二节点，采用的图查询语句为g.V().hasLabel(‘black_nsr’).bothE().otherV().bothE().otherV().simplePath().toList()，其中black_nsr表示属性标签为黑名单企业的第一节点；

该电子设备为了确定出于黑名单企业员工的每个第一节点存在二度关联的每个第二节点，采用的图查询语句为g.V().hasLabel(‘black_person’).inE().otherV().outE().otherV().simplePath().toList()。

其中，图查询语句可以是图遍历语句(Gremlin)，也可以是结构化查询语言(CyphQuery Language，CQL)，二度关联包括直接关联、以及间隔一个节点的间接关联，即任一第二节点与第一节点直接连接、或间隔一个第二节点连接。

该电子设备在确定出每个第一节点和每个第二节点后，在企业关系图谱中确定出包含每个第一节点和每个第二节点的子企业关系图谱，子企业关系图谱为企业关系图谱的部分图谱。

S102：根据所述子企业关系图谱中所述每个第二节点对应的属性标签及预先保存的风险模型，得到所述风险模型输出的所述子企业关系图谱中属性标签为企业的每个第二节点的第一向量。

为了识别出风险企业，该电子设备将子企业关系图谱中的每个企业的节点进行向量化表示，该电子设备预先保存有风险模型，其中该风险模型可以是图神经网络模型、也可以是其他集成风险识别模型，该风险模型用于实现对输入的子企业关系图谱中每个节点的向量化表示。

该电子设备将子企业关系图谱输入到预先保存的风险模型中，基于子企业关系图谱中每个第二节点的属性标签，风险模型确定属性标签为企业的每个第二节点，并根据每个第二节点、与每个第二节点连接的属性标签为企业员工的第二节点以及连接的边，风险模型进行图计算确定出属性标签为企业的每个第二节点的第一向量。

S103：针对所述属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的所述黑名单企业和所述黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

该电子设备针对子企业关系图谱中属性标签为企业的每个第二节点，为了确定出该第二节点对应的企业是否为风险企业，该电子设备预先保存有黑名单企业和黑名单企业员工分别对应的第二向量，其中黑名单企业和黑名单员工分别对应的第二向量是预先将子企业关系图谱输入到风险模型中，进行图计算确定子企业关系图谱中属性标签为黑名单企业的第一节点的第二向量、以及属性标签为黑名单企业员工的第一节点的第二向量。

根据该第二节点的第一向量、以及预先确定的黑名单企业和黑名单企业员工分别对应的第二向量，该电子设备通过向量计算，确定第一向量与每个第二向量的相似度，该电子设备还预先保存有预设的相似度阈值，其中该相似度阈值是用户预先设置的，若希望提高风险企业识别的准确度，则可以将该相似度阈值设置地较大一些，若希望提高风险企业识别的鲁棒性，则可以将该相似度阈值设置地较小一些；根据该相似度阈值以及确定的第一向量与每个第二向量的相似度，该电子设备将每个相似度与相似度阈值进行比较，若任一相似度大于相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

由于在本发明实施例中，该方法通过确定与黑名单企业与黑名单企业员工存在二度关联的每个企业和每个企业员工，从企业关系图谱中筛选出有可能的风险企业，根据每个企业在子企业关系图谱中的节点采用向量化表示后的第一向量值，确定第一向量值与黑名单企业和黑名单企业员工分别对应的第二向量的相似度，从而预测出在各方面均高度相似的风险企业，实现了对风险企业的准确识别。

实施例2：

为了显示出每个风险企业的风险高低，在上述实施例的基础上，在本发明实施例中，所述方法还包括：

根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；

为了显示出每个风险企业的风险高低，该电子设备在识别出每个风险企业后，根据每个风险企业对应的第一向量，将每个第一向量进行归一化处理，具体是采用现有的归一化处理算法进行处理，从而得到归一化的每个第一向量。

其中，归一化是指将预处理的数据限定在一定的范围内，从而可以消除奇异数据导致的不良影响。

根据归一化处理后的每个第一向量，确定每个第一向量对应的每个第二节点中包含的每个风险企业的标识信息，并对每个第一向量进行求模运算，得到每个第一向量的模值，根据每个第一向量的模值从大到小的顺序，将归一化后的每个第一向量的模值、以及对应的每个第二节点中包含的每个风险企业的标识信息进行输出。

具体该电子设备可以是将每个第一向量的模值、以及对应的每个风险企业的标识信息在该电子设备的显示屏上进行显示输出；也可以是采用现有的语音合成软件将每个第一向量的模值、以及对应的每个风险企业的标识信息的语音在该电子设备的声音输出装置进行语音输出。

下面通过一个具体的实施例对本发明的一种风险企业识别方法进行说明，图2为本发明实施例提供的一种风险企业识别方法的过程示意图，如图2所示，该过程包括以下步骤：

S201：基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与每个第一节点存在二度关联的每个第二节点的子企业关系图谱。

S202：将子企业关系图谱输入到DGL图神经网络模型，根据子企业关系图谱中每个第二节点对应的属性标签，得到输出的子企业关系图谱中属性标签为企业的每个第二节点的第一向量。

S203：针对属性标签为企业的每个第二节点，根据该第二节点的第一向量、以及预先确定的黑名单企业和黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度。

S204：若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

S205：根据识别出的每个风险企业对应的每个第一向量，将每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量，按照归一化后的每个第一向量的模值从大到小的顺序，将归一化后的每个第一向量的模值、以及对应的每个第二节点中包含的每个风险企业的标识信息输出。

实施例3：

为了构建企业关系图谱，在上述各实施例的基础上，在本发明实施例中，所述企业关系图谱的构建过程包括：

针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；

根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

为了构建企业关系图谱，在本发明实施例中，该电子设备预先获取并保存有税务数据，获取税务数据中企业的标识信息和企业员工的标识信息，其中税务数据包括企业信息、企业员工信息、商品信息、黑名单信息以及发票信息等，企业的标识信息可以是企业的税号，也可以是企业的企业名称；企业员工的标识信息可以是企业员工的身份证号。

具体的，该电子设备根据预先保存的关键字段，从税务数据中进行抽取，获取每个关键字段的字段信息，并采用纯文本格式(Comma-Separated Values，csv)进行保存；其中企业信息中的关键字段的字段信息包括企业工商信息、企业征信信息、注册信息、主要成员信息以及主营商品信息等，企业员工信息中关键字段的字段信息包括证件号、任职信息，征信信息，其中任职信息包括任职企业和职务，黑名单信息中的关键字段的字段信息包括黑名单企业、黑名单企业员工，发票信息中的关键字段的字段信息包括销售方和购买方的税号、企业名称、交易商品、交易金额和交易时间。

该电子设备从企业工商信息中获取企业的税号与企业名称的对应关系，其中企业的税号与企业名称的对应关系中，存在税号与企业名称一对多的对应关系，存在税号与企业名称多对一的对应关系，也存在税号与企业名称一对一的对应关系；由于税号与企业名称为一对多、或多对一的对应关系时，税号与企业名称中存在过时的错误信息，因此该电子设备筛选出税号与企业名称为一对一的对应关系，将一对一的对应关系中的税号或企业名称作为对应企业的标识信息。

该电子设备根据企业的标识信息构建关系图谱中企业的节点，将企业的标识信息作为企业的节点的节点标识信息，根据企业员工的标识信息构建关系图谱中企业员工的节点，将企业员工的标识信息作为企业员工的节点的节点标识信息。

根据预先保存的黑名单信息，该电子设备对每个节点创建属性标签，其中黑名单信息中包括黑名单企业的标识信息、以及黑名单企业员工的标识信息；具体该电子设备根据黑名单信息中的黑名单企业的标识信息，针对任一企业，若该企业的标识信息与任一黑名单企业的标识信息相同，则确定该企业为黑名单信息中的黑名单企业，因此将该企业对应的节点的属性标签设置为黑名单企业，否则，将该企业对应的节点的属性标签设置为企业；该电子设备根据黑名单信息中的黑名单企业员工的标识信息，针对任一企业员工，若该企业员工的标识信息与任一黑名单企业员工的标识信息相同，则确定该企业员工为黑名单信息中的黑名单企业员工，因此将该企业员工对应的节点的属性标签设置为黑名单企业员工，否则，将该企业员工对应的节点属性标签设置为企业员工。

例如，该电子设备将黑名单信息中的黑名单企业对应的节点的属性标签设置为black_nsr，将其余企业对应的节点的属性标签设置为nsr；将黑名单信息中的黑名单企业员工对应的节点的属性标签设置为black_person，将其余企业员工对应的节点的属性标签设置为person。

该电子设备针对税务数据中的每个发票信息，该发票信息中包括销售方的企业的标识信息以及购买方的企业的标识信息，根据该发票信息中包含的两个目标企业的标识信息，在关系图谱中确定两个目标企业的标识信息标识的节点，并连接两个目标企业的节点。

该电子设备根据税务数据中目标企业员工与任职企业的信息，在关系图谱中确定目标企业员工对应的节点、以及任职企业的节点，并连接目标企业员工的节点与任职企业的节点。

该电子设备在创建完成企业关系图谱后，将企业关系图谱保存在数据库中，其中该数据库可以是分布式的图数据库(Janusgraph)，也可以是面向网络的数据库(Neo4j)。

作为一种可能的实施方式，在本发明实施例中，该电子设备在构建出关系图谱中企业的节点后，还可以根据税务数据中企业信息中除企业的税号和企业名称外的其他信息作为企业的节点的属性信息；该电子设备在构建出关系图谱中企业员工的节点后，还可以根据企业员工信息在除证件号外的其他信息作为企业员工的节点的属性信息，例如企业员工信息除证件号外的其他信息包括企业员工名称、企业员工的职务、入职时间等信息。

实施例4：

为了构建企业关系图谱，在上述各实施例的基础上，在本发明实施例中，所述根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点包括：

根据该发票信息中包含的两个目标企业的标识信息、以及每个目标企业的标识信息对应保存的预设关键字，其中预设关键字包括“购买方”三个字和“销售方”三个字。

确定预设关键字为购买方的目标企业的标识信息，在关系图谱中确定预设关键字为购买方目标企业的标识信息标识的购买方的节点；并确定预设关键字为销售方的目标企业的标识信息，在关系图谱在确定预设关键字为销售方的目标企业的标识信息标识的销售方的节点，并从销售方的节点指向购买方的节点，得到连接销售方的节点与购买方的节点的边。

将连接销售方的节点与购买方的节点的边中销售方的节点一侧设置为销项边，将边中购买方的节点一侧设置为进项边，并将该发票信息中的交易金额、交易时间以及商品名称作为边的属性信息，具体是将交易金额和交易时间作为销项边的属性信息，将商品名称作为进项边的属性信息。

实施例5：

为了构建企业关系图谱，在上述各实施例的基础上，在本发明实施例中，所述根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点包括：

该电子设备根据税务数据中目标企业员工的第一标识信息、目标企业员工的任职企业的第一标识信息以及目标企业员工的职务信息，在关系图谱中查找目标企业员工的第一标识信息标识的目标企业员工的节点、任职企业的第一标识信息标识的任职企业的节点，连接从目标企业员工的节点向任职企业的节点，并将职务信息作为边的属性信息。

例如，目标企业员工的职务信息为公司法人时，将边的属性信息确定为legal_person，目标企业员工的职务信息为财务负责人时，将边的属性信息确定为finance_person，目标企业员工的职务信息为办税人时，将边的属性信息确定为tax_person。

实施例6：

下面通过一个具体的实施例，对本发明的一种风险企业识别方法进行说明，该电子设备采用应用容器引擎(Docker)容器化技术，将上述的数据处理过程、图数据库以及风险模型实现容器化部署，将数据在云端进行存储。

具体该电子设备获取到税务数据后，将数据预处理过程进行容器化部署，经过数据预处理得到csv文件格式的关键字段的字段信息。

将企业关系图谱的构建过程进行容器化部署，根据获取到的字段信息进行节点构建和边构建，得到构建完成的企业关系图谱并保存在数据库中。

将风险模型对属性标签为企业的节点进行向量化表示的过程进行容器化部署，其中风险模型可以是图神经网络模型，也可以是其他集成风险识别模型。

将风险企业识别的过程进行容器化表示，用于根据属性标签为企业的节点向量化表示后的第一向量以及预先保存的黑名单企业和黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

将每个容器组成风险企业识别系统，系统整体实现微服务架构，各个容器之间实现环境隔离，并通过脚本实现容器的启停与日常运维。

图3为本发明实施例提供的一种微服务架构流程图，如图3所示，图3中的每个方框表示一个容器，每个箭头表示数据方向，税务数据经过数据预处理的容器得到csv文件，将csv文件输入到企业关系图谱构建的容器中，得到构建完成的企业关系图谱，从企业关系图谱中获取属性标签为黑名单企业和黑名单企业员工的每个第一节点及与所述每个第一节点存在二度关联的每个第二节点的子企业关系图谱，将子企业关系图谱输入到风险模型计算的容器中，得到输出的属性标签为企业的每个第二节点的第一向量；针对属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的所述黑名单企业和黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

由于在本发明实施例中，采用Docker容器化技术为基础实现风险企业识别系统的微服务架构，解决了不同组件模块间的复杂环境冲突，大幅提升系统的部署效率和稳定性，节约运维成本。在相同配置的服务器环境下，系统的部署效率提升50％以上，无宕机时长提升100％以上。

实施例7：

图4为本发明实施例提供的一种风险企业识别的过程示意图，如图4所示，该过程包括以下步骤：

S401：根据预先获取的税务数据中的企业的标识信息和企业员工的标识信息，构建关系图谱中企业和企业员工的节点，将对应的标识信息作为节点标识信息，若任一企业为黑名单信息中的黑名单企业，则将该企业对应的节点的属性标签设置为黑名单企业，否则，将该企业对应的节点的属性标签设置为企业，若任一企业员工为黑名单信息中的黑名单企业员工，则将该企业员工对应的节点的属性标签设置为黑名单企业员工，否则，将该企业员工对应的节点的属性标签设置为企业员工。

S402：针对税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息和对应保存的预设关键字，其中预设关键字包括购买方和销售方，将两个目标企业中所述预设关键字为销售方的节点指向预设关键字为购买方的节点，将边中销售方的节点一侧设置为销项边，将边中所述购买方边的节点一侧设置为进项边，并将该发票信息中的交易金额、交易时间以及商品名称作为对应边的属性信息。

S403：根据税务数据中目标企业员工的第一标识信息与任职企业的第一标识信息、以及职务信息，在关系图谱中连接从目标企业员工的节点向任职企业的节点，并将职务信息作为边的属性信息，得到构建完成的企业关系图谱。

S404：基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与每个第一节点存在二度关联的每个第二节点的子企业关系图谱。

S405：根据子企业关系图谱中每个第二节点对应的属性标签及预先保存的风险模型，得到风险模型输出的子企业关系图谱中属性标签为企业的每个第二节点的第一向量。

S406：针对属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的黑名单企业和黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

实施例8：

图5为本发明实施例提供的一种风险企业识别装置的结构示意图，如图5所示，该装置包括：

确定模块501，用于基于预先构建完成的企业关系图谱，确定属性标签为黑名单企业和黑名单企业员工的每个第一节点及与所述每个第一节点存在二度关联的每个第二节点的子企业关系图谱；

处理模块502，用于根据所述子企业关系图谱中所述每个第二节点对应的属性标签及预先保存的风险模型，得到所述风险模型输出的所述子企业关系图谱中属性标签为企业的每个第二节点的第一向量；

识别模块503，用于针对所述属性标签为企业的每个第二节点，根据该第二节点的第一向量与预先确定的所述黑名单企业和所述黑名单企业员工分别对应的第二向量，确定该第一向量与每个第二向量的相似度，若任一相似度大于预设的相似度阈值，则确定该第一向量的第二节点对应的企业为风险企业。

进一步地，所述装置包括：

输出模块504，用于根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；按照归一化后的每个第一向量的模值从大到小的顺序，将归一化后的每个第一向量的模值、以及对应的每个第二节点中包含的每个风险企业的标识信息输出。

进一步地，所述装置包括：

模型构建模块505，用于根据预先获取的税务数据中的企业的标识信息和企业员工的标识信息，构建关系图谱中企业和企业员工的节点，将对应的标识信息作为节点标识信息，若任一企业为黑名单信息中的黑名单企业，则将该企业对应的节点的属性标签设置为黑名单企业，否则，将该企业对应的节点的属性标签设置为企业，若任一企业员工为黑名单信息中的黑名单企业员工，则将该企业员工对应的节点的属性标签设置为黑名单企业员工，否则，将该企业员工对应的节点的属性标签设置为企业员工；针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

进一步地，所述模型构建模块505，具体用于根据该发票信息中包含的两个目标企业的标识信息和对应保存的预设关键字，其中所述预设关键字包括购买方和销售方，将所述两个目标企业中所述预设关键字为购买方的节点指向所述预设关键字为销售方的节点，将所述边中所述销售方的节点一侧设置为销项边，将所述边中所述购买方边的节点一侧设置为进项边，并将该发票信息中的交易金额、交易时间以及商品名称作为对应边的属性信息。

进一步地，所述模型构建模块505，具体用于根据所述税务数据中目标企业员工的第一标识信息与任职企业的第一标识信息、以及职务信息，在所述关系图谱中连接从所述目标企业员工的节点向所述任职企业的节点，并将所述职务信息作为边的属性信息。

实施例9：

图6为本申请提供的一种电子设备结构示意图，在上述各实施例的基础上，本申请还提供了一种电子设备，如图6所示，包括：处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。

所述存储器603中存储有计算机程序，当所述程序被所述处理器601执行时，使得所述处理器601执行如下步骤：

进一步地，所述处理器601还用于根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；

进一步地，所述处理器601具体用于所述企业关系图谱的构建过程包括：

针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；

根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

进一步地，所述处理器601具体用于所述根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点包括：

进一步地，所述处理器601具体用于所述根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点包括：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例10：

在上述各实施例的基础上，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

进一步地，所述方法还包括：

根据识别出每个风险企业对应的每个第一向量，将所述每个风险企业对应的每个第一向量进行归一化处理，得到归一化的每个第一向量；

进一步地，所述企业关系图谱的构建过程包括：

针对所述税务数据中的每个发票信息，根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点；

根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点。

进一步地，所述根据该发票信息中包含的两个目标企业的标识信息，连接所述两个目标企业的节点包括：

进一步地，所述根据所述税务数据中目标企业员工与任职企业的信息，连接所述目标企业员工的节点与所述任职企业的节点包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王泽皓;林文辉;王志刚;杨军;钱剑林;闫凯;马谊骏;
专利申请人：航天信息股份有限公司;安徽航天信息有限公司;

上一篇：一种超细旦橘瓣型涤锦复合纤维的生产方法及其生产设备
下一篇：一种面向电力调峰的分布式储能聚合控制方法及装置