掌桥专利:专业的专利平台
掌桥专利
首页

一种供应链企业数据真实性分析方法

文献发布时间:2023-06-19 18:37:28


一种供应链企业数据真实性分析方法

技术领域

本发明属于数据分析技术领域,尤其是涉及一种供应链企业数据真实性分析方法。

背景技术

企业数据泛指与企业经营相关的信息、资料等,包括但不限于产品信息、经营数据等。供应链是指围绕核心企业,从配套零件开始,制成中间产品以及最终产品,最后由销售网络把产品送到消费者手中的,将供应商、制造商、分销商直到最终用户连成一个整体的功能网链结构。

在供应链背景下,为确保企业自身的正常运作,降低上下游企业的协同成本和风险,需要及时高效地对企业数据进行分析,以分析目标企业产业生态的健康程度。此外,在金融行业,对企业生态性数据进行验证也是非常有必要的,能够让债权人(一般为银行)更加清楚地掌握贷款申请人的企业生态健康程度。目前,所有在对目标企业进行健康程度分析时,都是基于既有数据进行的分析,并不关注数据的真实性,但是在基于数据对企业的健康程度进行分析这个过程中,企业数据的真实性实际上对分析结果是起到关键性作用的。只有保证被分析数据的真实性,才能确保后续基于这些数据进行的分析的有效性。

发明内容

本发明的目的是针对上述问题,提供一种供应链企业数据真实性分析方法。

为达到上述目的,本发明采用了下列技术方案:

一种供应链企业数据真实性分析方法,包括以下步骤:

S1.获取N个具有供应链上下游关系企业的原始数据;采集的是预设时间段内的数据,如最近30天内的原始数据。

S2.分别提取N个企业原始数据中的关键数据字段,得到N个企业数据集;

S3.从N个企业数据集中分别提取相应的企业子数据集,得到至少N个企业子数据集;

S4.将相互关联的企业子数据集两两合并得到目标数据库;

S5.每个企业子数据集基于相应的目标数据库得到特征向量;

S6.计算相互关联的企业子数据集对应的数据特征向量之间的相似度;

S7.根据相似度结果进行数据真实性判断。

在上述的供应链企业数据真实性分析方法中,步骤S1中,根据分析目的确定供应链上N个具有上下游关系的企业;

步骤S2中,根据分析目的提取N个企业原始数据中的关键数据字段,得到N个企业数据集。

在上述的供应链企业数据真实性分析方法中,所述的分析目的包括供应链上一个或多个目标企业的企业数据可信度分析;

步骤S1中,N个企业包括目标企业以及目标企业的上游企业和目标企业的下游企业;目标企业可以没有上游企业或下游企业,同时目标企业的上游企业可以有多个,下游企业也可以有多个。

步骤S2中,对于目标企业,其销售数据和采购数据即为关键数据字段;对于目标企业的上游企业,其销售数据为关键数据字段,对于目标企业的下游企业,其采购数据为关键数据字段。

在上述的供应链企业数据真实性分析方法中,步骤S3中,根据目标企业的企业数据集与其余企业数据集之间的特征关联性提取各企业的企业子数据集;

每个企业子数据集包括至少一个子矩阵。

在上述的供应链企业数据真实性分析方法中,每个企业的企业子数据集如下:

目标企业的上游企业的企业子数据集为与目标企业相关的销售清单集;注意,这里目标企业并不局限于一个。

目标企业的下游企业的企业子数据集为与目标企业相关的采购清单集;

目标企业的企业子数据集为与其上游企业、下游企业相关的采购清单集、销售清单集。

步骤S4中,将目标企业的各企业子数据集分别与各上游企业、下游企业相关的企业子数据集两两合并。

在上述的供应链企业数据真实性分析方法中,步骤S4中,在将企业子数据集两两合并以前,将各企业子数据集中的特征进行合并去重累加。

在上述的供应链企业数据真实性分析方法中,步骤S5中,通过以下方式得到每个企业子数据集的特征向量:

当目标数据库中第i个元素在企业子数据集中存在且元素值差值在偏差阈值范围内时,相应企业子数据集第i个元素的值为1,当目标数据库中第i个元素在企业子数据集中不存在或元素值差值在偏差阈值范围外时,相应企业子数据集第i个元素的值为0;

通过以上方式获取企业子数据集全部元素的值得到相应企业子数据集的特征向量。可以理解的是,每个企业子数据集计算特征向量的目标数据库是由其与另一个企业子数据集合并后的目标数据库。

在上述的供应链企业数据真实性分析方法中,所述的偏差阈值为较少元素值的5%-20%。因为数据录入时可能因为某些原因会存在一些偏差,这些偏差时允许存在的。所以设置一个偏差阈值,两者差在偏差阈值范围内则视为相等。

或者,所述的偏差阈值为0,即当目标数据库中第i个元素在企业子数据集中存在且元素值相等时,相应企业子数据集第i个元素的值为1,当目标数据库中第i个元素在企业子数据集中不存在或元素值不相等时,相应企业子数据集第i个元素的值为0。

在上述的供应链企业数据真实性分析方法中,步骤S6中,相似度计算方式如下:

在上述的供应链企业数据真实性分析方法中,步骤S7中,根据目标企业的相似度结果和预设的企业数据分析规则对目标企业的数据可信度进行分析。

本发明的优点在于:

1)提出针对用于企业健康程度分析的数据进行真实性分析,能够确保后续企业健康程度分析的有效性和真实性;

2)利用供应链企业之间的数据在某些方面通常具有一致性的特点,通过比对两个或几个企业数据之间的关联程度来判断数据的真实性,能够可靠、可信且较为准确地对企业的数据真实性进行分析;

3)通过构造目标数据库的方式来比对企业数据之间的关联程度,能够避免因为数据维度高、数据格式复杂、数据量庞大等不利于分析的影响因素。

附图说明

图1为本发明供应链企业数据真实性分析方法的方法流程图;

图2为本发明供应链企业数据真实性分析方法中以三个企业为例的数据处理流程图;

图3为本发明供应链企业数据真实性分析方法中两个企业子数据集合并为目标数据库的示意图;

图4为本发明供应链企业数据真实性分析方法中两个企业子数据集基于目标数据库得到特征向量的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步详细的说明。

本方案为了实现供应链企业的健康发展,提供一种供应链企业数据真实性分析方法,通过该方法为需求方,如投资方、银行等提供企业数据真实性的分析结果,为需求方提供重要决策的数据分析依据,杜绝企业数据造假所带来的金融风险。

如图1所示,本方法具体包括以下步骤:

S1.从各企业的ERP系统或其他系统中,获取具有供应链上下游关系的各企业的原始数据,此处设为获取N个企业的原始数据;当然,这些数据应当有个时间段,时间段可以由用户在系统中事先预设好,例如每次取最近30天的原始数据;

S2.分别提取N个企业原始数据中的关键数据字段,得到N个企业数据集;

S3.从N个企业数据集中分别提取相应的企业子数据集,得到至少N个企业子数据集,每个企业子数据集包括至少一个子矩阵;

S4.将相互关联的企业子数据集两两合并得到目标数据库;相互关联是指,如X企业对于Y企业的销售数据,与Y企业对于X企业的采购数据,这里的销售数据和采购数据即为相互关联的数据。

S5.每个企业子数据集基于相应的目标数据库得到特征向量;

S6.计算相互关联的企业子数据集对应的数据特征向量之间的相似度;

S7.根据相似度结果进行数据真实性判断。

具体地,步骤S1中,根据分析目的确定供应链上N个具有上下游关系的企业。分析目的包括供应链上一个或多个目标企业的企业数据可信度分析,用户可以在系统中请求对供应链上的一个或多个目标企业进行可信度分析,该请求即分析目的。N个企业包括目标企业以及目标企业的上游企业和目标企业的下游企业。目标企业可以为一个,也可以为两个或多个,目标企业可以没有上游企业或下游企业,目标企业的上游企业可以有多个,下游企业也可以有多个。

步骤S2中,根据分析目的提取N个企业原始数据中的关键数据字段,得到N个企业数据集。具体为,对于目标企业,其销售数据和采购数据即为关键数据字段;对于目标企业的上游企业,其销售数据为关键数据字段,对于目标企业的下游企业,其采购数据为关键数据字段。

步骤S3中,根据目标企业的企业数据集与其余企业数据集之间的特征关联性提取各企业的企业子数据集,如X企业对于Y企业的销售数据,Y企业对于X企业的采购数据就是具有特征关联性的数据,可以将X企业对于Y企业的销售数据提取作为X企业的一个企业子数据集,将Y企业对于X企业的采购数据提取作为Y企业的一个企业子数据集,后续可将这两个子数据集合并为目标数据库用于XY企业之间的相似度计算。

概括起来说就是每个企业的企业子数据集如下:

目标企业的上游企业的企业子数据集为与目标企业相关的销售清单集;

目标企业的下游企业的企业子数据集为与目标企业相关的采购清单集;

目标企业的企业子数据集为与其上游企业、下游企业相关的采购清单集、销售清单集。

非目标企业的企业子数据集的数量与目标企业数量一致,当目标企业只有一个的时候,非目标企业的企业子数据集只有一个,当目标企业有两个的时候,非目标企业的企业子数据集的数量为两个,如此等等。同样地,目标企业的企业子数据集数量与其所具有的上游企业、下游企业数量相关。

具体地,上游企业、下游企业根据销售清单、采购清单中的信息,如客户名称、供应商名称、规格型号、合同编号等信息确定是否与目标企业具有特征关联性,同样地,目标企业也根据前述信息确定是否与上游企业、下游企业具有特征关联性。

步骤S4中,在将企业子数据集两两合并以前,将各企业子数据集中的特征进行合并去重叠加。如上游企业的企业子数据集中有两个销售清单中分别涉及到,A元器件100件,A元器件200件,则可以将两个特征合并以对同一特征进行去重,然后将两个特征值叠加,即成为A元器件300。然后将目标企业的各企业子数据集分别与各上游企业、下游企业相关的企业子数据集两两合并。

具体地,步骤S5中,通过以下方式得到每个企业子数据集的特征向量:

当目标数据库中第i个元素在企业子数据集中存在且元素值差值在偏差阈值范围内时,相应企业子数据集第i个元素的值为1,当目标数据库中第i个元素在企业子数据集中不存在或元素值差值在偏差阈值范围外时,相应企业子数据集第i个元素的值为0;

通过以上方式获取企业子数据集全部元素的值得到相应企业子数据集的特征向量。

偏差阈值为较少元素值的5%-20%,如10%,因为数据录入时可能因为某些原因存在一些偏差,这些偏差是允许存在的。所以设置一个偏差阈值,两者差在偏差阈值范围内则视为相。

当然,偏差阈值也可以为0,即当目标数据库中第i个元素在企业子数据集中存在且元素值相等时,相应企业子数据集第i个元素的值为1,当目标数据库中第i个元素在企业子数据集中不存在或元素值不相等时,相应企业子数据集第i个元素的值为0。

具体地,步骤S6中,相似度计算方式如下:

步骤S7中,根据相似度结果对目标企业的企业数据进行真实性分析。

数据可信度分析可以根据得到的相似度结果和预设的企业数据分析规则得到。预设的企业数据分析规则可以为:

计算目标企业所有的相似度平均值,如P=(P1+P2...+Pn)/n,P1、P2...Pn表示目标企业与各上下游企业的相似度,P表示平均相似度;

设置若干阈值区间,例如0至V1、V1至V2、……以及V4至V5,每个阈值区间对应一个企业数据关联程度。例如:相平均似度在0至V1,代表企业数据可信度高。相似度在V1至V2,代表企业数据可信度高较低。相似度在V2至V3,代表企业数据可信度高适中。相似度在V3至V4,代表企业数据可信度高较高。相似度在V4至V5,代表企业数据可信度高极高。

当然也可以为其他分析规则,具体的企业数据分析规则由本领域技术人员根据实际情况预设,此处不进行限制和赘述。

优选地,可以以分析报告的形式给出可信度分析结果,报告包括目标企业与各上下游企业之间的相似度,以及最终的可信度结论等。

进一步地,本方案还提供验证方法:

当用户请求结果验证时,对目标企业所涉及到的上下游企业数据进行数据可靠性验证,将各上下游企业依次作为目标企业通过上述方式计算可靠性,若可靠性均高于设定阈值,则数据可靠性结果验证通过,否则,将可靠性低于设定阈值的上下游企业剔除供应链关系,重新对目标企业的数据进行可靠性判断。

进一步地,本方案还提供供应链企业核验方法:

当用户请求企业核验时,提供目标企业所涉及到的上下游企业供用户选择,并将用户选择的一个或多个上下游依次作为目标企业通过上述方式计算可靠性,并将可靠性结果输出给用户。用户可根据可靠性结果选择确认核验通过或自定义剔除其中一个或几个上下游企业重新对目标企业进行真实性分析。

通过以上方式排除供应链企业上本身数据可靠性存疑的上下游企业,能够进一步确保真实性分析的准确性和可靠性。

进一步地,本方案还提供供应链企业自定义方法:

在用户选中目标企业后,系统展示与目标企业存在上下游关系的若干上下游企业,用户可选择所有上下游企业参与对目标企业的数据真实性分析,也可以选择部分上下游企业,或剔除部分上下游企业后的所以上下游企业参与对目标企业的数据真实性分析。通过人为与系统结合的方式提高最终分析结果的准确性。

如图2所示,为了更好地理解本方案,这里以X企业、Y企业、Z企业三个具有供应链上下游关系的企业为例,X企业是元器件供应商,Y企业是芯片生产商,Z企业是设备厂商,X企业为Y企业供应元器件,Y企业为Z企业供应芯片。当然在实际应用中,将会有更多企业参与,企业之间的业务可以存在交叉,一个企业也不局限于一类产品,如Z企业也可以同时是芯片生产商,此处为了便于理解,将其简化,实际应用中按照所提供的方法扩展应用即可。本例中,分析目的是以Y企业为目标企业进行数据可信度分析。

提取Y企业的销售数据和采购数据为关键数据字段;同时提取上游企业,此处即X企业的销售数据为关键数据字段,及其下游企业,此处即Z企业的采购数据关键数据字段。此时得到XYZ三个企业数据集,分别表示为DX、DY、DZ。然后根据Y企业与X企业和Z企业之间的特征关联性提取各企业的企业子数据集,即从DX中提取对于Y企业的销售数据,表示为DX1,从DZ中提取对于Y企业的采购数据,表示为DZ1,从DY中提取对于X企业的采购数据和对于Z企业的销售数据分别表示为DY1、DY2。由于一般情况下,两家企业之间的业务往来通常有多笔,如Y企业从X企业中进货3次,则X企业与Y企业相关的销售清单/采购清单会有3份,所以DX1、DY1、DY2、DZ1均具有多个子矩阵。由于各次采购,通常会涉及到相同的元器件,为了更高效地处理数据,本方案对多个子矩阵进行合并去重叠加处理,每个企业子数据集中元器件特征将只涉及到一个数值。

将DX1与DY1合并得到目标数据库一;DY2与DZ1合并得到目标数据库二。

根据DX1和目标数据库一得到DX1对应的数据特征向量PX1;

根据DY1和目标数据库一得到DY1对应的数据特征向量PY1;

根据DY2和目标数据库二得到DY2对应的数据特征向量PY2;

根据DZ1和目标数据库二得到DZ1对应的数据特征向量PZ1。

如图3所示,以DX1和DY1两个子数据集为例进行进一步说明,DX1去重后具有三个子矩阵,涉及到9个元器件,DY1去重后具有两个子矩阵,涉及到9个元器件,两个子数据集合并后得到涉及到18个元素的目标数据库一。

如图4所示,图4中当目标数据库一中第i个元素在DX1中存在且元素值相等时,i即图4中的1,2,3...18,相应DX1第i个元素的值为1,当目标数据库中第i个元素在DX1中不存在或元素值不相等时,相应企业子数据集第i个元素的值为0,如此得到图4中的PX1。当目标数据库一中第i个元素在DY1中存在且元素值相等时,相应DY1第i个元素的值为1,当目标数据库中第i个元素在DY1中不存在或元素值不相等时,相应企业子数据集第i个元素的值为0,如此得到图4中的PY1,然后可得S=10/18,此相似度是企业Y与企业X的相似度,表示为SXY。

最后得到目标企业Y企业与企业X和企业Z的相似度SXY、SZY,基于SXY、SZY以及预设的企业数据分析规则可以给出最终的可信度分析结果。

以上以单链的三家企业为例,在实际操作中,还会存在很多家企业。

当然,如果存在一种情况,如目标企业具有相对于K企业的企业子数据集,而K企业并不存在相对于目标企业的子数据集,则直接将目标企业与K企业的关联程度置为0。一般情况下不会出现这种极端的情况。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

技术分类

06120115638847