掌桥专利:专业的专利平台
掌桥专利
首页

客户数据清洗方法、装置、电子设备及可读存储介质

文献发布时间:2023-06-19 09:32:16


客户数据清洗方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据处理领域,尤其涉及一种客户数据清洗方法、装置、电子设备及计算机可读存储介质。

背景技术

随着社会经济的发展,集团企业越来越多,集团企业下面的客户也会越来越多,客户相关的数据随之也会增多。为了更好的对集团企业的客户进行管理,需要对客户数据进行清洗,判断所述客户数据中的必要数据是否存在,且对多余且重复的数据进行清除,从而实现客户数据的完整性及唯一性。

现有技术中,客户数据的清洗方式通常是非自动化的,利用人工对所述客户数据进行核对和识别,识别效率低下且结果不够精准。

发明内容

本发明提供一种客户数据清洗方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决传统客户数据清洗方法效率低下且不准确的问题。

为实现上述目的,本发明提供的一种客户数据清洗方法,包括:

获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集;

根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集;

利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱;

将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证;

将所述有效性验证结果发送给预设的监控终端。

可选地,所述对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集,包括:

判断所述原始客户数据集是否存在缺失值,当所述原始客户数据集存在缺失值时,对所述原始客户数据集进行数据填充;

判断所述原始客户数据集是否存在异常值,当所述原始客户数据集存在异常值时,删除所述原始客户数据集包含的异常值。

可选地,所述判断所述原始客户数据集是否存在异常值,包括:

计算所述原始客户数据集中邻近数据的局部可达密度比值;

在所述局部可达密度比值小于或等于预设比值时,确定所述原始客户数据为异常值。

可选地,所述计算所述原始客户数据集中邻近数据的局部可达密度比值,包括:

利用下述公式计算所述局部可达密度比值:

其中,N

可选地,所述利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据之前,还包括:

生成训练数据集和所述训练数据集对应的标准结果;

将所述训练数据集输入至所述关键数据提取模型进行特征提取,得到训练结果;

利用预设的损失函数对所述训练结果与标准结果进行损失值计算,得到损失值;

当所述损失值大于或等于预设的损失阈值,调整所述关键数据提取模型的参数,并返回将所述训练数据集输入至所述关键数据提取模型进行特征提取,得到训练结果的步骤;

当所述损失值小于所述损失阈值时,得到标准关键数据提取模型。

可选地,所述利用预设的损失函数对所述训练结果与标准结果进行损失值计算,得到损失值,包括:利用下述公式计算损失值:

其中,

可选地,所述根据所述初始客户数据集生成对比矩阵,包括:

根据所述初始客户数据集中任意两个客户数据的数据长度,构建对应大小的空矩阵;

按照预设规则,将两个所述客户数据依次填入至所述空矩阵中,得到所述对比矩阵。

为了解决上述问题,本发明还提供一种客户数据清洗装置,所述装置包括:

预处理模块,用于获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集;

数据去重模块,用于根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集;

图谱构建模块,用于利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱;

有效性验证模块,用于将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证,将所述有效性验证结果发送给预设的监控终端。

为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的客户数据清洗方法。

为了解决上述问题,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的客户数据清洗方法。

本发明实施例首先对原始客户数据集进行缺失值填充及去异常值处理,以对原始客户数据集中异常的数据进行删除,及缺少的数据进行填充,保证了数据的完整和准确,进一步地,通过对比矩阵并计算所述对比矩阵的重复度,并根据所述重复度在所述客户数据中执行重复数据的去除,,进一步地,通过提取关键数据以及构建客户知识图谱的方式进行有效性的检查,可以提高数据有效性检查的速度以及准确性。因此本发明提出的客户数据清洗方法、装置及计算机可读存储介质,可以提高客户数据清洗方法的效率及准确性。

附图说明

图1为本发明一实施例提供的客户数据清洗方法的流程示意图;

图2为图1所示的客户数据清洗方法中其中一个步骤的流程示意图;

图3为图1所示的客户数据清洗方法中其中一个步骤的流程示意图;

图4为本发明一实施例提供的客户数据清洗装置的模块示意图;

图5为本发明一实施例提供的实现客户数据清洗方法的电子设备的内部结构示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本申请实施例提供一种客户数据清洗方法。所述客户数据清洗方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述客户数据清洗方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示,为本发明实施例提供的一种客户数据清洗方法的流程示意图。在本实施例中,所述客户数据清洗方法包括:

S1、获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集。

本发明实施例利用具有数据抓取功能的python语句从存储所述原始客户数据的数据库中抓取得到所述原始客户数据集。

其中,所述原始客户数据集包括,但不限于客户所属公司的公司名称、公司的社会信用代码、公司的注册号、公司的组织机构号等。

较佳地,在本发明实施例中,所述对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集,包括:

判断所述原始客户数据集是否存在缺失值,当所述原始客户数据集存在缺失值时,对所述原始客户数据集进行数据填充;

判断所述原始客户数据集是否存在异常值,当所述原始客户数据集存在异常值时,删除所述原始客户数据集包含的异常值。

详细地,本发明实施例利用具有缺失值检测功能的java语句来判断所述原始客户数据集是否存在缺失值。具体地,本发明实施例利用所述具有缺失值检测功能的java语句对所述原始客户数据集中的每一条原始客户数据中的属性数据进行长度检测,当检测到属性数据的数值长度不为0时,则确定该属性数据的值未缺失,当检测到属性数据的数值长度为0时,则确定该属性数据的值缺失。本发明实施例中,所述原始客户数据集中包含多个属性和对应属性数值,例如,所述原始客户数据集中存在公司注册号,以及所述公司注册号对应的属性数值,则在进行长度检测时,检测所述原始客户数据集中各个属性数据是否为0。

当所述原始客户数据集存在缺失值时,本发明实施例可以采用现有的缺失值填充方法对所述原始客户数据集进行数据填充。

详细地,现有的缺失值填充方法包括但不限于填充默认值、均值、众数、KNN填充。

进一步地,本发明实施例所述判断所述原始客户数据集是否存在异常值,包括:

计算所述原始客户数据集中每个原始客户数据的邻近数据的局部可达密度比值;

在所述局部可达密度比值小于或等于预设比值时,确定所述原始客户数据为异常值。

具体地,本发明实施例利用如下算法计算所述原始客户数据集中每个原始客户数据的邻近数据的局部可达密度比值LF

其中,N

当所述原始客户数据集中存在异常值时,本发明实施例对所述异常值执行删除操作。

本发明实施例通过对所述原始客户数据集进行数据预处理,可以提高所述原始客户数据集中的数据完整性,并删除无效数据以及错误数据,减少数据冗余,提高数据准确性。

S2、根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集。

参阅图2所示,本发明实施例中,所述根据所述初始客户数据集生成对比矩阵,包括:

S201、根据所述初始客户数据集中任意两个客户数据的数据长度,构建对应大小的空矩阵;

S202、按照预设规则,将两个所述客户数据依次填入至所述空矩阵中,得到所述对比矩阵。

详细地,例如上述初始客户数据集中的任意两个不相同的公司注册号分别为440403000032117和416703000014797,根据所述初始客户数据的长度构建出长度大小的空矩阵,将所述初始客户数据依次填入所述空矩阵中,得到对比矩阵为:

[ 4 4 0 4 0 3 0 0 0 0 3 2 1 1 7

4 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

3 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

4 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]

其中,所述对比矩阵的构建规则为:

判断所述对比矩阵中横排的字符与竖排的字符是否相同;

若所述对比矩阵中横排的词语和竖排的词语不同,则令所述对比矩阵中横排与竖排交叉位置的矩阵数据为0,若所述对比矩阵中横排的词语和竖排的词语相同,则令所述对比矩阵中横排与竖排交叉位置的矩阵数据为1。

例如,在本发明实施例中,横排的词语和竖排的词语都有4,则令两个4交叉位置的矩阵数据为1。

进一步地,本发明实施例利用下述的重复度公式计算所述重复度:

F=α

其中,F为重复度,α、对比矩阵,α

本发明实施例中,计算所述对比矩阵的重复度,当所述重复度大于预设阈值时,剔除所述对比矩阵对应的其中一个客户数据,当所述重复度小于或者等于所述预设阈值时,保留所述对比矩阵对应的客户数据,得到清洗后的标准客户数据集。

S3、利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱。

本发明其中一个实施例中,在所述利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据之前,还包括:对所述关键数据提取模型进行训练。

详细地,所述关键数据提取模型的训练过程包括:

步骤A:生成训练数据集和所述训练数据集对应的标准结果;

步骤B:将所述训练数据集输入至所述关键数据提取模型进行特征提取,得到训练结果;

步骤C:利用预设的损失函数对所述训练结果与标准结果进行损失值计算,得到损失值;

步骤D:当所述损失值大于或等于预设的损失阈值,则说明所述关键数据提取模型的输出结果不够精确,调整所述关键数据提取模型的参数,返回步骤B重新进行关键数据提取;

步骤E:当所述损失值小于所述损失阈值,则说明所述关键数据提取模型的输出结果精确,得到标准关键数据提取模型。

详细地,本发明实施例利用如下所述损失函数对所述训练结果与标准结果进行损失值计算,得到损失值:

其中,

本发明实施例通过训练关键数据提取模型来对所述标准客户数据集进行关键数据提取,可以识别出所述标准客户数据集中的关键数据,从而提高数据分析效率。通过训练模型可提高数据提取的精度,避免人工手动进行数据提取时出现失误。

其中,在本发明实施例中,所述关键数据是指公司名称、公司的社会信用代码、公司的注册号、公司的组织机构号等信息。

参阅图3所示,进一步地,所述根据所述关键数据构建客户知识图谱,包括:

S301、将所述关键数据进行结构化处理,得到结构化数据;

S302、对所述结构化数据进行实体抽取及关系抽取,分别得到实体信息及实体关系;

S303、对所述实体信息及所述实体关系进行信息融合处理,得到所述客户知识图谱。

具体地,在本发明实施例中,所述结构化处理是对所述关键数据进行定义,得到结构化数据。

例如,所述关键数据中包含华为技术有限公司和中兴通讯股份有限公司,将所述华为技术有限公司和所述中兴通讯股份有限公司定义为企业,实现对所述初始客户数据的结构化处理。

所述结构化处理可以使处理后得到的所述结构化数据有规律的存储和排列,方便后续操作。

进一步地,本发明实施例可以采用命名实体识别方法对所述结构化数据进行实体抽取及关系抽取。

进一步地,本发明实施例将所述实体信息、实体关系进行融合处理后得到多个三元组,根据所述三元组得到所述客户知识图谱。所述三元组为“实体+关系=实体”的信息表现形式,例如:公司A的客户为客户B,用三元组表示为“公司A+客户关系=客户B”,公司C的注册号为440403000032117,用三元组表示为“公司C+注册号=440403000032117”。

所述客户知识图谱的图结构可以用于为后续数据有效性检查提供基本的数据结构。

本发明实施例根据所述关键数据构建客户知识图谱,可直观地反映出所述客户知识图谱中多个实体之间的相关关系,提高了利用所述客户知识图谱进行进一步分析的效率。

S4、将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证。

本发明实施例中,从所述客户知识图谱上可以直观得到需要执行有效性检查的数据,并直接将所述需要执行有效性检查的数据与预设的数据进行对比,可以提高数据有效性检查的效率以及准确性。例如根据“公司C+注册号=440403000032117”判断440403000032117是否与预设数据中的注册号一致,若一致,则该项数据通过有效性验证。

S5、将所述有效性验证结果发送给预设的监控终端。

本发明实施例可以将最终的有效性验证结果发送预设的监控终端,以利数据管理员执行数据的进一步分析。

本发明实施例首先对原始客户数据集进行缺失值填充及去异常值处理,以对原始客户数据集中异常的数据进行删除,及缺少的数据进行填充,保证了数据的完整和准确,进一步地,通过对比矩阵并计算所述对比矩阵的重复度,并根据所述重复度在所述客户数据中执行重复数据的去除,,进一步地,通过提取关键数据以及构建客户知识图谱的方式进行有效性的检查,可以提高数据有效性检查的速度以及准确性。因此本发明实施例可以提高客户数据清洗方法的效率及准确性。

如图4所示,是本发明客户数据清洗装置的模块示意图。

本发明所述客户数据清洗装置100可以安装于电子设备中。根据实现的功能,所述客户数据清洗装置100可以包括预处理模块101、数据去重模块102、图谱构建模块103、有效性验证模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。

在本实施例中,关于各模块/单元的功能如下:

所述预处理模块101,用于获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集;

所述数据去重模块102,用于根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集;

所述图谱构建模块103,用于利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱;

所述有效性验证模块104,用于将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证,将所述有效性验证结果发送给预设的监控终端。

详细地,所述客户数据清洗装置100中的各模块在应用时,可以实现一种包括如下述步骤的客户数据清洗:

步骤一、所述预处理模块101获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集。

本发明实施例所述预处理模块101可以利用具有数据抓取功能的python语句从存储所述原始客户数据的数据库中抓取得到所述原始客户数据集。

其中,所述原始客户数据集包括,但不限于客户所属公司的公司名称、公司的社会信用代码、公司的注册号、公司的组织机构号等。

较佳地,在本发明实施例中,所述预处理模块101对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集,包括:

判断所述原始客户数据集是否存在缺失值,当所述原始客户数据集存在缺失值时,对所述原始客户数据集进行数据填充;

判断所述原始客户数据集是否存在异常值,当所述原始客户数据集存在异常值时,删除所述原始客户数据集包含的异常值。

详细地,本发明实施例所述预处理模块101利用具有缺失值检测功能的java语句来判断所述原始客户数据集是否存在缺失值。具体地,本发明实施例所述预处理模块101利用所述具有缺失值检测功能的java语句对所述原始客户数据集中的每一条原始客户数据中的属性数据进行长度检测,当检测到属性数据的数值长度不为0时,则确定该属性数据的值未缺失,当检测到属性数据的数值长度为0时,则确定该属性数据的值缺失。本发明实施例中,所述原始客户数据集中包含多个属性和对应属性数值,例如,所述原始客户数据集中存在公司注册号,以及所述公司注册号对应的属性数值,则在进行长度检测时,检测所述原始客户数据集中各个属性数据是否为0。

当所述原始客户数据集存在缺失值时,本发明实施例所述预处理模块101可以采用现有的缺失值填充方法对所述原始客户数据集进行数据填充。

详细地,现有的缺失值填充方法包括但不限于填充默认值、均值、众数、KNN填充。

进一步地,本发明实施例所述判断所述原始客户数据集是否存在异常值,包括:

计算所述原始客户数据集中每个原始客户数据的邻近数据的局部可达密度比值;

在所述局部可达密度比值小于或等于预设比值时,确定所述原始客户数据为异常值。

具体地,本发明实施例所述预处理模块101利用如下算法计算所述原始客户数据集中每个原始客户数据的邻近数据的局部可达密度比值LF

其中,N

当所述原始客户数据集中存在异常值时,本发明实施例对所述异常值执行删除操作。

本发明实施例通过所述预处理模块101对所述原始客户数据集进行数据预处理,可以提高所述原始客户数据集中的数据完整性,并删除无效数据以及错误数据,减少数据冗余,提高数据准确性。

步骤二、所述数据去重模块102根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集。

本发明实施例中,所述数据去重模块102根据所述初始客户数据集生成对比矩阵,包括:根据所述初始客户数据集中任意两个客户数据的数据长度,构建对应大小的空矩阵;按照预设规则,将两个所述客户数据依次填入至所述空矩阵中,得到所述对比矩阵。

详细地,例如上述初始客户数据集中的任意两个不相同的公司注册号分别为440403000032117和416703000014797,根据所述初始客户数据的长度构建出长度大小的空矩阵,将所述初始客户数据依次填入所述空矩阵中,得到对比矩阵为:

[ 4 4 0 4 0 3 0 0 0 0 3 2 1 1 7

4 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

3 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0

1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

4 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]

其中,所述对比矩阵的构建规则为:

判断所述对比矩阵中横排的字符与竖排的字符是否相同;

若所述对比矩阵中横排的词语和竖排的词语不同,则令所述对比矩阵中横排与竖排交叉位置的矩阵数据为0,若所述对比矩阵中横排的词语和竖排的词语相同,则令所述对比矩阵中横排与竖排交叉位置的矩阵数据为1。

例如,在本发明实施例中,横排的词语和竖排的词语都有4,则令两个4交叉位置的矩阵数据为1。

进一步地,所述数据去重模块102利用下述的重复度公式进行重复度计算:

F=α

其中,F为重复度,α、对比矩阵,α

本发明实施例中,计算所述对比矩阵的重复度,当所述重复度大于预设阈值时,剔除所述对比矩阵对应的其中一个客户数据,当所述重复度小于或者等于所述预设阈值时,保留所述对比矩阵对应的客户数据,得到清洗后的标准客户数据集。

步骤三、所述图谱构建模块103利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱。

本发明其中一个实施例中,在所述利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据之前,还包括:对所述关键数据提取模型进行训练。

详细地,所述关键数据提取模型的训练过程包括:

步骤A:生成训练数据集和所述训练数据集对应的标准结果;

步骤B:将所述训练数据集输入至所述关键数据提取模型进行特征提取,得到训练结果;

步骤C:利用预设的损失函数对所述训练结果与标准结果进行损失值计算,得到损失值;

步骤D:当所述损失值大于或等于预设的损失阈值,则说明所述关键数据提取模型的输出结果不够精确,调整所述关键数据提取模型的参数,返回步骤B重新进行关键数据提取;

步骤E:当所述损失值小于所述损失阈值,则说明所述关键数据提取模型的输出结果精确,得到标准关键数据提取模型。

详细地,本发明实施例利用如下所述损失函数对所述训练结果与标准结果进行损失值计算,得到损失值:

其中,

本发明实施例通过训练关键数据提取模型来对所述标准客户数据集进行关键数据提取,可以识别出所述标准客户数据集中的关键数据,从而提高数据分析效率。通过训练模型可提高数据提取的精度,避免人工手动进行数据提取时出现失误。

其中,在本发明实施例中,所述关键数据是指公司名称、公司的社会信用代码、公司的注册号、公司的组织机构号等信息。

进一步地,所述根据所述关键数据构建客户知识图谱,包括:将所述关键数据进行结构化处理,得到结构化数据;对所述结构化数据进行实体抽取及关系抽取,分别得到实体信息及实体关系;对所述实体信息及所述实体关系进行信息融合处理,得到所述客户知识图谱。

具体地,在本发明实施例中,所述结构化处理是对所述关键数据进行定义,得到结构化数据。

例如,所述关键数据中包含华为技术有限公司和中兴通讯股份有限公司,将所述华为技术有限公司和所述中兴通讯股份有限公司定义为企业,实现对所述初始客户数据的结构化处理。

所述结构化处理可以使处理后得到的所述结构化数据有规律的存储和排列,方便后续操作。

进一步地,本发明实施例可以采用命名实体识别方法对所述结构化数据进行实体抽取及关系抽取。

进一步地,本发明实施例将所述实体信息、实体关系进行融合处理后得到多个三元组,根据所述三元组得到所述客户知识图谱。所述三元组为“实体+关系=实体”的信息表现形式,例如:公司A的客户为客户B,用三元组表示为“公司A+客户关系=客户B”,公司C的注册号为440403000032117,用三元组表示为“公司C+注册号=440403000032117”。

所述客户知识图谱的图结构可以用于为后续数据有效性检查提供基本的数据结构。

本发明实施例根据所述关键数据构建客户知识图谱,可直观地反映出所述客户知识图谱中多个实体之间的相关关系,提高了利用所述客户知识图谱进行进一步分析的效率。

步骤四、所述有效性验证模块104将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证。

本发明实施例中,从所述客户知识图谱上可以直观得到需要执行有效性检查的数据,并直接将所述需要执行有效性检查的数据与预设的数据进行对比,可以提高数据有效性检查的效率以及准确性。例如根据“公司C+注册号=440403000032117”判断440403000032117是否与预设数据中的注册号一致,若一致,则该项数据通过有效性验证。

步骤五、所述有效性验证模块104进一步将所述有效性验证结果发送给预设的监控终端。

本发明实施例可以将最终的有效性验证结果发送预设的监控终端,以利数据管理员执行数据的进一步分析。

如图5所示,是本发明实现客户数据清洗方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如客户数据清洗程序12。

其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如客户数据清洗程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行客户数据清洗程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。

进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的客户数据清洗程序12是多个指令的组合,在所述处理器10中运行时,可以实现:

获取原始客户数据集,对所述原始客户数据集进行缺失值填充及去异常值处理,得到初始客户数据集;

根据所述初始客户数据集生成对比矩阵,并计算所述对比矩阵的重复度,对所述重复度大于预设阈值的对比矩阵对应的客户数据执行去重操作,得到标准客户数据集;

利用预构建的关键数据提取模型对所述标准客户数据集进行数据提取,得到关键数据,并根据所述关键数据构建客户知识图谱;

将所述客户知识图谱与预设数据进行比较,以执行所述标准客户数据集的有效性验证;

将所述有效性验证结果发送给预设的监控终端。

进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。

进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。

此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

相关技术
  • 客户数据清洗方法、装置、电子设备及可读存储介质
  • 数据清洗方法、装置、电子设备及可读存储介质
技术分类

06120112203704