掌桥专利:专业的专利平台
掌桥专利
首页

检测电话号码准确率的方法、装置、电子设备及存储介质

文献发布时间:2024-04-18 19:53:33


检测电话号码准确率的方法、装置、电子设备及存储介质

技术领域

本发明涉及通信领域,具体而言,涉及一种基于动态小样本实现高置信度检测电话号码准确率的方法、装置、电子设备及存储介质。

背景技术

电话用户在运营商注册开通电话号码时,同时登记了相应的用户信息,这些信息组合起来构成了一种运营商特有的重要数据资产,即电话号码信息。

电话号码信息按登记用户的不同可以分为两类:企业用户登记的是企事业单位信息,包括不限于单位名称、地址,电话,行业分类等,也称作“黄页”(Yellowpages);个人用户登记的是个人信息,包括不限于姓名,地址等,也称作“白页”(Whitepages)。

电话号码信息在互联网时代的广泛应用构成了作为社会诚信体系信息基础设施的重要组成部分。举例而言,当商业银行在线发行信用卡或网站有新用户注册时,为核验用户真实身份银行或网站就会查询运营商的白页信息。类似的利用电话号码信息开展的身份核验服务广泛应用于诸多行业对业务的风险评估模型中。比如在与人民群众生活密切相关的防骚扰防诈骗领域,当用户在接听来电时获得的来电识别提示,就用到了运营商的黄页信息。这些都是最常见的基于电话号码信息的应用场景。

电话号码信息作为一种基础信息,已经被广泛结合应用于各行业的包括风险评估在内的各种计算模型中。所以对它本身的信息准确性的质量评估日益重要,这就需要有效地检测电话号码信息的准确率。

在提出本发明的方法之前,我们先分析传统统计电话号码准确率的方法,并指出其缺陷,以明确本发明方法与它们的区别。

传统的电话号码准确率计算方法有三大缺陷,分别是:数据全量统计成本高;信息人工核验效率低;无法实现连续动态地检测。

首先,全量统计问题。企事业单位的电话号码,加上存在大量电话号码虽以个人名义登记而实际用于企业对外联系和一些小微企业的情况,电话号码信息的绝对数量十分巨大,数量以亿计。传统的检测电话号码信息准确率的方法是与黄页信息(即分行业的企事业单位信息)核对结合起来进行,比如按行业或按地域(区、县、市)对企事业单位信息进行电话核对后进行电话号码信息准确率的统计。这种方法仅适合于对某行业(如医疗、文教、机械制造、银行等),或某地域电话号码信息准确率的统计。实际上是一种局部的全量的统计,成本高,耗时长,且其得出的准确率无法代表整体电话号码的准确率,置信度也无法科学度量。而且,当前随着电话号簿(黄页)被搜索引擎取代,即使这种依托于传统号簿(黄页)编辑发行而进行的局部的全量数据核对也因成本高昂而难于进行。

其次,信息的人工核验问题。运营商的电话号码信息从何而来?又是如何变更的?当用户在运营商营业厅注册电话号码时,登记的信息会经过运营商的人工证照核验流程,所以登记时的电话号码信息可以认为是准确的、权威的,这是电话号码信息最初的来源。随着时间的流逝,企业的名称会发生改变,电话的所有者和使用者也可能分离,私人电话也可能被用于企业,企业也会合并重组甚至停业,每年有数百万计企业主体注销,这些都会导致运营商电话号码信息不准确,这是信息的变更。为了核验电话号码信息正确与否,就需要人工通过呼叫中心与用户联系进行核对,效率较低。

再次,在大数据时代,当我们把数以亿计的电话号码信息作为一个整体去评估其信息质量时,区别于传统的一年统计一次局部的准确率的方式,我们需要能够高效低成本地连续地动态地监控电话号码信息的准确率,需要一种能够连续地动态地检测其整体准确率的方法。

综上,如何科学有效且低成本地检测电话号码信息的准确率,如何通过符合电话号码信息特点的抽样方法使得对其准确率的检测结果既符合预定的置信度标准,通过实现信息核对的自动化节约人工成本,使得获得统计结果的代价最小,成为亟待解决的问题。因此,亟需针对电话号码信息不断动态更新的特点,设计有一种能够连续动态检测准确率的方法来实时反映其质量的最新状态,进而使用该准确率指标来促进这一社会诚信体系基础设施高质量发展。

发明内容

本发明要解决的技术问题是如何科学有效且低成本地检测电话号码信息的准确率,如何通过符合电话号码信息特点的抽样方法使得对其准确率的检测结果既符合预定的置信度标准。

为解决上述技术问题,根据本发明的一个方面,提供一种检测电话号码准确率的方法,该方法用于检测包括固定电话号码、移动电话号码、以及以电话号码为唯一标识的多字段组合的电话号码信息的准确率,多字段组合包括户名、地址、总机标志、行业分类和域名,检测电话号码准确率的方法包括如下步骤:S1、样本抽取,读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布;S2、样本核验,采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致;S3、样本队列,将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,有效时间T和取样长度L为下一步做准备;S4、准确率计算,准确率计算包括单维准确率计算和多维准确率计算,设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程,其中,单维表示电话号码与电话号码信息中某一字段的对应关系,多维表示电话号码对应电话号码信息中多个字段的对应关系,其中,单维准确率计算用于对抽取出的某一样本准确率Ri进行判断,如该样本中户名与核验数据完全一致,则Ri=1,反之Ri=0;多维准确率计算用于对电话号码信息的每个字段数据进行模糊比较,输出每个字段对应的各个维度一致度权重;S5、抽样迭代,按照S3步骤样本队列,以初始样本容量n完成抽样,按照S4准确率计算方法,计算抽样准确率;计算抽样的样本均值和样本方差,其中,当标准差大于经验阀值时,判断为抽样不合格,此时需要扩大样本容量,重复步骤S1至S3,直到标准差小于经验阀值0.01;当标准差小于经验阀值时,其样本均值即为电话号码信息准确率。

根据本发明的实施例,步骤S4中,单维准确率计算中,计算样本均值

其中,单个样本的准确率为Ri,样本核验一致的比例为p,抽样数量为n,样本均值为

计算标准差σ的公式为:

计算单维准确率区间μ的公式为:

根据本发明的实施例,步骤S4中,多维准确率计算中进行模糊计算,模糊计算可包括如下步骤:S41、对多维信息中单个字段信息进行分词、去除停用词,得到训练数据;S42、输入训练数据,通过Python的Gensim包中的word2vec训练,得到单个字段信息的语料模型;S43、对样本记录与核验结果记录中的单个字段数据分别做分词,通过语料模型适配得到词向量;S44、样本记录与核验记录中的单个字段数据分词后的向量简单相加后,两者的余弦相似度即为单个维度的准确率。其取值范围是[-1,1],取值越大表示越相似,1代表完全一致。

根据本发明的实施例,步骤S4中,多维准确率计算中,设各维度权重为Wi,各维度准确率为Di,维度数量为d,

其中,计算单个多维样本准确率可公式为:

单个样本的准确率为Ri,抽样容量为n,样本均值为

计算样本均值

计算标准差σ的公式为:

计算多维准确率区间μ的公式为:

根据本发明的实施例,步骤S5中,初始样本容量n可设置为100。

根据本发明的实施例,步骤S1中,读取电话号码对应的电话号码信息作为待核验样本时,按照默认可设定为每隔30分钟时间间隔数据进行动态抽样,从电话号码信息库中随机抽取默认可设定数量为1000的电话号码,读取电话号码对应的电话号码信息作为待核验样本。

根据本发明的第二个方面,提供一种检测电话号码准确率的装置,其包括:样本抽取模块,用于读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布;样本核验模块,用于采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致;样本队列模块,用于将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,有效时间T和取样长度L为下一步做准备;准确率计算模块,准确率计算包括单维准确率计算和多维准确率计算,准确率计算模块用于设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程。

根据本发明的实施例,该装置还包括:抽样迭代模块,用于基于样本队列模块和准确率计算模块进行抽样迭代计算输出满足经验阀值的电话号码信息准确率。

根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的检测电话号码准确率程序,检测电话号码准确率程序被处理器执行时实现上述的检测电话号码准确率方法的步骤。

根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有检测电话号码准确率程序,检测电话号码准确率程序被处理器执行时实现上述的检测电话号码准确率方法的步骤。

与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:

电话号码信息作为当今大数据时代各行业数字化平台的基础数据,在包括风险评估在内的各种模型中具有重要作用,对其准确性的评估具有重要实用意义。本发明将概率与数理统计的基本原理引入对电话号码信息准确率的检测,改进了传统的高成本低效率不可靠的局部全量检测方法,可以在全局范围内对运营商的电话号码信息准确率进行科学检测。在保证准确率置信度高于95%的前提下,可以通过迭代计算自动动态调整所需样本集合大小,减少人工干预。给出了针对电话号码信息两种类型(即单维和多维)分别的建模方法和准确率计算公式。并提出一个特别设计的样本队列自动抽取电话号码信息样本,实现低成本动态连续计算准确率的目的。

本发明利用中心极限定理通过抽样统计计算电话号码信息的准确率,按“入库时间等距”随机抽样方法保证样本抽取的随机性,对于数以亿计的电话号码信息准确率而言,应用本方法具有高可靠,设置置信度95%以上,通过连续动态计算准确率、自动抽样实现低成本和动态自动化检测。

本发明结合使用一个特别设计的样本队列自动抽取电话号码信息样本,达到连续动态获得在目标置信度内的电话号码信息准确率的区间估计的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。

图1是示出根据本发明实施例的检测电话号码准确率的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。

除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。

检测电话号码准确率的方法用于检测包括固定电话号码、移动电话号码、以及以电话号码为唯一标识的多字段组合的电话号码信息的准确率,多字段组合包括户名、地址、总机标志、行业分类和域名。

图1是示出根据本发明实施例的检测电话号码准确率的方法流程图。

如图1所示,检测电话号码准确率的方法包括如下步骤:

S1、样本抽取,读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布。

电话号码:可以是包含区号的固定电话号码;也可以是移动电话号码。举例:(021-12345678,18912345678)。

电话号码信息:以电话号码为唯一标识(主键)的对应多字段的组合,即(电话号码:户名,地址,总机标志,行业分类,域名)。举例:(021-12345678:上海第三机械公司,南京西路100号,‘Y’,‘机械制造’,“www.shdsjx.cn”)

S2、样本核验,采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致。

S3、样本队列,将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,有效时间T和取样长度L为下一步做准备。

S4、准确率计算,准确率计算包括单维准确率计算和多维准确率计算,设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程。

其中,单维表示电话号码与电话号码信息中某一字段的对应关系,多维表示电话号码对应电话号码信息中多个字段的对应关系;单维准确率为电话号码对应电话号码信息中某一个字段的准确率,多维准确率为电话号码对应电话号码信息所有字段的加权平均准确率。

其中,单维准确率计算用于对抽取出的某一样本准确率Ri进行判断,如该样本中户名与核验数据完全一致,则Ri=1,反之Ri=0;多维准确率计算用于对电话号码信息的每个字段数据进行模糊比较,输出每个字段对应的各个维度一致度权重。

S5、抽样迭代,按照S3步骤样本队列,以初始样本容量n完成抽样,按照S4准确率计算方法,计算抽样准确率;计算抽样的样本均值和样本方差,

其中,当标准差大于经验阀值时,判断为抽样不合格,此时需要扩大样本容量,重复步骤S1至S3,直到标准差小于经验阀值0.01;当标准差小于经验阀值时,其样本均值即为电话号码信息准确率。

本发明利用中心极限定理通过抽样统计计算电话号码信息的准确率,按“入库时间等距”随机抽样方法保证样本抽取的随机性,对于数以亿计的电话号码信息准确率而言,应用本方法具有高可靠,设置置信度95%以上,通过连续动态计算准确率、自动抽样实现低成本和动态自动化检测。本发明结合使用一个特别设计的样本队列自动抽取电话号码信息样本,达到连续动态获得在目标置信度内的电话号码信息准确率的区间估计的目的。

根据本发明的一个或一些实施例,步骤S4中,单维准确率计算中,计算样本均值

其中,单个样本的准确率为Ri,样本核验一致的比例为p,抽样数量为n,样本均值为

计算标准差σ的公式为:

计算单维准确率区间μ的公式为:

根据本发明的一个或一些实施例,步骤S4中,多维准确率计算中进行模糊计算,包括如下步骤:

S41、对多维信息中单个字段信息进行分词、去除停用词,得到训练数据。

S42、输入训练数据,通过Python的Gensim包中的word2vec训练,得到单个字段信息的语料模型。

S43、对样本记录与核验结果记录中的单个字段数据分别做分词,通过语料模型适配得到词向量。

S44、样本记录与核验记录中的单个字段数据分词后的向量简单相加后,两者的余弦相似度即为单个维度的准确率。其取值范围是[-1,1],取值越大表示越相似,1代表完全一致。

根据本发明的一个或一些实施例,步骤S4中,多维准确率计算中,设各维度权重为Wi,各维度准确率为Di,维度数量为d,

其中,计算单个多维样本准确率公式为:

单个样本的准确率为Ri,抽样容量为n,样本均值为

计算样本均值

计算标准差σ的公式为:

计算多维准确率区间μ的公式为:

根据本发明的一个或一些实施例,步骤S5中,初始样本容量n设置为100。

根据本发明的一个或一些实施例,步骤S1中,读取电话号码对应的电话号码信息作为待核验样本时,按照默认设定为每隔30分钟时间间隔数据进行动态抽样,从电话号码信息库中随机抽取默认设定数量为1000的电话号码,读取电话号码对应的电话号码信息作为待核验样本。

电话号码信息作为当今大数据时代各行业数字化平台的基础数据,在包括风险评估在内的各种模型中具有重要作用,对其准确性的评估具有重要实用意义。本发明将概率与数理统计的基本原理引入对电话号码信息准确率的检测,改进了传统的高成本低效率不可靠的局部全量检测方法,可以在全局范围内对运营商的电话号码信息准确率进行科学检测。在保证准确率置信度高于95%的前提下,可以通过迭代计算自动动态调整所需样本集合大小,减少人工干预。给出了针对电话号码信息两种类型(即单维和多维)分别的建模方法和准确率计算公式。并提出一个特别设计的样本队列自动抽取电话号码信息样本,实现低成本动态连续计算准确率的目的。

根据本发明的第二个方面,提供一种检测电话号码准确率的装置,其包括:样本抽取模块、样本核验模块、样本队列模块和准确率计算模块。

样本抽取模块,用于读取电话号码对应的电话号码信息作为待核验样本,电话号码信息具有记录到数据库中时的入库时间,采用按入库时间等距随机抽样的方法进行抽样,以保证抽样的随机性,其中,将电话号码信息的数据首先按入库时间排序,然后用总数据量除以抽样数得到抽样间隔,并在抽样间隔内随机抽取一个号码作为样本,按抽样间隔等距抽样,直到完成抽样,从而确保了样本在时间维度上的平均分布。

样本核验模块,用于采用自动电话拨测辅助以人工的方式完成对抽取出的样本核验,电话号码验证信息是否正确,其中,自动电话拨测以人工智能机器人的方式对电话用户进行电话核对信息,输出核验结果,以确认核验后校验数据是否与原电话号码信息一致。

样本队列模块,用于将已成功校验的样本随机抽样,使用先进先出的队列结构存储到电话号码信息库中,设置有效时间T和取样长度L,其中,有效时间T为距离开始计算时间t之前的T时长时间范围,取样长度L为单次抽数样本的数量,有效时间T和取样长度L为下一步做准备。

准确率计算模块,准确率计算包括单维准确率计算和多维准确率计算,准确率计算模块用于设定动态计算周期时长,按照动态计算周期时长进行单维准确率计算和多维准确率计算,基于样本队列依据单维准确率计算和多维准确率计算,计算出2倍标准差的置信度95%范围内的准确率区间值,并动态输出计算结果,完成动态检测电话号码信息准确率的过程。

根据本发明的一个或一些实施例,该装置还包括:抽样迭代模块,用于基于样本队列模块和准确率计算模块进行抽样迭代计算输出满足经验阀值的电话号码信息准确率。

根据本专利提出的方法和装置,实施某运营商电话号码信息库准确率的动态检测,分别计算单维准确率和多维准确率。

(1)单维准确率

设抽样数量n=1000进行抽样。得到样本集合R{0,1,1,…,0,1,1},根据样本均值公式:

根据标准差公式:

根据准确率区间公式

(2)多维准确率

根据单样本准确率公式:

计算得到单样本准确率R=0.91876。取样本容量n=100,得到10次抽样准确率集合:

(0.91876,0.88738,0.92768,0.87454,0.86325,0.88913…0.95622,0.93329,0.85881,0.87699)。根据样本均值公式:

扩大样本容量n至1000,得到1000次抽样准确率集合(0.91876,0.92326,0.91989,…,0.89648)。根据样本均值公式:

根据准确率区间公式

根据本发明的又一方面,提供一种检测电话号码准确率的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的检测电话号码准确率程序,检测电话号码准确率程序被处理器执行时实现上述的检测电话号码准确率方法的步骤。

根据本发明还提供一种计算机存储介质。

计算机存储介质上存储有检测电话号码准确率程序,检测电话号码准确率程序被处理器执行时实现上述的检测电话号码准确率方法的步骤。

其中,在所述处理器上运行的检测电话号码准确率程序被执行时所实现的方法可参照本发明检测电话号码准确率方法各个实施例,此处不再赘述。

本发明还提供一种计算机程序产品。

本发明计算机程序产品包括检测电话号码准确率程序,所述检测电话号码准确率程序被处理器执行时实现如上所述的检测电话号码准确率方法的步骤。

其中,在所述处理器上运行的检测电话号码准确率程序被执行时所实现的方法可参照本发明检测电话号码准确率方法各个实施例,此处不再赘述。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。

相关技术
  • 一种液位检测装置和包含其的设备以及液位检测方法、电子设备及计算机可读存储介质
  • 手势关键点检测方法、装置、电子设备及存储介质
  • 加密恶意流量检测方法、装置、电子设备及存储介质
  • 对象检测方法及装置、电子设备和存储介质
  • 一种卡顿检测方法、装置、电子设备和存储介质
  • 模型准确率评估方法、装置、电子设备及计算机存储介质
  • 单仓配煤准确率确定方法、装置、电子设备及存储介质
技术分类

06120116338883