掌桥专利:专业的专利平台
掌桥专利
首页

一种号码的识别方法、装置及可读存储介质

文献发布时间:2023-06-19 19:28:50


一种号码的识别方法、装置及可读存储介质

技术领域

本发明涉及网络安全技术领域,尤其涉及一种号码的识别方法、装置及可读存储介质。

背景技术

近年来,以运营商网络为载体进行的各种类型的骚扰电话愈演愈烈,严重影响运营商品牌形象、造成运营商和用户大量经济损失。其中,骚扰电话由于类型较多(如中介代理、广告推销等),一般的识别方法对骚扰欺诈电话的判定准确率不足,导致对正常用户的误判误检,影响用户感知。

发明内容

本发明所要解决的技术问题是针对现有技术的上述不足,提供一种号码的识别方法、装置及可读存储介质,用以解决现有的识别方法存在误判误检的情形,容易影响用户感知的问题。

第一方面,本发明提供一种号码的识别方法,包括:

获取欺诈号码黑名单以及正常号码白名单;

将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;

基于提取的特征训练分类模型,得到训练好的分类模型;

根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;

基于所述正常号码通信图谱对待识别号码进行识别。

进一步地,所述将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征之前,所述方法还包括:

采集所有手机号码对应的通话话单数据,所述通话话单数据包括主叫号码、被叫号码、通话日期和归属地;

以所述通话话单数据中的主叫号码、被叫号码作为实体,所述归属地作为实体的属性,以通话行为作为关系,所述通话日期作为通话关系的属性,将通话话单数据存储至所述图数据库中。

进一步地,所述提取的特征包括:对端是否为欺诈号码、对端是否为疑似欺诈号码、对端是否为正常号码、出度、入度以及最小共同邻居数,其中,所述出度表示相应号码作为主叫拨出的电话次数,所述入度表示相应号码作为被叫接听的电话次数,所述最小共同邻居数表示相应号码与所述图数据库中相邻号码节点的最小共同邻居数。

进一步地,所述分类模型符合如下公式:

y=ω

其中,n为提取的特征总数,x

进一步地,所述根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱,具体包括:

基于所述分类模型提取出图数据库中类别为正常号码的节点以及相邻关系的节点;

根据所述专家规则对提取出的类别为正常号码的节点以及相邻关系的节点的通信结构进行分析,得到所述正常号码通信图谱。

进一步地,所述基于所述正常号码通信图谱对待识别号码进行识别,具体包括:

若所述待识别号码位于所述正常号码通信图谱中,则确定所述待识别号码为正常号码。

进一步地,所述方法还包括:

根据所述正常号码通信图谱扩充所述白名单。

第二方面,本发明提供一种号码的识别装置,包括:

黑白名单获取模块,用于获取欺诈号码黑名单以及正常号码白名单;

特征提取模块,与所述黑白名单获取模块连接,用于将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;

分类模型训练模块,与所述特征提取模块连接,用于基于提取的特征训练分类模型,得到训练好的分类模型;

通信图谱生成模块,与所述分类模型训练模块连接,用于根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;

号码识别模块,与所述通信图谱生成模块连接,用于基于所述正常号码通信图谱对待识别号码进行识别。

第三方面,本发明提供一种号码的识别装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的号码的识别方法。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的号码的识别方法。

本发明提供的号码的识别方法、装置及可读存储介质,首先获取欺诈号码黑名单以及正常号码白名单;并将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;然后基于提取的特征训练分类模型,得到训练好的分类模型;再根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;最后基于所述正常号码通信图谱对待识别号码进行识别。本申请通过图数据库对正常用户号码的通信行为特征进行研究,能够得到正常号码通信图谱,通过正常号码通信图谱能够实现正常号码的识别,降低在欺诈识别场景中的误判率,提升用户感知,解决了现有的识别方法存在误判误检的情形,容易影响用户感知的问题。

附图说明

图1为本发明实施例1的一种号码的识别方法的流程图;

图2为本发明实施例2的一种号码的识别装置的结构示意图;

图3为本发明实施例3的一种号码的识别装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面将结合附图对本发明实施方式作进一步地详细描述。

可以理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。

可以理解的是,在不冲突的情况下,本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是,为便于描述,本发明的附图中仅示出了与本发明相关的部分,而与本发明无关的部分未在附图中示出。

可以理解的是,本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构。

可以理解的是,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是,本发明的流程图和框图中,示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可代表一个单元、模块、程序段、代码,其包含用于实现规定的功能的可执行指令。而且,框图和流程图中的每个方框或方框的组合,可用实现规定的功能的基于硬件的系统实现,也可用硬件与计算机指令的组合来实现。

可以理解的是,本发明实施例中所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。

实施例1:

本实施例提供一种号码的识别方法,如图1所示,该方法包括:

步骤S101:获取欺诈号码黑名单以及正常号码白名单。

在本实施例中,黑名单中存储有事先通报的欺诈号码,白名单中存储有高忠诚度高价值套餐的正常号码。电信运营商可以定时或不定时的将已知的欺诈号码保存至黑名单,将高忠诚度高价值套餐的正常号码保存至白名单中。

步骤S102:将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征。

在本实施例中,以黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,提取每一个数据的特征,提取的特征如表1所示,包括:对端是否为欺诈号码、对端是否为疑似欺诈号码、对端是否为正常号码、出度、入度以及最小共同邻居数。

表1,提取的特征

其中,“对端是否为欺诈号码”表示当前号码的对端号码是否为黑名单中的欺诈号码,取值为{0,1},1代表是,0代表不是;“对端是否为疑似欺诈号码”表示当前号码的对端号码是否为黑名单中的疑似欺诈号码,取值为{0,1},1代表是,0代表不是;“对端是否为正常号码”表示当前号码的对端号码是否为白名单中的号码,取值为{0,1},1代表是,0代表不是;“出度”表示相应号码作为主叫拨出的电话次数;“入度”表示相应号码作为被叫接听的电话次数;“最小共同邻居数”表示相应号码与图数据库中相邻号码节点的最小共同邻居数,如A与B有通话关系,B与C有通话关系,A与C有通话关系,那么A的最小共同邻居数为1。

可选地,所述将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征之前,所述方法还可以包括:

采集所有手机号码对应的通话话单数据,所述通话话单数据包括主叫号码、被叫号码、通话日期和归属地;

以所述通话话单数据中的主叫号码、被叫号码作为实体,所述归属地作为实体的属性,以通话行为作为关系,所述通话日期作为通话关系的属性,将通话话单数据存储至所述图数据库中。

在本实施例中,为了后续通信图谱结构的识别,构建相应的图数据库。图数据库是以图中的点、边为基础存储单元,以高效存储、查询图数据为设计原理的数据管理系统。可以通过构建图中“点”—实体,“边”—关系来清晰的表达出各独立实体间的关联关系,反映出依赖关系,能够快速响应复杂的关联查询,是存储、查询、分析互联数据的优质方法。具体地,电信运营商采集所有手机号码的通话话单数据,包括主叫号码、被叫号码、通话日期、归属地等指标,其中,归属地可以是号码或用户所对应的省份。将元数据以号码为实体,其属性包括“归属地、电话号码”,以通话行为为关系,通话日期作为通话关系属性,将通话话单数据存储至图数据库中。

步骤S103:基于提取的特征训练分类模型,得到训练好的分类模型。

具体地,所述分类模型符合如下公式:

y=ω

其中,n为提取的特征总数,x

在本实施例中,通过已知的样本集进行分类模型的构建,样本集包括正样本和负样本,在样本集中选择样本(X,Y)输入分类模型,其中X为多个特征的取值集合,n优选为等于6,即x

步骤S104:根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱。

可选地,所述根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱,具体包括:

基于所述分类模型提取出图数据库中类别为正常号码的节点以及相邻关系的节点;

根据所述专家规则对提取出的类别为正常号码的节点以及相邻关系的节点的通信结构进行分析,得到所述正常号码通信图谱。

在本实施例中,根据专家规则对分类模型得到的正常用户节点的通信结构进行研究,辅助其他用户分类模型和常见通话行为模式,得到一个可用来进行正常用户判定的通信图谱,通过该图谱可以对后续业务中产生的新话单/用户通信数据中误判的黑号码进行修正。

需要说明的是,随着欺诈行为和特征的不断演进,本步骤也可以根据分类模型进行定期调整,以确保图谱特征的及时性和准确性。

步骤S105:基于所述正常号码通信图谱对待识别号码进行识别。

在本实施例中,若所述待识别号码位于所述正常号码通信图谱中,则确定所述待识别号码为正常号码,否则,确定所述待识别号码为非正常号码。

在本实施例中,为了降低在欺诈识别场景中的误判率,可以根据所述正常号码通信图谱扩充所述白名单,再通过所述白名单进一步识别正常号码。

在一个具体的实施例中,该号码的识别方法可以包括如下步骤:

(1)电信运营商采集号码通话话单数据,包括主叫号码、被叫号码、通话日期、归属地等指标,为进行后续通信图谱结构识别,将元数据以号码为实体,其属性包括“归属地、电话号码”,以通话行为为关系,通话日期作为通话关系属性,将通话话单数据存储至图数据库中。

(2)导入以通报的欺诈号码为数据的黑名单、以高忠诚度高价值套餐电话号码为数据的白名单,作为识别的种子数据。提取每一个数据的特征:包括:对端是否为欺诈号码、对端是否为疑似欺诈号码、对端是否为正常号码、出度、入度以及最小共同邻居数。

其中,“对端是否为欺诈号码”表示当前号码的对端号码是否为黑名单中的欺诈号码,取值为{0,1},1代表是,0代表不是;“对端是否为疑似欺诈号码”表示当前号码的对端号码是否为黑名单中的疑似欺诈号码,取值为{0,1},1代表是,0代表不是;“对端是否为正常号码”表示当前号码的对端号码是否为白名单中的号码,取值为{0,1},1代表是,0代表不是;“出度”表示相应号码作为主叫拨出的电话次数;“入度”表示相应号码作为被叫接听的电话次数;“最小共同邻居数”表示相应号码与图数据库中相邻号码节点的最小共同邻居数。

(3)通过已知的数据集进行分类模型的构建,其中x表示提取的相关特征。在样本集中选择样本(X,Y)输入模型,其中X为多个特征的取值集合,Y表示当前样本的类别。

y=ω

当样本类别Y=1,即为正常用户,且计算结果y<=0时,更新权重ω与b;当样本类别Y=-1即为非正常用户,且计算结果y>=0时,更新权重ω与b并重复训练,直到对于训练样本集中所有的样本都不满足上述情况,则收敛。

以上,可以得到一个基于黑白名单库和现有数据的分类模型,根据正常用户的通信行为完成其类别的判定。

(4)基于上述完成的分类模型,提取出标签为正常用户的节点及相邻关系节点,经专家研究后得到最具代表性的图谱结构,辅助上述模型完成正常用户的甄别。如,经前期研究发现,图数据库中稳定三角结构的通信关系即可作为标准通信图谱进行正常号码的判定。

(5)通过正常号码通信图谱识别正常号码,扩充企业白名单,降低在欺诈识别场景中的误判率。

本发明实施例提供的号码的识别方法,首先获取欺诈号码黑名单以及正常号码白名单;并将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;然后基于提取的特征训练分类模型,得到训练好的分类模型;再根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;最后基于所述正常号码通信图谱对待识别号码进行识别。本申请通过图数据库对正常用户号码的通信行为特征进行研究,能够得到正常号码通信图谱,通过正常号码通信图谱能够实现正常号码的识别,降低在欺诈识别场景中的误判率,提升用户感知,解决了现有的识别方法存在误判误检的情形,容易影响用户感知的问题。

实施例2:

如图2所示,本实施例提供一种号码的识别装置,用于执行上述号码的识别方法,包括:

黑白名单获取模块11,用于获取欺诈号码黑名单以及正常号码白名单;

特征提取模块12,与所述黑白名单获取模块11连接,用于将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;

分类模型训练模块13,与所述特征提取模块12连接,用于基于提取的特征训练分类模型,得到训练好的分类模型;

通信图谱生成模块14,与所述分类模型训练模块13连接,用于根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;

号码识别模块15,与所述通信图谱生成模块14连接,用于基于所述正常号码通信图谱对待识别号码进行识别。

可选地,所述装置还包括:

话单数据采集模块,用于采集所有手机号码对应的通话话单数据,所述通话话单数据包括主叫号码、被叫号码、通话日期和归属地;

图数据库模块,用于以所述通话话单数据中的主叫号码、被叫号码作为实体,所述归属地作为实体的属性,以通话行为作为关系,所述通话日期作为通话关系的属性,将通话话单数据存储至所述图数据库中。

可选地,所述提取的特征包括:对端是否为欺诈号码、对端是否为疑似欺诈号码、对端是否为正常号码、出度、入度以及最小共同邻居数,其中,所述出度表示相应号码作为主叫拨出的电话次数,所述入度表示相应号码作为被叫接听的电话次数,所述最小共同邻居数表示相应号码与所述图数据库中相邻号码节点的最小共同邻居数。

可选地,所述分类模型符合如下公式:

y=ω

其中,n为提取的特征总数,x

可选地,所述通信图谱生成模块14具体包括:

提取单元,用于基于所述分类模型提取出图数据库中类别为正常号码的节点以及相邻关系的节点;

通信结构分析单元,用于根据所述专家规则对提取出的类别为正常号码的节点以及相邻关系的节点的通信结构进行分析,得到所述正常号码通信图谱。

可选地,所述号码识别模块15具体用于:

若所述待识别号码位于所述正常号码通信图谱中,则确定所述待识别号码为正常号码。

可选地,所述装置还包括:

白名单扩充模块,用于根据所述正常号码通信图谱扩充所述白名单。

实施例3:

参考图3,本实施例提供一种号码的识别装置,包括存储器21和处理器22,存储器21中存储有计算机程序,处理器22被设置为运行所述计算机程序以执行实施例1中的号码的识别方法。

其中,存储器21与处理器22连接,存储器21可采用闪存或只读存储器或其他存储器,处理器22可采用中央处理器或单片机。

实施例4:

本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例1中的号码的识别方法。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically ErasableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

实施例2至实施例4提供的号码的识别装置及可读存储介质,首先获取欺诈号码黑名单以及正常号码白名单;并将所述黑名单中的欺诈号码以及白名单中的正常号码作为种子数据,根据预先获得的图数据库提取每个种子数据对应的特征;然后基于提取的特征训练分类模型,得到训练好的分类模型;再根据预先设置的专家规则对所述分类模型得到的正常号码节点的通信结构进行分析,得到正常号码通信图谱;最后基于所述正常号码通信图谱对待识别号码进行识别。本申请通过图数据库对正常用户号码的通信行为特征进行研究,能够得到正常号码通信图谱,通过正常号码通信图谱能够实现正常号码的识别,降低在欺诈识别场景中的误判率,提升用户感知,解决了现有的识别方法存在误判误检的情形,容易影响用户感知的问题。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

相关技术
  • 一种车牌识别方法、装置、计算机装置及计算机可读存储介质
  • 一种多模式情绪识别方法、装置及计算机可读存储介质
  • 一种垃圾评论识别方法、装置及计算机可读存储介质
  • 一种构件识别方法、装置、设备及计算机可读存储介质
  • 一种标识卡识别方法、装置、系统和可读存储介质
  • 一种异常电话号码识别方法、装置、设备及可读存储介质
  • 号码识别方法、装置、设备以及计算机可读存储介质
技术分类

06120115921088