一种基于TF-IDF算法的电信订单拦截方法、系统、设备及存储介质
文献发布时间:2023-06-19 19:28:50
技术领域
本发明属于电信业务技术领域,特别涉及一种基于TF-IDF算法的电信订单拦截方法、系统、设备及存储介质。
背景技术
电信运营商的批量生成订单的过程,存在同一个人购买同时购买多张电信卡的行为,为了避免恶意下单购买,需要针对订单数据进行分析,确定规则,并识别异常订单行为并进行拦截。
针对从不同渠道汇聚过来的用户订单,主要有:订单号,客户姓名,客户手机号码,收货人姓名,收货人联系电话,收货地址,商品名称,下单时间,入网号码等。通过手机号码、收货地址、身份证号的黑名单限制方式判断不能满足全部拦截要求;而通过人工的判断工作量非常大。故急需一种自动判断订单异常的方法。
发明内容
针对上述的问题,本发明提供一种基于TF-IDF算法的电信订单拦截方法、系统、设备及存储介质,该方法包括:
获取用户订单,所述用户订单包括客户姓名、客户手机号码、收货人姓名、收货人手机号码以及收货地址;
判断所述用户订单是否位于黑名单内,若存在于所述黑名单内,则进行拦截;
若不存在于所述黑名单内,则采用TF-IDF余弦相似度算法确定所述收货地址和历史收货地址的相似度;
基于预设阈值确定所述收货地址与所述历史收货地址是否匹配;
若匹配,则进行拦截;若不匹配,则所述用户订单通过并生产。
优选的是,采用TF-IDF余弦相似度算法确定所述收货地址和历史收货地址的相似度包括:
采用TF-IDF模型,分别确定所述收货地址句子特征向量和所述历史收货地址句子特征向量;
采用余弦距离分析法确定所述收货地址句子特征向量和所述历史收货地址句子特征向量。
优选的是,采用TF-IDF模型,确定所述收货地址的句子向量包括:
TF-IDF值分别定义为:
TF=词在句子中出现的次数/该句子的总词数;
IDF=log(历史收货地址中的句子总数/(包含该词的句子数+1));
TF-IDF=TF*IDF;
采用TF-IDF模型对所述句子中包含的词进行加权平均,得到所述收货地址句子特征向量和所述历史收货地址句子特征向量。
优选的是,采用余弦距离分析法确定所述收货地址的句子向量与所述历史收货地址的句子向量的相似度包括:
式中:A
本发明实施例提供的一种基于TF-IDF算法的电信订单拦截的系统,包括:
获取模块,用于获取用户订单,所述用户订单包括客户姓名、客户手机号码、收货人姓名、收货人手机号码以及收货地址;
判断模块,用于判断所述用户订单是否位于黑名单内,若存在于所述黑名单内,则进行拦截;若不存在于所述黑名单内,则采用TF-IDF余弦相似度算法确定所述收货地址和历史收货地址的相似度;
匹配模块,用于基于预设阈值确定所述收货地址与所述历史收货地址是否匹配;若匹配,则进行拦截;若不匹配,则所述用户订单通过并生。
优选的是,采用TF-IDF余弦相似度算法确定所述收货地址和历史收货地址的相似度包括:
采用TF-IDF模型,分别确定所述收货地址句子特征向量和所述历史收货地址句子特征向量;
采用余弦距离分析法确定所述收货地址句子特征向量和所述历史收货地址句子特征向量。
优选的是,采用TF-IDF模型,确定所述收货地址的句子向量包括:
TF-IDF值分别定义为:
TF=词在句子中出现的次数/该句子的总词数;
IDF=log(历史收货地址中的句子总数/(包含该词的句子数+1));
TF-IDF=TF*IDF;
采用TF-IDF模型对所述句子中包含的词进行加权平均,得到所述收货地址句子特征向量和所述历史收货地址句子特征向量。
优选的是,采用余弦距离分析法确定所述收货地址的句子向量与所述历史收货地址的句子向量的相似度包括:
式中:A
本发明实施例提供的一种设备,包括至少一个处理单元以及至少一个存储单元,其中,所述存储单元存储有程序,当所述程序被所述处理单元执行时,使得所述处理单元执行上述所述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行上述所述的方法。
与原有技术相比,本发明的有益效果为:
本发明增加了针对收货地址的相似度的规则拦截,从而提升异常订单拦截的准确性。
附图说明
图1是本发明提供的基于TF-IDF算法的电信订单拦截方法流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1,本发明提供一种基于TF-IDF算法的电信订单拦截方法,该方法包括:
获取用户订单,用户订单包括客户姓名、客户手机号码、收货人姓名、收货人手机号码以及收货地址;
判断用户订单是否位于黑名单内,若存在于黑名单内,则进行拦截;
具体地,判断收货地址、身份证、手机号码是否在黑名单限制,判断的规则是规定的天数是否存在一笔订单,针对此类的字段进行实时的订单监控,如果是纳入黑名单,并进行拦截。
若不存在于黑名单内,则采用TF-IDF余弦相似度算法确定收货地址和历史收货地址的相似度;
基于预设阈值确定收货地址与历史收货地址是否匹配;
若匹配,则进行拦截;若不匹配,则用户订单通过并生产。
进一步地,采用TF-IDF余弦相似度算法确定收货地址和历史收货地址的相似度包括:
采用TF-IDF模型,分别确定收货地址句子特征向量和历史收货地址句子特征向量;
采用余弦距离分析法确定收货地址句子特征向量和历史收货地址句子特征向量。
具体地,采用TF-IDF模型,确定收货地址的句子向量包括:
TF-IDF值分别定义为:
TF=词在句子中出现的次数/该句子的总词数;
IDF=log(历史收货地址中的句子总数/(包含该词的句子数+1));
TF-IDF=TF*IDF;
采用TF-IDF模型对句子中包含的词进行加权平均,得到收货地址句子特征向量和历史收货地址句子特征向量。
进一步地,采用余弦距离分析法确定收货地址的句子向量与历史收货地址的句子向量的相似度包括:
/>
式中:A
在本实施例中,电信运营商已经完成的生产的订单的收货地址进行分析,通过已有的大量历史地址数据,进行文本分析,可知同一个地址的不同叫法。例如:酒仙桥路6号院,酒仙桥6号院,酒仙桥东路6号院是一个地址。
在本实施例中,收货地址为北京朝阳区酒仙桥东路大山子6号院或北京朝阳区大山子6号院;而历史收货地址中为北京朝阳区酒仙桥大山子;采用TF-IDF模型对句子中前三个地址词语权重为1,其余权重为0.8,按照每一级地址的权重,相乘就是匹配度,匹配度越大,说明地址越相似。若相似度大于95%,则进行拦截。
本发明实施例提供的一种基于TF-IDF算法的电信订单拦截的系统,包括:
获取模块,用于获取用户订单,用户订单包括客户姓名、客户手机号码、收货人姓名、收货人手机号码以及收货地址;
判断模块,用于判断用户订单是否位于黑名单内,若存在于黑名单内,则进行拦截;若不存在于黑名单内,则采用TF-IDF余弦相似度算法确定收货地址和历史收货地址的相似度;
匹配模块,用于基于预设阈值确定收货地址与历史收货地址是否匹配;若匹配,则进行拦截;若不匹配,则用户订单通过并生。
进一步地,采用TF-IDF余弦相似度算法确定收货地址和历史收货地址的相似度包括:
采用TF-IDF模型,分别确定收货地址句子特征向量和历史收货地址句子特征向量;
采用余弦距离分析法确定收货地址句子特征向量和历史收货地址句子特征向量。
具体地,采用TF-IDF模型,确定收货地址的句子向量包括:
TF-IDF值分别定义为:
TF=词在句子中出现的次数/该句子的总词数;
IDF=log(历史收货地址中的句子总数/(包含该词的句子数+1));
TF-IDF=TF*IDF;
采用TF-IDF模型对句子中包含的词进行加权平均,得到收货地址句子特征向量和历史收货地址句子特征向量。
进一步地,采用余弦距离分析法确定收货地址的句子向量与历史收货地址的句子向量的相似度包括:
式中:A
本发明实施例提供的一种电子设备,包括至少一个处理单元以及至少一个存储单元,其中,存储单元存储有程序,当程序被处理单元执行时,使得处理单元执行上述的方法。
本发明实施例提供的一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当程序在电子设备上运行时,使得电子设备执行上述的方法。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
- 基于关系数据模型的订单拦截方法、装置、设备及介质
- 一种更改订单信息的方法、装置、电子设备及可读存储介质
- 订单创建系统、方法、电子设备及计算机可读存储介质
- 订单支付方法、系统、计算机设备和存储介质
- 订单的校验方法、系统、电子设备及存储介质
- 基于TF-IDF算法对句子分类的方法、装置及计算机存储介质
- 基于TF-IDF算法的定向网络检测方法、装置、设备及介质