掌桥专利:专业的专利平台
掌桥专利
首页

结合文本表征的召回方法和系统

文献发布时间:2023-06-19 19:27:02


结合文本表征的召回方法和系统

技术领域

本公开涉及风控领域,尤其涉及结合文本表征的召回方法和系统。

背景技术

同一实体控制不同商户对于风险控制而言是重要的参考信息,例如贷款额度、风控内部的关联排白和关联抓黑等等。

现有的针对属于同一实体的不同商户的召回只是根据身份标识号、邮箱、手机号等信息进行直接关联,对于如文本信息、wifi信息等弱介质利用不充分,不能充分完全地找出具有关联的商户对。

本公开针对但不限于上述诸多因素进行了改进。

发明内容

基于此,本公开提出了一种综合利用各个维度的信息进行召回的方法和系统,从而能够更充分地挖掘出商户之间的关系。具体而言,作为原有关联召回(即通过电话号码、身份标识号、营业执照等的召回)的替换或补充,本公开的方法和系统创新性地将商户的文本信息(诸如商户的名称、商户的地址、WiFi文本信息等)进行向量化,从而使得正样本(属于同一实体)的表征向量相似度更高、负样本(不属于同一实体)的表征向量相似度更低。由此,可以使用这些文本信息来召回属于同一实体的商户,从而能够找出原先不能挖掘出的属于同一实体的商户。

本公开的方法和系统综合考虑了关联召回与向量召回,将推荐系统中的多路召回思想应用到商户关系识别中,在原先身份标识、电话号码、邮箱地址等强介质的基础上,新增WiFI关联,同时根据商户名、商户地址以及WiFI文本名称等进行文本向量检索召回,通过多路召回挖掘出原先不能被覆盖的关系对。此外,本公开的方法和系统在训练样本的选取上考虑了跨领域文本关系对,同时运用多任务学习方法综合考虑了Cosine Sentence(余弦句)和无监督对比学习,提高了模型的泛化能力以及通用表达能力,并在现有数据集上取得了更佳结果。同时,本公开的方法和系统还采用了白化降维的方法,将高维度(例如768维度)的文本向量压缩到低维度(例如32维),大大提高了向量检索的效率。

根据本公开的第一方面,提供了一种结合文本表征的召回方法,包括:获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;将所述文本信息转换成第一向量;基于所述第一向量来确定属于同一实体的候选商户对;以及对候选商户对进行打分和排序以输出属于同一实体的商户对。

根据一实施例,所述方法还包括获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述方法还包括:在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。

根据另一实施例,所述文本信息还包括商户登录历史的IP地址序列,并且所述方法还包括:将所述IP地址序列转换成第二向量;以及基于所述第二向量来确定属于同一实体的候选商户对。

根据又一实施例,所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。

根据又一实施例,所述初步模型是孟子模型。

根据又一实施例,所述训练使用Cosine Sentence方案,并且其中所述CosineSentence方案使用如下损失函数:

根据又一实施例,所述训练还使用对比学习来对所述初步模型进行训练,其中所述对比学习使用SimCSE方案。

根据又一实施例,所述训练还将所述Cosine Sentence方案的损失函数与所述SimCSE方案的损失函数进行加权,以获得经加权的损失函数。

根据又一实施例,所述方法还包括采用白化降维来将文本表征模型所输出的向量进行降维。

根据又一实施例,所述方法还包括应用属于同一实体的商户对来进行风控。

根据本公开的第二方面,提供了一种结合文本表征的召回系统,包括:获取模块,所述获取模块被配置成获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;文本表征模块,所述文本表征模块被配置成将所述文本信息转换成第一向量;识别模块,所述识别模块被配置成基于所述第一向量来确定属于同一实体的候选商户对;以及输出模块,所述输出模块被配置成对候选商户对进行打分和排序以输出属于同一实体的商户对。

根据一实施例,所述获取模块还被配置成获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述识别模块还被配置成在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。

根据另一实施例,所述文本信息还包括商户登录历史的IP地址序列,并且所述文本表征模块被配置还将所述IP地址序列转换成第二向量,所述识别模块还被配置成基于所述第二向量来确定属于同一实体的候选商户对。

根据又一实施例,所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。

根据又一实施例,所述初步模型是孟子模型。

根据又一实施例,所述训练使用Cosine Sentence方案,并且其中所述CosineSentence方案使用如下损失函数:

根据又一实施例,所述训练还使用对比学习来对所述初步模型进行训练,其中所述对比学习使用SimCSE方案。

根据又一实施例,所述训练还将所述Cosine Sentence方案的损失函数与所述SimCSE方案的损失函数进行加权,以获得经加权的损失函数。

根据又一实施例,所述文本表征模块还被配置成采用白化降维来将所输出的向量进行降维。

根据又一实施例,所述系统还包括风控模块,所述风控模块被配置成应用属于同一实体的商户对来进行风控。

根据本公开的第三方面,提供了一种用于结合文本表征的召回的计算系统,包括:处理器;以及存储器,所述存储器存储有计算机可执行指令,所述计算机可执行指令在由所述处理器执行时执行根据本公开的第一方面所述的方法。

各方面一般包括如基本上在本文参照附图所描述并且如通过附图所解说的方法、装备、系统、计算机程序产品和处理系统。

前述内容已较宽泛地勾勒出根据本公开的示例的特征和技术优势以使下面的详细描述可以被更好地理解。附加的特征和优势将在此后描述。所公开的概念和具体示例可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。此类等效训练并不背离所附权利要求书的范围。本文所公开的概念的特性在其组织和操作方法两方面以及相关联的优势将因结合附图来考虑以下描述而被更好地理解。每一附图是出于解说和描述目的来提供的,且并不定义对权利要求的限定。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式,可参照各方面来对以上简要概述的内容进行更具体的描述,其中一些方面在附图中解说。然而应该注意,附图仅解说了本公开的某些典型方面,故不应被认为限定其范围,因为本描述可允许有其他等同有效的方面。不同附图中的相同附图标记可标识相同或相似的元素。

图1示出了根据本公开的一示例实施例的结合文本表征的召回方法的流程图;

图2示出了根据本公开的一示例实施例的结合文本表征的召回系统的示意性框图;以及

图3示出了根据本公开的一示例实施例的用于结合文本表征的召回的计算系统的示意性框图。

具体实施方式

术语解释:

召回:采用一定的策略、特征或模型来确定候选集,然后将候选集用于后续打分、排序模型,以获得搜索结果。

多路召回:采用不同的策略、特征或模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,最后可供下游各种任务使用。

文本表征(Text Representation):文本表征,简单而言就是不将文本视为字符串,而视为在数学上处理起来更为方便的向量(也就是文本特征抽取)。

发明人认识到,不同商户属于同一实体是商户画像中重要的组成部分,目的在于找出直连-直连、直连-间连、间连-间连场景中多个商户属于同一实体控制经营的现象。这一信息最终可被用于服务间连商户直连化、商户贷款额度拉平、风控内部的关联排白和关联抓黑、以及各种其他任务。然而,现有的召回方法只是根据身份标识号、邮箱、手机号等信息进行直接关联,对于诸如文本信息、WiFi信息等弱介质利用不充分。这种现有方式只能可以找到关联较强的商户对,但是对于弱关联的商户对不能有效覆盖,不能完全挖掘出具有关联的商户。

本公开的方法和系统能够综合利用各个维度的信息进行召回,从而能够更充分地挖掘出商户之间的关系。具体而言,作为原有关联召回(即通过电话号码、身份标识号、营业执照等的召回)的替换或补充,本公开的方法和系统创新性地将商户的文本信息(诸如商户的名称、商户的地址、WiFi文本信息等)进行向量化,从而使得正样本(属于同一实体)的表征向量相似度更高、负样本(不属于同一实体)的表征向量相似度更低。由此,可以使用这些文本信息来召回属于同一实体的商户,从而能够找出原先不能挖掘出的属于同一实体的商户。

本公开的方法和系统综合考虑了关联召回与向量召回,将推荐系统中的多路召回思想应用到商户关系识别中,在原先身份标识、电话号码、邮箱地址等强介质的基础上,新增WiFI关联,同时根据商户名、商户地址以及WiFI文本名称等进行文本向量检索召回,通过多路召回挖掘出原先不能被覆盖的关系对。此外,本公开的方法和系统在训练样本的选取上考虑了跨领域文本关系对,同时运用多任务学习方法综合考虑了Cosine Sentence(余弦句)和无监督对比学习,提高了模型的泛化能力以及通用表达能力,并在现有数据集上取得了更佳结果。同时,本公开的方法和系统还采用了白化降维的方法,将高维度(例如768维度)的文本向量压缩到低维度(例如32维),大大提高了向量检索的效率。

以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。

参考图1,其示出了根据本公开的一示例实施例的结合文本表征的召回方法100的流程图。

参考图1,方法100可包括在框110获取与商户相关的文本信息。本领域技术人员将明白,可以按任何合适的方式来获取与商户相关的文本信息。在一示例中,方法100可以接收所输入的商户文本信息。在另一示例中,方法100可以从文件、数据库、表单等等读出商户文本信息。此外,商户的文本信息可以是任何合适的文本信息。在本公开的一实施例中,文本信息可包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者。

接着,在框120,方法100可包括将文本信息转换成第一向量。在此,文本信息转换的目的在于将商户的文本信息(诸如商户名称、商户地址等等)进行向量化,从而使得正样本(属于同一实体的商户对)的表征向量相似度更高、负样本(不属于同一实体的商户对)的表征向量相似度更低。

在本公开的一实施例中,这一转换是通过文本表征模型来实现的。在该实施例中,文本表征模型可以通过对各种合适的初步模型进行训练来得到。例如,初步模型可以是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示。它隐式地学习到了通用的语法语义知识,并它可以将从开放领域学到的知识迁移到下游任务。在进一步的实施例中,方法100可采用了基于Transformer(变换器)架构的中文预训练模型孟子模型。与其他中文语言模型相比,孟子模型最大的特点就是小而精,只用10亿参数就取得了很好的效果。它采用轻量化训练策略,致力于构建十亿参数级别的小模型,充分发挥已有参数下的模型潜力,有利于快速、低成本的落地现实业务场景。下表1中给出了方法100所采用的孟子模型与其他模型相比的性能评估。

表1

从表1中可以看到,本公开所使用的孟子模型(Mengzi)的规模很小(103M或1B,分别指103兆个参数和10亿个参数),而准确率则相对较高(例如,在AFQMC中,相比于BERT的74.16%准确率,Mengzi准确率为74.58%,诸如此类)。

在本公开的又一实施例中,初步模型是使用Cosine Sentence方案来训练的。根据该实施例,所使用的训练数据是经文本匹配的经标注数据。这些经标注数据被用于构建句向量模型,其中所利用到的标注数据是常见的句子对样本,即每条样本是“(句子1,句子2,标签)”的格式。在本公开的优选实施例中,标签可包括正样本标签和负样本标签。

发明人认识到,Cosine Sentence方案中现有的损失函数,例如t(1-cos(u,v))

为此,在本公开的优选实施例中,所使用的Cosine Sentence方案可以使用如下损失函数:

其中λ是超参数,(u

在本公开到又一实施例中,作为Cosine Sentence方案的替换或补充,还使用对比学习来对初步模型进行训练。在该实施例中,对比学习的目的是拉近相似的样本,并推开不相似的样本,从而提升模型的向量表征能力。根据该实施例,对比学习可以使用SimCSE方案。SimCSE利用无监督学习来提升句子的向量表征能力,把Dropout(抛出)作为数据增强的方式构建对比学习的正样本对。

考虑到单任务的训练目标可能会忽略一些相关任务中可能提升目标任务的潜在信息,加入相关的其他任务,可能使得最终的结果更好,在本公开的又一实施例中,优选地,Cosine Sentence方案的损失函数与SimCSE方案的损失函数两者可以进行加权组合,以形成基于Cosine Sentence和对比学习的联合训练方案。

由此,在训练过程中,模型输入是商户相关的文本,包括诸如商户名、商户地址、WiFi文本名称,其中正样本是已经被判定为属于同一实体的文本对。在优选实施例中,为了针对性优化跨领域文本关系匹配问题,文本对可包括商户名-商户名、商户名-商户地址、商户名-WiFi文本名称、商户地址-商户地址共四类。经过训练之后,每个文本对应一个向量。对于每一个批次的向量而言,本公开的模型会计算两个损失函数,一个是有监督的CosineSentence损失函数,另一个是无监督的SimCSE损失函数,并最终将两个损失函数进行加权。

实验结果表明,多任务联合训练能降低过拟合的风险,有更好的泛化能力,模型会去尝试得到适合于所有任务的表征,而不是仅局限于单个任务。在该实施例中,在加权组合时,上述两个损失函数的权重可以是任意选择的。

考虑到文本表征模型的输出向量的维数很高(例如,768维),在上亿级别文本向量检索的过程中,如此高维的数据所消耗的资源过大,在本公开的又一实施例中,方法100还可包括采用白化降维来将文本表征模型所输出的向量进行降维。由此,在模型精度损失很小的情况下,把高维(例如,768维)文本向量压缩到低维(例如,32维),从而大大提高了向量检索的效率。

在该实施例中,假定句向量已经包含了足够的语义,如果用余弦相似度来比较句子对的相似程度效果不好时,那么一个合理的猜测就是:所产生的句向量的坐标基不是标准正交基,即存在各向异性。为了解决句嵌入向量的问题,就需要将句向量转化至标准正交基中。因此,本公开中的白化操作就是将所有句向量转换成均值为0且协方差矩阵为单位矩阵的向量。

继续参考图1,在框130,方法100可包括基于第一向量来确定属于同一实体的候选商户对并且在框140对候选商户对进行打分和排序以输出属于同一实体的商户对。

举例而言,方法100可以采用双塔模型,将第一向量(其可包括商户名称向量、地址向量、商户地址经纬度向量)等等输入双塔模型,通过注意力机制进行数据融合,来形成查询向量,并使用该查询向量来检索具有足够高相似度的候选向量(这一检索也可以采用上述余弦句的损失函数),从而得到商户关系对的精确打分。并且随后,在打分超出预定阈值的情况下,确定该商户与候选商户是属于同一实体的商户对。

本领域技术人员将明白,在框130和140中的操作是本领域任何其他合适的打分和排序方法,在此不再赘述。

在本公开的一实施例中,方法100可获取一个商户的文本信息,将其转换成向量,并且随后基于该向量来与所存储的诸商户的向量进行比对来确定与所获取的商户属于同一实体的候选商户,并将它们组成候选商户对。随后,方法100可以对这些候选商户对进行打分和排序以最终输出属于同一实体的包括该商户的商户对。

在本公开的另一实施例中,方法100可获取两个商户的文本信息并确定这两个商户是否属于同一实体,或者方法100可以获取多个商户的文本信息并确定这些商户中的哪些属于同一实体,在此不再赘述。

将明白,商户的文本信息可包括商户名称、商户地址、WiFi文本名称等等不同类型的文本。如此,在比对确定过程中,方法100将相同类型的文本进行比对,例如将不同商户的商户名称进行比对、不同商户的商户地址进行比对,诸如此类。

随后,所输出的商户对可被应用于各种风控场景,诸如黑白名单管理、关联交易等等,在此不再赘述。

在本公开的又一实施例中,作为文本表征的补充,方法100还可包括获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者。由此,方法100还可包括在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。如此,基于文本表征所获得的的候选商户对(如在步骤130中所述)可被补充,以获得更完整的候选信息。

在本公开的又一实施例中,所获得的文本信息还可包括商户登录历史的IP地址序列,并且方法100还可包括将IP地址序列转换成第二向量以及基于第二向量来确定属于同一实体的候选商户对。

图2示出了根据本公开的一示例实施例的结合文本表征的召回系统200的示意性框图。

如图2所示,系统200可包括获取模块201、文本表征模块203、识别模块205以及输出模块207。在本公开的一实施例中,获取模块201可被配置成获取与商户相关的文本信息,文本表征模块203可被配置成将文本信息转换成第一向量,识别模块205可被配置成基于第一向量来确定属于同一实体的候选商户对,输出模块207可被配置成对候选商户对进行打分和排序以输出属于同一实体的商户对。在本公开的又一实施例中,商户的文本信息可包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者。

本领域技术人员将明白,获取模块201可被配置成按任何合适的方式来获取与商户相关的文本信息。在一示例中,获取模块201可被配置成接收所输入的商户文本信息。在另一示例中,获取模块201可被配置成从文件、数据库、表单等等读出商户文本信息。

在本公开的又一实施例中,获取模块201还可被配置成获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者。在该实施例中,识别模块305还可被配置成在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。

在本公开的又一实施例中,商户的文本信息还可包括商户登录历史的IP地址序列。在该实施例中,文本表征模块203还可被配置成将IP地址序列转换成第二向量,且识别模块205还可被配置成基于第二向量来确定属于同一实体的候选商户对。

在本公开的又一实施例中,转换是通过文本表征模型来实现的。在该实施例中,文本表征模型可以是通过对初步模型进行训练来得到的,例如初步模型可以是孟子模型。进一步根据该实施例,对模型的训练可以使用使用Cosine Sentence方案。在该实施例中,Cosine Sentence方案使用如下损失函数:

其中λ是超参数,(u

其中该训练使得对于任意正样本对(u

在本公开的又一实施例中,训练还可以使用对比学习来对初步模型进行训练。在该实施例中,对比学习可以使用SimCSE方案。

在本公开的优选实施例中,对模型的训练还可以将Cosine Sentence方案的损失函数与SimCSE方案的损失函数进行加权,以获得经加权的损失函数。由此,可以形成基于Cosine Sentence和对比学习的联合训练方案,从而能降低过拟合的风险,有更好的泛化能力,使得模型会去尝试得到适合于所有任务的表征,而不是仅局限于单个任务。

在本公开的又一实施例中,文本表征模块203还可被配置成采用白化降维来将所输出的向量进行降维。

在本公开的又一实施例中,系统200还可任选地包括风控模块209.在该实施例中,风控模块209可被配置成应用属于同一实体的商户对来进行风控。例如,属于同一实体的商户对可被用于黑/白名单设置、关联交易警示等等。

图3示出了根据本公开的一实施例的用于结合文本表征的召回的计算系统300的示意性框图。如图所示,计算系统300包括处理器305和存储器310。存储器310存储有计算机可执行指令315,这些指令可由处理器305执行来实现以上结合图1描述的方法。

由此,本公开的方法和系统将商户关系的识别分成两个阶段:第一阶段是候选关系集多路召回阶段,其在关联召回的基础上,新增了基于向量的召回;第二阶段是下游的商户关系识别阶段,在构建了整体的多路召回关系池后,可根据实际业务需求进行相应的商户关系建模,并且还可用于店员关系识别、泛同人关系识别等等。

将明白,尽管本公开中通过商户描述了各个实施例,本公开的方法和系统也可应用于各种其他场景,诸如不同人员的隶属关系等等。

以上具体实施方式包括对附图的引用,附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而,还构想了包括所示或所述元件的示例。此外,还构想出的是使用所示或所述的那些元件的任何组合或排列的示例,或参照本文中示出或描述的特定示例(或其一个或多个方面),或参照本文中示出或描述的其他示例(或其一个或多个方面)。

在所附权利要求书中,术语“包括”和“包含”是开放式的,也就是说,在权利要求中除此类术语之后列举的那些元件之外的元件的系统、设备、制品或过程仍被视为落在那项权利要求的范围内。此外,在所附权利要求书中,术语“第一”、“第二”和“第三”等仅被用作标记,并且不旨在表明对它们的对象的数字顺序。

另外,本说明书中所解说的各操作的次序是示例性的。在替换实施例中,各操作可以按与附图所示的不同次序执行,且各操作可以合并成单个操作或拆分成更多操作。

以上描述旨在是说明性的,而非限制性的。例如,可结合其他实施例来使用以上描述的示例(或者其一个或多个方面)。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要,并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外,在以上具体实施方式中,各种特征可以共同成组以使本公开流畅。然而,权利要求可以不陈述本文中公开的每一特征,因为实施例可以表征所述特征的子集。此外,实施例可以包括比特定示例中公开的特征更少的特征。因此,所附权利要求书由此被结合到具体实施方式中,一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予权利的等价方案的完整范围来确定。

相关技术
  • 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统
  • 文本检索方法、用于文本检索的倒排表生成方法以及系统
  • 招聘行业文本召回方法及系统、设备与介质
  • 基于长文本标签化的内容召回方法及系统
技术分类

06120115917931