掌桥专利:专业的专利平台
掌桥专利
首页

用于验证用户数据的方法、装置和计算机可读介质

文献发布时间:2023-06-19 11:29:13


用于验证用户数据的方法、装置和计算机可读介质

技术领域

本发明涉及数据处理技术,特别涉及用于验证用户数据的方法以及实施该方法的装置和计算机可读存储介质。

背景技术

对于数据服务商来说,其服务质量高度依赖于数据的真实性和准确性,因此在数据处理领域,数据的真实可靠是一个核心课题。然而在手工录入的数据中,人为的错误不可避免;此外,用户出于自身利益的考量也有可能提供错误的数据。

公开号为CN109858927A的中国专利申请公开了一种商户审核方法。该方法包括下列步骤:接收商户的终端设备发送的商户审核申请,并从所述商户审核申请中提取所述商户的商户标识;根据所述商户标识分别从各个预设的数据源中获取所述商户在各个预设的审核维度上的商户信息;根据各个审核维度上的商户信息构造所述商户的商户信息向量;使用预设的审核模型对所述商户的商户信息向量进行计算,得到所述商户的审核结果,所述审核模型为经过预设的样本集合训练的机器学习模型,所述样本集合中包括审核结果为通过的正样本以及审核结果为不通过的负样本,每个样本均对应于预设的数据库中的一条历史商户审核记录。

为了获得准确的审核结果,上述商户审核方法采用预设的审核模型对商户审核申请进行处理,该模型作为机器学习模型需要积累大量的训练样本,这无疑增加了实施的难度。此外,基于机器学习算法的审核模型无法提供显性的审核规则,当被审核数据出现系统性和/或趋势性的变化(例如用户的行为模式或提供错误数据的模式)时,需要应用新的样本对模型进行训练,因此不够灵活,而且也无法及时更新模型。

由上可见,需要提供一种能够解决上述问题的用于验证用户数据的方案。

发明内容

本发明的一个目的是提供一种用于验证用户数据的方法以及实现该方法的计算机系统和计算机可读存储介质,其具有实施灵活方便和准确性高的优点。

按照本发明一个方面的用于验证用户数据的方法包含在计算机系统处执行的下列步骤:

A1)接收与用户相关联的文本数据和图像数据;

A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;

A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及

A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。

可选地,在上述方法中,所述文本数据用于指示商户名称和场景类别,所述图像数据用于呈现场景画面和商户门头画面。

可选地,在上述方法中,步骤A2)包括:

A21)利用场景分类算法确定所述场景画面所代表的场景类别并且利用光学字符识别算法从所述商户门头画面中提取商户名称;以及

A22)确定场景类别维度和商户名称维度中的至少一个的自洽性,其中,基于从所述场景画面识别的场景类别与所述文本数据指示的场景类别的一致性程度来确定场景类别维度的自洽性,并且基于从所述商户门头画面提取的商户名称与所述文本数据指示的商户名称的一致性程度来确定商户名称维度的自洽性。

可选地,在上述方法中,所述文本数据还用于指示商户地址以及发送文本数据和图像数据的终端的位置信息。

可选地,在上述方法中,在步骤A22)中,还基于所述文本数据指示的商户地址与位置信息的一致性程度来确定地理位置维度的自洽性。

可选地,在上述方法中,所述图像数据还用于呈现商户的证照文件。

可选地,在上述方法中,步骤A3)包括:

A31)利用光学字符识别算法确定所述证照文件中的身份标识信息;

A32)确定身份标识维度、商户名称维度和地理位置维度中的至少一个的匹配性,其中,基于从所述证照文件识别的身份标识信息与本地或远程数据库存储的身份标识信息的一致性程度来确定身份标识维度的匹配性,基于从所述商户门头画面提取的商户名称、所述文本数据指示的商户名称和本地或远程数据库存储的商户名称的一致性程度来确定商户名称维度的匹配性,并且基于所述文本数据指示的商户地址、位置信息和本地或远程数据库存储的商户地址的一致性程度确定地理位置维度的匹配性。

可选地,在上述方法中,步骤A3)包括:

A31)利用分类器,由从所述商户门头画面中提取的商户名称与文本数据所指示的商户名称中的至少一项确定商户所属的行业类别;以及

A32)基于利用所述分类器确定的行业类别与本地或远程数据库存储的行业类别的一致性程度来确定行业类别维度的匹配性。

可选地,在上述方法中,执行下列步骤以生成所述分类器:

B1)获取训练样本集,所述训练样本集包含多个具有行业类别标签并被赋予相应权重的商户名称样本;

B2)利用第一分类器和第二分类器分别生成各个商户名称样本所属行业类别的第一预测概率向量和第二预测概率向量;

B3)基于各个商户名称样本的第一预测概率向量和第二预测概率向量分别确定第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度;以及

B4)联合所述第一分类器和第二分类器以得到所述分类器,其中,基于第一分类器和第二分类器的预测结果相对于行业类别标签的总体偏差程度来确定所述第一分类器和第二分类器的权重。

可选地,在上述方法中,其中,所述第一分类器为双隐层神经网络模型,并且第二分类器为BERT模型。

可选地,在上述方法中,步骤A4)包括:

A41)对所述自洽性和匹配性的每个维度进行量化评分;

A42)通过加权求和每个维度的量化评分得到所述文本数据和图像数据的质量量度;以及

A43)基于所述质量量度来确定所述文本数据和图像数据是否通过验证。

可选地,在上述方法中,在步骤A41)中,利用下列中的一种对所述自洽性和匹配性的每个维度进行量化评分:余弦相似度、Sigmoid函数映射和分段函数。

按照本发明另一个方面的计算机系统包含:

存储器;

处理器;以及

存储在所述存储器上并可在所述处理器上运行的计算机程序以执行下列步骤:

A1)接收与用户相关联的文本数据和图像数据;

A2)确定所述文本数据和图像数据在一个或多个维度上的自洽性;

A3)确定所述文本数据和图像数据与预先存储的本地数据在一个或多个维度上的匹配性;以及

A4)基于所述自洽性和匹配性确定所述文本数据和图像数据是否通过验证。

按照本发明还有一个方面的计算机可读存储介质,其上存储计算机程序,其中,该程序被处理器执行时实现如上所述的方法。

在本发明的一个或多个实施例中,基于数据在多个维度上的自洽性和匹配性对用户数据进行验证,因此提供了较高的验证能力。特别是,在商户名称和场景类别维度上检验文本数据与图像数据之间的自洽性,在地理位置维度上检验输入的商户地址和硬件设备(终端)自动提供的位置信息之间的自洽性,并且在商户名称、地理位置和行业类别维度上检验输入的数据与已有数据之间的匹配性,这使得能够利用数据形式或来源的多样性来提高数据验证能力。此外,在本发明的一个或多个实施例中,利用第一和第二分类器得到用于确定行业类别的分类器,其中第一分类器为结构相对简单的双隐层神经网络模型,而作为第二分类器的BERT模型为自然语言处理领域中的通用型预训练模型,由此可以很好地兼顾训练效率、处理速度以及计算资源等多重因素。

附图说明

本发明的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示。附图包括:

图1为按照本发明一个实施例的用于验证用户数据的方法的流程图。

图2为按照本发明另一个实施例的确定用户数据在行业类别维度上的匹配性的方法的流程图。

图3为按照本发明另一个实施例的生成用于确定行业类别的分类器的方法的流程图。

图4为按照本发明另一个实施例的计算机系统的示意框图。

具体实施方式

下面参照其中图示了本发明示意性实施例的附图更为全面地说明本发明。但本发明可以按不同形式来实现,而不应解读为仅限于本文给出的各实施例。给出的上述各实施例旨在使本文的披露全面完整,以将本发明的保护范围更为全面地传达给本领域技术人员。

在本说明书中,诸如“包含”和“包括”之类的用语表示除了具有在说明书和权利要求书中有直接和明确表述的单元和步骤以外,本发明的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。

诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。

按照本发明的一个或多个实施例,对用户数据的验证基于数据的自洽性和匹配性两个方面,当自洽性和匹配性满足一定的水平时,用户数据才被认为通过验证。

这里所述的自洽性指的是待校验的数据之间的一致性的程度,即,用户提供的同种类型的数据之间的一致性的程度;相应地,每种数据类型对应于自洽性的一个维度。

这里所述的匹配性指的是待校验的数据与已有数据之间的一致性的程度,相应地,每种数据类型对应于匹配性的一个维度。

按照本发明的一个或多个实施例,用户数据可包括文本数据和图像数据,在对数据进行验证时,同种类型的数据可以同时存在于文本数据与图像数据之间,也可仅在于文本数据内或图像数据内。

例如,在一个示例性的实例中,文本数据被用于指示商户名称和场景类别并且图像数据用于呈现场景画面(例如商户内部或外部环境的图像,其可包含商户营业场面,例如顾客就餐的画面、顾客购买商品的画面以及被出售或提供的商品的画面等)和商户门头画面(例如商户门口的图像,其可包含商户名称、商标、商户Logo等信息)。这里所述的商户名称和场景类别可以视为自洽性的两个不同的维度。可以利用场景分类算法确定场景画面所代表的场景类别并且利用光学字符识别算法从商户门头画面中提取商户名称,随后通过判断识别的场景类别与文本数据指示的场景类别的一致性的程度和/或提取的商户名称与文本数据指示的商户名称的一致性的程度来确定数据的自洽性。

在另一个示例性的实例中,文本数据被用于指示商户地址以及发送数据的终端(例如手机、平板电脑、笔记本电脑和个人电脑等)的位置信息(例如卫星定位信息和可由IP地址确定的位置信息)。这里所述的商户地址和终端位置信息可以视为自洽性的一个维度(地理位置维度)。可以通过判断文本数据指示的商户地址与终端位置信息的一致性的程度来确定数据的自洽性。

按照本发明的一个或多个实施例,可以从下列维度中的至少一个来确定用户数据的匹配性:身份标识、商户名称、地理位置和行业类别。

在一个示例性的实例中,文本数据被用于指示身份标识信息(例如统一社会信用代码和身份证号等)、商户名称、场景类别和商户地址,图像数据用于呈现场景画面(例如商户内部或外部环境的图像,其可包含商户营业场面,例如顾客就餐的画面、顾客购买商品的画面以及被出售或提供的商品的画面等)、商户门头画面(例如商户门口的图像,其可包含商户名称、商标、商户Logo等信息)和商户的证照文件(例如营业执照和法人代表的身份证等)。可以利用场景分类算法确定场景画面所代表的场景类别,以及利用光学字符识别算法从商户门头画面中提取商户名称和从证照文件中提取身份标识信息,随后基于从证照文件识别的身份标识信息与现有的身份标识信息的一致性程度(例如统一社会信用代码的一致性)确定身份标识维度的匹配性,基于从商户门头画面提取的商户名称、文本数据指示的商户名称和现有的商户名称的一致性程度确定商户名称维度的匹配性,以及基于文本数据指示的商户地址、位置信息和现有的商户地址的一致性程度确定地理位置维度的匹配性。

可选地,现有的身份标识信息、商户名称和商户地址可以存储在用于验证用户数据的计算机系统的本地数据库中,也可以存储在与该计算机系统分立的数据库中以供前者远程调用。在一个示例性的实例中,计算机系统可以确定在数据库中是否存在与从证照文件识别的身份标识信息对应或匹配的身份标识信息,然后以对应或匹配的身份标识信息为索引查找相应的商户名称和商户地址并将它们与用户数据中包含的相应类型的数据进行比较以确定这些维度上的匹配性。

可选地,在确定自洽性和匹配性时,对于商户名称维度和身份标识信息维度的一致性程度,比较的对象为字符串,并且利用字符及其在字符串中的位置来衡量一致性的程度;对于商户地址维度,一致性的程度可以是商户地址和位置信息所指示的地理范围的交叠程度,其通常可以用一系列的离散值表示,或者商户地址是否位于以位置信息(例如坐标)为中心的、设定半径大小的地理范围的二值判断。

在另一个示例性的实例中,匹配性还包含行业类别维度。具体而言,可以比较用户数据所反映的行业类别(例如可以利用神经网络模型,由文本数据指示的商户名称和/或从图像数据提取的商户名称确定商户所属的行业类别)与现有的行业类别(其可以存储在用于验证用户数据的计算机系统的本地数据库中或者与该计算机系统分立的数据库中以供前者远程调用)的一致性的程度。

用于确定行业类别的神经网络模型可以利用已经标注行业类别的商户名称数据作为训练样本,并且优选地,为提升模型的精确度,该模型可以通过将词向量模型与预训练模型(例如BERT模型)相结合的方式得到,该方式将在下面作详细的描述。

按照本发明的一个或多个实施例,当自洽性和匹配性满足一定的水平时,用户数据才被认为通过验证。在一个示例性的实例中,自洽性和匹配性的每个维度具有各自的权重,可以对自洽性和匹配性的每个维度进行量化评分,然后通过加权求和每个维度的量化评分从而得到用户数据的总体评分或质量量度,而该总体评分可以用来确定用户数据是否通过验证。示例性地,可以设置一个验证阈值,当总体评分大于该阈值时确定用户数据通过验证,否则,则确定用户数据未通过验证。

可选地,可以利用下列中的一种来对每个维度进行量化评分:余弦相似度、Sigmoid函数映射和分段函数。

图1为按照本发明一个实施例的用于验证用户数据的方法的流程图,该方法在计算机系统处执行。在下面的描述中,示例性地但非必须地,所述方法步骤被用于商户数据的校验。

如图1所示,在步骤101,计算机系统接收来自用户A上传的用户数据,该用户数据包括文本数据和图像数据。示例性地,文本数据用于指示商户名称(例如“MARK进口食品折扣店”)、场景类别(例如超市)、商户地址(例如“X市Y路Z号”)和发送数据的终端的位置信息(例如卫星定位坐标信息);图像数据包括商户门头画面(例如包含商户名称、商标、商户Logo等信息)、商户内部营业场景画面(例如陈列商品的货架和收银台)和商户的证照文件(例如营业执照)。

接着进入步骤102,计算机系统利用场景分类算法确定场景画面所代表的场景类别。

随后进入步骤103,计算机系统利用光学字符识别算法从商户门头画面中提取商户名称。

步骤103之后进入步骤104。在该步骤中,计算机系统确定用户数据在商户名称维度、场景类别维度和地理位置维度上的自洽性。具体而言,对于场景类别维度,计算机系统将文本数据指示的场景类别与步骤102中识别的场景类别进行比较以确定二者是否一致;对于商户名称维度,计算机系统将文本数据指示的商户名称与步骤103中识别的商户名称进行比较以确定二者一致性的程度;对于地理位置维度,计算机系统将文本数据指示的商户地址与定位信息进行比较以确定二者一致性的程度(例如可以确定商户地址是否位于以卫星定位坐标信息为中心的、具有设定半径的地理区域内)。

随后进入步骤105,计算机处理系统确定用户数据在商户名称、场景类别、地理位置和行业类别等维度上的匹配性。具体而言,对于场景类别维度,计算机系统将文本数据指示的场景类别和步骤102中识别的场景类别中的至少一个与本地或远程数据库存储的场景类别进行比较以确定该维度的匹配性;对于商户名称维度,计算机系统将文本数据指示的商户名称和步骤103中识别的商户名称中的至少一个与本地或远程数据库存储的商户名称进行比较以确定该维度的匹配性;对于地理位置维度,计算机系统将文本数据指示的商户地址和定位信息中的至少一个与本地或远程数据库存储的地理位置进行比较以确定该维度的自洽性(例如可以确定商户地址是否位于以地理位置(坐标)为中心的、具有设定半径的地理区域内);对于行业类别维度,计算机系统将从商户名称确定的行业类别与本地或远程数据库存储的行业类别进行比较以确定该维度的匹配性。

接着进入步骤106,计算机系统对自洽性和匹配性的每个维度进行量化评分。可选地,可以利用下列中的一种对自洽性和匹配性的每个维度进行量化评分:余弦相似度、Sigmoid函数映射和分段函数。

随后进入步骤107,计算机系统通过加权求和每个维度的量化评分得到用户数据的质量量度。示例性地,用户数据的质量量度Q可以依照下式计算:

这里i为自洽性和匹配性的维度的序号,n为自洽性和匹配性的维度的数量,S

接着进入步骤108,计算机系统基于步骤107得到的质量量度Q来确定文本数据和图像数据是否通过验证。示例性地,可以设置一个阈值T作为判断准则,当质量量度Q大于T时确定用户数据通过验证,否则则确定用户数据未通过验证。

可以基于验证结果对用户数据进行相应的处理。例如对于增量数据(在数据库内不存在相应数据的用户数据),如果验证通过,则将其存储到数据库内,否则则不予接受;对于存量数据(在数据库内存在相应数据的用户数据),如果验证通过,则以更新方式将其存储到数据库内,否则可进行现场验证。

图2为按照本发明另一个实施例的确定用户数据在行业类别维度上的匹配性的方法的流程图。图2所示的方法可应用于图1所示方法的步骤105以确定行业类别维度上的匹配性。

如图2所示,在步骤201,计算机系统利用分类器,由从商户门头画面中提取的商户名称或文本数据所指示的商户名称确定商户所属的行业类别。

随后进入步骤202,计算机系统基于利用分类器确定的行业类别与本地或远程数据库存储的行业类别的一致性程度来确定行业类别维度的匹配性。

图3为按照本发明另一个实施例的生成用于确定行业类别的分类器的方法的流程图。利用图3所述方法生成的分类器可用于图2所示的方法。

如图3所示,在步骤301,获取包含多个商户名称样本χ

随后进入步骤302,利用训练样本集Ω对第一分类器SORTER1进行训练。可选地,第一分类器SORTER1可以是一个双隐层神经网络模型,其以具有固定长度的数字向量为输入并且将每个商户名称样本所属行业类别的预测概率作为输出。每个数字向量对应于一个商户名称样本,其可以下列方式生成:对训练样本集中的每个商户名称样本进行分词处理以形成语料库,随后利用该语料库并借助词向量模型将每个商户名称样本表示为具有固定长度的数字向量。

示例性地,经过训练的第一分类器SORTER1将输出第一预测概率向量{U

接着进入步骤303,利用训练样本集Ω对第二分类器SORTER2进行训练。可选地,第二分类器SORTER2可以是一个BERT模型,其以商户名称样本为输入并且将每个商户名称样本所属行业类别的预测概率作为输出。

示例性地,经过训练的第二分类器SORTER2将输出第二预测概率向量{V

接着进入步骤304,基于各个商户名称样本的第一预测概率向量确定第一分类器SORTER1的预测结果相对于行业类别标签{tag

随后进入步骤305,联合第一分类器SORTER1和第二分类器SORTER2以得到分类器SORTER。在联合的分类器SORTER中,第一分类器SORTER1和第二分类器SORTER2的权重基于各个分类器的预测结果相对于行业类别标签{tag

图4为按照本发明另一个实施例的计算机系统的示意框图。

图4所示的计算机系统40包含存储器410(例如诸如闪存、ROM、硬盘驱动器、磁盘、光盘之类的非易失存储器)、处理器420以及存储在存储器410上并可在处理器420上运行的计算机程序430。

在图4所示的计算机系统中,通过执行计算机程序430可以实现上面借助图1-3所述的方法步骤。

按照本发明的另一方面,还提供了一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行时可实现上面借助图1-3所述的方法。

提供本文中提出的实施例和示例,以便最好地说明按照本技术及其特定应用的实施例,并且由此使本领域的技术人员能够实施和使用本发明。但是,本领域的技术人员将会知道,仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本发明的各个方面或者将本发明局限于所公开的精确形式。

鉴于以上所述,本公开的范围通过以下权利要求书来确定。

相关技术
  • 用于验证用户数据的方法、装置和计算机可读介质
  • 用户验证方法、装置、计算机设备及计算机可读存储介质
技术分类

06120112939610