用户识别的方法和装置

文献发布时间：2023-06-19 11:29:13

技术领域

本发明涉及计算机技术领域，尤其涉及一种用户识别的方法和装置。

背景技术

目前，最常见的身份验证手段是密码验证。人们往往习惯性地使用带有个人属性的数字、字母、或其组合作为密码，这些密码复杂度低，易被盗取，对用户隐私及财产安全造成威胁。为了增强用户帐户安全，银行等金融机构开始使用U盾等手段进行二次验证，但依然存在丢失等风险。基于生物特征的识别技术就应运而生。

现有技术中，基于生物特征的识别主要有两种：(1)距离算法：通过对比距离与阈值进行账户是否被盗用的判断；(2)基于支持向量机的特征识别。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

(1)基于距离算法的用户识别方法，无法同时得到满足条件的、较小的FAR(不是用户本人输入，误判为是用户本人输入的比例)和FRR(是用户本人输入，误判为不是用户本人输入的比例)；

(2)传统距离算法在判定一个新的输入是否为用户本人输入时，需要将该次输入数据与历史上所有数据进行对比并计算距离，极大地降低了识别效率；

(3)基于支持向量机的识别方法，由于不存在负样本，在应用中只能将历史上非该用户的特征数据全体作为负样本，导致正负样本量有较大差异，增大分类超平面的不稳定性。

发明内容

有鉴于此，本发明实施例提供一种用户识别的方法和装置，能够大大提高识别效率，并可以同时得到满足条件的、较小的FAR和FRR，稳定性好。

为实现上述目的，根据本发明实施例的一个方面，提供了一种用户识别的方法，包括：

获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；

确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；

判断第一相似度是否小于等于相似度阈值；若是，则判定所述用户是所述目标用户；否则，判定所述用户不是所述目标用户。

可选地，所述多个聚类中心是使用Mean-shift聚类方法对与所述用户标识对应的历史行为特征集进行聚类得到的。

可选地，确定所述登录行为特征和所述多个聚类中心之间的第一相似度，包括：

确定所述登录行为特征与每个所述聚类中心之间的第二相似度；

对与每个所述聚类中心对应的第二相似度进行加权求和，得到所述登录行为特征和所述多个聚类中心之间的第一相似度。

可选地，所述相似度阈值是按照如下步骤确定的：

确定所述历史行为特征集中每两个历史行为特征之间的第二相似度，得到多个第二相似度；以所述多个第二相似度的α分位数作为所述相似度阈值。

可选地，所述相似度为欧式距离。

可选地，所述行为特征包括以下至少之一：

一个按键从被按下至弹起的时间间隔；从一个按键被按下到下一个按键被按下之间的时间间隔；从一个按键弹起到下一个按键弹起之间的时间间隔；从一个按键被按下到之后第二个按键被按下之间的时间间隔。

可选地，判定所述用户是所述目标用户之后，还包括：将所述登录行为特征加入所述历史行为特征集。

根据本发明实施例的第二方面，提供一种用户识别的装置，包括：

获取模块，获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；

确定模块，确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；

识别模块，判断第一相似度是否小于等于相似度阈值；若是，则判定所述用户是所述目标用户；否则，判定所述用户不是所述目标用户。

可选地，所述确定模块还用于：使用Mean-shift聚类方法对与所述用户标识对应的历史行为特征集进行聚类得到所述多个聚类中心。

可选地，所述确定模块确定所述登录行为特征和所述多个聚类中心之间的第一相似度，包括：

确定所述登录行为特征与每个所述聚类中心之间的第二相似度；

对与每个所述聚类中心对应的第二相似度进行加权求和，得到所述登录行为特征和所述多个聚类中心之间的第一相似度。

可选地，所述确定模块还用于：按照如下步骤确定所述相似度阈值：

确定所述历史行为特征集中每两个历史行为特征之间的第二相似度，得到多个第二相似度；以所述多个第二相似度的α分位数作为所述相似度阈值。

可选地，所述相似度为欧式距离。

可选地，所述行为特征包括以下至少之一：

可选地，本发明实施例的装置还包括更新模块，用于在所述识别模块判定所述用户是所述目标用户之后，将所述登录行为特征加入所述历史行为特征集。

根据本发明实施例的第三方面，提供一种用户识别的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

上述发明中的一个实施例具有如下优点或有益效果：本发明根据登录行为特征和多个聚类中心之间的相似度进行用户识别，能够大大提高识别效率，并可以同时得到满足条件的、较小的FAR和FRR，稳定性好。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例的用户识别的方法的主要流程的示意图；

图2是本发明可选实施例中击键时间信息的示意图；

图3是本发明实施例的用户识别的装置的主要模块的示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的一个方面，提供了一种用户识别的方法。

图1是本发明实施例的用户识别的方法的主要流程的示意图，如图1所示，用户识别的方法，包括：

步骤S101、获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；

步骤S102、确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；

步骤S103、判断第一相似度是否小于等于相似度阈值；若是，则跳转至步骤S104；否则，跳转至步骤S105；

步骤S104、判定所述用户是所述目标用户；

步骤S105、判定所述用户不是所述目标用户。

账户标识用于唯一指定用户所登录应用程序的一个账户，例如用户登录邮箱时的邮箱名或者手机号，再例如用户登录银行账户时的手机号或身份证号等。

行为特征是指用户登录账户时的操作行为的特征，即生物行为特征，例如行为特征为用户输入登录密码时敲击键盘的行为的特征，再例如行为特征为用户登录账户身份验证时的手势动作行为的特征。

人类敲击键盘的特征具有以下特点：共同性：每个生物个体都具有该特征；唯一性：该特征与生物个体一一对应，可以唯一标识一个个体；可持续性：该特征在一段时间内能够持续存在，且不会发生变化；可量化：该特征可以转化为相应的数学可描述的变量，便于建立数学模型进行描述。本发明中，将用户敲击键盘的行为称为“击键行为”，将其特征称为“击键行为特征”。当用户账号被盗用时，输入密码时的击键行为特征就会与该用户历史记录产生差异。因此，识别并利用该差异，可以及时有效地识别账户盗用情况，在用户进行登录时，实时做出反馈，当判断结果的确存在异常时，便于做出相应的风控干预。鉴于此，在本发明可选实施例中，所述行为特征包括以下至少之一：一个按键从被按下至弹起的时间间隔；从一个按键被按下到下一个按键被按下之间的时间间隔；从一个按键弹起到下一个按键弹起之间的时间间隔；从一个按键被按下到之后第二个按键被按下之间的时间间隔。

图2是本发明可选实施例中击键时间信息的示意图。图2中的波折线代表用户按下各个按键的行为沿时间顺序展开的过程，图中的向下箭头代表用户按下按键的时刻，向上箭头代表按键弹起的时刻。图中，Hold Time代表一个按键从被按下至弹起的时间间隔；PPLatency代表从一个按键被按下到下一个按键被按下之间的时间间隔；RR Latency代表从一个按键弹起到下一个按键弹起之间的时间间隔；Trigraph代表从一个按键被按下到之后第二个按键被按下之间的时间间隔。

本发明根据登录行为特征和多个聚类中心之间的相似度进行用户识别，与现有技术中在判定一个新的输入是否为用户本人输入时需要将该次输入数据与历史上所有数据进行对比并计算距离相比，能够大大提高识别效率，并可以同时得到满足条件的、较小的FAR(不是用户本人输入，误判为是用户本人输入的比例)和FRR(是用户本人输入，误判为不是用户本人输入的比例)，稳定性好。此外，与现有技术中将历史上非该用户的特征数据全体作为负样本采用支持向量机进行用户识别的方法相比，本发明基于用户自身的历史行为特征进行识别，稳定性好。

在对历史行为特征集进行聚类得到多个聚类中心时，本领域技术人员可以根据实际情况选择聚类方法，例如K-mean(K均值)聚类方法。但是K-means算法必须设定组别的数量，同时K-Means算法需要对组均值进行随机初始化，使得不同组别数量和初始化方式可能导致不同的聚类结果，聚类结果不具备一致性。鉴于此，在可选的实施例中，所述多个聚类中心是使用Mean-shift(基于核密度估计的爬山算法)聚类方法对与所述用户标识对应的历史行为特征集进行聚类得到的。使用Mean-shift聚类方法进行聚类，能够让算法根据自身的数据特征决定适合的组别数量；同时，无需人为选择类别的个数，而且Mean-shift聚类方法是基于滑动窗口的算法，无需对均值随机初始化，聚类结果具备一致性。

可选地，确定所述登录行为特征和所述多个聚类中心之间的第一相似度，包括：确定所述登录行为特征与每个所述聚类中心之间的第二相似度；对与每个所述聚类中心对应的第二相似度进行加权求和，得到所述登录行为特征和所述多个聚类中心之间的第一相似度。

在加权求和时，各个第二相似度的权重可以根据实际情况进行选择性设定，例如预设限定为常数，或者根据各个聚类中心包含的历史行为特征的数量与历史行为特征集中的历史行为特征数量的比值确定。

示例性地，假设有s个聚类中心，登录行为特征与各个聚类中心之间的第二相似度分别为l

式中，l代表登录行为特征和s个聚类中心之间的第一相似度，M

通过对登录行为特征与每个所述聚类中心之间的第二相似度加权求和得到第一相似度值，使得第一相似度能够反映各个聚类中心的样本数量，提高识别结果的准确性。

可选地，所述相似度阈值是按照如下步骤确定的：确定所述历史行为特征集中每两个历史行为特征之间的第二相似度，得到多个第二相似度；以所述多个第二相似度的α分位数作为所述相似度阈值。本实施例中，α分位数的定义为：数列中不大于t的数据量占总数据量的比例为α，那么t就是该数列的α分位数。α的取值可以根据实际情况进行设定，例如设置为90％、95％等。以多个第二相似度的α分位数作为相似度阈值，能够提高识别结果的准确性。

需要说明的是，本发明实施例中的相似度的度量方式可以根据实际情况进行选择性设定，例如以欧式距离、余弦相似度等作为相似度的度量方式。本发明实施例中，可选地所述相似度为欧式距离。采用欧氏距离确定相似度，算法简单、准确性高。

本发明实施例中，判定用户是目标用户之后，还可以包括：将所述登录行为特征加入所述历史行为特征集。如此能够提高该用户的历史行为特征集中的样本数量，提高基于此进行用户识别的准确性。

以下以击键行为特征为例，以用户登录过程中输入账户名和密码为场景，对本发明实施例的用户识别方法进行详细说明。本例中，主要包括三个阶段：

1.数据准确阶段，主要包括用户输入密码、系统提取击键行为特征以及数据清洗三个过程。

用户输入密码阶段，记录用户每一次操作键盘的时间戳，便于后续提取击键行为特征。

提取击键行为特征阶段，击键行为特征包括但不限于以下四种：Hold Time、PPLatency、RR Latency、Trigraph。在实际应用中，可以根据平台要求密码长度选择适当的击键行为特征进行用户识别。

数据清洗阶段，主要是对缺失数据的填充，同时排除显著异常的数据。示例性地，当一组数据中缺失维度较多时，直接滤除；当缺失数据较少时，可选择使用该名用户的其他完整特征数据的同一维度的数据平均值对该缺失数据进行填充。

2.数据计算阶段

设平台用户数量为N，系统分别已获取到k

本阶段的主要计算思路为：

(1)对于用户i，计算历史已有的击键行为特征数据(即历史行为特征集中的行为特征)两两之间的欧式距离，记为d

其中，

(2)对m个欧式距离进行排序，选择α分位数作为相似度阈值，记为t；

(3)使用Mean-shift聚类方法对历史数据进行聚类，得到s个聚类中心，每个聚类中心对应一个类别，每个类别包含样本个数为M

(4)对于用户i新输入的击键行为特征数据

计算其与各个聚类中心的距离，记为l

(5)阈值比较：若l≤t，则新击键行为特征属于用户i本人，即新的一次密码输入是用户本人操作；否则，判定账户被盗用。

3.算法应用阶段：针对用户登录过程中出现的账户盗用问题进行检出。当用户在登陆步骤键入密码时，系统记录用户键入时间戳，并计算得到所需特征时间，结合该用户历史数据，运用上一阶段中的算法，对新的击键行为特征数据进行判断，并对判断出的非本人登陆行为进行阻止，以达到识别账户盗用的目的。

本发明根据登录行为特征和多个聚类中心之间的相似度进行用户识别，能够大大提高识别效率，并可以同时得到满足条件的、较小的FAR和FRR，稳定性好。

根据本发明实施例的第二方面，提供一种实现上述方法的装置。

图3是本发明实施例的用户识别的装置的主要模块的示意图。如图3所示，用户识别的装置300包括：

获取模块301，获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；

确定模块302，确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；

识别模块303，判断第一相似度是否小于等于相似度阈值；若是，则判定所述用户是所述目标用户；否则，判定所述用户不是所述目标用户。

可选地，所述确定模块还用于：使用Mean-shift聚类方法对与所述用户标识对应的历史行为特征集进行聚类得到所述多个聚类中心。

可选地，所述确定模块确定所述登录行为特征和所述多个聚类中心之间的第一相似度，包括：

确定所述登录行为特征与每个所述聚类中心之间的第二相似度；

对与每个所述聚类中心对应的第二相似度进行加权求和，得到所述登录行为特征和所述多个聚类中心之间的第一相似度。

可选地，所述确定模块还用于：按照如下步骤确定所述相似度阈值：

确定所述历史行为特征集中每两个历史行为特征之间的第二相似度，得到多个第二相似度；以所述多个第二相似度的α分位数作为所述相似度阈值。

可选地，所述相似度为欧式距离。

可选地，所述行为特征包括以下至少之一：

根据本发明实施例的第三方面，提供一种用户识别的电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例第一方面提供的方法。

根据本发明实施例的第四方面，提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例第一方面提供的方法。

图4示出了可以应用本发明实施例的用户识别的方法或用户识别的装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的登录请求等数据进行分析等处理，并将处理结果(例如登陆成功后的页面数据--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的用户识别的方法一般由服务器405执行，相应地，用户识别的装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括：获取模块，获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；确定模块，确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；识别模块，判断第一相似度是否小于等于相似度阈值；若是，则判定所述用户是所述目标用户；否则，判定所述用户不是所述目标用户。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“判断第一相似度是否小于等于相似度阈值的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取用户的登录数据，所述登录数据包括账户标识和登录行为特征；确定所述登录行为特征和所述多个聚类中心之间的第一相似度；所述多个聚类中心是对与所述账户标识对应的历史行为特征集进行聚类得到的；所述历史行为特征集唯一对应一个目标用户；判断第一相似度是否小于等于相似度阈值；若是，则判定所述用户是所述目标用户；否则，判定所述用户不是所述目标用户。

根据本发明实施例的技术方案，根据登录行为特征和多个聚类中心之间的相似度进行用户识别，能够大大提高识别效率，并可以同时得到满足条件的、较小的FAR和FRR，稳定性好。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李煜鸣;金姿;
专利申请人：北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司;

上一篇：一种井下煤层瓦斯高效抽采装置
下一篇：用于惯性导航系统装置中陀螺仪零偏参数测试装置及方法