一种行为指纹数据增强的身份鉴别方法及系统

文献发布时间：2023-06-19 18:58:26

技术领域

本发明涉及用户身份识别技术领域，具体涉及一种行为指纹数据增强的身份鉴别方法及系统。

背景技术

身份识别在多个领域有着重要应用，如安全系统，监控，欺诈技术等。目前最常用的基于生物生理特征的识别方法，如人脸、指纹等，通常是一次性完成，需要用户主动参与，还面临着生成对抗网络等新技术带来的挑战。而基于行为特征的识别方法，如击键、步态、日志记录等，一方面，可以隐式地持续认证，另一方面，可以作为多模态生物特征身份识别系统的组成，增强系统的安全性，从而受到了众多研究者的广泛关注。

统计行为发生频率形成用户的兴趣直方图作为行为特征，据此来识别用户是一种简单易行的方法，且获得了较高的识别准确率。直接用直方图作为行为特征忽略了用户行为的序列信息，有研究者通过将用户频繁的连续行为视为一个新行为来解决此问题。但其仅考虑用户间相同的特征，虽然节省了一定的计算资源，却丧失了用户更多的个性化表达，且其利用字符串集合表达序列特征，较大地降低了识别效率。另一个需要解决的问题是利用原始数据提取频率特征需要一定的行为积累，导致能形成的数据样本过少，难以用机器学习达到较好的效果。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种行为指纹数据增强的身份鉴别方法，本发明取得了更好的身份识别效果，同时为利用频率特征识别用户身份提供了新的角度。

本发明的第二目的在于提供一种行为指纹数据增强的身份鉴别系统。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种行为指纹数据增强的身份鉴别方法，包括下述步骤：

获取历史行为日志记录和匿名行为日志记录，对历史行为日志记录、匿名行为日志记录进行数据预处理，得到非匿名数据集和匿名数据集，非匿名数据集按时间划分得到多个非匿名数据子集；

基于非匿名数据集，根据特征提取算法SURE

根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集；

构建基于卷积神经网络的用户识别模型，包括归一化层、卷积层、残差连接及多个通道结果的拼接，将经过初步数据增强后的训练集输入到用户识别模型，进行数据增强训练，得到训练后的用户识别模型；

多次随机擦除验证集某一个时间区间的记录，得到增强后的验证集，将增强后验证集输入训练好的用户识别模型，得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重，同时，每种度量方式也分别对应一个分类器，基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值

将训练集和验证集合并输入到用户识别模型中，重新训练用户识别模型，将测试集输入重新训练后的用户识别模型，得到每个匿名用户与每个已知用户的相似度得分，合并多个验证集得到模板库，根据度量公式计算测试集的样本与模板库的相似度得分；

基于多个相似度得分构建相似度得分矩阵，根据相似度矩阵和各分类器的权重，加权求和得到最终的相似度矩阵，融合多个分类器识别匿名用户身份。

作为优选的技术方案，对历史行为日志记录、匿名行为日志记录进行数据预处理，具体包括：

数据预处理包括噪声数据处理和统一数据格式，对行为采用连续的整数编码，对历史行为记录按预设的分割时间点划分得到多个非匿名数据集。

作为优选的技术方案，基于非匿名数据集，根据特征提取算法SURE

设定扩展行为特征的参数，计算行为编码的占位符；

对非匿名数据集中的用户，提取行为序列，将用户提取的行为特征层次表示为：

其中，u表示用户，L

行为序列表示为：

其中，S

统计行为序列中每个元素出现的次数及行为编号记作

对每个用户求得的扩展行为特征按照其频数从高到低排序，保留特征编号，记为

其中，F

作为优选的技术方案，根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集，具体包括：

针对非匿名数据子集，基于时间均匀分割为多个区间，分别统计用户在每个区间下，联合扩展行为特征元素出现的频数，得到特征矩阵

随机擦除特征矩阵

统计匿名数据集中每个用户关于联合扩展行为特征的出现频数，即每个用户的特征向量，得到测试集。

作为优选的技术方案，构建基于卷积神经网络的用户识别模型，包括归一化层、卷积层、残差连接及多个通道结果的拼接，将经过初步数据增强后的训练集输入到用户识别模型，进行数据增强训练，得到训练后的用户识别模型，具体包括：

对输入的训练集进行归一化，计算输入的训练集为每个已知用户的概率，具体表示为：

其中，Conv表示一维卷积层，

将经过初步数据增强后的训练集输入到用户识别模型中，以添加L

其中，y

迭代循环多次，直至损失函数收敛或达到迭代次数，得到训练后的用户识别模型。

作为优选的技术方案，经过初步数据增强后的训练集采用Mixup算法进行数据增强，具体表示为：

多次随机线性组合一个batch中的两个样本对(X

其中，γ∈[0,1]表示从Beta(α,α)中随机抽取的参数，α表示预设的参数。

作为优选的技术方案，所述度量公式包括：考虑全局特征的相似度或距离度量公式、考虑行为特征具体值的相似度或距离度量公式、考虑对行为的喜好排名的相似度或距离公式。

作为优选的技术方案，还包括相似度得分矩阵归一化处理步骤，将基于多个相似度得分构建得到的相似度得分矩阵进行归一化处理。

作为优选的技术方案，融合多个分类器识别匿名用户身份，对于单个匿名用户的识别，与已知用户有最大相似度的即为识别结果，对于已知是互不相同用户的多个匿名用户识别任务，所有识别结果的相似度和最大则为最终识别结果。

为了达到上述第二目的，本发明采用以下技术方案：

本发明提供一种行为指纹数据增强的身份鉴别系统，包括：数据预处理模块、特征提取模块、数据增强模块、用户识别模型构建模块、用户识别模型训练模块、分类器权重值计算模块、相似度得分计算模块和匿名用户身份识别模块；

所述数据预处理模块用于获取历史行为日志记录和匿名行为日志记录，对历史行为日志记录、匿名行为日志记录进行数据预处理，得到非匿名数据集和匿名数据集，非匿名数据集按时间划分得到多个非匿名数据子集；

所述特征提取模块用于基于非匿名数据集，根据特征提取算法SURE

所述数据增强模块用于根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集；

所述用户识别模型构建模块用于构建基于卷积神经网络的用户识别模型，包括归一化层、卷积层、残差连接及多个通道结果的拼接；

所述用户识别模型训练模块用于将经过初步数据增强后的训练集输入到用户识别模型，进行数据增强训练，得到训练后的用户识别模型，将验证集输入到训练后的用户识别模型，调整超参数并更新用户识别模型的权重值；

所述分类器权重值计算模块用于计算分类器的权重值，多次随机擦除验证集某一个时间区间的记录，得到增强后的验证集，将增强后验证集输入训练好的用户识别模型，得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重，同时，每种度量方式也分别对应一个分类器，基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值；

所述相似度得分计算模块用于计算测试集样本的相似度得分，将训练集和验证集合并输入到用户识别模型中，重新训练用户识别模型，将测试集输入重新训练后的用户识别模型，得到每个匿名用户与每个已知用户的相似度得分，合并多个验证集得到模板库，根据度量公式计算测试集样本与模板库的相似度得分；

所述匿名用户身份识别模块用于输出匿名用户身份识别结果，基于多个相似度得分构建相似度得分矩阵，根据相似度矩阵和各分类器的权重，加权求和得到最终的相似度矩阵，融合多个分类器识别匿名用户身份。

本发明与现有技术相比，具有如下优点和有益效果：

本发明通过对连续行为做整数编码提高了提取扩展特征的效率，联合扩展特征使得用户间的某些相似度计算可以借助矩阵运算加速，同时也保留了用户更多的个性表达，通过擦除和线性组合，在不增加数据采集和存储的成本下增强训练数据，有效提高了识别准确率，支持融合传统的基于度量的识别方法，得到了更可靠和更易于解释的识别结果。

附图说明

图1为本发明行为指纹数据增强的身份鉴别方法的流程示意图；

图2为本发明构造用于匿名用户身份鉴别的联合扩展行为特征的流程图；

图3为本发明基于联合扩展行为特征鉴别匿名用户身份的一维卷积神经网络结构图；

图4为本发明融合基于度量和基于神经网络的匿名身份鉴别的框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本实施例提供一种行为指纹数据增强的身份鉴别方法，包括下述步骤：

S1：对历史行为日志记录和匿名行为日志记录做数据预处理并划分得到非匿名数据集和匿名数据集；

在本实施例中，对历史行为记录和匿名行为记录做数据预处理包括噪声数据处理和统一数据格式，对行为用从1开始的连续的整数编码，对历史行为记录按时间做划分得到多个非匿名数据集。

在本实施例中，使用的数据集为某公司提供的网络电视播放行为记录，原数据格式为＜userID,CurChannel,NextChannel,time,duration＞,剔除其中观看时长(duration)小于5s的噪声记录，按[userID,time]升序排列，并将time转化为date,最终保留的数据格式为＜userID,CurChannel,date＞。其中userID为用户编号；CurChannel为当前观看频道，范围为1-157；date的范围为0-31；设置分割时间点为0,10,11,20,即date在0-10的构成非匿名数据集1，用户集记为

S2：根据特征提取算法SURE

如图2所示，确定用于身份识别的联合扩展行为特征的特征提取算法SURE

S2.1、权衡识别准确度和计算资源的消耗，根据实际需要确定扩展行为特征的参数n，并计算行为编码的占位符

S2.2、对非匿名数据集中的用户u，提取行为序列S

S2.3、用户u的第K层的行为序列为：

S2.4、对每个用户求得的扩展行为特征按照其频数从高到低排序，且仅保留特征编号，记为

S3：根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集；

在本实施例中，根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集，具体包括：

S3.1、对于非匿名数据集j,将时间均匀分割为m

S3.2、随机擦除特征矩阵

S3.3、统计匿名数据集中每个用户关于F

本实施例根据联合扩展行为特征提取三个数据集中用户的特征向量，并做数据增强，得到第一训练集，第一验证集，第二训练集，第二验证集和测试集；

S4：如图3所示，构建基于卷积神经网络的用户识别模型，包括归一化层，卷积层，残差连接及多个通道结果的拼接，输入初步扩增后的训练集训练模型，并根据初步扩增后的训练集进行进一步的数据增强训练；

在本实施例中，构建基于卷积神经网络的用户识别模型及数据增强训练的具体过程为：

S4.1、对输入样本

S4.2、通过卷积层，残差连接，全连接层等计算输入样本为每个已知用户的概率，其数学公式描述如下：

其中，Conv表示一维卷积层，

本实施例的一维卷积层Conv的卷积核尺寸为3，步长为1，并采取补0操作，使卷积运算前后的维度不变，激活函数

S4.3、将初步扩增后的训练集输入到神经网络模型中，以添加L

其中，y

S4.4、对数据做进一步的数据增强，然后输入到步骤S4.3训练过的神经网络模型中，继续训练并更新模型，进一步的数据增强具体指Mixup：多次随机线性组合一个batch中的两个样本对(X

其中，γ∈[0,1]是从Beta(α,α)中随机抽取出来的，α是人为设定的参数，本实施例设定为1；

S4.5、不断重复步骤S4.3和S4.4的过程，直至真实样本的损失收敛或者达到指定的循环次数；

S4.6、将验证集输入到训练后的用户识别模型，调整超参数并更新用户识别模型的权重值；

本实施例将验证集输入训练好的模型，观察损失函数图像和分类准确率，调整超参数，如学习率，正则化系数等；本实施例最终确定的学习率为0.1，动量为0.9，正则化系数为0.001，batchsize为1000，epoch为100；

S5:多次随机擦除验证集某一个时间区间的记录，得到增强后的验证集，将增强后验证集输入训练好的用户识别模型，得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重，同时，每种度量方式也分别对应一个分类器，基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值；

在本实施例中，对于单个匿名用户的识别，与已知用户有最大相似度的即为识别结果，称为NM，对于已知是互不相同用户的多个匿名用户识别任务，所有识别结果的相似度和最大则为最终识别结果，称为GM，公式分别如下描述：

在本实施例中，多次随机擦除验证集某一个时间区间的记录，得到增强后的验证集具体为：

将第一验证集所有用户的特征向量构成的矩阵记为

在本实施例中，根据增强后的验证集计算基于卷积神经网络的用户识别模型分类器权重的具体为：

以第一验证集为例，增强后的验证集

在本实施例中，每种度量方式也分别对应一个分类器，基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值的具体步骤为：

S5.1、基于不同的度量公式计算验证集用户与已知用户的相似度，具体包括：考虑全局特征的相似度或距离度量公式，如Jaccard；考虑行为特征具体值的相似度或距离度量公式，如Cosine,KL；考虑对行为的喜好排名的相似度或距离公式，如Spearman秩相关系数，Kendall-τ秩相关系数；

以第一验证集中的为匿名用户，第二验证集中的为已知用户为例；一个匿名用户与所有已知用户的各相似度计算公式分别为：

S5.2、增强后的验证集根据上述相似度计算方法得到相似度得分矩阵，然后做NM或GM得到识别结果，可求得第一验证集中所有用户的识别准确率和第二验证集中所有用户的识别准确率，求准确率的均值作为各分类器的权重：

S6：合并训练集和验证集，根据确定的参数重新训练网络，测试集的样本输入训练后的神经网络，得到每个匿名用户与每个已知用户的相似度得分；合并多个验证集，得到模板库，根据相似度计算公式计算测试集的样本与模板库的相似度得分；

在本实施例中，基于特征矩阵

合并第一验证集和第二验证集，即对应用户的特征向量相加，根据前述相似度计算公式描述，计算得到匿名数据集中每个匿名用户与所有已知用户

S7：根据获得的多个相似度得分矩阵以及各分类器的权重，融合多个分类器，进而识别匿名用户身份。

如图4所示，根据获得的多个相似度得分矩阵以及各分类器的权重，融合多个分类器，进而识别匿名用户身份，具体包括：

S7.1对求得的多个相似度得分矩阵做归一化，同时保证值越大越相似或值越小越相似，具体表示为：

S7.2根据归一化后的相似度矩阵和各分类器的权重，加权求和得到最终的相似度矩阵，并针对不同的识别任务，采用NM或者GM得到识别结果；

根据归一化后的相似度矩阵和各分类器的权重，加权求和得到不同识别任务下最终的相似度矩阵，具体表示为：

针对不同的识别任务，对相似度矩阵W

实施例2

本实施例提供一种行为指纹数据增强的身份鉴别系统，包括：数据预处理模块、特征提取模块、数据增强模块、用户识别模型构建模块、用户识别模型训练模块、分类器权重值计算模块、相似度得分计算模块和匿名用户身份识别模块；

在本实施例中，数据预处理模块用于获取历史行为日志记录和匿名行为日志记录，对历史行为日志记录、匿名行为日志记录进行数据预处理，得到非匿名数据集和匿名数据集，非匿名数据集按时间划分得到多个非匿名数据子集；

在本实施例中，特征提取模块用于基于非匿名数据集，根据特征提取算法SURE

在本实施例中，数据增强模块用于根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量，选择一个作为验证集，其余的作为训练集，并对训练集做初步的数据增强，根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集；

在本实施例中，用户识别模型构建模块用于构建基于卷积神经网络的用户识别模型，包括归一化层、卷积层、残差连接及多个通道结果的拼接；

在本实施例中，用户识别模型训练模块用于将经过初步数据增强后的训练集输入到用户识别模型，进行数据增强训练，得到训练后的用户识别模型，将验证集输入到训练后的用户识别模型，调整超参数并更新用户识别模型的权重值；

在本实施例中，分类器权重值计算模块用于计算分类器的权重值，多次随机擦除验证集某一个时间区间的记录，得到增强后的验证集，将增强后验证集输入训练好的用户识别模型，得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重，同时，每种度量方式也分别对应一个分类器，基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值；

在本实施例中，相似度得分计算模块用于计算测试集样本的相似度得分，将训练集和验证集合并输入到用户识别模型中，重新训练用户识别模型，将测试集输入重新训练后的用户识别模型，得到每个匿名用户与每个已知用户的相似度得分，合并多个验证集得到模板库，根据度量公式计算测试集样本与模板库的相似度得分；

在本实施例中，匿名用户身份识别模块用于输出匿名用户身份识别结果，基于多个相似度得分构建相似度得分矩阵，根据相似度矩阵和各分类器的权重，加权求和得到最终的相似度矩阵，融合多个分类器识别匿名用户身份。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杨灿;朱莹莹;李嘉豪;
专利申请人：华南理工大学;

上一篇：患者支撑装置、医疗设备成像方法、医疗成像装置及医疗影像系统
下一篇：一种落锁方法、电子设备及可读存储介质