掌桥专利:专业的专利平台
掌桥专利
首页

基于大数据的候选内容推送方法

文献发布时间:2023-06-19 11:22:42


基于大数据的候选内容推送方法

技术领域

本发明涉及大数据,特别涉及一种基于大数据的候选内容推送方法。

背景技术

近年来,随着互联网的迅猛增长,互联网图片的爆发性增长及安全监控设备的日益普及,每天都会产生海量的人脸图像数据,在这样大规模人脸数据库中,快速检索到自己感兴趣的一部分人脸图像已成为一个迫切的需求。

目前,人脸检测和识别技术在各领域得到广泛应用,成为当前的一项研究热点。相似人脸搜索,即是给定一张待查找人脸,要从包含数十万甚至更多人脸的图像库中找到与其长相相似的结果,并返回按照其相似程度排序的图片序列。面对海量的人脸图像数据,需要对人脸数据进行有效的组织索引及查找分析,从而高效的搜索人脸图像。传统的方法是提取人脸图像的高维复杂的特征且要线性遍历整个人脸库来寻找最相似的人脸,检索速度慢。

发明内容

为解决上述现有技术所存在的问题,本发明提出了一种基于大数据的候选内容推送方法,包括:

一种基于大数据的候选内容推送方法,其特征在于,包括:

在图像库中存储推送系统的用户的多个图像;

在所述多个图像的每个图像中确定所述推送系统的多个用户的人脸特征,所述人脸特征包括高级特征和低级特征;

基于所确定的人脸特征,为所述多个图像中的每个图像生成人脸属性张量,其中每个人脸属性张量包括对应于高级特征的第一张量部分和对应于低级特征的第二张量部分;

识别推送系统的目标用户的第一图像;确定第一图像的第一人脸属性张量,第一人脸属性张量包括对应于目标用户的高级特征的高级部分和对应于目标用户的低级特征的低级部分;

通过以下步骤从多个图像中识别图像子集:

将来自多个图像的人脸属性张量的第一张量部分与第一图像的第一人脸属性张量的高级部分进行比较;以及基于所述比较,从所述多个图像中排除不与所述第一图像共享多个高级特征的图像;并根据所识别的图像子集,通过将来自所识别的图像子集的人脸属性张量的第二张量部分与来自第一图像的第一人脸属性张量的高级部分进行比较,来确定包括与目标用户具有相似人脸的推送系统的多个候选用户的多个图像;以及

所述推送系统向目标用户提供多个接口,用于与推送系统中与目标用户具有相似人脸的多个候选用户进行交互。

优选地,其中每个人脸属性张量在n维空间中生成,其中n对应于由每个人脸属性张量表示的人脸特征的数量。

优选地,还包括为所述推送系统的多个候选用户中的每一个确定相对于所述目标用户的低级人脸特征的相似度分值。

优选地,还包括确定为所述推送系统的多个候选用户确定的多个低级的人脸特征相似度分值满足最小低级人脸特征阈值。

优选地,所述目标用户的低级特征中的多个低级特征包括所述目标用户的第一图像内的多个点之间的多个测量距离。

优选地,还包括利用人脸属性机器学习模型来确定人脸属性张量。

优选地,接收所述目标用户所确认的对所述推送系统的多个候选用户的多个图像具有与所述目标用户的人脸相似度;

基于所述确认结果,修改人脸相似度匹配机器学习模型;

基于修改的人脸相似度匹配机器学习模型,从多个附加用户的多个图像中识别与目标用户具有相似人脸的多个附加图像;以及

提供多个接口,用于与目标用户具有相似人脸的多个附加用户进行交互。

优选地,其中,从目标用户的第一图像和第二图像中为目标用户确定第一人脸属性张量。

优选地,其中根据目标用户的第一图像和第二图像确定目标用户的第一人脸属性张量包括,将目标用户的第一图像第二人脸属性张量与为目标用户的第二图像确定的第三人脸属性张量进行合并。

优选地,针对与所述目标用户具有人脸相似度的所述多个候选用户中的每一个,确定与所述目标用户的共同性分值;以及基于共同性分值来排序多个候选用户的推送结果。

本发明相比现有技术,具有以下优点:

本发明提出了一种基于大数据的候选内容推送方法,人脸相似度计算不单依据人脸整体特征,还可依据不同局部区域的相似度的组合;通过调节各个五官区域权重的方式定义个性化的相似性,从而达到最优的用户体验。采用多层特征更具有描述性,更好地反映人脸属性的特点,使得人脸推送结果更加鲁棒稳定。

附图说明

图1是根据本发明实施例的基于大数据的候选内容推送方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的某些或所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于大数据的候选内容推送方法。图1是根据本发明实施例的基于大数据的候选内容推送方法流程图。

本发明公开的实施例描述了一种人脸识别推送系统,首先识别用户的图像,包括图像中的人脸特征,从与用户人脸相似的图像库中识别候选用户的图像,并向用户推送所识别的相似用户。维护用户的图像库,所述图像库中的每个图像包括用户的多个人脸特征。人脸特征包括人脸的物理特性,并采用人脸属性张量来表示人脸特征。在推送所识别的相似用户之后,允许用户与每个相似用户进行交互。在某些实施例中,人脸识别推送系统从图像库中计算用户图像和候选用户图像之间的相似度分值。基于相似度分值来确定相似用户的推送顺序。

可选地,在识别相似用户之后,所述人脸识别推送系统使用共同性分值来组织相似用户的推送。例如,人脸识别推送系统确定用户和每个识别的相似用户之间的社交图相似度。然后,基于每个相似用户的共同性分值,将相似用户进行组织和排序并推送给用户,从而将与用户有更多共同画像的相似用户优先于具有更高相似度分值的相似用户。

在图像库过大的情况下,所述人脸识别推送系统利用图像库子集来执行人脸相似度识别。人脸识别推送系统使用分类、标签或其他标识符包括元数据来初步过滤掉集合中具有与用户人脸相似的低概率的图像,以减少需要分析的图像数量。在使用元数据来减小图像库的示例中,人脸识别推送系统检测用户的各种人脸特征和属性,从图像本身导出元数据,或使用外部元数据来标识图像子集,外部元数据包括用户输入的数据、图像创建属性,或其他元数据。例如,所述人脸识别推送系统利用外部元数据来确定候选用户处于与该用户相同的阈值年龄范围内,并且因此对于该用户来说更有可能是相貌接近的用户。

在某些实施例中,人脸识别推送系统允许用户对相貌接近的用户对用户的准确程度进行排名或评分。人脸识别推送系统可以使用验证来重新训练、重新学习,并向用户提供改进的相似推荐结果。

如上所述,人脸特征包括数学特征和测量值,或人脸的点、边或部分之间的关系。具体的,所述人脸识别推送系统生成人脸属性张量,该张量表示从用户人脸识别的多个属性。人脸属性张量包括对应于多个识别的属性的分值。张量可在n维空间中表示,其中n对应于由张量表示的属性的数量。人脸识别推送系统比较两个人脸图像之间的人脸属性张量,以识别两个人脸之间的相似度。例如,人脸识别推送系统通过减去人脸属性张量来确定具有最小的绝对值差值的人脸图像组合。在多个实施例中,人脸识别推送系统采用机器学习算法来识别人脸特征或特征张量。人脸识别推送系统生成属性列表,然后存储该属性列表作为与图像相关的元数据。

图像库向人脸识别推送系统提供图像子集。在某些实施例中,图像库基于在处理期间为图像识别的属性来索引或分组网络用户的图像。然后,使用图像的属性,所述图像库将图像过滤到具有匹配用户图像的属性的图像,即公共属性。基于用户的图像和图像子集之间的多个共同属性来识别最有可能与用户相似的图像子集。

作为识别相似人脸特征以确定子集的一部分,人脸识别推送系统首先识别匹配的高级特征,如果高级特征相似,则识别较低级特征。高级特征可包括人脸形状、头发、五官位置、肤色等。通过使用高级特征,所述人脸识别推送系统可以快速确定是否应该进一步考虑待匹配用户是否与当前用户有足够的人脸相似度。所述低级特征的示例包括用精确的定量测量来表示的更详细的属性,例如点、边或人脸区块之间的距离。其他示例包括头发长度、下颌角度、五官之间的距离、形状曲率。

然后,将所述高级特征和低级特征表示为人脸属性张量的一部分。例如,与用户的人脸属性张量相关联的属性分值的第一较小子集表示高级特征,来自用户的人脸属性张量或来自附加人脸属性张量的分值的第二较大子集表示低级特征。因此,当比较高级特征时,人脸识别推送系统比较来自第一较小子集的分值。然后对于具有相似的高级特征的用户,比较来自第二较大子集的分值以识别相似的用户。

所述人脸识别推送系统使用机器学习来训练相似图像识别模型。将用户的图像输入到深度神经网络中,将用户的人脸属性张量与n维空间中候选用户的人脸属性张量进行比较,以基于具有与用户相似的人脸特征的候选用户来识别多个相似的候选用户。其中,所述相似度分值基于用户的图像和n维空间中候选用户的图像之间的距离。作为计算相似度分值的一部分,优选地,为不同的人脸特征或属性分配不同的权值。作为示例,对肤色和纹理的权值低于五官相对位置。此外,基于用户的交互来修改所述权值,以获得更准确的结果。

此外,当接收用户的多个图像时,人脸识别推送系统尝试生成用户人脸特征的三维模型。然后旋转三维模型以获得不同角度的用户人脸的图像和人脸特征。此外,人脸识别推送系统可以通过将用户的三维人脸模型与候选用户的三维人脸模型进行比较,提高识别相似用户的准确性。在可选的实施例中,人脸识别推送系统接收用户的视频,并提取用户的多个图像。在多个角度和方向提取用户的多个图像,为用户识别高度准确的人脸特征。

在所述机器学习的识别过程中,当用户与待匹配用户共享人脸相似度时,人脸识别推送系统使用样本数据集生成模型来学习。例如,训练集包括相似用户的样本对和不相似用户的样本对。然后使用训练数据集和用户图像来训练模型,以识别与用户具有人脸相似度的图像。如果训练数据集不可靠,则人脸识别推送系统无法正确地学习,导致不准确的相似配对。然而,如果改进可用数据集,人脸识别推送系统使用更新的数据集来重新训练以获得更准确的结果。人脸识别推送系统向训练数据集添加新的相似用户和不相似用户的样本对。在用户验证包括相似度的情况下,添加相似用户的加权样本对。随着用户提供用户验证,使用修改的训练数据集来重新训练。连续重复识别相似用户、向用户提供相似用户、接收用户验证、修改训练数据集以及使用修改的训练数据集重新训练模型的动作。

如上述,在确定多用户共同性分值时,基于该共同性分值对多个候选用户的推送进行排序。每个共同性分值基于用户和多个候选用户之间的交叉属性。

优选地,所述KNN模型为非线性前馈监督学习KNN模型。所述前馈KNN模型采用权值的拟合,并对每个权值应用非线性Σ激活函数,以使模型以非线性的方式进行识别。所述KNN模型使用张量和矩阵符号描述。用i表示输入层神经元的向量,h表示隐藏层神经元的向量,而o表示包括通过KNN模型的一个周期的任何数据实例的输出层神经元的向量。令d是I的维数,q是h的维数,n是o的维数。则定义W

h=f(W

使用具有目标输出t的训练数据来拟合矩阵W

f(x)=1.5/(1+e

其中真实数据在训练区间中是已知的,所述模型使用该训练区间上的误差函数E来训练,并且训练的网络在真实数据未知的测试区间上对数据进行建模。误差函数E表示为:

E =½π(t

其中π是在训练区间内运行的预设指数。t

Δw=-μ·∂E/∂w

其中μ是学习率。在对权值矩阵进行单次校正之前,在一个周期内对训练区间的误差总和进行偏导数评估。

在进一步的方面,通过使用偏置节点来增强KNN模型的性能。偏差节点用于定义分类方案的平衡度量。具体地,一个节点被添加到除输出层之外的KNN模型的所有层,并且附加节点中的每一个的输入被设置为等于1。随着KNN模型的训练,偏置节点将数据分成更易分类的区域。如果{x}是输入数据集,每个x是一个大小为n的向量,则当使用偏置节点时,每个x的大小增加到n+1,x

Δw=-μ·∂E/∂w +αΔw(t-1)

其中α是动量参数。动量参数α与学习率参数μ成反比。

所述模型的n个输入由输入矩阵I

对于矩阵I

输入向量x

TLR=[(I

接下来从N*排序的第m个数据集中的第一个向量开始,从第j个参数的G

该方法进一步包括,将人脸图像的N个数据集输入到深度神经网络中,所述N个数据集的每一个包括多个超参数;在所述N个数据集内识别所述多个超参数中的每一个的贡献度,具体包括:

应用所述N个数据集,其中N=1..j..n,并且在所述多个数据集中生成多个预测值O;将N个数据集转换成N中k个不同输入超参数的排序数据集,为每个输入参数生成一条耦合度分析函数,利用所有N个数据集计算预测值O

当以训练并验证所述模型时,从所述N个数据集中选择第一数据子集作为训练数据,从所述N个数据集中选择第二数据子集作为测试数据;将训练数据分成K组;为没有第r数据集的K组生成耦合度分析函数;并K个数据集中的每一数据集确定独立权值。

其中,在预测k个不同输入参数中的多个关键超参数之前,对于每个输入超参数;根据该超参数对数据集中的所有变量的向量进行排序;将向量分成大小相等的向量组;生成输入超参数的平均值,并计算每个向量组的归一化平均输出;对每个输入超参数重复该过程;并根据输入参数对预测值的影响对输入超参数进行排序。

本发明另一方面将KNN的结构进行优化,以将归一化后的数据以矩阵形式输入到KNN模型中,KNN模型将映射出对应的人脸特征类型。KNN由输入层、多个隐含层以及输出层构成,层与层之间以全连接的方式连接在一起。KNN的前向数据传递函数为

y=a

a

在隐含层,利用ReLU作为激活函数,即

s(x)=max(0.04x,x)

在输出层,由于人脸特征类型识别属于多分类问题,故选用softmax作为激活函数,即

s(x

式中,k表示输出值x的第k维。

本发明KNN模型的训练包括前向传递和反向传播两个阶段,反向传播的目的是当实际输出与样本实际标签误差较大时,通过不断地修正自身的权重参数W和偏置参数b,使得KNN模型的输出和样本的实际标签一致。模型的输出和样本实际标签的差异可用损耗函数L衡量。根据人脸属性分布特点,选择损耗函数,即

L=1/m(Σ

式中,m为样本数,j表示第j个样本,k表示某一样本输出的第k维,y表示样本的实际标签,y表示KNN的预测输出。

计算得到损耗函数后,通过反向传播算法可实现神经网络参数的调整。具体公式为:

其中dθ

然后计算第k次更新时参数的平方梯度的移动平均数r(k),其中ρ是衰减率,⊙为点积:

r(k)=ρr

在完成了训练模型的搭建之后,其训练步骤如下:

步骤1、初始化KNN模型参数,包括隐含层层数、每层神经元数、权重参数、偏置参数、均方根传播参数和学习率衰减参数;

步骤2、导入训练样本集,样本集由若干样本矩阵M

步骤3、执行数据前向传递运算,得到KNN的实际输出;

步骤4、将KNN实际输出与样本实际标签对比,计算损耗函数L;

步骤5、根据损耗函数L进行反向传播运算,得到各参数改变量,并进行参数调整;

步骤6、更新参数后继续执行前向传递运算,直至损耗函数降低至预设目标值或迭代次数达到上限。

完成训练后,KNN可由历史人脸特征数据直接映射得到对应的人脸特征类型。

综上所述,本发明提出了一种基于大数据的候选内容推送方法,人脸相似度计算不单依据人脸整体特征,还可依据不同局部区域的相似度的组合;通过调节各个五官区域权重的方式定义个性化的相似性,从而达到最优的用户体验。采用多层特征更具有描述性,更好地反映人脸属性的特点,使得人脸推送结果更加鲁棒稳定。

显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或这种范围和边界的等同形式内的全部变化和修改例。

相关技术
  • 基于大数据的候选内容推送方法
  • 基于大数据需求分析的互联网内容推送方法及AI系统
技术分类

06120112900015