掌桥专利:专业的专利平台
掌桥专利
首页

人脸图像显示的方法、装置及存储介质

文献发布时间:2023-06-19 10:57:17


人脸图像显示的方法、装置及存储介质

技术领域

本公开涉及人脸识别领域,尤其涉及人脸图像显示的方法、装置及存储介质。

背景技术

图像识别是人工智能领域的重要应用之一,通过在不同的数据集上训练卷积神经网络得到具有相应图像识别能力的模型。模型的识别能力在很大程度上依赖训练数据集的质量,例如训练集的图片质量,训练数据集的全面性等。

通常在训练图像识别模型时,由于图像数据集中基本覆盖了日常生活中常见的各种物体,包含常见物体标签的识别,这些数据集也经过业界长期的打磨,已经标注的相对完备,数据也足够丰富多样,通过图像数据集,能够训练得到图像识别能力较好的图像识别模型。

另外还有更为具体的图像识别领域,例如,人脸识别,遥感图像识别,人脸表情识别等等,这些具体的领域也有一些公开的数据集供模型训练和优化使用。其中,传统的人脸表情识别方法包括6个主要表情,包括生气,高兴,惊讶,伤心,害怕,厌恶。

而针对一些除传统表情之外的特有表情,业界却没有公开成熟的、标注完备的数据用于训练表情识别模型,进而,在没有完备训练数据的情况下,如何快速获取到目标图像,是目前亟需解决的问题。

发明内容

为克服相关技术中存在的问题,本公开提供一种人脸图像显示方法、装置及存储介质。

根据本公开实施例的第一方面,提供一种人脸图像显示的方法,人脸图像显示的方法应用于终端,所述方法包括:确定目标人脸图像的标签信息,所述标签信息通过预先训练的表情识别模型,对所述目标人脸图像进行表情识别后得到;从目标图像集合中获取与所述标签信息对应的目标人脸图像,并显示所述目标人脸图像。

在一示例中,所述表情识别模型通过如下方式训练得到:

获取第一训练样本集,所述第一训练样本集中包括多种表情类型的人脸图像;基于所述第一训练样本集训练表情识别模型,得到初始版本表情识别模型,将所述初始版本表情识别模型作为当前版本表情识别模型;确定增量训练样本集,所述增量训练样本集基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的人脸图像进行表情识别后得到;将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型。

在一示例中,将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型包括:

循环执行以下步骤,直到所述训练后的表情识别模型中输出的人脸表情类型符合预设的准确率和召回率:确定增量训练样本集,所述增量训练样本集基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的人脸图像进行表情识别后得到,将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型,将所述训练后的表情识别模型作为当前版本表情识别模型。

在一示例中,确定增量训练样本集,包括:

基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的其他人脸图像进行表情识别,并确定所述当前版本表情识别模型识别所述其他人脸图像中每一个人脸图像对应多种表情类型的概率;根据所述其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集。

在一示例中,所述根据所述其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集,包括:

将多种表情类型中表情类型的概率位于第一概率和第二概率之间,且被标注为识别错误的表情类型,对应的第一数量人脸图像,作为第一增量训练样本集;将多种表情类型中表情类型的概率位于第三概率和第四概率之间,且被标注为识别错误的表情类型,对应的第二数量人脸图像,作为第二增量训练样本集;基于所述其他人脸图像中每一个人脸图像,获取与所述人脸图像对应的第四数量的表情类型,根据所述第四数量的表情类型,确定第三增量训练样本集;将第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

在一示例中,根据所述第四数量的表情类型,确定第三增量训练样本集,包括:

在多种表情类型中,按照表情类型的概率由高到低的顺序,选择第四数量的表情类型;针对各人脸图像,利用熵值法确定所述第四数量的表情类型的熵值;获取熵值大于预设熵值阈值且被标注为识别错误的第三数量人脸图像,得到第三增量训练样本集。

在一示例中,所述人脸图像为宝宝人脸图像,所述表情类型包括下述表情中的至少两种:哭、笑、吃手、嘟嘟嘴、皱眉、中立、睡觉和打哈欠。

根据本公开实施例第二方面,提供一种人脸图像显示的装置,应用于终端,所述装置包括:

获取单元,被配置为确定目标人脸图像的标签信息,所述标签信息通过预先训练的表情识别模型,对所述目标人脸图像进行表情识别后得到;确定单元,被配置为从目标图像集合中获取与所述标签信息对应的目标人脸图像;显示单元,被配置为显示所述目标人脸图像。

在一示例中,所述装置还包括训练单元;所述训练单元被配置为通过如下方式训练得到所述表情识别模型:

获取第一训练样本集,所述第一训练样本集中包括多种表情类型的人脸图像;基于所述第一训练样本集训练表情识别模型,得到初始版本表情识别模型,将所述初始版本表情识别模型作为当前版本表情识别模型;确定增量训练样本集,所述增量训练样本集基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的人脸图像进行表情识别后得到;将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型。

在一示例中,所述训练单元采用如下方式将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型:

循环执行以下步骤,直到所述训练后的表情识别模型中输出的人脸表情类型符合预设的准确率和召回率:确定增量训练样本集,所述增量训练样本集基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的人脸图像进行表情识别后得到,将增量训练样本集和所述第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型,将所述训练后的表情识别模型作为当前版本表情识别模型。

在一示例中,所述训练单元采用如下方式确定增量训练样本集:

基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的其他人脸图像进行表情识别,并确定所述当前版本表情识别模型识别所述其他人脸图像中每一个人脸图像对应多种表情类型的概率;根据所述其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集。

在一示例中,所述训练单元采用如下方式根据与人脸图像对应的多种预设人脸表情类型权重,确定增量训练样本集:

将多种表情类型中表情类型的概率位于第一概率和第二概率之间,且被标注为识别错误的表情类型,对应的第一数量人脸图像,作为第一增量训练样本集;将多种表情类型中表情类型的概率位于第三概率和第四概率之间,且被标注为识别错误的表情类型,对应的第二数量人脸图像,作为第二增量训练样本集;基于所述其他人脸图像中每一个人脸图像,获取与所述人脸图像对应的第四数量的表情类型,根据所述第四数量的表情类型,确定第三增量训练样本集;将第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

在一示例中,所述训练单元采用如下方式根据所述第四数量的表情类型,确定第三增量训练样本集:

在多种表情类型中,按照表情类型的概率由高到低的顺序,选择第四数量的表情类型;针对各人脸图像,利用熵值法确定所述第四数量的表情类型的熵值;获取熵值大于预设熵值阈值且被标注为识别错误的第三数量人脸图像,得到第三增量训练样本集。

在一示例中,所述人脸表情为宝宝表情,所述预设人脸表情类型包括如下人脸表情图像中的至少两种:哭、笑、吃手、嘟嘟嘴、皱眉、中立、睡觉和打哈欠。

根据本公开实施例第三方面,提供一种人脸图像显示的装置,包括:处理器;用于存储处理器可执行指令的存储器。其中,所述处理器被配置为执行第一方面任意一项所述的人脸图像显示的方法。

根据本公开实施例第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行第一方面任意一项所述的人脸图像显示的方法。

本公开的实施例提供的技术方案可以包括以下有益效果:通过预先训练的表情识别模型识别目标图像集合中人脸图像的表情,并对识别到表情的人脸图像添加标签信息,当用户搜索与表情对应的人脸图像时,可根据与人脸图像对应的标签信息,从目标图像集合中获取与搜索表情对应的目标人脸图像,实现用户快速、准确地搜索与特定表情对应的目标人脸图像的目的。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种人脸图像显示的方法的流程图。

图2是根据一示例性实施例示出的一种人脸图像显示的方法的流程图。

图3是根据一示例性实施例示出的一种人脸图像显示的方法的流程图。

图4是根据一示例性实施例示出的一种人脸图像显示的装置的框图。

图5是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的示例性实施例的技术方案可以应用于根据终端图册中存储的图像,搜索特定人脸表情图像的应用场景。在以下描述的示例性实施例中,终端有时也称为智能终端设备,其中,该终端可以是移动终端,也可以称作用户设备(User Equipment,UE)、移动台(Mobile Station,MS)等。终端是一种向用户提供语音和/或数据连接的设备,或者是设置于该设备内的芯片,例如,具有无线连接功能的手持式设备、车载设备等。例如,终端的示例可以包括:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(Mobile InternetDevices,MID)、可穿戴设备、虚拟现实(Virtual Reality,VR)设备、增强现实(AugmentedReality,AR)设备、工业控制中的无线终端、无人驾驶中的无线终端、远程手术中的无线终端、智能电网中的无线终端、运输安全中的无线终端、智慧城市中的无线终端、智慧家庭中的无线终端等。

图1是根据一示例性实施例示出的一种人脸图像显示的方法的流程图,如图1所示,人脸图像显示的方法用于终端中,包括以下步骤。

在步骤S11中,确定目标人脸图像的标签信息,其中,标签信息通过预先训练的表情识别模型对目标人脸图像进行表情识别后得到。

一种实施方式中,响应于接收到搜索第一表情类型的人脸图像,获取目标图像集合中人脸图像的标签信息。标签信息表征人脸图像具有的人脸表情,标签信息通过预先训练的表情识别模型,对目标图像集合中的人脸图像进行表情识别后得到。

本公开中,第一表情类型可以是用户搜索多种表情中的一种表情。目标图像集合例如可以包括利用终端中摄像装置拍摄得到的图像集合,也可以包括用户预先存储在终端中的图像集合。

为了使用户可以在大量的图像集合中快速准确的搜索到目标表情的人脸图像,本公开中,利用终端中摄像装置对人脸拍照时,可通过预先训练的表情识别模型识别人脸表情,并对识别到表情的人脸图像添加标签信息,或者在人脸图像存储后,通过预先训练的表情识别模型对存储后的人脸图像进行表情识别,并对识别到表情的人脸图像添加标签信息。当用户搜索与表情对应的人脸图像时,可根据人脸图像对应的标签信息,从目标图像集合中获取与搜索表情对应的目标人脸图像。

本公开为描述方便,将用户搜索的表情称为第一表情类型。第一表情类型例如可以是“开心”、“高兴”、“惊讶”、“生气”等传统表情。第一表情类型也可以是特定的表情,例如第一表情类型可以是宝宝表情中的哭、笑、吃手、嘟嘟嘴、皱眉、中立、睡觉和打哈欠中的一种。

在步骤S12中,基于标签信息,从目标图像集合中获取与标签信息对应的目标人脸图像,并显示目标人脸图像。

本公开中,根据获取的目标图像集合中人脸图像的标签信息,从目标图像集合中获取与第一表情类型对应的目标人脸图像,并显示目标人脸图像,实现用户搜索与特定表情对应的目标人脸图像的目的。

在本公开的示例性实施例中,通过预先训练的表情识别模型识别目标图像集合中人脸图像的表情,并对识别到表情的人脸图像添加标签信息,当用户搜索与表情对应的人脸图像时,可根据与人脸图像对应的标签信息,从目标图像集合中获取与搜索表情对应的目标人脸图像,实现用户快速、准确地搜索与特定表情对应的目标人脸图像的目的。

本公开中,在用户搜索第一表情类型的人脸图像之前,还包括训练表情识别模型。

图2是根据一示例性实施例示出的一种训练表情识别模型的流程图,如图2所示,训练表情识别模型,包括以下步骤。

在步骤S21中,获取第一训练样本集。其中,第一训练样本集中包括多种表情类型的人脸图像。

目前,针对人脸识别领域中,已经存在一些公开的数据集供模型训练和优化使用。但公开的数据集主要包括传统表情的数据,例如包括生气,高兴,惊讶,伤心,害怕,厌恶。而针对一些除传统表情之外的特有表情,业界却没有公开、成熟、标注完备的数据训练表情识别模型,但是训练后模型的识别能力在很大程度上依赖训练数据集的质量、数量以及训练数据的丰富性。

故,为克服缺少标注完备的训练数据,使得训练表情识别模型后,表情识别模型的识别准确率和召回率不满足要求,本公开可预先获取人脸图像库,其中,人脸图像库例如可通过如下方式确定:

基于用户从网络上搜集大量的人物图像,检测搜集的人物图像中包括人脸的图像,根据检测到的多张包括人脸的图像确定得到人脸图像库。例如,搜集的人物图像大约包含200万张左右,检测200万张人物图像中包含人脸的图像,并根据检测到的多张包括人脸的图像作为人脸图像库。

针对确定的人脸图像库,用户可根据需要训练的表情类型,从人脸图像库中筛选包括需要训练的多种表情类型的图像,例如筛选每个需要训练的表情类型为200张。

在步骤S22中,基于第一训练样本集训练表情识别模型,得到初始版本表情识别模型,并将初始版本表情识别模型作为当前版本表情识别模型。

本公开中涉及的表情识别模型可根据输入的人脸图像,对人脸图像的表情进行识别,输出人脸图像对应表情的概率。

本公开中,基于第一训练样本集训练表情识别模型,得到初始版本的表情识别模型后,将初始版本表情识别模型作为当前版本表情识别模型。识别人脸图像库中除了第一训练样本集之外的其他人脸图像。根据表情识别模型的识别结果,输出其他人脸图像中每一个人脸图像对应多种表情类型的概率,根据其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集。

在步骤S23中,确定增量训练样本集,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型。

其中,增量训练样本集基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的人脸图像进行表情识别后得到。

一种实施方式中,本公开实施例中,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到下一版本表情识别模型,并将下一版本表情识别模型作为当前版本表情识别模型,重复执行确定增量训练样本集,和训练当前版本表情识别模型的步骤,直至从最终版本表情识别模型中输出人脸表情类型符合预设的准确率和召回率。

即,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型包括:循环执行以下步骤,直到训练后的表情识别模型中输出的人脸表情类型符合预设的准确率和召回率:

确定增量训练样本集,增量训练样本集基于当前版本表情识别模型对人脸图像库中除第一训练样本集之外的人脸图像进行表情识别后得到,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型,将训练后的表情识别模型作为当前版本表情识别模型。

一种实施方式中,根据需要训练的多种表型类型,例如可通过如下方式确定增量训练样本集:

基于当前版本表情识别模型对人脸图像库中除第一训练样本集之外的其他人脸图像进行表情识别,并确定当前版本表情识别模型识别其他人脸图像中每一个人脸图像对应多种表情类型的概率。根据其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集。

一示例中,基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的其他人脸图像进行表情识别后,输出其他人脸图像中每一个人脸图像对应多种表情类型的概率。基于多种表情类型中的每一种表情类型,将位于第一概率和第二概率之间,被标注为识别错误的第一数量人脸图像,作为第一增量训练样本集。基于多种表情类型中的每一种表情类型,将位于第三概率和第四概率之间,被标注为识别错误的第二数量人脸图像,作为第二增量训练样本集。基于各人脸图像,按照表情类型的概率由高到低的顺序,获取第四数量的表情类型。根据第四数量的最高概率表情类型,确定得到第三增量训练样本集。将第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

一示例中,例如,需要训练的表情类型包括“哭”、“吐舌”和“笑”。

基于当前版本表情识别模型对人脸图像库中除所述第一训练样本集之外的其他人脸图像进行表情识别后,输出其他人脸图像中每一个人脸图像对应“哭”、“吐舌”和“笑”的概率后,基于用户的筛选,针对上述“哭”、“吐舌”和“笑”三种表情类型中的每一种表情类型,例如将表情识别模型识别表情概率比较低的,例如处于0.3-0.5之间,被用户标注为识别错误的,第一数量的人脸图像作为第一增量训练样本集,第一数量例如可以是50张。

针对上述“哭”、“吐舌”和“笑”三种表情类型中的每一种表情类型,例如将表情识别模型识别表情概率比较高的,处于0.9-1.0之间,却是识别错误的第二数量人脸图像作为第二增量训练样本集,第二数量例如也可以是50张。

针对其他人脸图像中每一个人脸图像,按照识别表情类型的概率由高到低的顺序,获取第四数量的表情类型,即两个表情类型,例如,一个人脸图像中,表情类型概率最高的两个表情类型分别为概率是0.95的“哭”和概率是0.98的“笑”。然后利用熵值法,确定表情识别模型识别表情概率的离散度。

其中,确定表情识别模型识别表情概率的离散度,例如可通过如下方式得到:

针对其他人脸图像中每一个人脸图像,利用熵值法确定第四数量表情类型的熵值,获取熵值大于预设熵值阈值且被标注为识别错误的第三数量人脸图像,得到第三增量训练样本集。

利用熵值法确定第四数量(2个)最高概率表情类型的熵值例如可通过如下公式

E=–p1ln(p1)–p2ln(p2)得到。

其中,p1和p2分别表示“哭”的概率和“笑”的概率,E表示第四数量(2个)最高概率表情类型的熵值。确定第四数量最高概率表情类型的熵值后,获取熵值大于预设熵值阈值且识别错误的第三数量人脸图像,得到第三增量训练样本集。

例如针对其他人脸图像中每一个人脸图像,将第四数量(2个)最高概率表情类型的熵值大于0.15的,第三数量的人脸图像,作为第三增量训练样本集。

将得到的第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

获取增量训练样本集之后,为增量训练样本集中的人脸表情标注上正确的表情类型,然后将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到下一版本表情识别模型,并将下一版本表情识别模型作为当前版本表情识别模型,重复执行确定增量训练样本集,和训练当前版本表情识别模型的步骤,直至从最终版本表情识别模型中输出人脸表情类型符合预设的准确率和召回率。例如,对当前表情识别模型连续训练3次,得到最终训练好的符合预设的准确率和召回率的表情识别模型。

在本公开的示例性实施例中,训练表情识别模型时,利用少量训练样本训练得到初始版本的表情识别模型,并将初始版本表情识别模型作为当前版本表情识别模型,对表情识别模型进行迭代训练,直到最终训练得到符合预设准确率和召回率的表情识别模型,并且,对表情识别模型的迭代训练过程中,利用当前表情识别模型识别人脸图像库中除所述第一训练样本集之外的人脸图像,将识别多种表情类型错误的人脸图像作为增量训练样本集,和第一训练样本集共同作为当前训练样本集,训练当前表情识别模型,可快速训练得到满足准确率和召回率的表情识别模型。

本公开以下以人脸表情为宝宝人脸表情,表情类型包括哭、笑、吃手、嘟嘟嘴、皱眉、中立、睡觉和打哈欠为例,对训练表情识别模型进行说明。

在步骤S31中,确定宝宝人脸图像库,根据确定的宝宝人脸图像库获取第一训练样本集,第一训练样本集中包括多种表情类型的宝宝人脸图像。

基于用户从网络上搜集大量的宝宝图像,检测搜集的宝宝图像中包括宝宝人脸的图像,根据检测到的多张包括宝宝人脸的图像确定得到宝宝人脸图像库。例如,搜集的宝宝图像大约包含200万张左右,检测200万张宝宝图像中包含宝宝人脸的图像,并根据检测到的多张包括人脸的图像作为宝宝人脸图像库。

针对确定的宝宝人脸图像库,用户可根据需要训练的表情类型,从宝宝人脸图像库中筛选包括需要训练的多种表情类型的图像,例如筛选每个需要训练的表情类型为200张。

在步骤S32中,基于第一训练样本集训练表情识别模型,得到初始版本表情识别模型,并将第一训练样本集作为当前训练样本集,将初始版本表情识别模型作为当前版本表情识别模型。

本公开中,基于第一训练样本集训练表情识别模型,得到初始版本的表情识别模型后,将初始版本表情识别模型作为当前版本表情识别模型,识别人脸图像库中除了第一训练样本集之外的其他宝宝人脸图像,根据表情识别模型的识别结果,输出其他人脸图像中每一个宝宝人脸图像对应多种表情类型的概率,根据其他人脸图像中每一个宝宝人脸图像对应多种表情类型的概率,确定增量训练样本集。

在步骤S33中,确定增量训练样本集,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到下一版本表情识别模型,并将下一版本表情识别模型作为当前版本表情识别模型,重复执行确定增量训练样本集,和训练当前版本表情识别模型的步骤,直至从最终版本表情识别模型中输出人脸表情类型符合预设的准确率和召回率。

一种实施方式中,根据需要训练的9种宝宝表型类型,例如可通过如下方式确定增量训练样本集:

基于当前版本表情识别模型对宝宝图像库中除所述第一训练样本集之外的其他宝宝人脸图像进行表情识别后,输出其他人脸图像中每一个宝宝人脸图像对应多种表情类型的概率。

基于需要训练的9种表情类型中的每一种表情类型,筛选识别概率比较低的“难区分样本”,即例如将位于识别概率在(0.3-0.5)之间的,识别错误的50张宝宝人脸图像,作为第一增量训练样本集。

基于需要训练的9种表情类型中的每一种表情类型,筛选识别概率比较高的“误识别样本”,即例如将位于识别概率在(0.9-1.0)之间的,识别错误的50张宝宝人脸图像,作为第二增量训练样本集。

基于其他宝宝人脸图像中每一个宝宝人脸图像,筛选识别“易混淆样本”,即例如一个人脸图像中,获取的表情类型概率最高的两个表情类型分别为概率是0.95的“哭”和概率是0.98的“笑”。然后利用熵值法,确定第四数量(2个)最高概率表情类型的熵值,获取熵值大于预设熵值阈值且识别错误的例如50张人脸图像,得到第三增量训练样本集。

利用熵值法确定第四数量(2个)最高概率表情类型的熵值例如可通过如下公式

E=–p1ln(p1)–p2ln(p2)得到。

其中,p1和p2分别表示“哭”的概率和“笑”的概率,E表示第四数量(2个)最高概率表情类型的熵值。确定第四数量最高概率表情类型的熵值后,获取熵值大于预设熵值阈值且识别错误的第三数量人脸图像,得到第三增量训练样本集。

例如针对其他人脸图像中每一个宝宝人脸图像,将第四数量(2个)最高概率表情类型的熵值大于0.15的,50张的宝宝人脸图像,作为第三增量训练样本集。

将得到的第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

获取增量训练样本集之后,为增量训练样本集中的宝宝人脸表情标注上正确的表情类型,然后将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到下一版本表情识别模型,并将下一版本表情识别模型作为当前版本表情识别模型,重复执行确定增量训练样本集,和训练当前版本表情识别模型的步骤,直至从最终版本表情识别模型中输出人脸表情类型符合预设的准确率和召回率。通过上述方法,需对当前表情识别模型连续训练3次,得到最终训练好的符合预设的准确率和召回率的表情识别模型。

通过上述步骤可以看出,本方法训练表情识别模型时,需要第一样本集1800张,每次迭代训练表情识别模型时,需要的增量训练样本为1350张左右,实验证明,本方法迭代3次(即增量训练样本大约共计4050张)时表情识别模型的准确率由0.59提升到0.92,召回率由0.48提升到0.62,最终训练好的表情识别模型准确率为0.92,召回率为0.68。

为了验证本发明的有效性,我们实验了以下方法作为对比,其中需要的第一样本集1800张,而从基于用户搜集的200万张宝宝图像随机采样挑选4050张图像作为增量样本训练集。将增量样本训练集和第一样本训练集混合,训练表情识别模型,得到训练好的表情识别模型,最终训练好的表情识别模型识别的准确率为0.62,召回率为0.51。通过对比,本申请在解决在没有完备训练集基础的情况下,能够快速提升宝宝表情识别模型的识别效果。

在本公开的示例性实施例中,训练表情识别模型时,利用少量训练样本训练得到初始版本的表情识别模型,并将初始版本表情识别模型作为当前版本表情识别模型,对表情识别模型进行迭代训练,直到最终训练得到符合预设准确率和召回率的表情识别模型,并且,对表情识别模型的迭代训练过程中,利用当前表情识别模型识别人脸图像库中除所述第一训练样本集之外的人脸图像,将识别多种表情类型错误的人脸图像作为增量训练样本集,和第一训练样本集共同作为当前训练样本集,训练当前表情识别模型,可快速训练得到满足准确率和召回率的表情识别模型。

基于相同的构思,本公开实施例还提供一种人脸图像显示的装置。

可以理解的是,本公开实施例提供的人脸图像显示的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。

图4是根据一示例性实施例示出的一种人脸图像显示的装置框图。参照图4,该装置400包括获取单元401、确定单元402和显示单元403。

其中:获取单元401,被配置为确定目标人脸图像的标签信息,标签信息通过预先训练的表情识别模型,对目标人脸图像进行表情识别后得到。确定单元402,被配置为从目标图像集合中获取与标签信息对应的目标人脸图像。显示单元403,被配置为显示目标人脸图像。

在一示例中,装置400还包括训练单元404。训练单元404被配置为通过如下方式训练得到表情识别模型:

获取第一训练样本集,第一训练样本集中包括多种表情类型的人脸图像。基于第一训练样本集训练表情识别模型,得到初始版本表情识别模型,将初始版本表情识别模型作为当前版本表情识别模型。确定增量训练样本集,增量训练样本集基于当前版本表情识别模型对人脸图像库中除第一训练样本集之外的人脸图像进行表情识别后得到。将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型。

在一示例中,训练单元404采用如下方式将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型:

循环执行以下步骤,直到训练后的表情识别模型中输出的人脸表情类型符合预设的准确率和召回率:确定增量训练样本集,增量训练样本集基于当前版本表情识别模型对人脸图像库中除第一训练样本集之外的人脸图像进行表情识别后得到,将增量训练样本集和第一训练样本集作为当前训练样本集,训练当前版本表情识别模型,得到训练后的表情识别模型,将训练后的表情识别模型作为当前版本表情识别模型。

在一示例中,训练单元404采用如下方式确定增量训练样本集:

基于当前版本表情识别模型对人脸图像库中除第一训练样本集之外的其他人脸图像进行表情识别,并确定当前版本表情识别模型识别其他人脸图像中每一个人脸图像对应多种表情类型的概率。根据其他人脸图像中每一个人脸图像对应多种表情类型的概率,确定增量训练样本集。

在一示例中,训练单元404采用如下方式根据与人脸图像对应的多种预设人脸表情类型权重,确定增量训练样本集:

将多种表情类型中表情类型的概率位于第一概率和第二概率之间,且被标注为识别错误的表情类型,对应的第一数量人脸图像,作为第一增量训练样本集。将多种表情类型中表情类型的概率位于第三概率和第四概率之间,且被标注为识别错误的表情类型,对应的第二数量人脸图像,作为第二增量训练样本集。基于其他人脸图像中每一个人脸图像,获取与人脸图像对应的第四数量的表情类型,根据第四数量的表情类型,确定第三增量训练样本集。将第一增量训练样本集和/或第二增量训练样本集和/或第三增量训练样本集,作为增量训练样本集。

在一示例中,训练单元404采用如下方式根据第四数量的表情类型,确定第三增量训练样本集:

在多种表情类型中,按照表情类型的概率由高到低的顺序,选择第四数量的表情类型。针对各人脸图像,利用熵值法确定第四数量的表情类型的熵值。获取熵值大于预设熵值阈值且被标注为识别错误的第三数量人脸图像,得到第三增量训练样本集。

在一示例中,人脸表情为宝宝表情,预设人脸表情类型包括如下人脸表情图像中的至少两种:哭、笑、吃手、嘟嘟嘴、皱眉、中立、睡觉和打哈欠。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于人脸图像显示的的装置500的框图。例如,装置500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图5,装置500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)接口512,传感器组件514,以及通信组件516。

处理组件502通常控制装置500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件506为装置500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器,用于为装置500提供各个方面的状态评估。例如,传感器组件514可以检测到装置500的打开/关闭状态,组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件514还可以检测装置500或装置500一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由装置500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。

进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。

进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 人脸前端设备的人脸图像显示方法、设备及存储介质
  • 人脸图像显示的方法、装置及存储介质
技术分类

06120112739879