掌桥专利:专业的专利平台
掌桥专利
首页

一种直播行为识别方法、装置、设备和可读介质

文献发布时间:2023-06-19 12:18:04


一种直播行为识别方法、装置、设备和可读介质

技术领域

本公开实施例涉及视频处理技术领域,尤其涉及一种直播行为识别方法、装置、设备和可读介质。

背景技术

随着人工智能技术在教育信息化领域的快速发展,越来越多的教师会采用远程直播的方式向学生进行教学,因此需要对线上的教学直播进行行为识别,防止向学生传播一些不良行为信息。

目前,直播行为的识别主要分为课后人工识别和实时识别两种:对于课后人工识别,需要在教师完成授课后,将授课直播视频发送给人工平台进行行为识别,此时无法保证直播行为的识别及时性,而影响到学生远程的上课体验;对于实时行为识别,通常会采用现有深度学习方式所训练的网络识别模型,来实时对教学直播内的行为进行识别,然而由于教学直播与其他直播要求的行为规范不同,除了需要对直播内容是否包含不良信息进行识别外,还需要对教师的教学姿态是否符合教学规范进行行为识别,因此现有的网络识别模型无法全面识别教学直播内的各类行为,降低了直播行为识别的准确性。

发明内容

有鉴于此,本公开实施例提供了一种直播行为的识别方法、装置、设备和可读介质,在保证直播行为实时识别的基础上,利用教学行为库实现特定直播行为的定制化配置,提高直播行为识别的全面性和及时性。

第一方面,本公开实施例提供了一种直播行为识别方法,该方法包括:

根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;

基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

第二方面,本公开实施例提供了一种直播行为识别装置,该装置包括:

人脸动作构建模块,用于根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;

教学行为识别模块,用于基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

第三方面,本公开实施例还提供了一种电子设备,该设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开任意实施例中所述的直播行为识别方法。

第四方面,本公开实施例提供了一种可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任意实施例中所述的直播行为识别方法。

本公开实施例提供的一种直播行为识别方法、装置、设备和可读介质,在已构建的教学行为库中预先自定义多种特定的教学行为,以根据当前直播帧内已检测出的目标关键点,构建当前直播帧内的人脸动作特征,然后采用各目标关键点间的位置偏差以及该人脸动作特征,从已构建的教学行为库中识别出当前直播帧内的教学行为,从而实现直播行为的实时识别,提高直播行为识别的及时性;同时,在教学行为库内能够灵活配置各种不符合教学规范要求的教学行为,实现直播行为的定制化识别,提高直播行为识别的灵活性和全面性。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。

图1示出了本公开实施例提供的一种直播行为识别方法的流程图;

图2A示出了本公开实施例提供的另一种直播行为识别方法的流程图;

图2B示出了本公开实施例提供的直播行为识别过程的原理示意图;

图3示出了本公开实施例提供的一种直播行为识别装置的结构示意图;

图4示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多方之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

图1示出了本公开实施例提供的一种直播行为识别方法的流程图,本公开实施例可适用于对任一种直播内的用户行为进行识别的情况下。本公开实施例提供的一种直播行为识别方法可以由本公开实施例提供的直播行为识别装置来执行,该装置可以通过软件和/或硬件的方式来实现,并集成在执行本方法的设备中。

具体的,如图1所示,本公开实施例中提供的直播行为识别方法可以包括如下步骤:

S110,根据当前直播帧内已检测出的目标关键点,构建当前直播帧内的人脸动作特征。

具体的,在远程直播场景下,为了向直播观众正向传播信息,需要对直播过程中主播的直播行为进行识别,以判断直播过程中主播(例如教师)是否存在不规范的直播行为,以防止教师在直播过程中向学生观众传播一些不良信息;此时,为了保证直播行为识别的及时性,本实施例会在远程直播过程中实时识别各个直播帧的画面内容,也就是需要从教学直播中不断确定当前直播帧,然后对当前直播帧进行直播行为识别。

同时,在远程直播教学场景下,由于直播观众面向学生这一特殊群体,会使直播行为存在自身的定制化识别需求,例如识别远程教学直播过程中是否存在教师的衣着不得体或者姿态不合规(未露出全脸或明显侧身)的行为等,而且面向不同类别的学生群体,不支持的直播行为也存在一定差异,但是可以确定的是,对于任一类直播观众,均需要通过分析当前直播帧内的主播姿态来判断在直播过程中是否存在不合规的教学行为,此时为了全面覆盖到远程教学直播场景下可能存在的各种不合规的直播行为,本实施例会专门设置对应的目标关键点,用于分析当前直播帧内的行为特征。需要说明的是,基于直播行为识别准确性的需求,本实施例会预先采用大量历史视频帧对目标关键点进行筛选设置,以便所选用的目标关键点既能够保证直播行为识别的准确性,也能够保证关键点的提取高效性。通过大量试验可以得到,将目标关键点分为两部关键点和手部关键点两类,即可全面支持当前直播帧内教学行为的完整识别,保证直播行为识别的准确性,而且脸部关键点可以包括教师的双耳、双眼和鼻子这5个关键点,手部关键点可以包括双手腕这2个关键点,使得共选用7个目标关键点,即可支持当前直播帧内教学行为的完整识别,而且达到关键点检测时的轻量级要求,在直播行为识别时无需检测过多的关键点,极大降低了关键点检测的工作量,从而提高直播行为识别的高效性。

具体的,从本次的教学直播中得到当前直播帧后,首先会对当前直播帧进行关键点检测,以确定预先设置的各个目标关键点在当前直播帧内的坐标,进而分析出各个目标关键点之间的坐标关系,例如眼间距、耳间距、耳眼加权中点、脸宽、脸长等,然后可以按照人脸的生物学特征以及人脸形变的带动运动原理,结合各个目标关键点之间的坐标关系,来构建出当前直播帧内的人脸动作特征,该人脸动作特征可以包括人脸矩形框检测、人脸侧脸程度、人脸椭圆框和人脸倾斜程度等,以便后续按照该人脸动作特征来判断在直播过程中是否存在不规范的教学行为,例如脸部不正对镜头或者不完整显示等。

此外,由于教学直播中存在连续直播帧内包含相同画面的情况,如果对每一直播帧均进行一次直播行为识别,会极大增加直播行为识别的工作量,因此本实施例为了保证直播行为识别的高效性,首先会在教学直播过程中,按照预设抽帧频率对本次的教学直播进行抽帧,也就不断得到当前直播帧。也就是说,本实施例预先设置一种抽帧服务,其中预设抽帧频率可以灵活调节,通常可以设置为1fps、2fps或者5fps等,此时采用该预设抽帧频率在教学直播过程中不断对教学直播进行抽帧,从而不断得到需要进行直播行为识别的当前直播帧,避免相同画面的多个直播帧均进行直播行为识别时造成的识别工作量过大的问题,提高直播行为识别的高效性。

S120,基于各目标关键点间的位置偏差以及人脸动作特征,从已构建的教学行为库中识别当前直播帧内的教学行为。

在本实施例中,为了保证对于不规范直播行为的识别全面性,会预先设置一个教学行为库,该教学行为库内会保存教学直播过程中需要被识别出的各种不规范的直播行为,例如,脸部不完整展现、不正对镜头、手支撑头部、吃东西以及接打电话等,此时教学行为库内需要被识别出的各种教学行为可以按照直播行为识别的具体业务需求来灵活调整,从而实现教学行为库内不规范教学行为的迭代更新,本实施例通过教学行为库能够灵活配置各种远程直播场景下不规范的教学行为,实现直播行为的定制化识别。

具体的,在构建出当前直播帧内的人脸动作特征后,通过分析当前直播帧内各个目标关键点之间的位置偏差,可以预估出各个目标关键点所表示的不同部位间的位置是否重合,例如手指与嘴巴或者耳朵等人脸部位之间的位置重合情况,以判断在当前直播帧内手指是否与嘴巴或者耳朵等人脸部位接触。同时,通过分析当前直播帧内的人脸动作特征,可以判断当前直播帧内人脸当前的姿态,例如通过人脸倾斜框可以判断脸部是否倾斜,通过人脸矩形框检测可以判断脸部是否完整显示或正对镜头,或者,通过人脸椭圆框可以更精确人脸形状,以判断手部与人脸的距离是否为手部托脸等。然后,结合各个目标关键点所表示的不同部位间的位置重合情况,判断是否符合教学行为库中所保存的各个教学行为的姿态要求,如果符合教学行为库内某一教学行为的姿态要求,则将该教学行为识别为当前直播帧内的直播行为,此时通过判断是否符合教学行为库中所保存的每一教学行为的姿态要求,可以从教学行为库中识别出当前直播帧内存在的各种不规范的教学行为,确保直播行为识别的全面性。

示例性的,为了确保当前直播帧内教学行为的识别准确性,本实施例针对教学行为库内所保存的每一教学行为,会专门分析该教学行为所包含的各目标关键点的位置和/或该教学行为涉及的各人脸动作特征,然后按照该教学行为所包含的各目标关键点的位置偏差和/或该教学行为涉及的各人脸动作特征所表示的人脸当前姿态,来为该教学行为设定对应的行为判断条件,例如人脸矩形框的任一边与画面边缘只有若干像素的距离时,可以将人脸矩形框的任一边与画面边缘低于预设像素距离设置为人脸不完整显示的行为判断条件。此时,基于各目标关键点间的位置偏差以及人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为,具体可以包括:确定教学行为库内每一教学行为预设定的行为判断条件;判断各目标关键点间的位置偏差以及人脸动作特征,是否符合各行为判断条件;从教学行为库中查找出与所符合的行为判断条件对应的目标教学行为,并将目标教学行为识别为当前直播帧内的教学行为。

也就是说,在确定出当前直播帧内各目标关键点间的位置偏差以及人脸动作特征后,首先会从已构建的教学行为库中查找出为该教学行为库内所保存的每一教学行为预先设定的行为判断条件,然后判断各个目标关键点间的位置偏差以及人脸动作特征,是否符合各个行为判断条件,如果符合某一行为判断条件,说明当前直播帧内的直播行为与该行为判断条件对应的教学行为所匹配,因此可以将教学行为库中与所符合的行为判断条件对应的目标教学行为,识别为当前直播帧内的教学行为,保证直播行为识别的准确性。

此外,为了保证直播行为识别的有效控制,本实施例还会通过分析所识别出的教学行为的类别,对所识别的教学行为进行直播提示,以执行相应的直播行为调整操作,例如识别出教师作出手支撑头部或者吃东西等直播行为时,可以发送相应的提醒消息,而对于教师做出不雅举动等高违规等级下的动作时,可以控制执行教学直播的关闭操作等;示例性的,本实施例中的直播行为提示可以包括实时提醒、实时警告和课后复盘等,对此不作限定。

本公开实施例提供的技术方案,在已构建的教学行为库中预先自定义多种特定的教学行为,以根据当前直播帧内已检测出的目标关键点,构建当前直播帧内的人脸动作特征,然后采用各目标关键点间的位置偏差以及该人脸动作特征,从已构建的教学行为库中识别出当前直播帧内的教学行为,从而实现直播行为的实时识别,提高直播行为识别的及时性;同时,在教学行为库内能够灵活配置各种不符合教学规范要求的教学行为,实现直播行为的定制化识别,提高直播行为识别的灵活性和全面性。

图2A示出了本公开实施例提供的另一种直播行为识别方法的流程图,本实施例在上述实施例提供的各个可选方案的基础上进行优化。具体的,本实施中主要对于教学直播内直播行为的具体识别过程进行详细的介绍。

可选的,如图2A所示,本实施例中的方法可以包括如下步骤:

S210,将当前直播帧输入到预训练的关键点检测模型中,输出对应的脸部关键点和手部关键点,以得到目标关键点。

其中,关键点检测模型采用通过去噪处理的历史教学直播进行训练。

可选的,针对目标关键点的准确识别,本实施例会采用大量经过去噪处理的历史教学直播,作为关键点检测模型的训练样本,此时训练样本均为远程教学场景下的直播视频,能够包含各种类型下的直播教学信息,从而在利用通过去噪处理的历史教学直播,来训练本实施例中的关键点检测模型时,能够使所训练的关键点检测模型更加符合直播教学的需求,从而保证关键点检测模型对于目标关键点的检测准确性。

在本实施例中,如图2B所示,会将教学直播中的当前直播帧输入到预先训练好的关键点检测模型中,通过该关键点检测模型对当前直播帧进行关键点识别,从而从当前直播帧内准确提取出预先设置好的手部关键点和脸部关键点,以得到各个目标关键点。

S220,利用历史直播帧中的人脸运动特征对标准的人脸模板特征进行拟合,以建立对应的人脸动作模型。

可选的,为了准确构建当前直播帧内的人脸动作特征,首先会设置一个标准的人脸模板,该标准的人脸模板可以采用先验确定的代数公式来为该人脸模板设置标准的人脸部位信息,例如标准的双耳距离、双耳水平距离、耳鼻垂直距离、双耳双眼加权中心等。然后,从教学直播的历史直播帧中提取出符合主播(教师)形象的人脸运动特征,进而采用历史直播帧中的人脸运动特征对标准的人脸模板特征进行形变拟合,使得拟合后的人脸模板能够逼近本次教学直播的主播形象,从而建立逼近本次教学直播的主播形象的人脸动作模型,以便后续根据当前直播帧内的脸部关键点,来控制该人脸动作模型能够模拟对应的脸部姿态信息。

S230,将目标关键点中的脸部关键点输入到人脸动作模型中,得到当前直播帧内的人脸动作特征。

在建立出对应的人脸动作模型后,可以将目标关键点中的脸部关键点输入到人脸动作模型中,通过各脸部关键点之间的位置偏差,可以控制所建立的人脸动作模型执行相应的动作调整,以达到各脸部关键点的位置,从而得到当前直播帧内的人脸动作特征。

例如,对于人脸动作特征中的人脸矩形框,以人脸动作模型动作调整后的左耳右耳作为基础锚点,水平向外各自拓展若干像素,作为人脸矩形框的宽,再根据人脸动作模型动作调整后两耳的距离,以及耳离鼻的垂直距离,预测脸的长度,作为人脸矩形框的长,同时还可以预测人脸矩形框的长在耳坐标上部和下部分布的比例等。

S240,基于各目标关键点间的位置偏差以及人脸动作特征,从已构建的教学行为库中识别当前直播帧内的教学行为。

S250,如果当前直播帧内的教学行为包含手部行为,则将该教学行为输入到预训练的行为识别模型中,对该教学行为进行验证。

本实施例中,由于在教学行为库中主要依赖人脸动作特征以及手部关键点与脸部关键点之间的位置偏差,来识别当前直播帧内的教学行为,此时一些正常的手部动作可能会被误识别出来,例如教师抬手时经过脸侧,极有可能被识别为手支撑脸部的教学行为。因此,为了在保证直播行为识别的召回率的基础上,进一步提高直播行为识别的精准率,本实施例会采用大量包含各种教学行为的训练样本来专门训练一个行为识别模型,该行为识别模型能够准确识别出当前直播帧内存在的各种教学行为。

此时,本实施例可以将预训练的行为识别模型作为直播行为识别的二次过滤机制,如图2B所示,在从教学行为库中识别出当前直播帧内的教学行为后,进一步判断所识别出的教学行为内是否包含手部行为,例如识别为打电话、吃东西、手支撑头部等的教学行为。如果当前直播帧内的教学行为包含手部行为,则会将该教学行为输入到预先训练好的行为识别模型中,由该行为识别模型进一步识别当前直播帧内存在的教学行为,以判断从教学行为库中识别出的教学行为是否真实存在于当前直播帧内,从而对从教学行为库中识别出的包含手部行为的教学行为进行准确性的二次验证,提高直播行为识别的准确性。

此时,由于已经将在教学行为库中识别当前直播帧内的教学行为作为行为识别模型中对包含手部行为的教学行为进行再次识别的前置筛选,使得行为识别模型无需对未包含手部行为的教学行为进行再次识别,因此该行为识别模型并不会承受较大的工作量,从而在提高直播行为识别精确性的基础上,进一步保证直播行为识别的高效性。

S260,将当前直播帧和当前直播帧内的教学行为,关联记录到预设的时序队列中。

可选的,为了避免教学直播中通过单一直播帧的误识别问题,本实施例会通过分析连续几帧的直播行为识别情况来综合分析当前直播帧的直播行为识别结果,因此本实施例设置了一种有状态的上线服务策略,通过维护一个时序队列,来记录已完成直播行为识别的各个直播帧以及该直播帧内被识别出来的教学行为。

此时,在从教学行为库中识别出当前直播帧内的教学行为后,可以按序将当前直播帧以及当前直播帧内被识别出来的教学行为,关联记录到预设的时序队列中,以便后续通过该时序队列中关联记录的多个连续直播帧对应的教学行为,综合分析当前直播帧内的教学行为。

需要说明的是,该时序队列中针对每一直播帧关联记录的教学行为可以为未包含手部行为的教学行为和通过行为识别模型验证的包含手部行为的教学行为。

S270,利用时序队列中与当前直播帧的前向连续直播帧关联的各教学行为,对当前直播帧内的教学行为进行验证。

可选的,在该时序队列中查找出位于该当前直播帧之前的多个前向连续直播帧关联记录的教学行为,然后分析当前直播帧对应的教学行为与各个前向连续直播帧关联的教学行为之间是否一致,来对当前直播帧内被识别出的教学行为进行验证,例如如果该时序队列中与当前直播帧关联记录的教学行为与各个前向连续直播帧关联记录的教学行为大部分为同一行为,则确定当前直播帧内被识别出来的教学行为通过验证,而如果该时序队列中与当前直播帧关联记录的教学行为与各个前向连续直播帧关联记录的教学行为各不相同,说明当前直播帧关联的教学行为可能是极短时段内的误动作,此时可以确定当前直播帧内被识别出来的教学行为未通过验证,从而在降低直播行为识别的误召回率的基础上,提高直播行为识别的准确性。

本公开实施例提供的技术方案,通过预训练的行为识别模型,对当前直播帧内被识别出的包含手部行为的教学行为进行验证,提高直播行为识别的精确性,且行为识别模型无需对未包含手部行为的教学行为进行再次识别,从而在提高直播行为识别精确性的基础上,进一步保证直播行为识别的高效性;同时,通过时序队列对当前直播帧内被识别出的教学行为进行误动作的验证,在降低直播行为识别的误召回率的基础上,提高直播行为识别的准确性。

图3示出了本公开实施例提供的一种直播行为识别装置的结构示意图,本公开实施例可适用于对任一种直播内的用户行为进行识别的情况下,该装置可以通过软件和/或硬件来实现,并集成在执行本方法的设备中。如图3所示,本公开实施例中的直播行为识别装置,具体可以包括:

人脸动作构建模块310,用于根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;

教学行为识别模块320,用于基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

本公开实施例提供的技术方案,在已构建的教学行为库中预先自定义多种特定的教学行为,以根据当前直播帧内已检测出的目标关键点,构建当前直播帧内的人脸动作特征,然后采用各目标关键点间的位置偏差以及该人脸动作特征,从已构建的教学行为库中识别出当前直播帧内的教学行为,从而实现直播行为的实时识别,提高直播行为识别的及时性;同时,在教学行为库内能够灵活配置各种不符合教学规范要求的教学行为,实现直播行为的定制化识别,提高直播行为识别的灵活性和全面性。

进一步的,上述目标关键点包括脸部关键点和手部关键点。

进一步的,上述人脸动作构建模块310,可以具体用于:

利用历史直播帧中的人脸运动特征对标准的人脸模板特征进行拟合,以建立对应的人脸动作模型;

将所述目标关键点中的脸部关键点输入到所述人脸动作模型中,得到所述当前直播帧内的人脸动作特征。

进一步的,上述教学行为识别模块320,可以具体用于:

确定所述教学行为库内每一教学行为预设定的行为判断条件,其中,每一教学行为的行为判断条件按照该教学行为包含的目标关键点位置和/或该教学行为涉及的人脸动作特征设定;

判断各所述目标关键点间的位置偏差以及所述人脸动作特征,是否符合各所述行为判断条件;

从所述教学行为库中查找出与所符合的行为判断条件对应的目标教学行为,并将所述目标教学行为识别为所述当前直播帧内的教学行为。

进一步的,上述直播行为识别装置,还可以包括:

关联记录模块,用于将所述当前直播帧和所述当前直播帧内的教学行为,关联记录到预设的时序队列中;

第一行为验证模块,用于利用所述时序队列中与所述当前直播帧的前向连续直播帧关联的各教学行为,对所述当前直播帧内的教学行为进行验证。

进一步的,上述直播行为识别装置,还可以包括:

第二行为验证模块,用于如果所述当前直播帧内的教学行为包含手部行为,则将该教学行为输入到预训练的行为识别模型中,对该教学行为进行验证。

进一步的,上述直播行为识别装置,还可以包括:

关键点检测模块,用于将所述当前直播帧输入到预训练的关键点检测模型中,输出对应的脸部关键点和手部关键点,以得到所述目标关键点;

其中,所述关键点检测模型采用通过去噪处理的历史教学直播进行训练。

本公开实施例提供的直播行为识别装置,与上述实施例提供的直播行为识别方法属于同一发明构思,未在本公开实施例中详尽描述的技术细节可参见上述实施例,并且本公开实施例与上述实施例具有相同的有益效果。

下面参考图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图4所示,设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,设备可以利用诸如HTTP(HyperText Transfer Protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述设备中所包含的;也可以是单独存在,而未装配入该设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备:根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例提供的一种直播行为识别方法,该方法包括:

根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;

基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

根据本公开的一个或多个实施例,上述方法中,所述目标关键点包括脸部关键点和手部关键点。

根据本公开的一个或多个实施例,上述方法中,所述根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征,包括:

利用历史直播帧中的人脸运动特征对标准的人脸模板特征进行拟合,以建立对应的人脸动作模型;

将所述目标关键点中的脸部关键点输入到所述人脸动作模型中,得到所述当前直播帧内的人脸动作特征。

根据本公开的一个或多个实施例,上述方法中,所述基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为,包括:

确定所述教学行为库内每一教学行为预设定的行为判断条件,其中,每一教学行为的行为判断条件按照该教学行为包含的目标关键点位置和/或该教学行为涉及的人脸动作特征设定;

判断各所述目标关键点间的位置偏差以及所述人脸动作特征,是否符合各所述行为判断条件;

从所述教学行为库中查找出与所符合的行为判断条件对应的目标教学行为,并将所述目标教学行为识别为所述当前直播帧内的教学行为。

根据本公开的一个或多个实施例,上述方法中,在从已构建的教学行为库中识别所述当前直播帧内的教学行为之后,还包括:

将所述当前直播帧和所述当前直播帧内的教学行为,关联记录到预设的时序队列中;

利用所述时序队列中与所述当前直播帧的前向连续直播帧关联的各教学行为,对所述当前直播帧内的教学行为进行验证。

根据本公开的一个或多个实施例,上述方法中,在从已构建的教学行为库中识别所述当前直播帧内的教学行为之后,还包括:

如果所述当前直播帧内的教学行为包含手部行为,则将该教学行为输入到预训练的行为识别模型中,对该教学行为进行验证。

根据本公开的一个或多个实施例,上述方法中,在根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征之前,还包括:

将所述当前直播帧输入到预训练的关键点检测模型中,输出对应的脸部关键点和手部关键点,以得到所述目标关键点;

其中,所述关键点检测模型采用通过去噪处理的历史教学直播进行训练。

根据本公开的一个或多个实施例提供的一种直播行为识别装置,该装置包括:

人脸动作构建模块,用于根据当前直播帧内已检测出的目标关键点,构建所述当前直播帧内的人脸动作特征;

教学行为识别模块,用于基于各所述目标关键点间的位置偏差以及所述人脸动作特征,从已构建的教学行为库中识别所述当前直播帧内的教学行为。

根据本公开的一个或多个实施例,上述装置中,所述目标关键点包括脸部关键点和手部关键点。

根据本公开的一个或多个实施例,上述装置中,所述人脸动作构建模块,具体用于:

利用历史直播帧中的人脸运动特征对标准的人脸模板特征进行拟合,以建立对应的人脸动作模型;

将所述目标关键点中的脸部关键点输入到所述人脸动作模型中,得到所述当前直播帧内的人脸动作特征。

根据本公开的一个或多个实施例,上述装置中,所述教学行为识别模块,具体用于:

确定所述教学行为库内每一教学行为预设定的行为判断条件,其中,每一教学行为的行为判断条件按照该教学行为包含的目标关键点位置和/或该教学行为涉及的人脸动作特征设定;

判断各所述目标关键点间的位置偏差以及所述人脸动作特征,是否符合各所述行为判断条件;

从所述教学行为库中查找出与所符合的行为判断条件对应的目标教学行为,并将所述目标教学行为识别为所述当前直播帧内的教学行为。

根据本公开的一个或多个实施例,上述装置中,还包括:

关联记录模块,用于将所述当前直播帧和所述当前直播帧内的教学行为,关联记录到预设的时序队列中;

第一行为验证模块,用于利用所述时序队列中与所述当前直播帧的前向连续直播帧关联的各教学行为,对所述当前直播帧内的教学行为进行验证。

根据本公开的一个或多个实施例,上述装置中,还包括:

第二行为验证模块,用于如果所述当前直播帧内的教学行为包含手部行为,则将该教学行为输入到预训练的行为识别模型中,对该教学行为进行验证。

根据本公开的一个或多个实施例,上述装置中,还包括:

关键点检测模块,用于将所述当前直播帧输入到预训练的关键点检测模型中,输出对应的脸部关键点和手部关键点,以得到所述目标关键点;

其中,所述关键点检测模型采用通过去噪处理的历史教学直播进行训练。

根据本公开的一个或多个实施例提供的一种电子设备,该设备包括:

一个或多个处理器;

存储器,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本公开任意实施例中所述的直播行为识别方法。

根据本公开的一个或多个实施例提供的一种可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开任意实施例中所述的直播行为识别方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

相关技术
  • 一种直播行为识别方法、装置、设备和可读介质
  • 一种基于直播过程中用户行为的实时规则的配置方法、计算机设备及可读存储介质
技术分类

06120113239898