掌桥专利:专业的专利平台
掌桥专利
首页

神经网络模型的训练方法、设备、存储介质及程序产品

文献发布时间:2023-06-19 16:11:11



技术领域

本公开涉及人工智能技术领域,尤其涉及一种神经网络模型的训练方法、设备、存储介质及程序产品。

背景技术

视频理解任务在动作识别、视频检索等人工智能应用中起到至关重要的作用。目前市场上的系统中,能够通过神经网络模型提取给定视频的特征信息,并利用提取的特征信息对视频进行深一步的分析。

相关技术中,视频特征学习方法依赖大量人工标注的有标签的视频数据训练神经网络模型。由于人工给视频打标签是一件费时又费力的工作,因此,通过设计一些可学习的任务或者对比学习来获取特征表达的自监督学习神经网络模型相继提出。然而,相关技术中,无论以人工标注方式构建的神经网络模型,还是以自监督学习方式构建的神经网络模型,都无法对视频中随时序变化的时序动作进行较为精准地检出及标注。

发明内容

为克服相关技术中存在的问题,本公开提供一种神经网络模型的训练方法、设备、存储介质及程序产品。

根据本公开实施例的第一方面,提供一种神经网络模型的训练方法,包括:

分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;将所述多个视频片段进行重组,得到多个目标视频;针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。

一种实施方式中,将所述多个视频片段进行重组,得到多个目标视频,包括:将多个视频片段随机打乱;将打乱后的多个视频片段划分为多个视频片段组;分别对每个视频片段组中包含的视频片段进行拼接,得到所述目标视频。

一种实施方式中,所述将所述多个视频片段进行重组,得到多个目标视频之前,所述方法还包括:分别对多个视频片段进行数据增强处理;其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合;将所述多个视频片段进行重组,得到多个目标视频,包括:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。

一种实施方式中,所述针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息,包括:对所述目标视频进行特征提取,得到所述目标视频所对应的特征信息;根据组成所述目标视频的各视频片段所对应的重组顺序,对所述目标视频所对应的特征信息进行划分,得到组成所述目标视频的各视频片段所对应的特征信息。

一种实施方式中,所述基于各所述视频片段所对应的特征信息,进行神经网络模型的训练,包括:针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离;其中,所述第二视频片段为所述多个视频片段中与所述第一视频片段来自相同初始视频的视频片段,所述第三视频片段为所述多个视频片段中与所述第一视频片段来自不同初始视频的视频片段;所述第一视频片段为所述多个视频片段中的任意一个;根据所述第一特征距离与所述第二特征距离之间的差异度,确定所述第一视频片段所对应的目标损失;基于各所述第一视频片段所对应的目标损失,对所述神经网络模型进行对比训练。

一种实施方式中,通过如下公式确定所述第一视频片段与各第二视频片段之间的第一特征距离:

一种实施方式中,所述神经网络模型为执行视频检索任务或者动作分类任务的模型。

根据本公开实施例的第二方面,提供一种神经网络模型的训练装置,包括:

处理单元,用于分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段;重组单元,用于将所述多个视频片段进行重组,得到多个目标视频;确定单元,用于针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息;所述处理单元还用于,基于各所述视频片段所对应的特征信息,进行神经网络模型的训练。

一种实施方式中,所述重组单元采用如下方式将所述多个视频片段进行重组,得到多个目标视频:将多个视频片段随机打乱;将打乱后的多个视频片段划分为多个视频片段组;分别对每个视频片段组中包含的视频片段进行拼接,得到所述目标视频。

一种实施方式中,所述将所述多个视频片段进行重组,得到多个目标视频之前,所述处理单元还用于:分别对多个视频片段进行数据增强处理;其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合;所述重组单元采用如下方式将所述多个视频片段进行重组,得到多个目标视频:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。

一种实施方式中,所述确定单元采用如下方式针对每个所述视频片段,基于所述视频片段所属的目标视频,确定所述视频片段所对应的特征信息:对所述目标视频进行特征提取,得到所述目标视频所对应的特征信息;根据组成所述目标视频的各视频片段所对应的重组顺序,对所述目标视频所对应的特征信息进行划分,得到组成所述目标视频的各视频片段所对应的特征信息。

一种实施方式中,所述处理单元采用如下方式基于各所述视频片段所对应的特征信息,进行神经网络模型的训练:针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离;其中,所述第二视频片段为所述多个视频片段中与所述第一视频片段来自相同初始视频的视频片段,所述第三视频片段为所述多个视频片段中与所述第一视频片段来自不同初始视频的视频片段;所述第一视频片段为所述多个视频片段中的任意一个;根据所述第一特征距离与所述第二特征距离之间的差异度,确定所述第一视频片段所对应的目标损失;基于各所述第一视频片段所对应的目标损失,对所述神经网络模型进行对比训练。

一种实施方式中,所述确定单元通过如下公式确定所述第一视频片段与各第二视频片段之间的第一特征距离:

一种实施方式中,所述神经网络模型为执行视频检索任务或者动作分类任务的模型。

根据本公开实施例第三方面,提供一种电子设备,包括:

处理器;用于存储处理器可执行指令的存储器;

其中,处理器被配置为:执行第一方面或者第一方面任意一种实施方式中的神经网络模型的训练方法。

根据本公开实施例第四方面,提供一种存储介质,存储介质中存储有指令,当存储介质中的指令由处理器执行时,使得处理器能够执行第一方面或者第一方面任意一种实施方式中的神经网络模型的训练方法。

根据本公开实施例第五方面,提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现第一方面或者第一方面任意一种实施方式中的神经网络模型的训练方法。

本公开的实施例提供的技术方案可以包括以下有益效果:可以对多个初始视频中每个初始视频进行分段处理,并对得到的多个视频片段进行重组,得到多个目标视频。进一步的,可以通过每个视频片段所属的目标视频,确定该视频片段所对应的特征信息,并在后续通过各视频片段所对应的特征信息,进行神经网络模型的训练。在此过程中,由于针对组成目标视频的每个视频片段,目标视频中来自其他初始视频的视频片段都会对特征提取过程造成干扰,因此,通过每个视频片段所属的目标视频确定该视频片段所对应的特征信息的方式,相当于在对每个视频片段进行特征提取的过程中加入了噪声,提高了训练难度。并且,由于视频片段可以较好的表征沿时序变化的时序动作,因此,通过各视频片段所对应的特征信息训练神经网络模型,有助于提高神经网络模型针对时序动作的识别精度。基于此,通过上述方式训练得到的神经网络模型,可以以较高的识别精度检出视频中包含的时序动作。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种神经网络模型的训练方法的流程图。

图2是根据一示例性实施例示出的一种基于视频片段所属的目标视频,确定视频片段所对应的特征信息的方法流程图。

图3是根据一示例性实施例示出的另一种神经网络模型的训练方法的流程图。

图4是根据一示例性实施例示出的又一种神经网络模型的训练方法的流程图。

图5是根据一示例性实施例示出的一种通过初始视频得到目标视频的流程示意图。

图6是根据一示例性实施例示出的一种对神经网络模型进行对比训练的方法流程图。

图7是根据一示例性实施例示出的一种以训练完成的神经网络模型对待处理视频进行特征提取的方法流程图。

图8是根据一示例性实施例示出的一种神经网络模型的训练装置框图。

图9是根据一示例性实施例示出的一种用于神经网络模型的训练的电子设备框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

在附图中,自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本公开一部分实施例,而不是全部的实施例。下面通过参考附图描述的实施例是示例性的,旨在用于解释本公开,而不能理解为对本公开的限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合附图对本公开的实施例进行详细说明。

近年来,基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科,涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支,具体是让机器识别世界,计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步,该项技术在众多领域展开了应用,例如安全防控、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

视频理解任务在动作识别、视频检索等人工智能应用中起到至关重要的作用。目前市场上的系统中,能够通过神经网络模型提取给定视频的特征信息,并利用提取的特征信息对视频进行深一步的分析。

相关技术中,视频特征学习方法依赖大量人工标注的有标签的视频数据训练神经网络模型。由于人工给视频打标签是一件费时又费力的工作,因此,通过设计一些可学习的任务或者对比学习来获取特征表达的自监督学习神经网络模型相继提出。然而,相关技术中,无论以人工标注方式构建的神经网络模型,还是以自监督学习方式构建的神经网络模型,都无法对视频中随时序变化的时序动作进行较为精准地检出及标注。

鉴于此,本公开提出了一种神经网络模型的训练方法,可以对多个初始视频中每个初始视频进行分段处理,并对得到的多个视频片段进行重组,得到多个目标视频。进一步的,可以通过每个视频片段所属的目标视频,确定该视频片段所对应的特征信息,并在后续通过各视频片段所对应的特征信息,进行神经网络模型的训练。在此过程中,由于针对组成目标视频的每个视频片段,目标视频中来自其他初始视频的视频片段都会对特征提取过程造成干扰,因此,通过每个视频片段所属的目标视频确定该视频片段所对应的特征信息的方式,相当于在对每个视频片段进行特征提取的过程中加入了噪声,提高了训练难度。并且,由于视频片段可以较好的表征沿时序变化的时序动作,因此,通过各视频片段所对应的特征信息训练神经网络模型,有助于提高神经网络模型针对时序动作的识别精度。基于此,通过上述方式训练得到的神经网络模型,可以以较高的识别精度检出视频中包含的时序动作。

图1是根据一示例性实施例示出的一种神经网络模型的训练方法的流程图,如图1所示,包括以下步骤S11至步骤S14。

在步骤S11中,分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段。

本公开实施例中,多个初始视频作为训练神经网络模型的无标签训练样本,用于提高神经网络模型针对时序动作的识别精度。优选的,多个初始视频应分别包含时序动作,且不同初始视频所包含的时序动作应不相同。

在步骤S12中,将多个视频片段进行重组,得到多个目标视频。

上述实施例中,拼接目标视频所使用的视频片段,可以是对初始视频进行分段处理后得到的部分视频片段,也可以是对初始视频进行分段处理后得到的全部视频片段。此外,拼接得到的目标视频可以为一个或多个。

在步骤S13中,针对每个视频片段,基于视频片段所属的目标视频,确定视频片段所对应的特征信息。

在步骤S14中,基于各视频片段所对应的特征信息,进行神经网络模型的训练。

根据目标视频的特征信息,得到组成目标视频的每个视频片段所对应的特征信息,并基于组成目标视频的每个视频片段所对应的特征信息,确定目标损失。

示例的,在得到目标视频的特征信息的情况下,可直接根据目标视频与组成目标视频的多个视频片段之间的关联关系,得到组成目标视频的每个视频片段所对应的特征信息。

通过本公开实施例提供的神经网络模型的训练方法,可以得到对时序动作具有较高识别精度的神经网络模型。

本公开实施例中,每个视频片段所对应的特征信息,例如可以是通过该视频片段所属的目标视频确定的。示例的,可以通过如下方式,确定多个视频片段中各视频片段所对应的特征信息。

图2是根据一示例性实施例示出的一种基于视频片段所属的目标视频,确定视频片段所对应的特征信息的方法流程图,如图2所示,包括以下步骤。

在步骤S21中,对目标视频进行特征提取,得到目标视频所对应的特征信息。

在步骤S22中,根据组成目标视频的各视频片段所对应的重组顺序,对目标视频所对应的特征信息进行划分,得到组成目标视频的各视频片段所对应的特征信息。

以下举例说明对目标视频所对应的特征信息进行划分的具体实现。

示例的,若将视频片段A1、视频片段B2及视频片段C3进行重组(示例的,视频片段A1的视频帧数为n1,视频片段B2包括的视频帧数为n2,视频片段C3的视频帧数为n3),且目标视频的重组方式为视频片段A1的末帧视频帧与视频片段B2的首帧视频帧相拼接,视频片段B2的末帧视频帧与视频片段C3的首帧视频帧相拼接,则可以得到视频帧数为(n1+n2+n3)的目标视频。进一步的,在对目标视频进行特征提取,得到目标视频所对应的特征信息的情况下,可以按照目标视频的视频帧时序,对目标视频的特征信息进行划分,以得到视频片段A1、视频片段B2及视频片段C3各自对应的特征信息。具体的,针对由视频片段A1、视频片段B2及视频片段C3重组得到的目标视频,可以将目标视频的特征信息划分为目标视频中由首帧视频帧至第n1帧视频帧所对应的第一特征信息,由第(n1+1)帧视频帧至第(n1+n2)帧视频帧所对应的第二特征信息,以及由第(n1+n2+1)帧视频帧至第(n1+n2+n3)帧视频帧所对应的第三特征信息。在此基础上,可以通过特征拆解的方式,可以将目标视频所对应的特征信息拆解为第一特征信息、第二特征信息以及第三特征信息,用以分别作为视频片段A1、视频片段B2及视频片段C3各自对应的特征信息。例如,将第一特征信息作为视频片段A1所对应的特征信息,将第二特征信息作为视频片段B2所对应的特征信息,以及将第三特征信息作为视频片段C3所对应的特征信息。

本公开实施例中,可以将多个视频片段进行重组,并通过重组得到的目标视频确定组成目标视频的各视频片段所对应的特征信息。由于对目标视频进行特征提取的过程中,来自不同初始视频的视频片对会对神经网络模型的特征提取造成干扰,因此,该方法相当于增加了神经网络模型的训练难度,相较于对各视频片段直接进行特征提取的常规方式,具有更优的训练效果。

一种实施方式中,可以通过将多个视频片段随机打乱的方式,将多个视频片段进行重组,得到多个目标视频。

图3是根据一示例性实施例示出的另一种神经网络模型的训练方法的流程图,如图3所示,本公开实施例中的步骤S31、步骤S35以及步骤S36与图1中的步骤S11、步骤S13以及步骤S14的执行方法相似,本公开在此不做赘述。

在步骤S32中,将多个视频片段随机打乱。

在步骤S33中,将打乱后的多个视频片段划分为多个视频片段组。

其中,每个视频片段组中包括待拼接的多个视频片段。

在步骤S34中,分别对每个视频片段组中包含的视频片段进行拼接,得到多个目标视频。

本公开实施例中,将多个视频片段随机划分为多个视频片段组的目的在于,使每个目标视频中包含有来自不同初始视频的视频片段,以使训练好的神经网络模型可以对时序动作特征具有较高的识别精度。

上述实施例中,以随机打乱的方式划分视频片段组,存在目标视频包含有来着同一初始视频的多个视频片段的可能性,该情况通常会降低神经网络模型的训练效果。鉴于此,除随机打乱的方式外,也可以通过指定的划分方式,将多个视频片段划分为多个视频片段组。例如,若对初始视频A、初始视频B、初始视频C以及初始视频D分别进行分段处理,得到来自初始视频A的视频片段A1、视频片段A2、视频片段A3及视频片段A4,来自初始视频B的视频片段B1、视频片段B2、视频片段B3及视频片段B4,来自初始视频C的视频片段C1、视频片段C2、视频片段C3及视频片段C4,来自初始视频D的视频片段D1、视频片段D2、视频片段D3及视频片段D4。则可以按照指定的划分方式,将多个视频片段划分为视频片段组Z1(示例的,视频片段组Z1包括视频片段A1、视频片段B2、视频片段C3及视频片段D4)、视频片段组Z2(示例的,视频片段组Z2包括视频片段B1、视频片段C2、视频片段D3及视频片段A4)视频片段组Z3(示例的,视频片段组Z3包括视频片段C1、视频片段D2、视频片段A3及视频片段B4)以及视频片段组Z4(示例的,视频片段组Z4包括视频片段D1、视频片段A2、视频片段B3及视频片段C4)。进一步的,在对每个视频片段组进行拼接的情况下,可以保证每个目标视频中在包含有来自不同初始视频的视频片段,且不会包含有来着同一初始视频的多个视频片段,以此提升神经网络模型的训练效果。

一实施方式中,为使神经网络模型更好地提取到与视频表征无关的动作信息,可以在对目标视频进行特征提取之前,对拼接目标视频时使用的视频片段进行数据增强处理。

图4是根据一示例性实施例示出的又一种神经网络模型的训练方法的流程图,如图4所示,本公开实施例中的步骤S41、步骤S43以及步骤S44与图1中的步骤S11、步骤S13以及步骤S14的执行方法相似,本公开在此不做赘述。

在步骤S42中,分别对多个视频片段进行数据增强处理,并将数据增强处理后的多个视频片段进行重组,得到多个目标视频。

其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合。示例的,本公开可以通过上述涉及的一种或多种数据增强处理方式对任一视频片段进行数据增强处理,还可以对不同视频片段使用相同或不同的数据增强处理,具体实现可根据实际使用需求进行调整,本公开在此不做具体限制。

以下针对数据增强处理的具体实现方式进行描述。

一示例中,对视频片段进行裁切,例如可以是对视频片段所包括的每个视频帧中的指定区域进行裁切。其中,针对不同视频帧,所裁切的区域是相同,并且,所裁切的区域可根据实际需求随机选取或预先设定。对视频片段进行翻转,可以理解为将视频片段所包含的全部视频帧沿指定方向进行同步翻转,指定方向例如可以为水平和/或垂直。对多个视频片段进行噪声叠加,例如可以是在原有视频片段的基础上叠加高斯噪声。此外,对视频片段进行色彩调节,可以理解为调节多个视频片段的例如对比度、饱和度以及色调等色彩参数。具体的,可以将多个视频片段的色彩参数调节为参数最大值。上述实施例中,对多个视频片段进行数据增强的方式,可以突出视频片段所显示内容的物体边缘轮廓,以使神经网络模型更好地提取到与视频表征无关的动作信息,进一步提高神经网络模型对时序动作的识别精度。

图5是根据一示例性实施例示出的一种通过初始视频得到目标视频的流程示意图。

示例的,如图5所示,针对初始视频1、初始视频2、初始视频3以及初始视频4,可以通过等距采样或随机采样的方式,分别对初始视频1、初始视频2、初始视频3以及初始视频4进行分段处理,得到多个视频片段(如图5中左下角虚线框内所示)。其中,可以理解的是,所得到的多个视频片段对应的时长,可以相同或不同。

进一步的,可以通过对每个视频片段分别进行裁切、翻转、噪声叠加以及色彩参数调节的方式,实现对视频片段进行数据增强处理,得到数据增强后的多个视频片段(如图5中右下角虚线框内所示)。其中,针对不同视频片段,所使用的数据增强方式可以相同或不同,但针对同一视频片段的不同视频帧,需要以相同的数据增强方式进行数据增强处理,以保证时序动作的连续性。在此基础上,针对数据增强处理后的每个视频片段,神经网络模型可以较为精确提取到相应的时序动作特征。

示例的,在得到数据增强后的多个视频片段的情况下,可以将数据增强后的多个视频片段随机打乱、拼接,得到目标视频1、目标视频2、目标视频3及目标视频4。并且,可以理解的是,拼接后得到的每个目标视频中包括至少来自不同初始视频的视频片段。基于此,可以将目标视频1、目标视频2、目标视频3及目标视频4分别输入神经网络模型进行特征提取。此外,除可以对视频片段进行数据增强处理外,也可以在对目标视频进行特征提取之前,对目标视频进行数据增强处理。

示例的,可以分别确定每个视频片段所对应的目标损失。本公开以下为便于描述,将确定目标损失时在多个视频片段中选取的任一视频片段称为第一视频片段,将多个视频片段中与第一视频片段来自相同初始视频的视频片段称为第二视频片段,将多个视频片段中与第一视频片段来自不同初始视频的视频片段称为第三视频片段,将第一视频片段与各第二视频片段之间的特征距离称为第一特征距离,以及将第一视频片段与各第三视频片段之间的特征距离称为第二特征距离。

图6是根据一示例性实施例示出的一种对神经网络模型进行对比训练的方法流程图,如图6所示,包括以下步骤。

在步骤S51中,针对每个第一视频片段,分别确定所述第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定所述第一视频片段与各第三视频片段之间的第二特征距离。

一实施方式中,可以通过

在步骤S52中,根据第一特征距离与第二特征距离之间的差异度,确定目标损失。

示例的,可以通过

在步骤S53中,基于各第一视频片段所对应的目标损失,对神经网络模型进行对比训练。

上述实施例中,目标损失可理解为对比损失,通过减小来自同一初始视频的不同视频片段(第一视频片段与各第二视频片段)之间的特征距离,并增加来自不同初始视频的视频片段(第一视频片段与各第三视频片段)之间的特征距离的方式,达到视频特征聚类的效果。以目标损失训练使神经网络模型,可以使神经网络模型更容易学习到时序动作特征。

进一步的,以训练完成的神经网络模型对待处理视频进行特征提取,可以实现对待处理视频中包含的时序动作特征进行较优的识别。

图7是根据一示例性实施例示出的一种以训练完成的神经网络模型对待处理视频进行特征提取的方法流程图,如图7所示,该方法应用于通过上述任一实施例训练得到的神经网络模型,包括以下步骤。

在步骤S61中,将待处理视频输入神经网络模型。

其中,对待处理视频进行特征提取的神经网络模型,是通过上述任一实施例提供的神经网络模型的训练方法得到的。

在步骤S62中,基于神经网络模型的输出结果,确定待处理视频的时序动作特征。

示例的,神经网络模型用于对待处理视频进行特征提取,神经网络模型的输出结果,即包含有待处理视频的时序动作特征。由于本公开实施例中,对待处理视频进行特征提取的神经网络模型,是通过上述任一实施例提供的神经网络模型的训练方法得到的,因此,训练得到的神经网络模型,可以对视频中包含的时序动作进行精准识别。

通过本公开实施例的神经网络模型的训练方法得到的模型,可以为执行视频检索任务的模型和/或为动作分类任务的模型。示例的,若待处理视频中包括有处于运动状态的人体,则可以通过神经网络模型确定待处理视频的时序动作特征,进而根据人体各躯干沿视频帧时序的变化方向和/或转动幅度,判断人体当前的运动类型。其中,可以理解的是,人体当前的运动类型包括但不限于跑动、走动及伸展,本公开对此不做具体限定。此外,通过本公开训练得到的模型,还可以应用于其他通过时序动作进行判别的应用场景,本公开对此不做具体限定。

基于相同的构思,本公开实施例还提供一种神经网络模型的训练装置。

可以理解的是,本公开实施例提供的神经网络模型的训练装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。

图7是根据一示例性实施例示出的一种神经网络模型的训练装置框图。参照图7,该装置100包括处理单元101、重组单元102和确定单元103。

处理单元101,用于分别对多个初始视频中每个初始视频进行分段处理,得到多个初始视频所对应的多个视频片段。重组单元102,用于将多个视频片段进行重组,得到多个目标视频。确定单元103,用于针对每个视频片段,基于视频片段所属的目标视频,确定视频片段所对应的特征信息。处理单元101还用于,基于各视频片段所对应的特征信息,进行神经网络模型的训练。

一种实施方式中,重组单元102采用如下方式将多个视频片段进行重组,得到多个目标视频:将多个视频片段随机打乱。将打乱后的多个视频片段划分为多个视频片段组。分别对每个视频片段组中包含的视频片段进行拼接,得到目标视频。

一种实施方式中,将多个视频片段进行重组,得到多个目标视频之前,处理单元101还用于:分别对多个视频片段进行数据增强处理。其中,数据增强处理包括裁切、翻转、噪声叠加以及色彩调节之一或组合。重组单元102采用如下方式将多个视频片段进行重组,得到多个目标视频:将数据增强处理后的多个视频片段进行重组,得到多个目标视频。

一种实施方式中,确定单元103采用如下方式针对每个视频片段,基于视频片段所属的目标视频,确定视频片段所对应的特征信息:对目标视频进行特征提取,得到目标视频所对应的特征信息。根据组成目标视频的各视频片段所对应的重组顺序,对目标视频所对应的特征信息进行划分,得到组成目标视频的各视频片段所对应的特征信息。

一种实施方式中,处理单元101采用如下方式基于各视频片段所对应的特征信息,进行神经网络模型的训练:针对每个第一视频片段,分别确定第一视频片段与各第二视频片段之间的第一特征距离,以及分别确定第一视频片段与各第三视频片段之间的第二特征距离。其中,第二视频片段为多个视频片段中与第一视频片段来自相同初始视频的视频片段,第三视频片段为多个视频片段中与第一视频片段来自不同初始视频的视频片段。第一视频片段为多个视频片段中的任意一个。根据第一特征距离与第二特征距离之间的差异度,确定第一视频片段所对应的目标损失。基于各第一视频片段所对应的目标损失,对神经网络模型进行对比训练。

一种实施方式中,确定单元103通过如下公式确定第一视频片段与各第二视频片段之间的第一特征距离:

一种实施方式中,神经网络模型为执行视频检索任务或者动作分类任务的模型。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种用于神经网络模型的训练的电子设备200框图。

如图8所示,本公开的一个实施方式提供了一种电子设备200。其中,该电子设备200包括存储器201、处理器202、输入/输出(Input/Output,I/O)接口203。其中,存储器201,用于存储指令。处理器202,用于调用存储器201存储的指令执行本公开实施例的神经网络模型的训练方法。其中,处理器202分别与存储器201、I/O接口203连接,例如可通过总线系统和/或其他形式的连接机构(未示出)进行连接。存储器201可用于存储程序和数据,包括本公开实施例中涉及的神经网络模型的训练方法的程序,处理器202通过运行存储在存储器201的程序从而执行电子设备200的各种功能应用以及数据处理。

本公开实施例中处理器202可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器202可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。

本公开实施例中的存储器201可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid State Drive,SSD)等。

本公开实施例中,I/O接口203可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本公开实施例中I/O接口203可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。

在一些实施方式中,本公开提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。

在一些实施方式中,本公开提供了一种计算机程序产品,该计算机程序产品包括计算机程序,计算机程序被处理器执行时,执行上文所述的任何方法。

尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

本公开的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。

此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。

出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说明并非是穷举性的也并非要将本公开限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本公开的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本公开。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

可以理解的是,本公开中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。

进一步可以理解的是,除非有特殊说明,“连接”包括两者之间不存在其他构件的直接连接,也包括两者之间存在其他元件的间接连接。

进一步可以理解的是,本公开实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利范围指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

相关技术
  • 神经网络模型的训练方法、设备、存储介质及程序产品
  • 神经网络模型的训练方法、电子设备及计算机程序产品
技术分类

06120114737788