掌桥专利:专业的专利平台
掌桥专利
首页

多媒体信息识别方法、装置及电子设备

文献发布时间:2024-04-18 19:58:26


多媒体信息识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域,尤其涉及一种多媒体信息识别方法、装置及电子设备。

背景技术

随着用户对多媒体娱乐要求的逐步提高、短视频和直播行业的兴起、智能家居、汽车电子软硬件和5G(5th Generation Mobile Communication Technology,第五代移动通信技术)技术的发展,基于视频流媒体的娱乐系统取得了飞速发展。并且随着数据存储与网络传输技术的提高,为音、视频的存储与通信提供了基础平台,更加促进了流媒体信息娱乐系统应用的丰富发展。推动流媒体信息娱乐系统变成了功能复杂的数字内容中枢,汇集各种信息源,连接移动网络。随着多媒体信息种类的增多,在一些场景下,可能需要多媒体信息进行识别审核后进行播放管理,如:若观看视频的是儿童,可能就需要对一些不适合儿童观看的如:恐怖电影等进行识别。可以通过对多媒体信息的类别进行识别,来提升多媒体播放的安全性。

一般情况下,短视频或直播视频可以分为推流(直播或上传)端和拉流(观众)端,推流端的多媒体信息内容审核一般可以通过服务端进行,而拉流端一般属于终端(即客户端),终端的计算能力通常弱于服务端,若在终端本地进行多媒体信息的审核,需要在终端本地存储审核策略、训练数据等,随着数据量的不断增加,可能会导致终端中数据量越来越多,容易造成终端在特征数据匹配时产生卡顿,影响视频识别处理的速度,并且,臃肿的数据库在终端长期占用存储空间也会影响用户体验。若将终端的多媒体信息内容发送至服务端进行审核,需要服务端实时计算,可能增加服务端的数据处理压力。

因此,如何提供一种多媒体信息识别方案,能够提升多媒体信息识别处理速度,是本领域亟需解决的技术问题。

发明内容

本说明书实施例提供了一种多媒体信息识别方法、用于多媒体信息识别的多媒体分类模型的训练方法、装置、设备、存储介质、计算机程序产品,可以利用服务端存储的多媒体文件数据训练构建多媒体分类模型,在终端本地利用训练好的多媒体分类模型对视频进行识别和分类,并利用终端的虚拟GPU功能提升终端的计算能力,进而提升了终端多媒体信息识别的速度。

一方面,本说明书实施例提供了一种多媒体信息识别方法,所述方法应用于终端,所述方法包括:

提取待识别多媒体信息中的关键帧;

在图形处理器资源池中选择游离态的虚拟图形处理器作为目标虚拟图形处理器,所述游离态用于表征虚拟图形处理器的工作状态为空闲状态;

将所述关键帧输入到所述目标虚拟图形处理器,在所述目标虚拟图形处理器对应的处理资源中利用多媒体分类模型确定出所述关键帧对应的类别;所述多媒体分类模型是所述终端基于服务端中存储的多媒体文件数据训练获得的;

根据确定出的所述待识别信息的关键帧对应的类别,确定出所述待识别多媒体信息的类别识别结果。

另一方面提供了一种多媒体信息识别装置,所述装置应用于终端,所述装置包括:

关键帧提取模块,用于提取待识别多媒体信息中的关键帧;

处理资源获取模块,用于在图形处理器资源池中选择游离态的虚拟图形处理器作为目标虚拟图形处理器,所述游离态用于表征虚拟图形处理器的工作状态为空闲状态;

信息识别模块,用于将所述关键帧输入到所述目标虚拟图形处理器,在所述目标虚拟图形处理器对应的处理资源中利用多媒体分类模型确定出所述关键帧对应的类别;所述多媒体分类模型是所述终端基于服务端中存储的多媒体文件数据训练获得的;

类别识别结果确定模块,用于根据确定出的所述待识别信息的关键帧对应的类别,确定出所述待识别多媒体信息的类别识别结果。

另一方面提供了一种用于多媒体信息识别的多媒体分类模型的训练方法,所述方法应用于终端,所述方法包括:

根据索引文件从所述服务端中获取所述多媒体文件数据;所述索引文件中存储有所述多媒体文件数据对应的路径信息;

将所述多媒体文件数据划分为多个多媒体文件子数据;

利用多个虚拟图形处理器对应的处理资源分别加载所述多个多媒体文件子数据;

利用加载的多媒体文件子数据训练初始多媒体分类模型,直至满足预设条件,将满足预设条件时的初始多媒体分类模型作为所述多媒体分类模型,以使得所述终端利用所述多媒体分类模型确定出所述待识别多媒体信息的类别识别结果。

另一方面提供了一种电子设备,包括:处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现上述所述的多媒体信息识别方法或用于多媒体信息识别的多媒体分类模型的训练方法。

另一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述多媒体信息识别方法或用于多媒体信息识别的多媒体分类模型的训练方法。

另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述提供的多媒体信息识别方法或用于多媒体信息识别的多媒体分类模型的训练方法。

本说明书实施例提供的多媒体信息识别方法、用于多媒体信息识别的多媒体分类模型的训练方法、装置、设备、存储介质、计算机程序产品,具有如下技术效果:

本说明书实施例提供的多媒体信息识别方法,通过从服务端中获取多媒体文件,进行模型训练构建多媒体分类模型,终端可以在本地利用训练好的多媒体分类模型对待识别多媒体信息进行分类,识别出待识别多媒体信息的类别识别结果,基于类别识别结果对待识别多媒体信息进行播放管理,确保多媒体信息播放内容符合用户需求。整个过程可以在终端本地进行,不依赖服务端的实时计算,减少了服务端对多媒体信息识别的数据处理压力,并且,模型训练数据等存储在服务端,不需要在终端中存储过多的数据,避免终端数据量过多影响数据处理速度,提升了终端多媒体信息识别的速度。同时,在图像识别过程中利用了虚拟GPU技术,将终端中的物理GPU的资源进行分割,获得多个虚拟GPU,提升了GPU资源的利用率和响应速度,进而可以提升终端进行多媒体信息识别的数据处理速度。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本说明书实施例提供的一种多媒体信息识别方法的应用环境的示意图;

图2是本说明书一个实施例提供的多媒体信息识别方法的流程示意图;

图3是本说明书一个实施例中关键帧类别识别的原理流程示意图;

图4是本说明书一个实施例中视频播放管理的场景示意图;

图5是本说明书一个实施例中视频播放安全配置的界面示意图;

图6是本说明书一个实施例中多媒体信息识别策略配置的界面示意图;

图7是本说明书一个实施例中文件存储的原理示意图;

图8是本说明书一个实施例中文件读取的原理示意图;

图9是本说明书实施例提供的一种多媒体信息识别装置的结构示意图;

图10是本说明书另一个实施例提供的一种多媒体信息识别装置的结构示意图;

图11是本说明书一个实施例中多媒体分类模型的训练方法的流程示意图;

图12是本说明书实施例提供的一种用于多媒体信息识别电子设备的框图;

图13是本说明书实施例提供的另一种用于多媒体信息识别电子设备的框图。

具体实施方式

下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本说明书保护的范围。

需要说明的是,本说明书实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1,图1是本说明书实施例提供的一种多媒体信息识别方法的应用环境的示意图,该应用环境至少可以包括服务器100和终端200。

在一个可选的实施例中,服务器100可以用于对推流端的多媒体信息资源进行识别,并存储多媒体资源信息,以备终端200进行模型训练,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中,终端200可以是向服务器100发送数据请求,获取进行模型训练的多媒体文件数据或向服务器100发送多媒体信息播放请求的终端,具体的,终端200可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能可穿戴设备、车载终端、智能电视等类型的电子设备;也可以为运行于上述电子设备的软体,例如应用程序、小程序等。本说明书实施例中电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外,需要说明的是,图1所示的仅仅是一种多媒体信息识别方法的应用环境,本说明书实施例并不以上述为限。

本说明书实施例中,上述服务器100和终端200可以通过有线或无线通信方式进行直接或间接地连接,本说明书实施例在此不做限制。

随着计算机技术的发展,人工智能技术得到的飞速的发展,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本说明书实施例中的多媒体信息识别方法可以利用智能学习模型对多媒体信息内容进行识别,基于多媒体信息的内容来对多媒体信息进行分类,进而基于多媒体信息的类别来进行不同的播放管理。通常情况下,一般的多媒体应用程序都会对用户以及多媒体信息内容进行识别,来对多媒体信息进行分类,基于多媒体信息的类别和用户信息等,来对多媒体信息进行播放管理。例如:在线视频APP(Application,应用程序)在每次启动时均需使用令牌,并由在线视频一级用户中心在服务平台上进行验证,当验证通过时提供用户信息,否则失败;在线视频一级用户中心将用户信息通过在线视频分类平台进行验证,当验证通过时获得用户身份,否则失败;在线视频一级用户中心将验证的结果发送至在线视频APP,对获得用户身份的用户将以注册身份使用在线视频APP,对验证失败的以游客身份使用,其保证了账号在平台的认证和鉴权,防止了APP泄漏后用户使用该APP的可能性。视频传输过程中可以通过平台的控制管理系统中对视频的审核策略进行配置,如识别词库、截帧配置、回调地址等,实现对视频内容的识别和分类,并基于分类结果来进行播放管理。

本说明书实施例提供的多媒体信息识别方法主要用于对多媒体信息内容进行识别,确定出多媒体信息的类别识别结果,基于多媒体信息的类别对多媒体信息进行播放管理,使得播放的多媒体满足不同用户的需求,确保多媒体信息内容的准确识别。

以下介绍本说明书实施例一种多媒体信息识别方法,图2是本说明书一个实施例提供的多媒体信息识别方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。该方法可以应用于计算机、平板电脑、智能手机等终端设备上,具体可以应用于终端设备的多媒体应用程序中,当然,根据实际需要也可以应用在服务器中,本说明书实施例对此不做具体限定。具体的如图2所示,所述方法可以包括:

S202:提取待识别多媒体信息中的关键帧。

在具体的实施过程中,待识别多媒体信息可以理解为需要进行多媒体信息内容审核的多媒体信息,可以是终端或服务端即将播放的多媒体信息,也可以是终端中已经下载但是还未播放的多媒体信息。待识别多媒体信息中可以包括视频、音频、文本(如:字幕、弹幕等)等,具体可以根据实际情况而定,本说明书实施例不做具体限定。在获得待识别多媒体信息后,可以对待识别多媒体信息进行关键帧提取,关键帧可以理解为多媒体信息中比较重要的图像帧,或者能够表征多媒体信息中重要内容的图像帧,关键帧可以是一帧也可以是多帧,具体可以根据实际情况而定,本说明书实施例不做具体限定。关键帧中可以包含多媒体信息中某一帧的图像画面,还可以包含该帧图像对应的字幕或弹幕等,具体内容可以根据实际需要而定,本说明书实施例不做具体限定。

在进行关键帧提取时,可以指定每隔预设时间提取一帧视频作为待识别多媒体信息的关键帧,也可以根据多媒体信息内容设置关键帧的提取方法,本说明书实施例不做具体限定。例如:一般视频中重要的物体变化会比较明显,视频中重要物体变化时,视频里的纹理也会有所变化。可以基于纹理设置关键帧提取方法,对视频的每一帧应用所选定的提取方法,根据方法的阈值和松弛处理,找到关键帧并将其提取出来。视频纹理可以理解为视频画面的变化规律,若视频画面不断变化,其纹理会比较明显,还可以根据视频纹理的变化调整或设置关键帧提取的时间,例如:在进行运动比赛直播时,若视频中运动员都是静止,即视频中纹理没有什么变化,那么可以把关键帧提取的时间间隔设长一点,若视频中运动员有动作,那么视频纹理有显著变化,可以把关键帧提取时间间隔设置短一些。

例如:若待识别多媒体信息为一段100秒的视频,根据预先设置的关键帧提取策略,每隔10秒提取一帧视频作为该待识别多媒体信息的关键帧,这样就可以分别提取出待识别多媒体信息中的10个关键帧。若在进行关键帧提取时,发现该待识别多媒体信息的纹理变化比较明显,那么可以缩短关键帧提取的时间间隔,如可以每隔5秒提取一帧作为关键帧。

此外,在提取待识别多媒体信息的关键帧之前,还可以对待识别多媒体信息进行预处理,如:调整分辨率、转换颜色空间等,以方便后续关键帧的提取以及关键帧类别的识别。提取出待识别多媒体信息中的关键帧后,还可以对提取到的关键帧进行图像处理,如:并根据需要做压缩、缩放、应用滤镜等处理。其中,缩放可以理解为改变关键帧的尺寸大小,如:宽度、高度等,以保证后面进行关键帧类别识别处理时,各个关键帧的大小一致,方便数据处理。压缩可以理解为把图片中冗余的信息减少,这样可以减少传输过程中的带宽,提升数据传输和处理速度。应用滤镜可以提升关键帧的清晰度等,方便多媒体信息识别。当然,根据需要,也可以对提取到的关键帧进行其他的数据处理,本说明书实施例不做具体限定。

S204:在图形处理器资源池中选择游离态的虚拟图形处理器作为目标虚拟图形处理器,游离态用于表征虚拟图形处理器的工作状态为空闲状态。

在具体的实施过程中,本说明书实施例中的多媒体信息识别主要可以应用于终端中,如:终端中的视频播放应用程序中,可以利用终端中GPU(graphics processing unit,图形处理器)多核能力在终端本地对多媒体信息内容进行识别处理。本说明书实施例利用GPU虚拟化技术,使用虚拟GPU对多媒体信息内容进行识别。GPU主要进行浮点运算和并行运算,其浮点运算和并行运算速度可以比CPU(Central Processing Unit,中央处理器)强上百倍之多。GPU虚拟化可以理解为使用软件技术在一台物理计算机上创建多个虚拟GPU设备,以供多个虚拟机或容器使用。这样多个虚拟机或容器可以在一台物理计算机上共享GPU资源,每个虚拟机或容器都可以独立使用虚拟GPU进行计算。也就是说,使用GPU虚拟化技术之后,可以将物理GPU的资源进行分割,然后分配给多个虚拟机,可以让运行在数据中心服务器上的虚拟机实例共享使用同一块或多块GPU处理器进行图形运算。在利用GPU虚拟化技术对GPU资源进行分割时,可以预先配置要分割的虚拟GPU个数和资源分配比例,还可以根据应用程序和虚拟机的性能需求灵活设定虚拟GPU的规格(如显存容量、核心使用率等)。也可以实时监测虚拟GPU的性能和资源使用情况,对虚拟GPU进行动态调整。如,可以根据实际负载情况重新分配虚拟GPU的资源,以提高整体资源利用率。例如:假设物理GPU的资源为A,根据实际需求,设置需要的虚拟GPU为5分,资源分配比例为均匀分配,那么,可以将物理GPU的资源A平均分为5份,获得5个虚拟GPU。

本说明书实施例中,可以预先使用GPU虚拟技术,创建出一个图形处理器资源,图形处理器资源中可以包括多个虚拟GPU。在进行多媒体信息识别时,可以将提取到的关键帧输入到选择出的游离态的虚拟图形处理器即目标虚拟图形处理器中,游离态的虚拟图形处理器可以理解为空闲状态的虚拟GPU。将选择出的目标虚拟GPU分配给一个或多个虚拟机,可以利用目标虚拟GPU对应的处理资源在分配的虚拟机的环境中进行图像的类别识别等数据处理,从而提升终端的计算能力。

当然,在进行关键帧的提取时,也可以利用虚拟GPU的处理资源进行,当虚拟GPU提取到待识别多媒体信息的关键帧后,可以将关键帧先存储到图形处理器资源池中,当需要对关键帧进行类别识别时,再从图形处理器资源池中选择一个游离态的虚拟GPU进行图像处理。关键帧提取的过程本说明书实施例不做具体限定。

图3是本说明书一个实施例中关键帧类别识别的原理流程示意图,如图3所示,本说明书一些实施例中,在图形处理器资源池中选择游离态的虚拟图形处理器,包括:

在图形处理器资源池中存在游离态的虚拟图形处理器的情况下,从所述图形处理器资源池中选择一个游离态的虚拟图形处理器中;

在图形处理器资源池中不存在游离态的虚拟图形处理器的情况下,创建一个虚拟图形处理器,并将创建的虚拟图形处理器作为所述游离态的虚拟图形处理器。

在具体的实施过程中,如图3所示,可以利用GPU虚拟化技术在终端中创建一个图形处理器资源池,资源池中可以存储有虚拟GPU。利用GPU资源对多媒体文件进行分配和调度,多个虚拟GPU可以对多媒体文件进行分割和分段读取,以便多个文件可以同时使用一个或多个GPU。如:可以在资源池中处理视频流文件的关键帧,通过OpenCV(跨平台计算机视觉库)读取多媒体文件,将多媒体文件做预处理,如调整分辨率、转换颜色空间等,再提取关键帧等。可以在终端的内存中预先存储一个能够进行图像处理的机器学习模型,虚拟GPU可以利用机器学习模型(如:CNN(Convolutional Neural Network,卷积神经网络))处理关键帧,将图像数据进行预处理,包括归一化、标准化和大小调整等。在进行关键帧的提取时也可以使用虚拟GPU进行提取,虚拟GPU提取关键帧的过程可以参见上述实施例的记载,此处不再赘述。当虚拟GPU提取到视频中的关键帧后,该虚拟GPU可能会继续进行下一个任务如:模型训练或提取下一帧关键帧等,此时提取出的关键帧可以先存储到资源池中,进入等待状态。当需要将提取到的关键帧输入虚拟GPU中进行图像处理时,可以从资源池中获取游离态的虚拟GPU,将提取到的关键帧输入到任意一个游离态的虚拟GPU中,如果资源池没有游离态的虚拟GPU,则可以创建新的虚拟GPU,新创建的虚拟GPU此时是游离态的,可以将提取到的关键帧输入到新创建的虚拟GPU中,并将该新创建的虚拟GPU的状态设置为工作态。利用虚拟GPU对关键帧进行类别识别等图像处理,提升终端的数据处理能力。

利用虚拟GPU技术可以将终端中的GPU资源进行分割,获得多个虚拟GPU,多个虚拟GPU可以供多个虚拟机使用,共享资源,精细配置GPU算力和显存,将GPU利用率压榨到极致,从而提高GPU的利用率,提升终端进行多媒体信息识别的计算能力和数据处理速度。

S206:将关键帧输入到目标虚拟图形处理器,在目标虚拟图形处理器对应的处理资源中利用多媒体分类模型确定出所述关键帧对应的类别;多媒体分类模型是终端基于服务端中存储的多媒体文件数据训练获得的。

在具体的实施过程中,可以预先在终端中训练构建一个多媒体分类模型,该多媒体分类模型可以基于服务端中存储的多媒体文件数据训练获得,可以用来对多媒体信息中的关键帧进行类别识别。将模型训练的数据存储在服务端,终端可以从服务端中获取需要的多媒体文件数据,进行模型训练,获得多媒体分类模型,这样可以减少终端的数据量,进而避免终端数据量过大,影响终端的性能。并且,预先利用服务端中存储的多媒体文件训练模型,训练好多媒体分类模型后,可以将该多媒体分类模型存储在终端中,终端可以直接使用训练好的多媒体分类模型进行多媒体信息内容的识别分类,可以提升多媒体信息识别的数据处理速度。

此外,本说明书一些实施例中可以引入索引文件,索引文件中可以包括服务端中多媒体文件数据对应的路径信息,终端可以基于索引文件从服务端中拉取所需的数据,而不需要在终端中存储过多的数据,提升了终端的性能和数据处理速度。多媒体文件一般为音视频文件,文件的大小通常超过上百M,可以采用文件树的形式存放所有的数据,典型的数据集由训练集、验证集和测试集三个数据目录构成。模型用训练集做训练,用测试集来测试训练效果和优化参数,最后用测试集来测试训练的效果。数据集中的数据平均大小通常比较小,将多媒体文件分帧为图片,训练场景中典型的文件大小为几十或者几百KB,视频训练文件的平均大小只有500KB。随着数据集的规模不断扩展,文件数量的规模也会不断突破。随着终端设备硬件在不断升级,一般GPU都内置了数百个内核,甚至上千个。

本说明书实施例中索引文件可以做为数据集的元数据信息,保存了数据集的所有数据的列表信息,为数据集中的每个数据都建立一个条目,保存了数据在数据集中的相对路径信息和标记信息。由于自媒体平台中用户上传、下载的文件属性不同,包括采样率、位深度、帧率、分辨率、编解码器、压缩算法等。因此在接收到视频的上传成功服务器进行文件存储时,可以将多媒体文件头部注入标记信息从而得到视频ID,该标记信息的生成由视频上传的时间拼接文件头中video信息后得到,存储在文件头中,终端进行视频拉流后可以从文件头中拿到视频ID。每帧数据可根据BOM确定编码格式,例如文件头二进制为“efbbbf”表示UTF8,“feff”为UTF16。在流媒体文件传输过程中可将文件头信息写入到元数据信息中,终端在训练多媒体分类模型时,可以根据索引文件中的相对路径信息来完成数据的加载。一般一个数据对应的条目只有几十字节,几十亿规模的数据集的索引文件也仅仅为GB级别,这样终端中存储的数据量将会大大减小。

本说明书实施例将索引文件和多媒体文件数据分开存储,终端只需要和元数据服务集群获取少量的元数据信息后,就能够根据索引文件中的路径信息,直接和数据存储节点即存储文件集群进行数据通信,从存储文件集群中获取所需的数据,大大的提高了访问的并发度。

其中,多媒体分类模型的具体结构,使用的算法类型可以根据实际需要进行选择,如:可以采用CNN算法训练构建多媒体分类模型,也可以采用随机森林算法或深度学习算法训练构建多媒体分类模型,本说明书实施例对多媒体分类模型的具体结构不做具体限定。如图3所示,将提取到的待识别多媒体信息中的关键帧输入到游离态的虚拟GPU中后,虚拟GPU中带有滤波器,可以利用滤波器对输入的关键帧进行特征提取,在GPU管理的滤波器中捕获关键帧的空间特征,并保留邻域信息,生成特征图。本说明书实施例中提取的关键帧的空间特征可以理解为二维特征,如:边缘特征、角点特征、形状特征、纹理特征等,其中,主要的特征可以是边缘特征,本说明书实施例中的空间特征可以理解为边缘特征,空间特征描述了某一个时间段内关键帧的变化状态,相当于提取物体的轮廓。邻域信息可以理解为空间特征的相关信息,如:关键帧的特征的相对位置信息。

在提取到关键帧的特征图后,可以在选择的游离态的虚拟GPU(即目标虚拟GPU)对应的处理资源中利用多媒体分类模型对关键帧进行分类,确定出关键帧对应的类别。例如:在识别关键帧的类别时,多媒体分类模型中包含卷积层,可以对卷积层输出的特征图应用非线性激活函数(如ReLU,Sigmoid等),以引入非线性特性并在网络中增加表示能力。根据多媒体分类模型的复杂性,可以多次重复卷积与汇聚操作以提高特征表示,具有特定类别(如关键帧所处视频属性的分类、文件大小、视频格式分类)的输出层对图像进行分类。通常可以使用softmax激活函数,以将网络输出转换为概率分布,将预测概率解释为图像所属的各个类别,并选择具有最高概率的类别作为预测结果,即确定出关键帧对应的类别。其中,游离态的虚拟GPU对应的处理资源可以理解为游离态的虚拟GPU所对应的环境、算力、内存、显存等数据处理所需要的资源,具体可以根据实际需要而定,本说明书实施例不做具体限定。

其中,在模型训练时,可以预先设置几种类别作为模型训练的标签,如:可以根据多媒体信息内容审核规则将多媒体信息内容分为几种类别,如:动画片、电影,其中,电影还可以分为爱情电影、恐怖电影、惊悚电影、悬疑电影等。在利用多媒体分类模型对关键帧以及多媒体信息内容分类时,可以根据关键帧或多媒体信息的内容,将关键帧或多媒体信息划分为预先设定的某种类别。多媒体信息内容或关键帧的具体类别划分可以根据实际需要进行设置,本说明书实施例不做具体限定。

S208、根据确定出的待识别信息的关键帧对应的类别,确定出待识别多媒体信息的类别识别结果。

在具体的实施过程中,在确定出关键帧对应的类别后,可以将关键帧的类别作为待识别多媒体信息的类别,或者若待识别多媒体信息中包括多个关键帧,可以根据多个关键帧的类别类别识别结果,综合确定出待识别多媒体信息的类别,进而获得待识别多媒体信息的类别识别结果。类别识别结果一般可以包括待识别多媒体信息对应的类别,基于类别识别结果,可以对待识别多媒体信息进行不同方式的播放管理。

例如:从一段待识别多媒体信息中提取到5个关键帧,经过多媒体分类模型的识别,确定其中4帧关键帧的类别为A,另外一帧的类别为B,那么可以将待识别多媒体信息的类别确定为A,基于类别A来确定待识别多媒体信息是否需要进行播放管理,在进行多媒体信息的播放管理时,还可以结合用户信息或用户设置的播放配置等来进行播放管理。

本说明书实施例提供的多媒体信息识别方法,通过从服务端中获取多媒体文件,进行模型训练构建多媒体分类模型,终端可以在本地利用训练好的多媒体分类模型对待识别多媒体信息进行分类,识别出待识别多媒体信息的类别识别结果,基于类别识别结果对待识别多媒体信息进行播放管理,确保多媒体信息播放内容符合用户需求。整个过程可以在终端本地进行,不依赖服务端的实时计算,减少了服务端对多媒体信息识别的数据处理压力,并且,模型训练数据等存储在服务端,不需要在终端中存储过多的数据,避免终端数据量过多影响数据处理速度,提升了终端多媒体信息识别的速度。同时,在图像识别过程中利用了虚拟GPU技术,将终端中的物理GPU的资源进行分割,获得多个虚拟GPU,提升了GPU资源的利用率和响应速度,进而可以提升终端进行多媒体信息识别的数据处理速度。

本说明书一些实施例中,所述方法还包括:

若确定待识别多媒体信息的类别识别结果为目标类别,则向服务端发送多媒体播放管理策略请求,多媒体播放管理策略请求中包括目标类别;

接收服务端返回的脚本文件,根据脚本文件从服务端中获取目标类别对应的多媒体播放管理策略;

基于目标类别对应的多媒体播放管理策略对待识别多媒体信息进行播放管理。

在具体的实施过程中,目标类别可以理解为多媒体信息内容可能包含不适合大部分用户观看的类别,如:若多媒体信息内容中包含敏感词汇或敏感动作、敏感图像,如:多媒体信息的内容中包含一些血腥、暴力、恐怖的词汇或图像,这种内容很多用户不喜欢观看,尤其不太适合儿童观看,则可以将其划分为敏感类别,并将该敏感类别设置为目标类别。在利用多媒体分类模型对关键帧进行类别识别时,若识别出其中包含敏感词汇或敏感图像,则可以将关键帧的类别确定出敏感类别。进而基于关键帧确定出多媒体信息的类别识别结果属于敏感类别,敏感类别属于目标类别,此时可以认为待识别多媒体信息需要进行一些播放管理,如:需要用户确认后才能播放等,来确保播放的多媒体信息内容的安全性。

此外,不同类别的用户对应的目标类别也可以不同,如:一般的,对于儿童来说,除了动画片之外其他类别的视频均可以作为目标类别,需要进行一定的播放管理;对于老年用户,可能需要将一些不太适合老年人观看的视频类别作为目标类别,如:恐怖电影、街舞比赛视频等。当然,也可以根据用户设置的管理配置,来设置不同用户对应的需要进行播放管理的多媒体信息的目标类别。

本说明书一些实施例中,将多媒体播放管理策略存储在服务端,当终端识别到当前的待识别多媒体信息的类别识别结果为目标类别时,可以向服务端发送多媒体播放管理策略请求。终端可以将待识别多媒体信息的类别识别结果发送至服务端,服务端基于终端发送的目标类别,向终端返回一个脚本文件。该脚本文件中可以包含目标类别的多媒体信息对应的多媒体播放管理策略,或者包含目标类别对应的多媒体播放管理策略的路径信息等。终端可以对接收到的脚本文件进行解析,如:解析获得目标类别对应的多媒体播放管理策略的路径信息,基于解析的内容从服务端中获取目标类别对应的多媒体播放管理策略。再基于获取到的多媒体播放管理策略对待识别多媒体信息进行播放管理,如:若获取到的多媒体播放管理策略为需要用户滑动拼图确认播放,则在播放待识别多媒体信息之前,在终端界面上显示滑动拼图,在用户滑动拼图确认后,再播放待识别多媒体信息。终端在从服务端中获取多媒体播放管理策略时,也可以利用索引文件获取,服务端可以将目标类别对应的多媒体播放管理策略的信息(如:名称或标识等)添加到脚本文件中,终端基于索引文件和服务端返回的脚本文件,获取到目标类别对应的多媒体播放管理策略在服务端中的存储路径,进而从服务端中获取到对应的多媒体播放管理策略。

图4是本说明书一个实施例中视频播放管理的场景示意图,如图4所示,在一个场景示例中,当多媒体信息是视频文件时,终端对视频文件进行类别识别,当终端识别到的关键帧属于目标类别,就认为触发了视频管理策略(即多媒体播放管理策略),服务器向终端下发脚本文件,脚本文件中可以包含目标类别的多媒体信息对应的多媒体播放管理策略,或者包含目标类别对应的多媒体播放管理策略的路径信息等。终端通过解析该脚本文件得到该关键帧对应的视频管理策略,视频播放或者即将播放时执行该视频管理策略。通过将多媒体播放管理策略存储在服务器,在触发多媒体管理策略后,由服务端下发脚本文件,终端解析脚本文件的方式显示多媒体的播放管理。以避免当多媒体管理策略数据量比较大时,存储在终端可能需要占用比较多的存储空间,本说明书实施例可以降低终端本地数据存储量,提升终端性能和数据处理速度。当然,若根据实际需要,也可以将多媒体管理策略存储在终端或配置在播放器中,如:若终端存储空间比较充足,本说明书实施例对此不做具体限定。

具体的,终端可以获取待识别视频信息的ID,通过预先自定义配置的key-value映射关系,解析接收到的脚本文件取出待识别视频信息的ID对应的value,将获得的取值进行反编码,其中编码方式按照BOM(Byte Order Mark,字节顺序标记)解析,得到该类型的视频文件的视频管理策略。可以以视频管理策略操作数据,使用Method-Swizzling(是指更换方法所对应的实现函数,其主要作用是在运行时将一个方法的实现替换成另一个方法的实现)将加载视频的函数进行捕获,当得到是需要进行管理的关键帧所在片段后,内置解码器将视频文件头相关的码率和流信息进行修改,使得正常调用解码函数失败。例如:在使用FFmpeg(可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序)对视频流进行解码时,调用avformat_open_input函数,传入输入流第一帧,返回AVERROR表示解码失败,从而报错提示。也就是说,在一些场景示例中,当识别到一段视频信息中的某一个片段如:某一个关键帧属于目标类别,可以单独对这一个片段进行编解码失败操作,使得这一片段不能播放,但视频信息中的其他内容可以正常播放。

此外,在从服务端获取多媒体播放管理策略时,还可以获取当前终端如:视频播放应用程序对应的用户信息,结合用户信息以及目标类别来确定对应的多媒体播放管理策略。如:若用户属于老年用户,那么对于一些不一定适合老年人观看的视频可能需要用户确认后进行播放,可以使用滑动拼图操作来进行确认视频播放,方便老年用户操作;若用户属于年轻用户,对于一些可能不适合年轻人观看的视频,则可以使用验证码的方式来对用户身份进行确认播放操作;若用户属于儿童,则可以仅对适合儿童观看的视频如动画片直接进行播放,而对于一些不适合儿童观看的视频,如:恐怖电影等,可以进行禁止播放的操作。这样即可以保证视频播放的内容满足不同用户的需求,又可以避免将一些不适合用户播放的内容播放给用户观看,提升视频播放的安全性。

当然,若经过识别,确定待识别多媒体信息不是目标类别,则可以直接进行播放,不请求播放管理策略。例如:若待识别多媒体信息的类别为大部分用户都可以观看的类别,如:乒乓球比赛,那么可以直接播放该多媒体信息。

此外,本说明书实施例中的用户信息如:用户年龄等的获取是符合相关规定的,或者是在用户允许的情况下获取的。

本说明书实施例将多媒体播放管理策略存储在服务端,当终端识别到本地待播放的多媒体信息属于目标类别后,即可以认为该多媒体信息需要进行播放管理,可以从服务端中请求该目标类别所对应的多媒体播放管理策略,基于多媒体播放管理策略对待播放的多媒体信息进行播放管理,提升了多媒体播放的安全性,降低了终端本地数据存储量,提升终端性能和数据处理速度。

本说明书一些实施例中,在将关键帧输入到目标虚拟图形处理器后,所述方法还包括:

将目标虚拟图形处理器的状态设置为工作态;

在确定出关键帧对应的类别后,所述方法还包括:

将目标虚拟图形处理器的状态设置为游离态。

在具体的实施过程中,在提取到待识别多媒体信息中的关键帧后,可以从资源池中选择一个游离态的虚拟GPU,将提取到的关键帧输入到选择的虚拟GPU中,此时,可以将选择的虚拟GPU的状态从游离态设置为工作态。当该虚拟GPU使用预先训练好的多媒体分类模型对关键帧的类别进行识别后,可以将该虚拟GPU的状态从工作态设置为游离态,以方便后续使用。

本说明书实施例每个虚拟GPU根据执行的任务情况,对虚拟GPU的状态进行调整,如:将工作态转换到游离态,这样可以在图像处理过程中对GPU进行复用,提升了GPU的利用率,确保GPU能够及时响应多媒体信息识别的数据处理请求,使得在终端内能够对视频流进行识别和分类,提升了客户端的计算能力和数据处理速度,不依赖于服务器的实时计算,能够对本地多媒体信息进行播放管理,提升视频播放的安全性。

本说明书一些实施例中,在目标虚拟图形处理器对应的处理资源中利用多媒体分类模型确定出关键帧对应的类别,包括:

在目标虚拟图形处理器对应的处理资源中利用多媒体分类模型根据设置的识别策略,确定出关键帧对应的类别。

在具体的实施过程中,图5是本说明书一个实施例中视频播放安全配置的界面示意图,图6是本说明书一个实施例中多媒体信息识别策略配置的界面示意图,如图5、图6所示,当多媒体信息是视频文件时,可以在视频播放应用程序中设置视频流内容安全配置内容和音频流内容安全配置内容,设置多媒体信息识别策略,多媒体分类模型基于设置的识别策略对视频中的关键帧进行识别分类。如图5、图6所示,可以设置勾选具体需要识别的识别词库,还可以设置需要审核的内容如:仅审核视频画面或仅审核音频或者全部审核,还可以设置图片截帧的时间间隔即关键帧的提取时间间隔或音频切片时长以及审核结果的回调配置等,还可以根据需要设置其他的识别策略,本说明书实施例不做具体限定。其中,每个识别词库中可以包括一个类别的视频可能会包含的词汇,通过识别视频中是否包含各个识别词库中的词汇,可以识别出关键帧对应的类别。如图6所示,“广告”对应的识别词库中可以包含一些常用的广告用语,“爱情”对应的识别词库中可以对应一些爱情视频中常用的词语,“恐怖”对应的识别词库中可以对应一些恐怖视频中常用的词语,以此类推设置其他世界词库中的词汇,识别词库中的具体内容可以根据实际需要进行设置,本说明书实施例不做具体限定。

在进行多媒体信息识别时,多媒体分类模型可以根据设置的识别策略,利用选择的虚拟GPU的处理资源,对关键帧中需要识别的敏感词汇进行识别,确定关键帧中是否包含设置的识别策略中包含的识别词库中的词汇,若识别到其中包含设置的识别词库中的词汇,则可以基于识别到的词汇对应的识别词库的类别,确定出关键帧对应的类别。或者,也可以在设置识别策略时,将一些特殊动作(如:打篮球、踢足球等运动相关的动作)设置为识别内容,识别关键帧中是否包含某些特殊动作,来确定出关键帧的类别。本说明书实施例主要记载了如何对视频中的画面进行识别分类,还可以根据实际需要对视频中的音频内容进行识别分类,本说明书实施例不做具体限定。

如图5、图6所示,还可以根据需要自定义词库,基于自定义的词库对视频或者关键帧的类别进行识别,确定出视频或关键帧的类别。

本说明书实施例可以根据需要自定义多媒体信息内容的识别策略,基于识别策略对需要识别的内容进行识别,确定待识别多媒体信息是否包含需要识别的内容,进而确定出待识别多媒体信息是否需要进行播放管理,提升了多媒体信息识别的自由度和播放内容的安全性。

本说明书一些实施例中,所述多媒体分类模型的训练方法包括:

根据索引文件从服务端中获取多媒体文件数据;索引文件中存储有多媒体文件数据对应的路径信息;

将多媒体文件数据划分为多个多媒体文件子数据;

利用多个虚拟图形处理器分别加载所述多个多媒体文件子数据;

利用加载的多媒体文件子数据训练所述初始多媒体分类模型,直至满足预设条件,将满足预设条件时的初始多媒体分类模型作为多媒体分类模型。

在具体的实施过程中,图7是本说明书一个实施例中文件存储的原理示意图,如图7所示,本说明书实施例中可以将索引文件存储采用元数据服务和数据存储服务分离的架构,索引文件中可以包含图7中记载的元数据服务集群中的数据,终端只需要和元数据服务集群获取少量的元数据信息后,就能够根据索引文件中的路径信息,直接和数据存储节点即存储文件集群进行数据通信,从存储文件集群中获取所需的数据,大大的提高了访问的并发度。并支持节点、机架等不同的故障域策略,充分保证数据的安全。

在进行多媒体分类模型的训练时,终端可以根据索引文件中的路径信息从服务端中的存储文件集群中获取所需的多媒体文件数据。图8是本说明书一个实施例中文件读取的原理示意图,如图8所示,本说明书实施例中在读取多媒体文件数据时,文件读取任务划分为多个部分,每个部分分配一个虚拟GPU,多媒体分类模型利用索引文件提供的路径信息将数据文件加载到高速存储中方便后续训练。其中,对多媒体文件数据进行切分的方法可以根据实际需要进行设置,可以对服务端中的多媒体文件数据进行顺序读取或者乱序读取,将服务端中的多媒体文件数据均匀划分或者按照其他方式划分,本说明书实施例不做具体限定。每一个虚拟GPU可以读取划分好的一个多媒体文件子数据,并将读取到的多媒体文件子数据加载到高速存储中,高速存储可以理解为一个临时的存储空间,只用于多媒体文件的切分、读取以及模型的训练的临时空间。预先设置初始多媒体分类模型,利用加载好的多媒体文件子数据对初始多媒体分类模型进行模型训练,调整模型参数,直至满足预设条件,如:模型精度满足预设精度或者训练次数满足预设次数,将满足预设条件时的初始多媒体分类模型作为最终的多媒体分类模型。其中模型训练的具体过程可以根据实际需要进行设置,本说明书实施例不做具体限定。

本说明书实施例将大量的多媒体文件数据划分为多个多媒体文件子数据在文件读取过程中使用索引文件提供的路径将读取任务划分多个部分,每个部分分配一个虚拟GPU,并且都会有高速存储和切片服务,将数据加载到对应虚拟GPU中能够对存储资源进行复用。利用虚拟GPU分别读取划分好的多媒体文件子数据,可以提升数据读取的速度,进而提升了模型训练的速度。

此外,本说明书一些实施例中,利用加载的多媒体文件子数据训练所述多媒体分类模型,包括:

在利用多个虚拟图形处理器分别加载多个多媒体文件子数据时,加载完一个多媒体文件子数据后,利用加载完成的多媒体文件子数据训练所述多媒体分类模型,并行加载下一个多媒体文件子数据。

在具体的实施过程中,本说明书实施例可以采用批量加载的方式来降低文件访问的平均时延,受限于训练的算法和缓存大小,一次能加载和处理的数据量一般为几K个,因此需要对数据集进行切分,分批次的读取多媒体文件子数据,一批数据训练完成后再读取和训练下一批次的数据,直至处理完整个数据集中的多媒体文件数据。为了提高整个训练过程的效率,批量数据加载的过程可以是异步的,即是当前迭代训练的同时加载下一批次的数据,需要在下一个批次训练开始之前将批次数据加载到虚拟GPU中。

本说明书实施例通过分批次的数据加载方式提升了数据读取的速度和数据处理的速度,将数据加载和模型训练的过程异步进行,提升了模型训练的速度。

本说明书一些实施例中,所述方法还包括:

在指定的应用程序启动后,向服务端发送索引文件请求;

接收服务端响应索引文件请求发送的索引文件,并将索引文件存储到内存中。

在具体的实施过程中,服务器在存储多媒体文件数据后,根据多媒体文件数据的存储信息构建对应索引文件。当终端中指定的应用程序如:视频播放应用程序启动后,可以向服务端发送索引文件请求,服务端可以根据该索引文件请求,将对应的索引文件返回给终端,终端将索引文件存储到内存中。这样终端就可以基于索引文件从服务端中读取所需的数据,不需要在终端本地存储过多的数据,提升了终端的性能和数据处理速度。

基于上述所述的多媒体信息识别方法,本说明书一个或多个实施例还提供一种多媒体信息识别处理的终端、服务端。所述终端、服务端可以包括使用了本说明书实施例所述方法的装置(包括分布式系统)、软件(应用)、模块、组件、服务器、终端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参考前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

由以上本说明书实施例提供的技术方案可见,本说明书本说明书实施例还提供了一种多媒体信息识别装置,图9是本说明书实施例提供的一种多媒体信息识别装置的结构示意图,所述装置应用于终端,如图9所示,上述装置包括:

关键帧提取模块910,用于提取待识别多媒体信息中的关键帧;

处理资源获取模块920,用于在图形处理器资源池中选择游离态的虚拟图形处理器作为目标虚拟图形处理器,所述游离态用于表征虚拟图形处理器的工作状态为空闲状态;

信息识别模块930,用于将所述关键帧输入到所述目标虚拟图形处理器,在所述目标虚拟图形处理器对应的处理资源中利用多媒体分类模型确定出所述关键帧对应的类别;所述多媒体分类模型是所述终端基于服务端中存储的多媒体文件数据训练获得的;

类别识别结果确定模块940,用于根据确定出的所述待识别信息的关键帧对应的类别,确定出所述待识别多媒体信息的类别识别结果。

图10是本说明书另一个实施例提供的一种多媒体信息识别装置的结构示意图,如图10所示,在一些实施例中,所述装置还包括多媒体播放管理模块1010,用于:

若确定所述待识别多媒体信息的类别识别结果为目标类别,则向所述服务端发送多媒体播放管理策略请求,所述多媒体播放管理策略请求中包括所述目标类别;

接收所述服务端返回的脚本文件,根据所述脚本文件从所述服务端中获取所述目标类别对应的多媒体播放管理策略;

基于所述目标类别对应的多媒体播放管理策略对所述待识别多媒体信息进行播放管理。

在一些实施例中,所述处理资源获取模块920具体用于:

在所述图形处理器资源池中存在游离态的虚拟图形处理器的情况下,从所述图形处理器资源池中选择一个游离态的虚拟图形处理器;

在所述图形处理器资源池中不存在游离态的虚拟图形处理器的情况下,创建一个虚拟图形处理器,并将创建的虚拟图形处理器作为所述游离态的虚拟图形处理器。

在一些实施例中,所述装置还包括状态调整模块,用于:

将所述目标虚拟图形处理器的状态设置为工作态;

在确定出所述关键帧对应的类别后,所述方法还包括:

将所述目标虚拟图形处理器的状态设置为游离态。

在一些实施例中,信息识别模块930具体用于:

在所述目标虚拟图形处理器对应的处理资源中利用多媒体分类模型根据设置的识别策略,确定出所述关键帧对应的类别。

在一些实施例中,所述装置还包括索引文件请求模块,用于:

在指定的应用程序启动后,向所述服务端发送索引文件请求;

接收所述服务端响应所述索引文件请求发送的所述索引文件,并将所述索引文件存储到内存中。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。上述实施例中的装置根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。

图11是本说明书一个实施例中多媒体分类模型的训练方法的流程示意图,如图11所示,本说明书一些实施例中还可以提供一种用于多媒体信息识别的多媒体分类模型的训练方法,所述方法应用于终端,该方法包括:

S1102、根据索引文件从服务端中获取所述多媒体文件数据;索引文件中存储有多媒体文件数据对应的路径信息;

S1104、将多媒体文件数据划分为多个多媒体文件子数据;

S1106、利用多个虚拟图形处理器对应的处理资源分别加载多个多媒体文件子数据;

S1108、利用加载的多媒体文件子数据训练初始多媒体分类模型,直至满足预设条件,将满足预设条件时的初始多媒体分类模型作为多媒体分类模型,以使得终端利用多媒体分类模型确定出待识别多媒体信息的类别识别结果。

在一些实施例中,所述利用加载的多媒体文件子数据训练所述多媒体分类模型,包括:

在利用多个虚拟图形处理器对应的处理资源分别加载多个多媒体文件子数据时,加载完一个多媒体文件子数据后,利用加载完的多媒体文件子数据训练多媒体分类模型,并行加载下一个多媒体文件子数据。

其中,多媒体分类模型的具体训练过程以及终端使用多媒体分类模型对多媒体信息进行识别分类的过程,可以参见上述实施例的记载,此处不再赘述。

图12是本说明书实施例提供的一种用于多媒体信息识别电子设备的框图,该电子设备可以是终端,其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体信息识别方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

图13是本说明书实施例提供的另一种用于多媒体信息识别电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图13所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体信息识别方法。

本领域技术人员可以理解,图12或图13中示出的结构,仅仅是与本说明书实施例方案相关的部分结构的框图,并不构成对本说明书实施例方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本说明书实施例中的多媒体信息识别方法。

在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本说明书实施例中的多媒体信息识别方法或多媒体分类模型的训练方法。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的多媒体信息识别方法或多媒体分类模型的训练方法。

可以理解的是,在本说明书的具体实施方式中,涉及到用户相关的数据,当本说明书以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本说明书所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本说明书实施例的其它实施方案。本说明书旨在涵盖本说明书实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书实施例的一般性原理并包括本说明书实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书实施例的真正范围和精神由下面的权利要求指出。

应当理解的是,本说明书实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书实施例的范围仅由所附的权利要求来限制。

相关技术
  • 文本信息的地域属性识别方法及装置、电子设备
  • 一种漆面识别方法、装置、存储介质及电子设备
  • 应用的界面功能识别方法、装置及电子设备
  • 语音识别方法、装置及电子设备
  • 模块式空调机组串并联的识别方法、装置及电子设备
  • 互联网上多媒体信息识别方法、装置及电子设备
  • 多媒体信息识别方法、装置、电子设备及存储介质
技术分类

06120116488882