掌桥专利:专业的专利平台
掌桥专利
首页

用于分析视频流的方法和装置

文献发布时间:2023-06-19 11:02:01


用于分析视频流的方法和装置

技术领域

本公开涉及人工智能技术领域,尤其涉及计算机视频技术、知识直播和深度学习领域,并且更具地,涉及用于分析视频流的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在信息时代,作为信息媒介的一种,视频越来越受到人们的欢迎。例如,视频流直播已成为传递知识最好的载体之一。由于视频流中通常包括诸如以图像或音频而表达的丰富的信息,因此对于理解视频流的内容,特别是理解知识类直播的视频流的内容,传统的利用视频的标题或其描述文本的方式来确定视频流的主题的方案可能难于准确地表示视频流的主题,因此,存在对能够准确标识视频流的主题的方案的需要。

发明内容

本公开提供了一种用于分析视频流的方法、装置、设备、存储介质以及计算机程序。

根据本公开的第一方面,提供了一种用于分析视频流的方法,该方法包括获取视频流的图像数据和音频数据。该方法还包括根据与音频数据相对应的第一文本,确定能够标识第一文本的主题的第一主题文本。该方法还包括利用图像数据的图像特征表示,根据与图像数据相对应的第二文本,确定能够标识第二文本的主题的第二主题文本。该方法还包括基于第一主题文本以及第二主题文本,确定视频流的主题。

根据本公开的第二方面,提供了一种用于分析视频流的装置,该装置包括数据获取模块,被配置为获取视频流的图像数据和音频数据。该装置还包括第一主题文本确定模块,被配置为根据与音频数据相对应的第一文本,确定能够标识第一文本的主题的第一主题文本。该装置包括第二主题文本确定模块,利用图像数据的图像特征表示,根据与图像数据相对应的第二文本,确定能够标识第二文本的主题的第二主题文本。该装置还包括主题确定模块,被配置为基于第一主题文本以及第二主题文本,确定视频流的主题。

根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,该存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开的第一方面所述的方法。

根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开的第一方面所述的方法。

根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时,实现根据本公开的第一方面所述的方法。

根据本公开的方案能够实现对视频流的分析,并准确地标识视频流所对应的主题。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:

图1是示出了本公开的多个实施例能够在其中实现的示例环境的示意图。

图2示出了根据本公开的一些实施例的用于分析视频流的方法的流程图。

图3示出了根据本公开的一些实施例的用于确定第一主题文本的方法的流程图。

图4示出了根据本公开的一些实施例的用于确定第二主题文本的方法的流程图。

图5示出了根据本公开的一些实施例的用于确定第二主题文本的方法的示意图。

图6示出了根据本公开的实施例的用于分析视频流的装置的示意框图。

图7示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。

如上所讨论的,在理解包括各个维度(例如,图像的特征、图像中所包括的文字、以及音频)的丰富信息的诸如知识类直播的视频流时,传统方案无法从多个维度对其进行准确理解,因而无法有效地确定视频流的主题。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的实施例提出了一种通过视频流中所包括的诸如音频、图像中的文本以及图像的特征等多个维度的信息,来确定(例如,不同时段的)视频流的主题的技术方案。在该方案中,通过分别对视频流的音频数据进行语音识别、以及对视频流的图像数据进行文字识别,可以获取与该视频流相对应的音频识别文本以及图像识别文本。基于音频识别文本、以及图像识别文本和其对应的图像特征信息,可以分别提取指示该视频流的两种主题文本。基于这两种主题文本,可以从中提取出至少一个关键词作为标签来表征该视频流的主题。

以此方式,可以基于视频流中所包括的各种信息,例如,其中的音频识别文本信息、图像识别文本信息以及其对应的图像特征信息,对视频流的主题进行较为准确的识别,以例如促进用户后续能基于与该主题相关联的标签,对视频流进行检索以取回该视频流或定位至视频流的特定位置。

图1是示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。

如图1所示,环境100包括计算设备120,用于对输入的视频流110进行处理,以确定与视频流110相关联的主题130。视频流110可以指代将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的不同类型格种类的视频。在一些实施例中,在例如一个知识类直播的实时的视频流中,其可以包括与多个知识点相关的多个视频片段。因此,计算设备可以根据视频流的多个视频片段,确定出于分别与视频流110的多个视频片段相关联的多个主题。

基于视频数据110,计算设备可以从中提取出诸如音频数据104、图像数据114等的数据。可以理解的是,图像数据114可以是从视频流的预定时段内提取的一帧或多帧图像,图像数据114可以进一步包括文本数据(例如,图像中的文字和字幕)。音频数据104可以是从该预定时段内视频流中所提取的音频数据。

计算设备120可以被配置为对音频数据104进行例如自动语音识别(ASR)的处理,以确定与音频数据相对应的第一文本106。计算设备120还可以被配置为对图像数据114进行例如文字识别(诸如,光学字符识别OCR)的处理,以确定与图像数据114相对应的第二文本116。可以理解的是,第一文本通常可以划分为多个自然语句或短语,并且第二文本也可以被划分为多个自然语句或短语。

基于与音频数据104相对应的第一文本106、以及与图像数据114相对应的第二文本116,计算设备120可以分别确定第一主题文本108和第二主题文本118,以用于确定视频流110的主题130。可以理解的是,第一主题文本108可以由第一文本106中的一个或多个语句、或者一个或多个短语组成。类似地,第二主题文本118可以由第二文本116中的一个或多个语句、或者一个或多个短语组成。

基于第一主题文本108和第二主题文本118,计算设备可以识别出至少一个主题130。这例如可以通过对第一主题文本108和第二主题文本118进行自然语义理解来实现。可以理解的是,主题通常可以是第一主题文本108和第二主题文本118中的一个或多个关键短语。

基于主题130,计算设备可以将与主题130相关的标签与视频流110相关联,以用于后续对该视频流的检索、或用于通过标签定位到视频流的特定时间点等。

计算设备120可以是任何具有计算能力的设备。作为非限制性示例,计算设备120可以是任意类型的固定计算设备、移动计算设备或便携式计算设备,包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等;计算设备120的全部组件或一部分组件可以分布在云端。计算设备120至少包含处理器、存储器以及其他通常存在于通用计算机中的组件,以便实现计算、存储、通信、控制等功能。

在一些实施例中,计算设备120中可以包括各种预先训练好的神经网络模型。预先训练好的神经网络模型包括但不限于诸如BERT(Bidirectional Encoder Representationfrom Transformers,基于转换器的深度双向语言表征模型)的自然语义理解模型、诸如RESTNET 50(深度残差神经网络)的图像特征提取模型、诸如条件随机场(CRF)的序列标注模型等。上述模型可以用于对视频流中的文本或图像特征进行识别、处理和标识。对模型的使用将在下文结合图2至图3进行详细描述。在一些实施例中,模型也可以指代将不同的模型组合而形成组合模型,例如,BERT与CRF可以被组合以用于对音频识别文本的标注。

备选地,在一些实施例中,计算设备120还可以选取合适的初始模型进行训练以获取上述各种预先训练好的模型。初始训练模型包括但不限于支持向量机(SVM)模型,贝叶斯模型,随机森林模型,各种深度学习/神经网络模型,诸如卷积神经网络(CNN)、循环神经网络(RNN)等。

应当理解,仅出于示例性的目的描述环境100中的架构和功能,而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的涉及业务授权的环境中。

下文将结合图2至图5详细描述根据本公开实施例的方法。为了便于理解,在下文描述中提及的具体数据均是示例性的,并不用于限定本公开的保护范围。为了便于描述,以下结合图1所示的示例性环境100来描述根据本公开实施例的方法。根据本公开实施例的方法可以分别在图1中示出的计算设备120或其他适当的设备中实现。应当理解,根据本公开实施例的方法还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。

图2示出了根据本公开的一些实施例的用于分析视频流的方法200的流程图。

在202,计算设备120可以获取视频流110的图像数据114和音频数据104。

具体地,计算设备120可以对视频流数据进行分流,以获取图像数据和音频数据。在一些实施例中,计算设备120可以对视频流110的视频信号进行转码,以生成预定格式的视频流数据以用于上述分流。在一些实施例中,视频流110是诸如知识类直播的实时视频流。

在一些实施例中,计算设备120可以基于预定时间间隔(例如,每3分钟),从实时的视频流中提取视频片段。例如,对于12分钟的直播视频流数据,计算设备可以按0-3分钟、3-6分钟、6-9分钟、9-12分钟进行视频片段的提取。基于这些视频片段,计算设备可以确定图像数据和音频数据,并据此确定与这些视频片段分别相关联的主题。

在一些实施例中,上述预定时间间隔可以基于视频流的图像数据的变化而确定。具体地,计算设备可以响应于检测到视频流中的图像数据的变化(例如,由于知识类直播的讲解者切换演示文档文件PPT等变化)而确定上述预定时间间隔。在一些实施例,上述预定时间间隔可以被设定为与讲解例如一页或两页PPT的时间相对应。还可以应用其他合适的技术从视频流110确定图像数据和音频数据,本公开对此不做限制。

以此方式,计算设备可以对实时的视频流的不同时间段进行实时的主题确定,以促进后续对该视频流的利用。

在204,计算设备120可以根据与音频数据104相对应的第一文本106,确定能够标识第一文本106的主题的第一主题文本108。

下面参考图3来详细描述确定第一主题文本的具体过程。图3示出了根据本公开的一些实施例的用于确定第一主题文本的方法300的流程图。

在302,计算设备120可以对音频数据104执行语音识别处理,以获取第一文本106。

在一些实施例中,计算设备120还可以对音频数据进行处理以移除其中的空白或者停顿的片段,并对经处理的音频数据进行音频到文本的数据转换。可以理解的是,语音识别处理可以利用各种常规的语音识别技术来进行。可以理解的是,从音频数据获取的第一文本中可以包括多个自然语句。

在304,计算设备120可以基于自然语义理解模型对第一文本106进行标注,以确定经标注的第一文本。

具体地,计算设备120可以对上述获取的第一文本应用诸如基于BERT或双向长短期记忆网络LSTM的语义理解模型,以获取第一文本的特征表示(例如,特征向量)。计算设备120可以对第一文本的特征表示应用诸如CRF的序列标注模型,例如采用BIO标注模式来对第一文本中的每个字符进行标注。其中“B”可以指代第一主题文本的开始,“I”表示在第一主题文本中,“O”表示不属于第一主题文本的内容。

在一个示例中,对于包含一个自然语句“今天我们来讲因式分解”的音频数据,计算设备可以利用上述模型,将“今天我们来讲”中的每个字符标注为“O”,将“因”标注为“B”,并且将“式分解”中的每个字符标注为“I”。

因此,在306,计算设备120可以基于经标注的第一文本,确定第一主题文本108。例如,在采用BIO标注模式的上述示例中,计算设备可以基于被标注为“B”和“O”的字符,确定第一主题文本是“因式分解”。

以此方式,计算设备能够对音频数据中所包括的信息进行理解,以提取出其中与视频流的主题相关的信息作为主题文本。

在一些实施例中,对于基于诸如BERT的训练模型的语义理解模型,计算设备可以利用少量经标注的训练样本(例如,3000个音频数据所对应的文本)对预训练模型进行训练来微调其参数。例如,在根据知识类直播的视频流的音频数据而转换的文本中,通常会包括一些对主题文本的提示的文字描述,诸如“今天我们分享……”,“今天我们讲……”,“接下来我们讲……”等文字描述。因此,可以对训练样本中所包括这样特征进行标注,并利用经标注的训练样本对语义理解模型进行训练,以使其能够对输入的视频流中的音频数据所对应的第一文本进行更准确的标识。

回到参考图2,在206,计算设备120可以利用图像数据的图像特征表示,根据与图像数据相对应的第二文本,确定能够标识第二文本的主题的第二主题文本。

图4示出了根据本公开的一些实施例的用于确定第二主题文本的方法400的流程图。

在402,计算设备120可以对图像数据114执行光学字符识别处理,以获取第二文本116。

具体地,计算设备可以对视频流按照预定频率进行关键帧的抽取,以确定一帧或多帧图像作为图像数据114以用于第二文本116的获取。例如,当预定时间间隔内的视频流包括两页PPT时,计算设备可以分别抽取与这两页PPT相对应的两帧图像以用于第二文本116的获取。

可以理解的是,光学字符识别处理可以利用各种常规的OCR技术来进行。可以理解的是,从图像数据获取的第二文本中可以包括一个或多个自然语句或短语。

回到参考图4,在404,计算设备120可以对图像数据114执行目标检测处理,以确定第二文本116所包括的至少一个子文本的至少一个位置。

在406,计算设备120可以基于至少一个位置并且利用图像特征表示,从至少一个子文本中确定第二主题文本118。

步骤404和406的过程将参考图5进行具体描述。图5示出了根据本公开的一些实施例的用于确定第二主题文本的示意图500。

具体地,基于自然语义理解模型,计算设备120,可以确定与至少一个子文本相对应的至少一个子文本特征表示。在图5所示出的一个具体示例中,图像数据514包括一页PPT的图像,对该PPT图像进行光学字符识别处理可以获得3个自然语句(即,3个子文本534)“动能和重力势能的转化”、“1、滚摆和单摆在运动时具有哪些能量?”、以及“2、动能和重力势能之间是如何转化的?”因此,对于子文本534,计算设备可以应用自然语义理解模型536以获取其对应的子文本特征表示538。利用自然语义理解模型536来对与图像数据相对应的第二文本所包括的子文本进行处理,以获取其特征表示的过程与上文中描述过利用自然语义理解模型536对与音频数据相对应的子文本进行处理,以获取其特征表示的过程类似,在此不再赘述。

利用目标检测处理,计算设备可以获取上述三个子文本所对应的三个图块,并且分别获取该三个图块的三个位置(在本文有时也被称为位置数据)。位置可以例如利用坐标来表示,例如,对于给定图块,可以以图像的左下角作为原点,确定该图块的给定点(例如,图块的左下角、右上角或者中心点)相对于原点的坐标,以此为基础来标识该图块的位置数据524。

计算设备120可以基于至少一个位置,确定所述至少一个子文本在图像数据中所占据的至少一个感兴趣区域。例如,以“动能和重力势能的转化”为例,计算设备可以将该子文本所占据的图像的空间、以及周围的预定范围(例如,至少包括其下划线)的区域确定为感兴趣区域(ROI)。

计算设备120可以基于至少一个感兴趣区域,从图像特征表示中确定针对感兴趣区域的至少一个第一特征表示。

具体地,计算设备可以对图像数据514(例如,其整体)应用诸如RESTNET 50的图像特征提取模型516,以获取与图像数据514中的特征相对应的诸如特征图(feature map)的图像特征表示518。可以理解的是,特征图可以表征图像区数据的多个区域单元的每个区域单元的特征。计算设备可以基于感兴趣区域的位置(例如,坐标),以例如通过ROI池化526处理的方式,对图像特征表示518进行降维,以获取针对感兴趣区域的第一特征表示528。

例如,还是以子文本“动能和重力势能的转化”为例,计算设备利用该子文本所对应的感兴趣区域(ROI),可以从与图像数据整体相对应的图像特征表示518中,提取出与该ROI相对应的第一特征表示528。对于图像数据中所包括的其他子文本,计算设备可以执行类似的处理以分别获取其它(多个)对应的第一特征表示。

在一些实施例中,图像特征表示518也可由计算设备通过诸如最大池化或平均池化的处理,以获取合适维度的特征表示以用于后续的处理。

基于至少一个第一特征表示以及图像特征表示,计算设备120可以从至少一个子文本中确定第二主题文本。

例如,对于图5所示出的一个具体示例中,“动能与重力势能的转化”显然是包含主题的自然语句,其所对应的图像区域的特征(例如,该子文本可以具有字体经加粗、和\或加下划线,字体大小较大,文本缩进靠前等特征中的至少一项)也与图像的其他区域(例如,其他至少一个子文本“1、滚摆和单摆在运动时具有哪些能量?”、以及“2、动能和重力势能之间是如何转化的?”可以具有字体未加粗、和\或未加下划线,字体大小较小,文本缩进靠后等特征中的至少一项)特征不同。因此,对于该帧图像所对应的图像数据,计算设备可以利用图像特征,来从至少一个子文本中确定第二主题文本。

在一些实施例中,还可以结合考虑第二文本所包括的各个子文本的语义,以更为准确地识别出第二主题文本。因此,计算设备120可以利用至少一个子文本特征表示、至少一个第一特征表示以及图像特征表示,来确定第二主题文本。

具体地,对于给定子文本“动能和重力势能的转化”,计算设备120可以将与该子文本的第一特征表示526(例如,以特征向量的形式,其可以表征子文本的语义)、(例如,经池化处理的)的图像特征表示518(例如、以特征向量的形式)、以及子文本特征表示538(例如、以特征向量的形式)进行特征融合540(例如,将该多个特征表示拼接在一起),来获取表征该子文本的融合特征表示(例如,特征向量)。该子文本的融合特征向量可以表征有关该子文本的文字语义的特征信息、该子文本所对应的感兴趣区域的图像特征(例如,该子文本可以具有字体经加粗、和\或加下划线,字体大小较大,文本缩进靠前等特征中的至少一项)、以及图像数据的整体的图像特征(例如,其他至少一个子文本“1、滚摆和单摆在运动时具有哪些能量?”、以及“2、动能和重力势能之间是如何转化的?”可以具有字体未加粗、和\或未加下划线,字体大小较小,文本缩进靠后等特征中的至少一项)。

计算设备120可以将融合特征表示送入到分类器550中,以确定该子文本是否为第二主题文本。例如,对于子文本“动能和重力势能的转化”,计算设备可以将其分类为属于主题文本,而对于子文本“1、滚摆和单摆在运动时具有哪些能量?”、以及“2、动能和重力势能之间是如何转化的?”,计算设备则可以将其分类为不属于主题文本。虽然,上面仅以二分类任务的分类器作为确定子文本是否属于主题文本的一个具体示例,可以理解的是,其他能用于基于特征表示确定是否属于主题文本的技术也可以在本文中应用。

以此方式,计算设备能够对图像数据中所包括的多种信息进行理解,以提取出其中与视频流的主题相关的信息作为主题文本。

回到参考图2,在208,计算设备120可以基于第一主题文本以及第二主题文本,确定视频流的主题。

具体地,由于视频流110一般由图像、音频、文本等元素组成,想要较为准确地理解视频内容以确定其主题,需要将这些不同的信息融合起来以获得对主题更好的识别效果。计算设备可以将第一主题文本和第二主题文本进行组合,以获取经组合的主题文本,并且从经组合的主题文本中提取至少一个关键短语作为主题。对关键短语的确定也可以采用自然语义理解模型。在一些实施例中,可以从第一主题文本和第二主题文本中分别提取至少一个关键短语以作为上述主题。在另一些实施例中,至少一个关键短语的数目可以为一个,本公开对此不作限定。

根据本公开的实施例,可以对例如图像中所包括的文本特征、图像特征和音频中所包括的特征进行综合考虑,以更为准确地对视频流进行理解以确定指示视频流(例如,其中的一个或多个视频片段)的主题。由此,可以促进后续利用所确定的主题对视频流(例如,多个时间段)加(多个)标签、利用主题对视频流进行检索、定位到视频流中特定的时间点等操作。

图6示出了根据本公开的实施例的用于分析视频流的装置600的示意框图。如图6所示,该装置600包括数据获取模块602,被配置为获取视频流的图像数据和音频数据。该装置600还包括第一主题文本确定模块604,被配置为根据与音频数据相对应的第一文本,确定能够标识第一文本的主题的第一主题文本。该装置600包括第二主题文本确定模块606,利用图像数据的图像特征表示,根据与图像数据相对应的第二文本,确定能够标识第二文本的主题的第二主题文本。该装置600还包括主题确定模块608,被配置为基于第一主题文本以及第二主题文本,确定视频流的主题。

在一些实施例中,数据获取模块602包括:视频提取子模块,被配置为基于预定的时间间隔,从实时的视频流中提取视频片段;以及图像和音频数据确定子模块,被配置为基于视频片段,确定图像数据和音频数据。

在一些实施例中,第一主题文本确定模块604包括:语音识别子模块,被配置为对音频数据执行语音识别处理,以获取第一文本;语义理解子模块,被配置为基于自然语义理解模型对第一文本进行标注,以确定经标注的第一文本;以及第一主题文本确定子模块,被配置为基于经标注的第一文本,确定第一主题文本。

在一些实施例中,第二主题文本确定模块606包括:光学字符识别子模块,被配置为对图像数据执行光学字符识别处理,以获取第二文本;文本目标检测子模块,被配置为对图像数据执行目标检测处理,以确定第二文本所包括的至少一个子文本的至少一个位置;第二主题文本确定子模块,被配置为基于至少一个位置并且利用图像特征表示,从至少一个子文本中确定第二主题文本。

在一些实施例中,第二主题文本确定子模块包括:感兴趣区域确定单元,被配置为基于至少一个位置,确定至少一个子文本在图像数据中所占据的至少一个感兴趣区域;第一特征表示确定单元,被配置为基于至少一个感兴趣区域,从图像特征表示中确定针对感兴趣区域的至少一个第一特征表示;以及第二主题文本确定单元,被配置为基于至少一个第一特征表示以及图像特征表示,从至少一个子文本中确定第二主题文本。

在一些实施例中,第二主题文本确定单元包括:子文本特征表示子单元,被配置为基于自然语义理解模型,确定与至少一个子文本相对应的至少一个子文本特征表示;以及第二主题文本确定子单元,被配置为利用至少一个子文本特征表示、至少一个第一特征表示以及图像特征表示,确定第二主题文本。

在一些实施例中,主题确定模块608包括:主题文本组合子模块,被配置为对第一主题文本和第二主题文本进行组合,以获取经组合的主题文本;以及关键短语提取模块,被配置为从经组合的主题文本中提取至少一个关键短语作为主题。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如方法200、300和400。例如,在一些实施例中,方法200、300和400中的任一个可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的方法200、300、500和600中的任一个的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、300和400中的任一个。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 用于由至少两个编码输入视频流来建立一个编码输出视频流的方法和装置、以及该装置的应用和编码输入视频流
  • 用于分析视频流的方法和装置
技术分类

06120112769791