视频处理方法、装置、电子设备和可读存储介质

文献发布时间：2024-04-18 20:01:30

技术领域

本申请属于音视频技术领域，具体涉及一种视频处理方法、装置、电子设备和可读存储介质。

背景技术

在视频播放过程中，当出现一些回忆场景时，观众也许已经忘了前面的内容，或者对于没有看前面内容的观众也会出现无法理解当前视频内容的情况。目前，一些视频剧集在播放过程中能够生成已经播放过的回忆视频片段，以帮助用户理解剧情，而这些回忆视频片段往往是通过人工剪辑拼接生成的，这也就需要剪辑人员耗费大量的时间来完整的观看视频并剪辑拼接得到这些回忆视频片段，效率较低。

发明内容

本申请实施例提供了一种视频处理方法、装置、电子设备和可读存储介质，能够解决相关技术中视频处理效率较低的问题。

第一方面，本申请实施例提供了一种视频处理方法，包括：

当视频的播放内容中包括目标词语时，获取当前播放内容；

获取与所述当前播放内容关联的历史播放内容，所述历史播放内容为所述视频中位于所述当前播放内容之前的播放内容；

显示所述历史播放内容。

第二方面，本申请实施例提供了一种视频处理装置，包括：

第一获取模块，用于当视频的播放内容中包括目标词语时，获取当前播放内容；

第二获取模块，用于获取与所述当前播放内容关联的历史播放内容，所述历史播放内容为所述视频中位于所述当前播放内容之前的播放内容；

显示模块，用于显示所述历史播放内容。

第三方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的视频处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的视频处理方法的步骤。

本申请实施例中，当视频的播放内容中包括目标词语，获取当前播放内容，并获取与所述当前播放内容关联的位于所述当前播放内容之前的历史播放内容，然后显示所述历史播放内容。这样，也就能够在检测到视频的播放内容包括目标词语时主动获取与当前播放内容关联的历史播放内容并进行显示，从而也就无需通过剪辑人员通过剪辑视频来获得与当前播放内容相关的历史播放视频，有效提升了对于视频的处理效率，也有助于提升用户的视频观看体验。

附图说明

图1是本申请实施例提供的一种视频处理方法的流程图；

图2是本申请实施例提供的一种视频处理方法的场景示意图之一；

图3是本申请实施例提供的一种视频处理方法的场景示意图之二；

图4是本申请实施例提供的一种视频处理装置的结构图；

图5是本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法、装置及电子设备等进行详细地说明。

请参照图1，图1是本申请实施例提供的一种视频处理方法的流程图，所述方法可以是应用于如手机、平板电脑、计算机、可穿戴产品等电子设备。如图1所示，视频处理方法包括以下步骤：

步骤101、当视频的播放内容中包括目标词语时，获取当前播放内容。

可选地，所述视频可以是指能够进行播放的任意视频，例如电影、电视剧集、短视频等。

本申请实施例中，电子设备可以在播放视频的情况下，若检测到视频的播放内容中包括目标词语，则获取当前播放内容。其中，所述目标词语可以是预先设置并存储的词语。例如，电子设备可以预先设置目标词库，目标词库中包括预先设置的多个目标词语，这些目标词语可以是用于表达回忆内容的固定词组，例如当年、那年、曾经、当初、想当年、去年、上月等等。电子设备在播放视频时，可以是对当前播放内容进行检测，以检测所述当前播放内容中是否包括目标词语。例如，若当前播放内容中的对话内容包括“那年杏花微雨……”，电子设备检测到当前播放内容中包括“那年”，也即检测到目标词语，则电子设备获取当前播放内容，进一步可以对当前播放内容进行识别。

可选地，电子设备在播放视频的情况下，可以是在启动目标控件的情况下，对视频的播放内容是否包括目标词语进行检测。示例性地，如图2所示，视频的播放界面21上可以增设目标控件22(例如智能回忆开关)，用户可以选择是否开启该控件，若接收到用户开启目标控件22的操作，则电子设备对视频的播放内容是否包括目标词语进行检测，若检测到所述当前播放内容中包括目标词语，则电子设备对所述当前播放内容进行识别，并执行后续的步骤和流程。若电子设备没有接收到用户开启目标控件22的操作，也即目标控件22处于关闭状态，则电子设备不会对当前播放内容是否包括目标词语进行检测，也即不会执行后续的相关流程。这样，电子设备也就能够基于用户操作来确定是否执行对当前播放内容是否包括目标词语进行检测以及相关流程，有效提升了电子设备与用户的互动性，更有助于提升电子设备的用户体验度。

步骤102、获取与所述当前播放内容关联的历史播放内容，所述历史播放内容为所述视频中位于所述当前播放内容之前的播放内容。

本申请实施例中，电子设备在基于目标词语获取当前播放内容后，可以对当前播放内容进行识别，例如可以识别当前播放内容中的人物、对话等内容，基于识别到的这些内容来获取与当前播放内容关联的历史播放内容。

可选地，所述步骤102可以包括：

对所述当前播放内容进行识别，获取所述当前播放内容的识别结果；

获取与所述识别结果关联的历史播放内容。

示例性地，所述对当前播放内容进行识别，可以是对当前播放内容的视频图像和音频分别进行识别，也即识别当前播放内容的视频图像包括哪些内容，如包括哪些人物、所处的场景、人物的动作、人物的表情、人物当前的情感等，以及通过声纹识别算法识别当前播放内容的音频包括哪些内容，如人物的对话内容等。这样，基于对当前播放内容进行识别，也就能够获取当前播放内容的识别结果，例如当前播放内容的视频图像包括的内容以及音频包括的内容。

本申请实施例中，电子设备在获取到对当前播放内容的识别结果后，可以对视频所有的已播放内容进行识别，以获取与所述识别结果关联的历史播放内容，所述历史播放内容也即视频的已播放内容，例如所述历史播放内容可以是一段已播放片段，也即位于当前播放内容之前的播放片段。

示例性地，所述当前播放内容的识别结果包括视频图像和音频，例如所述视频图像包括人物A和人物B，音频包括人物A和人物B的对话内容“那年杏花微雨……”，则电子设备可以对视频的已播放内容进行识别，获取包括人物A和人物B且对话内容中涉及“杏花微雨”或者是视频图像涉及“杏花微雨”的已播放片段，将包括人物A和人物B且对话内容中涉及“杏花微雨”或者是视频图像涉及“杏花微雨”的已播放片段确定为与上述识别结果关联的历史播放内容。

步骤103、显示所述历史播放内容。

本申请实施例中，在确定与当前播放内容关联的历史播放内容后，显示所述历史播放内容，例如可以在视频的播放界面显示所述历史播放内容。如图3所示，可以在视频的播放界面的右上角显示一个小窗口，在该窗口内显示历史播放内容。这样，也就使得用户能够直观地观看到与当前播放内容相关的历史播放内容，从而有助于帮助用户回忆已播放的视频内容，也更有助于用户对当前播放内容的理解。

本申请实施例中，电子设备在检测到视频的播放内容中包括目标词语时，获取当前播放内容，并获取与所述当前播放内容关联的位于所述当前播放内容之前的历史播放内容，然后显示所述历史播放内容。这样，电子设备也就能够检测在到视频的播放内容包括目标词语时主动获取与当前播放内容关联的历史播放内容并进行显示，从而也就无需通过剪辑人员通过剪辑视频来获得与当前播放内容相关的历史播放视频，有效提升了对于视频的处理效率，也有助于提升用户的视频观看体验。

可选地，所述对所述当前播放内容进行识别，获取所述当前播放内容的识别结果，包括：

获取所述当前播放内容中的视频图像和音频；

对所述视频图像和音频进行识别；

根据对所述视频图像的识别结果和对所述音频的识别结果，确定所述当前播放内容的识别结果。

本申请实施例中，在电子设备对当前播放内容进行识别的情况下，分别获取所述当前播放内容中的视频图像和音频，并对所述视频图像和音频进行识别。

示例性地，通过对当前播放内容的视频图像进行识别，识别到当前的视频图像中包括人物A和人物B，也即视频图像的识别结果为识别到人物A和人物B；对当前播放内容的音频进行识别，识别到当前的对话内容是人物A对人物B说：“那年杏花微雨……”，进一步可以通过对当前播放内容的前后帧进行音频提取，提到这段话的完整版是“那年杏花微雨，你说你是人物C，或许一开始便是错的”，也即获取到了当前播放内容的音频的识别结果。进一步地，结合所述视频图像的识别结果和音频的识别结果，可以确定当前播放内容对应的事件内容也就是：杏花微雨、人物A与人物B说话，而对话内容也就是：人物B说自己是人物C。

本申请实施例中，也就能够对当前播放内容的视频图像和音频分别进行识别，并结合视频图像的识别结果和音频的识别结果来确定当前播放内容的识别结果，例如事件内容和对话内容，从而也就使得电子设备能够根据事件内容和对话内容来对视频已播放的内容进行查找，以查找到与所述事件内容和对话内容都匹配的历史播放内容，从而有助于提升对于查找到的历史播放内容与当前播放内容的关联度，也即能够提升查找到的历史播放内容的准确性。

可选地，所述当前播放内容的识别结果包含事件内容和对话内容，所述获取与所述识别结果关联的历史播放内容，包括：

获取预设图像数据库中与所述事件内容相关的M帧视频图像，M为正整数；

获取所述M帧视频图像中与所述当前播放内容匹配的K帧视频图像，K为小于M的正整数；

根据所述对话内容获取所述K帧视频图像中的L帧视频图像，L为小于K的正整数；

根据所述L帧视频图像确定所述历史播放内容。

需要说明地，电子设备可以是预先收集大量的视频与视频描述信息来构建预设图像数据库，所述视频也包括在所述预设图像数据库中。进而，在确定当前播放内容对应的事件内容后，可以从预设图像数据库中获取与所述事件内容最为匹配的前M帧视频图像。例如，事件内容包括杏花微雨、人物A与人物B说话，则可以获取预设图像数据库中所有与该事件内容相关的视频图像，并计算每帧视频图像与该事件内容的相似度，获取其中相似度最高的前M帧视频图像。

或者，电子设备也可以收集大量的视频与视频描述信息作为训练数据，通过神经网络模型提取每段描述信息对应的视频帧画面数据，转换为文本标识与图像标识的一一对应关系，例如猫对应猫的图像，人对应人的图像，等等。基于这些训练数据对神经网络模型进行训练，使得训练后的神经网络模型对于输入的事件内容都能够输出与之关联的一组图像结果。可选地，可以将输出的该组图像结果经过画面旋转、人物裁剪、裁剪拼接、缩放等操作后，扩充该组图像结果，这样也就相当于得到与事件内容相关的全景照、近景照、远景照、人物特写等多个角度的画面信息，最终得到的这些图像也即所需要的M帧视频图像。

进一步地，在得到M帧视频图像后，获取所述M帧视频图像中与所述当前播放内容匹配的K帧图像。需要说明地，前面得到的M帧视频图像是根据与事件内容的相关度得到的，例如事件内容包括人物A和人物B，则可以获取所有包括人物A和人物B的视频图像，也即得到M帧视频图像，但是这些视频图像不一定都与当前播放内容匹配，则可以进一步对所述M帧视频图像进行筛选。例如，可以通过目标识别算法与场景识别算法获取M帧视频图像中每一帧所包括的视频内容，例如第一帧的识别结果为{1，人物m，动物n，场景花园a}，第二帧的识别结果为{2，动物x，汽车y，场景街道b}，...，依此得到每一帧的视频内容识别结果；然后计算这M帧视频图像每一帧的视频内容识别结果与当前播放内容的图像相似度，获取其中相似度最高的前K帧视频图像。这样，也就能够实现了对M帧视频图像的进一步筛选，能够得到相似度更高的K帧视频图像，从而能够有效提升对于后续获取到的历史播放内容的准确性。

可以理解地，上述K帧视频图像是与当前播放内容图像相似度最高的视频图像，而当前播放内容还包括音频，也即对话内容，则进一步基于当前播放内容对应的对话内容对所述K帧视频图像进行筛选。示例性地，可以是提取K帧视频图像每帧所包括的音频或者对话内容，并与当前播放内容对应的对话内容进行相似度计算，获取其中相似度最高的前L帧视频图像，将这L帧视频图像确定为与当前播放内容匹配的历史播放内容。这样，也就使得获取到的历史播放内容在视频图像上和音频上都是与当前播放内容最为匹配的播放片段，从而有效保障了历史播放内容的准确性。

可选地，所述获取所述M帧视频图像中与所述当前播放内容匹配的K帧视频图像，包括：

获取所述当前播放内容所包括的N帧播放图像；

将所述M帧视频图像转换为M个第一特征向量，将所述N帧播放图像转换为N个第二特征向量；

将所述M个第一特征向量与所述N个第二特征向量进行内积计算，根据所述内积计算的结果从所述M帧视频图像中确定K帧视频图像。

可以理解地，视频的当前播放内容可能不止一帧视频图像，将所述当前播放内容转换为一帧一帧的播放图像，进而以得到当前播放内容所包括的N帧播放图像。然后将M帧视频图像和N帧播放图像都转换为特征向量，通过对特征向量进行内积计算，根据内积计算结果以获得M帧视频图像中与当前播放内容最为匹配的K帧视频图像。

其中，两个特征向量内积计算结果的大小，能够用来表征两个特征向量之间的相似性，若内积计算结果越大，说明两个特征向量之间的相似性也就越高。本申请实施例中，特征向量是根据视频图像和播放图像转换得到的，进而也就可以通过内积计算的结果来表征视频图像和播放图像之间的相似性。这样，也就能够通过内积计算的结果来对M帧视频图像进行进一步的筛选，以筛选得到与当前播放内容相似性较高的K帧视频图像，从而更有助于得到与当前播放内容匹配的历史播放内容。

可选地，所述将所述M个第一特征向量与所述N个第二特征向量进行内积计算，根据所述内积计算的结果从所述M帧视频图像中确定K帧视频图像，包括：

获取目标第一特征向量与每一个所述第二特征向量的内积最大值，得到N个内积最大值，所述目标第一特征向量为所述M个第一特征向量中的任一个；

基于所述N个内积最大值确定所述目标第一特征向量对应的内积平均值；

获取每一个所述第一特征向量对应的内积平均值，得到M个内积平均值；

获取所述M个内积平均值中最大的前K个内积平均值，基于所述前K个内积平均值确定所述K帧视频图像。

本申请实施例中，在将所述M帧视频图像转换为M个第一特征向量，将所述N帧播放图像转换为N个第二特征向量后，将M个第一特征向量逐个与N个第二特征向量计算内积最大值，进而每一个第一特征向量都会计算得到N个内积最大值，然后计算这N个内积最大值的平均值，进而以得到这个第一特征向量对应的内积平均值。例如，以M个第一特征向量中的第一个为例，该第一个第一特征向量与N个第二特征向量中每一个都计算得到一个内积最大值，进而得到N个内积最大值，然后计算这N个内积最大值的平均值，也即得到内积平均值，该内积平均值也就是第一个第一特征向量对应的内积平均值。按照这样的方式，也就能够计算得到每一个第一特征向量各自对应的内积平均值，也即会得到M个内积平均值。进一步地，获取这M个内积平均值中最大的前K个，基于这前K个内积平均值来确定K帧视频图像。

可以理解地，每个内积平均值都对应一个第一特征向量，基于这K个内积平均值也就能够确定与其对应的K个第一特征向量，而第一特征向量是视频图像转换得到的，进而也就能够确定K个第一特征向量对应的K个视频图像。而内积平均值代表的是其对应的第一特征向量与N个第二特征向量之间的相似性，也即与当前播放内容的N帧播放图像之间的相似性，内积平均值约到，相似性也就越高。通过获取内积平均值最大的前K个，进而也就实现了从M帧视频图像中筛选出与当前播放内容最为匹配的K帧视频图像，这样也就更有助于得到与当前播放内容匹配的历史播放内容，提升历史播放内容与当前播放内容匹配的准确度。

可选地，所述根据所述对话内容获取所述K帧视频图像中的L帧视频图像，包括：

获取所述对话内容所对应的目标对象以及对话关键词；

根据所述目标对象及所述对话关键词获取所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度；

根据所述匹配度从所述K帧视频图像中确定出所述L帧视频图像，所述L帧视频图像为所述K帧视频图像中匹配度最高的前L帧。

可以理解地，在从M帧视频图像中筛选出与当前播放内容较为匹配的K帧视频图像后，所述K帧视频图像是在图像内容上与当前播放内容较为相似，而当前播放内容还包括音频，也即对话内容，则可以基于所述对话内容进一步对所述K帧视频图像进行筛选，以得到在视频图像上和音频上都与当前播放内容更为匹配的视频图像。

本申请实施例中，可以通过人物识别算法对所述当前播放内容进行识别，以确定当前播放内容的对话内容所对应的目标对象，也即目标人物。以及，基于语音识别算法对所述对话内容进行识别，提取所述对话内容所对应的对话关键词。然后根据所述目标对象及所述对话关键词获取所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度。

示例性地，同样可以通过人物识别算法和语音识别算法获取所述K帧视频图像中每一帧视频图像所对应的人物和对话，计算每一帧视频图像所对应的人物与所述目标对象的匹配度，以及每一帧视频图像所对应的对话与所述对话关键词的匹配度，将这两个匹配度的平均值作为该帧视频图像最终的匹配度，这样也就能够得到K帧视频图像中每一帧视频图像与所述对话内容的匹配度，筛选出其中匹配度最高的前L帧视频图像。这样，也就能够基于对话内容进一步从K帧视频图像中筛选出与当前播放内容更为匹配的L帧视频图像，从而以得到最终的历史播放内容，有效保障了历史播放内容与所述当前播放内容匹配的准确度。

可选地，所述根据所述目标对象及所述对话关键词获取所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度，包括：

确定目标帧视频图像中是否包括所述目标对象，所述目标帧视频图像为所述K帧视频图像中的任一帧；

获取所述目标帧视频图像中包括的所述对话关键词的数量，以及所述对话关键词在所述目标帧视频图像中出现的次数；

获取所述目标帧视频图像中包括的所述对话关键词之间的距离；

根据所述目标帧视频图像中是否包括所述目标对象、所述数量、所述次数及所述距离，确定所述目标帧视频图像与所述对话内容的匹配度。

本申请实施例中，需要计算所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度，以其中的目标帧(也即任一帧)视频图像为例，根据所述目标帧视频图像是否包括所述对话内容所对应的目标对象，可以分配不同的权重，例如若目标帧视频图像包括目标对象，则对应权重为0.7，若目标帧视频图像不包括目标对象，则对应权重为0.3。

进一步地，根据所述目标帧视频图像中包括的所述对话关键词的数量，以及所述对话关键词在所述目标帧视频图像中出现的次数，也可以是分配不同的权重。以及根据所述目标帧视频图像中所包括的对话关键词之间的距离，也可以是对应不同的权重值，基于这些权重值来计算所述目标帧视频图像与所述对话内容的匹配度。

示例性地，所述目标帧视频图像与所述对话内容的匹配度可以是基于如下公式计算得到：

其中，P_R就是指该目标帧视频图像是否包含目标对象对应的权重，若包含P_R＝0.7，不包含则P_R＝0.3。

基于上述公式，也即能够计算得到所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度，从而也就能够根据所述匹配度从所述K帧视频图像中筛选出匹配度最高的L帧视频图像，以得到历史播放内容。这样，也就有效保障了历史播放内容与所述当前播放内容匹配的准确度。

本申请实施例中，电子设备能够基于上述方式得到与当前播放内容匹配的历史播放内容，进而能够在视频播放当前播放内容的界面上显示所述历史播放内容，从而有助于帮助用户回忆已播放的视频内容，也更有助于用户对当前播放内容的理解，提升用户的视频观看体验。

请参照图4，图4是本申请实施例提供的一种视频处理装置的结构图，如图4所示，视频处理装置400包括：

第一获取模块401，用于当视频的播放内容中包括目标词语时，获取当前播放内容；

第二获取模块402，用于获取与所述当前播放内容关联的历史播放内容，所述历史播放内容为所述视频中位于所述当前播放内容之前的播放内容；

显示模块403，用于显示所述历史播放内容。

可选地，所述第二获取模块402还用于：

获取所述当前播放内容中的视频图像和音频；

对所述视频图像和音频进行识别；

根据对所述视频图像的识别结果和对所述音频的识别结果，确定所述当前播放内容的识别结果。

可选地，所述当前播放内容的识别结果包含事件内容和对话内容，所述第二获取模块402，包括：

第一获取单元，用于获取预设图像数据库中与所述事件内容相关的M帧视频图像，M为正整数；

第二获取单元，用于获取所述M帧视频图像中与所述当前播放内容匹配的K帧视频图像，K为小于M的正整数；

第三获取单元，用于根据所述对话内容获取所述K帧视频图像中的L帧视频图像，L为小于K的正整数；

确定单元，用于根据所述L帧视频图像确定所述历史播放内容。

可选地，所述第二获取单元还用于：

获取所述当前播放内容所包括的N帧播放图像，N为正整数；

将所述M帧视频图像转换为M个第一特征向量，将所述N帧播放图像转换为N个第二特征向量；

将所述M个第一特征向量与所述N个第二特征向量进行内积计算，根据所述内积计算的结果从所述M帧视频图像中确定K帧视频图像。

可选地，所述第二获取单元还用于：

获取目标第一特征向量与每一个所述第二特征向量的内积最大值，得到N个内积最大值，所述目标第一特征向量为所述M个第一特征向量中的任一个；

基于所述N个内积最大值确定所述目标第一特征向量对应的内积平均值；

获取每一个所述第一特征向量对应的内积平均值，得到M个内积平均值；

获取所述M个内积平均值中最大的前K个内积平均值，基于所述前K个内积平均值确定所述K帧视频图像。

可选地，所述第三获取单元还用于：

获取所述对话内容所对应的目标对象以及对话关键词；

根据所述目标对象及所述对话关键词获取所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度；

根据所述匹配度从所述K帧视频图像中确定出所述L帧视频图像，所述L帧视频图像为所述K帧视频图像中匹配度最高的前L帧。

可选地，所述第三获取单元还用于：

确定目标帧视频图像中是否包括所述目标对象，所述目标帧视频图像为所述K帧视频图像中的任一帧；

获取所述目标帧视频图像中包括的所述对话关键词的数量，以及所述对话关键词在所述目标帧视频图像中出现的次数；

获取所述目标帧视频图像中包括的所述对话关键词之间的距离；

根据所述目标帧视频图像中是否包括所述目标对象、所述数量、所述次数及所述距离，确定所述目标帧视频图像与所述对话内容的匹配度。

本申请实施例提供的装置，能够在视频包括目标词语时主动获取与其当前播放内容关联的历史播放内容并进行显示，从而也就无需通过剪辑人员通过剪辑视频来获得与当前播放内容相关的历史播放视频，有效提升了对于视频的处理效率，也有助于提升用户的视频观看体验。

本申请实施例中的视频处理装置400可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置400可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频处理装置400能够实现图1所述方法实施例实现的各个过程，为避免重复，这里不再赘述。

本申请实施例还提供了一种电子设备。请参见图5，图5是本申请实施例提供的一种电子设备的结构图，如图5所示，所述电子设备包括：处理器500、存储器520及存储在所述存储器520上并可在所述处理器500上运行的程序或指令，处理器500，用于读取存储器520中的程序或指令；所述电子设备还包括总线接口和收发机510。

收发机510，用于在处理器500的控制下接收和发送数据。

其中，在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机510可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

其中，处理器500，用于读取存储器520中的程序或指令，执行如下步骤：

当视频的播放内容中包括目标词语时，获取当前播放内容；

获取与所述当前播放内容关联的历史播放内容，所述历史播放内容为所述视频中位于所述当前播放内容之前的播放内容；

显示所述历史播放内容。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

对所述当前播放内容进行识别，获取所述当前播放内容的识别结果；

获取与所述识别结果关联的历史播放内容。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

获取所述当前播放内容中的视频图像和音频；

对所述视频图像和音频进行识别；

根据对所述视频图像的识别结果和对所述音频的识别结果，确定所述当前播放内容的识别结果。

可选地，所述当前播放内容的识别结果包含事件内容和对话内容，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

获取预设图像数据库中与所述事件内容相关的M帧视频图像，M为正整数；

获取所述M帧视频图像中与所述当前播放内容匹配的K帧视频图像，K为小于M的正整数；

根据所述对话内容获取所述K帧视频图像中的L帧视频图像，L为小于K的正整数；

根据所述L帧视频图像确定所述历史播放内容。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

获取所述当前播放内容所包括的N帧播放图像，N为正整数；

将所述M帧视频图像转换为M个第一特征向量，将所述N帧播放图像转换为N个第二特征向量；

将所述M个第一特征向量与所述N个第二特征向量进行内积计算，根据所述内积计算的结果从所述M帧视频图像中确定K帧视频图像。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

获取目标第一特征向量与每一个所述第二特征向量的内积最大值，得到N个内积最大值，所述目标第一特征向量为所述M个第一特征向量中的任一个；

基于所述N个内积最大值确定所述目标第一特征向量对应的内积平均值；

获取每一个所述第一特征向量对应的内积平均值，得到M个内积平均值；

获取所述M个内积平均值中最大的前K个内积平均值，基于所述前K个内积平均值确定所述K帧视频图像。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

获取所述对话内容所对应的目标对象以及对话关键词；

根据所述目标对象及所述对话关键词获取所述K帧视频图像中每一帧视频图像与所述对话内容的匹配度；

根据所述匹配度从所述K帧视频图像中确定出所述L帧视频图像，所述L帧视频图像为所述K帧视频图像中匹配度最高的前L帧。

可选地，处理器500，还用于读取存储器520中的程序或指令，执行如下步骤：

确定目标帧视频图像中是否包括所述目标对象，所述目标帧视频图像为所述K帧视频图像中的任一帧；

获取所述目标帧视频图像中包括的所述对话关键词的数量，以及所述对话关键词在所述目标帧视频图像中出现的次数；

获取所述目标帧视频图像中包括的所述对话关键词之间的距离；

根据所述目标帧视频图像中是否包括所述目标对象、所述数量、所述次数及所述距离，确定所述目标帧视频图像与所述对话内容的匹配度。

本申请实施例中，电子设备能够在视频包括目标词语时主动获取与当前播放内容关联的历史播放内容并进行显示，从而也就无需通过剪辑人员通过剪辑视频来获得与当前播放内容相关的历史播放视频，有效提升了对于视频的处理效率，也有助于提升用户的视频观看体验。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述图1所述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图1所述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：咪咕文化科技有限公司;中国移动通信集团有限公司;

上一篇：数字图像降噪方法、装置、芯片及存储介质
下一篇：一种音箱的网络连接检测方法