导航：首页> 电通信技术>视频信息获取方法及装置、设备、存储介质

视频信息获取方法及装置、设备、存储介质

文献发布时间：2024-07-23 01:35:21

技术领域

本申请实施例涉及视频处理技术，涉及但不限于一种视频信息获取方法及装置、设备、存储介质。

背景技术

用户在上网课或者观看讲题视频的过程中，通常会有观看使用需求，例如：部分用户并不需要观看全部的视频内容，仅仅需要观看其中的一部分内容，因此，需要通过对视频打标签的方式来让用户更加快速的定位到需要观看的部分。

相关技术中，采用的打标签的方式通常是基于人工观看视频进行各个时间节点的划分，从而实现对视频中各个标签的标注。

然而，人工划分需要耗费大量的人力和时间，并且，存在准确性较低的风险。

发明内容

有鉴于此，本申请实施例提供的视频信息获取方法及装置、设备、存储介质，可以提高确定视频标签的效率，并且可以提高确定视频标签的准确性。本申请实施例提供的视频信息获取方法及装置、设备、存储介质是这样实现的：

本申请实施例的一方面，提供一种视频信息获取方法，应用于电子设备，该方法包括：

获取目标视频，目标视频为针对目标题目进行解析的视频；

确定目标视频的文本信息，文本信息包括：多个字词以及每个字词对应的时间戳；

根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。

本申请实施例的另一方面，还提供一种视频信息获取装置，应用于电子设备，该装置包括：视频获取模块、文本确定模块以及信息获取模块；

视频获取模块，用于获取目标视频，目标视频为针对目标题目进行解析的视频；

文本确定模块，用于确定目标视频的文本信息，文本信息包括：多个字词以及每个字词对应的时间戳；

信息获取模块，用于根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。

本申请实施例提供的电子设备，包括存储器和处理器，存储器存储有可在处理器上运行的计算机程序，处理器执行程序时实现本申请实施例的方法。

本申请实施例提供的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的方法。

本申请实施例所提供的视频信息获取方法及装置、设备、存储介质，可以获取目标视频，并确定目标视频的文本信息，文本信息包括：多个字词以及每个字词对应的时间戳；进而根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息。目标视频为针对目标题目进行解析的视频，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。其中，根据文本信息以及题目信息可以更加准确地确定出目标视频中出现的每一个字词所属的视频标签，进而可以更加准确地确定出目标视频中所包括地目标视频标签以及各个目标视频标签的时间戳，从而可以提高确定视频标签的效率，并且可以提高确定视频标签的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例中提供的应用场景示意图；

图2为本申请实施例中提供的视频信息获取方法的流程示意图；

图3为本申请实施例中提供的模型训练的流程示意图；

图4为本申请实施例中提供的确定目标视频标签信息的流程示意图；

图5为本申请实施例中提供的确定目标视频标签信息的具体流程示意图；

图6为本申请实施例中提供的确定字词所属的视频标签的具体流程示意图；

图7为本申请实施例中提供的确定视频标签的展示示例图；

图8为本申请实施例中提供的得到目标音频对应的文本信息的流程示意图；

图9为本申请实施例中提供的得到目标视频标签信息的另一流程示意图；

图10为本申请实施例中提供的显示标注结果的流程示意图；

图11为本申请实施例中提供的标注结果的显示示意图；

图12为本申请实施例中提供的整体流程示意图；

图13为本申请实施例中提供的视频信息获取装置的结构示意图；

图14为本申请实施例中提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

需要指出，本申请实施例所涉及的术语“第一第二第三”用以区别类似或不同的对象，不代表针对对象的特定排序，可以理解地，“第一第二第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

为了更加清晰地对本申请实施例中的内容进行解释，下面来说明本申请实施例的其中一种应用场景。

图1为本申请实施例中提供的应用场景示意图，请参照图1，该场景中可以包括：电子设备110，该电子设备110可包括但不限于手机、可穿戴设备(如智能手表、智能手环、智能眼镜等)、平板电脑，笔记本电脑、车载终端、PC(Personal Computer，个人计算机)等。

用户可以通过电子设备观看视频，可以是教学类视频，例如：该视频可以是讲师针对某一题目进行讲解的视频。

在用户观看的过程中，由于观看用户的需求不同，因此，需要观看的具体位置存在差异，例如：用户A仅仅需要观看读题审题的部分，用户B仅仅需要观看解题过程的部分，为了满足各种用户的观看需求，需要对视频或者播放视频的应用设置对应的视频标签，用户可以通过视频标签找到需求的内容进行观看。

相关技术中，采用的设置视频标签的方式通常是基于人工观看视频，从而进行各个时间节点的划分，从而实现确定视频标签。然而，人工划分需要耗费大量的人力和时间，并且，存在准确性较低的风险。

为了解决相关技术中存在的如上问题，本申请实施例中提供了一种视频信息获取方法，下面来解释该方法的具体实施过程。

图2为本申请实施例中提供的视频信息获取方法的流程示意图，请参照图2，该方法包括：

S210：获取目标视频。

其中，目标视频为针对目标题目进行解析的视频。

需要说明的是，该方法的执行主体可以是上述电子设备，该电子设备可以是播放视频的终端设备，或者，也可以是存储视频的云端服务器等，在此不作具体限制，可以根据实际需求进行对应的设置。

其中，若电子设备为终端设备，该目标视频可以是云端服务器预先发送给终端设备的，或者，也可以是终端设备中预先存储的，在此不作具体限制；若电子设备为云端服务器，该目标视频可以是在云端服务器中预先存储的，或者，由其他设备上传给云端设备的，在此不作具体限制。

可选地，目标视频可以是对目标题目进行解析的视频，目标题目可以是任意一个需要被解析的题目，例如：学生的课业试题、行业的专业试题等，在此不作具体限制。在目标视频中，可以包括针对该目标题目的多个步骤，例如：读题审题的步骤、思路启发的步骤、解题过程的步骤以及归纳总结的步骤等，在此不作具体限制，可以根据实际需求进行上述步骤的顺序以及数量的确定。

S220：确定目标视频的文本信息。

其中，文本信息包括：多个字词以及每个字词对应的时间戳。

需要说明的是，在得到目标视频之后，可以提取出该目标视频所对应的文本信息，例如：可以对目标视频中的音频进行文字转换，从而确定出对应的文本信息。

在一种实施例中，文本信息可以包括通过上述文字转换后得到的多个字词，可以是单独的一个字，也可以是由多个字所组成的词语，由于每个字词在目标视频中出现的时间是由视频本身的播放时间所决定的，因此，确定的字词还可以对应有时间戳，该时间戳所表示的就是该字词在目标视频中出现的时间。

对于一个目标视频，其中会出现多个字词，每个字词均可以存在对应的时间戳。

S230：根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息。

其中，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。

可选地，目标题目的题目信息例如可以是目标视频中对应的目标题目的相关信息，如：题干、答案等，在此不作具体限制。

基于上述方式得到文本信息之后，可以结合文本信息和目标题目的题目信息来确定出目标视频的至少一个目标视频标签信息。

其中，目标视频标签可以是从多个预设视频标签中确定出的部分或者全部的预设视频标签，目标视频标签的时间戳可以是根据文本信息中字词对应的时间戳所确定的。

可选地，上述确定的过程可以采用预设的模型来确定，或者也可以采用预设的算法来确定，在此不作具体限制，凡是可以得到目标视频标签信息即可。

例如：预设视频标签可以包括上述读题审题的步骤对应的标签、思路启发的步骤对应的标签、解题过程的步骤对应的标签以及归纳总结的步骤对应的标签，目标视频标签可以包括上述四种标签中的一个或者多个，在此不作具体限制。

本申请实施例所提供的视频信息获取方法中，可以获取目标视频，并确定目标视频的文本信息，文本信息包括：多个字词以及每个字词对应的时间戳；进而根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息。目标视频为针对目标题目进行解析的视频，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。其中，根据文本信息以及题目信息可以更加准确地确定出目标视频中出现的每一个字词所属的视频标签，进而可以更加准确地确定出目标视频中所包括地目标视频标签以及各个目标视频标签的时间戳，从而可以提高确定视频标签的效率，并且可以提高确定视频标签的准确性。

在一种实施例中，根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息，包括：将文本信息以及目标题目的题目信息输入到视频信息获取模型中，得到至少一个目标视频标签信息，视频信息获取模型为基于多个视频的文本信息、视频对应题目的题目信息以及实际视频标签信息对初始模型进行训练后得到的。

需要说明的是，视频信息获取模型例如可以是大语言模型LLM，可以将文本信息以及题目信息输入到该视频信息获取模型中，从而得到至少一个目标视频的标签信息。也即是说，该视频信息获取模型的输入可以是文本信息以及目标题目的题目信息，输出可以是至少一个目标视频标签信息。

其中，视频信息获取模型可以是由初始模型进行训练之后得到的，该初始模型在训练的过程中，可以是通过多个视频的文本信息、视频对应题目的题目信息以及实际视频标签信息进行训练，得到满足收敛条件的模型后，将该模型作为上述视频信息获取模型。

为了更加清楚对上述视频信息获取模型进行解释，下面来解释该视频信息获取模型的训练过程。

图3为本申请实施例中提供的模型训练的流程示意图，请参照图3，该方法还包括：

S310：将样本数据输入初始模型中得到样本视频标签信息。

其中，样本数据包括：多个视频的文本信息、视频对应题目的题目信息。

需要说明的是，样本数据可以是预先获取的多个视频的文本信息以及视频对应题目的题目信息，另外，还可以确定出基于这些样本数据所得到的实际视频标签信息。

可以将上述样本信息输入到初始模型中进行训练，初始模型可以输出样本视频标签信息。

S320：在样本视频标签信息与实际视频标签信息的匹配度大于匹配度阈值的情况下，确定初始模型满足收敛条件，将满足收敛条件的初始模型作为视频信息获取模型。

其中，匹配度指多个样本视频标签信息中，与实际视频标签信息相同样本视频标签的占比。

可选地，样本视频标签信息是通过上述初始模型得到的，实际视频标签信息是样本数据对应的真实信息，可以基于这两个信息进行匹配，若匹配度大于匹配度阈值，则可以确定初始模型满足了收敛条件，可以作为上述视频信息获取模型，相对地，若匹配度不大于匹配度阈值，则可以确定初始模型不满足收敛条件，则不能作为上述视频信息获取模型。

需要说明的是，在确定匹配度的过程中，可以确定出多个样本数据对应的多个样本视频标签信息与实际视频标签信息是否相同，其中，匹配度的取值可以是多个样本视频标签信息中，与实际视频标签信息相同样本视频标签的占比。

例如：若存在100组样本数据，其中90组样本数据对一个的样本视频标签信息与实际视频标签信息相同，则可以确定匹配度为90％。

匹配度阈值可以根据实际需求进行设置，例如：95％等，在此不作具体限制。

通过上述方式对初始模型进行训练之后，可以得到视频信息获取模型。

本申请实施例中提供的视频信息获取方法中，可以将样本数据输入初始模型中得到样本视频标签信息；在样本视频标签信息与实际视频标签信息的匹配度大于匹配度阈值的情况下，确定初始模型满足收敛条件，将满足收敛条件的初始模型作为视频信息获取模型。其中，通过上述方式对初始模型进行训练，则收敛的情况下得到对应的视频信息获取模型，可以使得该视频信息获取模型具有较高的准确性，进而可以在该视频信息获取模型的基础上得到更加准确的目标视频标签信息。

下面来解释本申请实施例中确定目标视频标签信息的具体实施过程。

图4为本申请实施例中提供的确定目标视频标签信息的流程示意图，请参照图4，根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息，包括：

S410：根据文本信息中的字词以及目标题目的题目信息，确定文本信息中各个字词所属的视频标签。

可选地，文本信息中每个字词均可以有所属的视频标签，例如：若目标视频中对应的一段文本是“这道题的解答过程如下”，则该文本下的字词所属的视频标签例如可以是解答过程的步骤所对应的视频标签。

或者，也可以结合文本信息中的字词以及目标题目的题目信息，分别确定出文本信息中每一个字词所属的视频标签。

在确定的过程中，可以按照一个字词的方式来判定，或者，也可以结合字词所在的语句、顺序等综合判定，在此不作具体限制。

S420：基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签信息。

可选地，通过上述方式确定出每个字词所属的视频标签之后，可以基于这些视频标签来确定出目标视频的至少一个目标视频标签信息。

例如：可以根据所属于同一视频标签的各个字词，确定出目标视频所包括的目标视频标签，并且可以根据所属于同一视频标签中各个字词的时间戳来确定对应的目标视频标签的时间戳。

本申请实施例中提供的视频信息获取方法中，可以根据文本信息中的字词以及目标题目的题目信息，确定文本信息中各个字词所属的视频标签；基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签信息。其中，通过每个字词所属的视频标签的方式可以更加准确地得到目标视频标签以及目标视频标签的时间戳，从而更加准确地确定出目标视频的至少一个目标视频标签信息。

下面来具体解释基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签信息的实施过程。

图5为本申请实施例中提供的确定目标视频标签信息的具体流程示意图，请参照图5，基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签信息，包括：

S510：基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签。

需要说明的是，得到每个字词所属的视频标签之后，可以根据这些字词所属的标签来确定目标视频所包括的目标视频标签。

例如：若文本信息中包括1000个字词，其中1-500所属的视频标签是第一视频标签、501-800所属的视频标签是第二视频标签，801-1000所属的视频标签是第三视频标签，则可以根据这些所属的视频标签确定出目标视频中包括的视频标签是上述第一视频标签、第二视频标签以及第三视频标签。

S520：基于属于每个目标视频标签中的目标字词的时间戳确定各目标视频标签的时间戳。

其中，目标字词为属于每个目标视频标签中出现最早的字词，和/或，出现最晚的字词。

需要说明的是，在确定出各个目标视频标签之后，可以基于所属于每个视频标签中的多个字词中的目标字词的时间戳来确定目标视频标签的时间戳。

例如：继续以上述1000个字词的示例为例，所属于第一视频标签的1-500个字词中，可以根据其中出现最早和/或出现最晚的字词来确定该视频标签的时间戳。

需要说明的是，目标视频标签的时间戳可以代表该目标视频标签的开始时间，也可以代表该视频标签的结束时间，或者，可以代表该视频标签的持续时间。

在一段时间内，出现最早的字词指的是在该段时间内目标视频中按照播放的时间顺序出现最早的字词，相应的，出现最晚的字词指的是在该段时间内目标视频中按照播放的时间顺序出现最晚的字词。

例如：若出现最早的字词的时间戳为1分50秒，出现最晚的字词的时间戳为3分23秒，若采用目标视频标签的开始时间表示目标视频标签的时间戳，则目标视频标签的时间戳可以是1分50秒；若采用目标视频标签的结束时间表示目标视频标签的时间戳，则目标视频标签的时间戳可以是3分23秒；若采用目标视频标签的持续时间来表示目标视频标签的时间戳，则目标视频标签的时间戳1分50秒-3分23秒。

需要说明的，无论采用上述任意一种方式，均可以确定出目标视频标签的时间戳，按照上述方式可以确定出每一个目标视频标签的时间戳。

本申请实施例中提供的视频信息获取方法中，可以基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签；基于属于每个目标视频标签中的目标字词的时间戳确定各目标视频标签的时间戳，其中，通过每个目标视频标签中的目标字词的时间戳确定各目标视频标签的时间戳可以更加准确地得到目标视频的实际持续时间，从而可以提高获取到的目标视频标签信息的准确性。

下面来解释本申请实施例中提供的确定文本信息中各个字词所属的视频标签的实施过程。

图6为本申请实施例中提供的确定字词所属的视频标签的具体流程示意图，请参照图6，根据文本信息中的字词以及目标题目的题目信息，确定文本信息中各个字词所属的视频标签，包括：

S610：若文本信息中的部分字词与目标题目的题目信息的相似度大于预设阈值，根据题目信息确定部分字词所属的视频标签。

可选地，题目信息中可以包括该题目的题干以及答案等相关内容的文字，可以确定文本信息中的部分字词与这些文字的相似度。

例如：题目信息中包括“已知正弦函数y(x)＝sinx”则可以从文本信息中确定出相类似的字词，例如“y(x)＝sinx”“正弦波”等相同或者相近的字词，这些字词即可以作为上述相似度大于预设阈值的部分字词。

进而可以基于对应的题目信息来确定部分字词所属的视频标签，例如：上述字词就可以确定是属于读题审题步骤对应的视频标签。

S620：基于各个字词出现的顺序以及部分字词所属的视频标签，确定其他字词所属的视频标签。

需要说明的是，各个视频标签的顺序可以是预设好的，例如：读题审题步骤对应的视频标签后的下一个视频标签是思路启发步骤对应的视频标签，则若某一字词出现在读题审题步骤对应的视频标签之后，则可以确定该字词所属的视频标签是思路启发步骤对应的视频标签。

其中，上述确定方式仅为其中一种示例，在实际实施的过程中，各个标签的前后排列方式以及数量等均可以根据实际需求进行设置，并不以上述示例为限制。

本申请实施例中提供的视频信息获取方法中，若文本信息中的部分字词与目标题目的题目信息的相似度大于预设阈值，可以根据题目信息确定部分字词所属的视频标签，进而基于各个字词出现的顺序以及部分字词所属的视频标签，确定其他字词所属的视频标签。基于上述方式可以更加快速、准确地得到各个字词所属的视频标签。

为了更加清晰地对上述解释进行说明，下面以具体的一个示例来解释确定各个字词的视频标签的过程。

图7为本申请实施例中提供的确定视频标签的展示示例图，请参照图7，题目信息包括：题干和/或答案，视频标签包括：读题审题标签、思路启发标签、解题过程标签以及归纳总结标签中的至少一个。

可以基于文本信息中的字词与题干的相似度确定属于读题审题标签的第一部分字词，可以基于文本信息中的字词与答案的相似度确定属于解题过程标签的第二部分字词，进而可以基于各个字词出现的顺序以及部分字词所属的视频标签确定出思路启发标签以及归纳总结标签。

其中，若文本信息中的字词与目标题目的题目信息的相似度大于预设阈值，根据题目信息确定部分字词所属的视频标签，包括：若文本信息中的第一部分字词与题干的相似度大于预设阈值，确定第一部分字词所属的视频标签为读题审题标签；若文本信息中的第二部分字词与答案的相似度大于预设阈值，确定第二部分字词所属的视频标签为解题过程标签。

基于各个字词出现的顺序以及部分字词所属的视频标签，确定其他字词所属的视频标签，包括：将出现的顺序在第一部分字词之后，且，在第二部分字词之前的其他字词所属的视频标签确定为思路启发标签；将出现的顺序在第二部分字词之后的其他字词所属的视频标签确定为归纳总结标签。

需要说明的是，上述确定过程仅为其中一种示例，若调整了上述四种视频标签出现的顺序或者数量，可以对上述步骤进行对应调整，在此不作具体限制。

例如：若不存在思路启发标签，则可以将读题审题步骤之后的字词作为所属于解题过程标签的字词。

下面来解释本申请实施例中提供的确定目标视频的文本信息的具体过程。

图8为本申请实施例中提供的得到目标音频对应的文本信息的流程示意图，请参照图8，确定目标视频的文本信息包括：

S810：对目标视频进行音频提取处理，得到目标视频所对应的目标音频。可选地，可以对目标视频进行音频提取处理，例如：采用FFmpeg程序来确定出目标视频对应的音频，该FFmpeg程序可以是用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。

S820：对目标音频进行文字转换处理，得到目标音频对应的文本信息。

需要说明的是，得到目标音频之后，可以采用ASR(Automatic SpeechRecognition，语音识别技术)来确定出该目标音频对应的文本，并且文本会携带有时间戳，也即是可以得到上述文本信息。

本申请实施例中提供的视频信息获取方法中，可以对目标视频进行音频提取处理，得到目标视频所对应的目标音频；对目标音频进行文字转换处理，得到目标音频对应的文本信息。其中，通过对目标视频依次进行视频转音频处理并进行音频转文本处理后，可以得到更加准确的文本信息。

下面来解释本申请实施例中提供的确定目标视频标签信息的另一种可行的实施过程。

图9为本申请实施例中提供的得到目标视频标签信息的另一流程示意图，请参照图9，根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息之前，该方法还包括：

S910：确定提示词。

其中，提示词为预先配置好的字符、字词或者语句。

需要说明的是，提示词可以是预先设置好的字符，如：标点符号、英文字母以及特定的符号等，或者也可以是预先设置好的字词，如：指示输出数量的词，指示输出顺序的词等，或者也可以是预先设置好的语句，如：下达输出要求的语句等，在此不作具体限制。

在一种实施例中，确定提示词，包括：根据提示词工程获取预先存储的提示词；或者，根据提示词工程从目标视频的文本信息和/或目标题目的题目信息中提取提示词。

其中，提示词工程(Prompt)可以是用于指示模型按照需求进行趋向性输出的一个提示词生成工具，该提示词工程中可以预先存储一些提示词，或者，也可以通过向提示词工程中输入内容来得到对应的词语，例如：输入目标视频的文本信息和/或目标题目的题目信息从而得到对应的提示词。

在实际使用的过程中，可以根据实际需求设置需要使用的提示词，可以通过设置对应的提示词，让视频信息获取模型输出满足需求的结果，例如：输出需求数量的目标视频标签信息、按照预设顺序输出多个目标视频标签信息等，在此不作具体限制。

将文本信息以及目标题目的题目信息输入到视频信息获取模型中，得到至少一个目标视频标签信息，包括：

S920：将目标视频的文本信息、目标题目的题目信息以及提示词输入到视频信息获取模型中，得到至少一个目标视频标签信息。

需要说明的是，得到上述提示词之后，可以将提示词和目标视频的文本信息、目标题目的题目信息共同输入到视频信息获取模型中，从而让模型输出满足提示词的需求的至少一个目标视频标签信息。

在一种实施例中，视频信息获取模型具体用于根据提示词以及目标题目的题目信息从文本信息中确定各个字词所属的视频标签，并基于各个字词所属的视频标签确定至少一个目标视频标签信息。

也即是说，增加了提示词之后，视频信息获取模型可以结合提示词以及目标题目的题目信息，从而确定出各个字词所属的视频标签，进而基于各个字词所属的视频标签确定至少一个目标视频标签信息。

本申请实施例中提供的视频信息获取方法中，可以确定提示词，并将目标视频的文本信息、目标题目的题目信息以及提示词输入到视频信息获取模型中，得到至少一个目标视频标签信息。从而可以得到更加满足实际需求以及满足准确性精度的目标视频标签信息。

下面来解释本申请实施例中，得到目标视频标签信息之后对目标视频的显示内容进行标注的具体实施过程。

图10为本申请实施例中提供的显示标注结果的流程示意图，请参照图10，根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息之后，该方法还包括：

S1010：根据目标视频的至少一个目标视频标签信息对目标视频进行标注，得到标注结果。

需要说明的是，得到上述目标视频的至少一个目标视频标签信息，可以将这些目标视频标签信息入库存储，并可以在适当的时候基于这些目标视频标签信息对目标视频进行标注，得到标注结果，其中，标注结果可以是对目标视频进行分节，标注出每节对应的目标视频标签，并且可以确定出每节目标视频的开始时间以及结束时间。

S1020：在目标视频或者目标视频对应的应用程序中显示标注结果。

需要说明的是，得到上述标注结果之后，可以在目标视频或者目标视频对应的应用程序上显示该标注结果，例如：可以是在视频的进度条上显示，或者，也可以专门显示一个列表，指示该视频的不同时间段所对应的视频标签。

本申请实施例中提供的视频信息获取方法中，可以根据目标视频的至少一个目标视频标签信息对目标视频进行标注，得到标注结果；在目标视频或者目标视频对应的应用程序中显示标注结果。其中，通过显示标注结果的方式，可以让用户更加清晰明确的确定出目标视频中各个分节对应的视频标签。

下面来以电子设备上实际显示的内容作为示例来解释本申请实施例中提供的标注结果的显示方式。

图11为本申请实施例中提供的标注结果的显示示意图，请参照图11，该显示界面中可以在视频的进度条上显示各个分节对应的视频标签，例如：第一个视频标签是读题审题标签，第二个标签是思路启发标签，第三个标签是解题过程标签，第四个标签是归纳总结标签。

其中，图11左侧子图所示为直接在界面上显示每个视频标签对应的时间范围；图11右侧子图所示为在界面上显示每个视频标签的开始时间。

在实际实施的过程中，可以根据实际需求选择其中的一个子图的显示方式来显示上述视频标签，在此不作具体限制。

下面来通过一个整体的流程框图来解释本申请实施例中提供的视频信息获取方法的整体实施过程。

图12为本申请实施例中提供的整体流程示意图，请参照图12，该方法包括：

S1210：获取目标视频。

S1220：根据目标视频得到目标音频。

S1230：基于目标音频确定文本信息。

S1240：通过提示词工程确定提示词。

S1250：将文本信息、题目信息以及提示词输入到视频信息获取模型中。

S1260：基于视频信息获取模型得到至少一个目标视频标签信息。

需要说明的是，上述步骤的具体实施过程在前述已经进行了详细的解释，在此不加赘述。

应该理解的是，虽然上述各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于前述的实施例，本申请实施例提供一种视频信息获取装置，该装置包括所包括的各模块、以及各模块所包括的各单元，可以通过处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图13为本申请实施例中提供的视频信息获取装置的结构示意图，请参照图13，该装置包括：视频获取模块1310、文本确定模块1320以及信息获取模块1330；

视频获取模块1310，用于获取目标视频，目标视频为针对目标题目进行解析的视频；

文本确定模块1320，用于确定目标视频的文本信息，文本信息包括：多个字词以及每个字词对应的时间戳；

信息获取模块1330，用于根据文本信息以及目标题目的题目信息，确定目标视频的至少一个目标视频标签信息，目标视频标签信息包括：目标视频标签以及目标视频标签的时间戳，目标视频标签为多个预设视频标签中的部分或全部。

在一种实施例中，信息获取模块1330，具体用于将文本信息以及目标题目的题目信息输入到视频信息获取模型中，得到至少一个目标视频标签信息，视频信息获取模型为基于多个视频的文本信息、视频对应题目的题目信息以及实际视频标签信息对初始模型进行训练后得到的。

在一种实施例中，信息获取模块1330，还用于将样本数据输入初始模型中得到样本视频标签信息，样本数据包括：多个视频的文本信息、视频对应题目的题目信息；在样本视频标签信息与实际视频标签信息的匹配度大于匹配度阈值的情况下，确定初始模型满足收敛条件，将满足收敛条件的初始模型作为视频信息获取模型，匹配度指多个样本视频标签信息中，与实际视频标签信息相同样本视频标签的占比。

在一种实施例中，信息获取模块1330，具体用于根据文本信息中的字词以及目标题目的题目信息，确定文本信息中各个字词所属的视频标签；基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签信息。

在一种实施例中，信息获取模块1330，具体用于基于各个字词所属的视频标签确定目标视频的至少一个目标视频标签；基于属于每个目标视频标签中的目标字词的时间戳确定各目标视频标签的时间戳，目标字词为属于每个目标视频标签中出现最早的字词，和/或，出现最晚的字词。

在一种实施例中，信息获取模块1330，具体用于若文本信息中的部分字词与目标题目的题目信息的相似度大于预设阈值，根据题目信息确定部分字词所属的视频标签；基于各个字词出现的顺序以及部分字词所属的视频标签，确定其他字词所属的视频标签。

在一种实施例中，题目信息包括：题干和/或答案，视频标签包括：读题审题标签、思路启发标签、解题过程标签以及归纳总结标签中的至少一个；信息获取模块1330，具体用于若文本信息中的第一部分字词与题干的相似度大于预设阈值，确定第一部分字词所属的视频标签为读题审题标签；若文本信息中的第二部分字词与答案的相似度大于预设阈值，确定第二部分字词所属的视频标签为解题过程标签；基于各个字词出现的顺序以及部分字词所属的视频标签，确定其他字词所属的视频标签，包括：将出现的顺序在第一部分字词之后，且，在第二部分字词之前的其他字词所属的视频标签确定为思路启发标签；将出现的顺序在第二部分字词之后的其他字词所属的视频标签确定为归纳总结标签。

在一种实施例中，文本确定模块1320，具体用于对目标视频进行音频提取处理，得到目标视频所对应的目标音频；对目标音频进行文字转换处理，得到目标音频对应的文本信息。

在一种实施例中，文本确定模块1320，还用于确定提示词，提示词为预先配置好的字符、字词或者语句；信息获取模块1330，具体用于将目标视频的文本信息、目标题目的题目信息以及提示词输入到视频信息获取模型中，得到至少一个目标视频标签信息。

在一种实施例中，文本确定模块1320，具体用于根据提示词工程获取预先存储的提示词；或者，根据提示词工程从目标视频的文本信息和/或目标题目的题目信息中提取提示词。

在一种实施例中，信息获取模块1330，还用于根据目标视频的至少一个目标视频标签信息对目标视频进行标注，得到标注结果；在目标视频或者目标视频对应的应用程序中显示标注结果。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中图13所示的视频信息获取装置对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

图14为本申请实施例中提供的电子设备的结构示意图，请参照图14，本申请实施例提供一种电子设备，该电子设备可以是上述终端设备或者云端服务器，其内部结构图可以如图14所示。该电子设备包括通过系统总线1410连接的处理器1420、存储器和网络接口1440。其中，该电子设备的处理器1420用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质1431、内存储器1432。该非易失性存储介质1431存储有操作系统、计算机程序和数据库。该内存储器1432为非易失性存储介质1431中的操作系统和计算机程序的运行提供环境。该电子设备的数据库用于存储数据。该电子设备的网络接口1440用于与外部的终端通过网络连接通信。该计算机程序被处理器1420执行时以实现上述方法。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。

本申请实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法实施例提供的方法中的步骤。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频信息获取装置可以实现为一种计算机程序的形式，计算机程序可在如图14所示的电子设备上运行。电子设备的存储器中可存储组成上述装置的各个程序模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的方法中的步骤。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如对象A和/或对象B，可以表示：单独存在对象A，同时存在对象A和对象B，单独存在对象B这三种情况。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的，作为模块显示的部件可以是、或也可以不是物理模块；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能模块可以全部集成在一个处理单元中，也可以是各模块分别单独作为一个单元，也可以两个或两个以上模块集成在一个单元中；上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广东小天才科技有限公司;

上一篇：基于大模型的视频剪辑方法、装置、设备、介质及产品
下一篇：一种多媒体音视频数据管理系统