导航：首页> 信息存储>学习视频的摘要生成方法、装置、电子设备和存储介质

学习视频的摘要生成方法、装置、电子设备和存储介质

文献发布时间：2023-06-19 18:35:48

技术领域

本公开涉及人工智能领域，尤其涉及图像处理技术，可应用于在线教育场景。

背景技术

随着在线教育的兴起，利用线上的学习视频进行学习成为很多人的选择。一般来说，用户需要大致观看之后才能了解到视频中是否有感兴趣或符合自身学习基础的内容，因此，选择学习视频需要耗费一定的时间和精力。

发明内容

本公开提供了一种学习视频的摘要生成方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种学习视频的摘要生成方法，包括：

基于学习视频，得到第一图像集合；

提取第一图像集合中的每个图像的学习内容特征，并基于每个图像的学习内容特征进行聚类，得到多个目标图像类簇；

在多个目标图像类簇中的每个目标图像类簇中选取对应的代表图像；

基于每个目标图像类簇对应的代表图像，得到学习视频的摘要信息。

根据本公开的另一方面，提供了一种学习视频的摘要生成装置，包括：

抽帧模块，用于基于学习视频，得到第一图像集合；

图像聚类模块，用于提取第一图像集合中的每个图像的学习内容特征，并基于每个图像的学习内容特征进行聚类，得到多个目标图像类簇；

图像选取模块，用于在多个目标图像类簇中的每个目标图像类簇中选取对应的代表图像；

摘要确定模块，用于基于每个目标图像类簇对应的代表图像，得到学习视频的摘要信息。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任意实施例提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任意实施例提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任意实施例提供的方法。

根据本公开实施例的技术方案，由于多个目标图像类簇是基于学习视频所对应的第一图像集合中各图像的学习内容特征进行聚类得到的，因此，一个目标图像类簇的代表图像可以较好地表征该类簇中的学习内容，不同目标图像类簇的代表图像可以包含不同的学习内容。如此，基于各目标图像类簇的代表图像得到学习视频的摘要信息，可以使得该摘要信息以较少的数据量体现学习视频中丰富的学习内容，从而有利于快速了解学习视频，降低选择学习视频的时间和精力成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开一实施例的学习视频的摘要生成方法的流程示意图。

图2是本公开另一实施例的学习视频的摘要生成方法的流程示意图。

图3是本公开一实施例的学习视频的摘要生成方法的场景示意图。

图4是本公开实施例中学习视频的摘要生成方法的应用示例的示意图。

图5是本公开一实施例的学习视频的摘要生成装置的示意性框图。

图6是本公开另一实施例的学习视频的摘要生成装置的示意性框图。

图7是本公开又一实施例的学习视频的摘要生成装置的示意性框图。

图8是本公开一实施例的电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了本公开一个实施例提供的学习视频的摘要生成方法的流程示意图。该方法可以应用于电子设备。如图1所示，该方法可以包括以下步骤S110～步骤S140。

步骤S110、基于学习视频，得到第一图像集合。

在本公开实施例中，学习视频也可以称为教学视频。示例性地，学习视频可以包括发布在网络学习平台或视频发布平台的用于用户自主学习的视频。例如，学习视频可以是预先录制的教师对课件进行讲解的视频，其中包括课件信息以及教师讲解的音频信息。

在本公开实施例中，第一图像集合可以包括学习视频中的多个视频帧，该多个视频帧可以是学习视频中的全部或部分视频帧。也就是说，可以采用学习视频中的每个视频帧组成第一图像集合，也可以对学习视频中的视频帧进行抽取或过滤，得到第一图像集合。

示例性地，可以基于预设的抽帧间隔时间或抽帧频率在学习视频中进行抽帧，得到第一图像集合。例如，可以采用预设的抽帧命令对学习视频进行抽帧，其中，预设的抽帧命令可以包含抽帧频率、视频源地址和视频帧保存地址。执行该命令即可按照该抽帧频率对视频源地址中的学习视频进行抽帧，并将抽帧得到的第一图像集合保存到该视频帧保存地址中。抽帧频率例如是每5秒抽一帧、每3秒抽一帧等。

步骤S120、提取第一图像集合中的每个图像的学习内容特征，并基于每个图像的学习内容特征进行聚类，得到多个目标图像类簇。

示例性地，在本公开实施例中，学习内容特征可以包括用于教学的文档内容的特征，例如学习视频中展示的课件中的文本和/或插图等的特征。

可选地，提取学习内容特征的方式可以有多种，具体可参考如下示例。

示例1：采用特征点检测算法和特征点描述算子提取第一图像集合中的每个图像的学习内容特征，即通过检测图像中的相关特征点并采用预设的特征点描述算子描述该特征点，实现对学习内容特征的提取。其中，特征点检测算法包括例如SIFT(Scale-invariantfeature transform，尺度不变特征变换)、SURF(Speeded Up Robust Features，加速稳健特征)、ORB(Object Request Broker，对象请求代理)等。

示例2：采用CNN(Convolutional Neural Networks，卷积神经网络)提取第一集合中的每个图像的学习内容特征。其中，CNN采用的网络结构包括例如AlexNet、ResNet(Residual Network残差网络)等。

可选地，在学习内容特征包括多种特征的情况下，可以针对各种类型的特征采用同一种特征提取方式，也可以针对不同类型的特征采用不同的特征提取方式，本公开不对此进行限定。

示例性地，在本公开实施例中的聚类，用于使相似度相近的多个图像归属于同一类簇，相似度差异较大的不同图像归属于不同类簇。实际应用中，可以采用图像的学习内容特征确定图像之间的相似度，从而基于图像之间的相似度确定图像是否属于同一类簇。

具体而言，可以针对待聚类的图像集合(例如第一图像集合)，为其中的第一个图像创建一个类簇作为当前类簇，再依次遍历图像集合中的其他图像。基于遍历到的图像的学习内容特征以及当前类簇中的图像的学习特征，确定遍历到的图像与当前类簇中的图像的相似度。若相似度大于或等于预设阈值，则将遍历到的该图像添加到当前类簇。若相似度小于预设阈值，则为遍历到的该图像创建新的类簇，并将该新的类簇作为当前类簇。可以理解，在遍历结束后，可得到多个类簇。其中，可以在当前类簇中选取一个图像用于与遍历到的图像计算相似度，选取的方式可以是选取类簇中第一个图像、最后一个图像等，具体可根据实际需求确定。

例如，针对图像集合{图像1，图像2，图像3，图像4}，首先创建包含图像1的类簇1，作为当前类簇。然后确定图像2与图像1的相似度，在相似度大于或等于预设阈值的情况下，将图像2添加到类簇1中，则类簇1＝{图像1，图像2}。再确定图像3和图像1的相似度，在相似度小于预设阈值的情况下，创建包含图像3的类簇2，并将类簇2作为当前类簇。最后确定图像3和图像4的相似度，在相似度大于或等于预设阈值的情况下，将图像4添加到类簇2中，则类簇2＝{图像3，图像4}。至此，得到两个类簇。

示例性地，可以基于学习内容特征对第一图像集合进行聚类，将得到的多个类簇，作为多个目标图像类簇。或者，可以基于学习内容特征和第一图像集合，进行多次聚类，得到目标图像类簇。例如，基于学习内容特征进行第一次聚类，得到多个第一图像类簇，然后从每个第一图像类簇中选取一个图像，得到第二图像集合；再基于学习内容特征进行第二次聚类，得到多个第二图像类簇，依次类推，可以进行多次聚类，将最终得到的多个图像类簇作为多个目标图像类簇。其中，每次可以采用相同类型的学习内容特征进行聚类，也可以采用不同类型的学习内容特征进行聚类，本公开不对此进行限定。

步骤S130、在多个目标图像类簇中的每个目标图像类簇中选取对应的代表图像。

示例性地，代表图像用于代表其所属的图像类簇中的各个图像。可选地，可以选取图像类簇中的第一个图像或最后一个图像作为代表图像，也可以采用预设的关键帧提取算法，在图像类簇中选取关键帧作为代表图像。

一种示例性的实现方式是，代表图像可以是聚类过程中用于与图像类簇中的各个图像进行相似度计算的图像。例如，在上述聚类过程中，采用当前类簇的第一个图像与遍历到的图像计算相似度，则代表图像可以是图像类簇中的第一图像。如此，可以使代表图像与图像类簇中的各个图像的相似度均小于预设阈值。

步骤S140、基于每个目标图像类簇对应的代表图像，得到学习视频的摘要信息。

示例性地，该摘要信息可以为图像集合、图像序列或基于图像序列形成的课件、PDF(Portable Document Format，便携文件格式)文件等。

可选地，可以对与多个目标图像类簇一一对应的多个代表图像进行组合，得到摘要信息。或者，可以在该多个代表图像中筛选出多个优选图像，并对多个优选图像进行组合，得到摘要信息。或者，在该多个代表图像中过滤部分不符合条件的图像，将剩余的图像组合成摘要信息。

根据上述方法，由于多个目标图像类簇是基于学习视频所对应的第一图像集合中各图像的学习内容特征进行聚类得到的，因此，一个目标图像类簇的代表图像可以较好地表征该类簇中的学习内容，不同目标图像类簇的代表图像可以包含不同的学习内容。如此，基于各目标图像类簇的代表图像得到学习视频的摘要信息，可以使得该摘要信息以较少的数据量体现学习视频中丰富的学习内容，从而有利于快速了解学习视频，降低选择学习视频的时间和精力成本。

如前述说明，在本公开实施例中，学习内容特征可包括多种特征，也可以采用多种方式进行提取。示例性地，学习内容特征可以包括基于特征点检测算法提取的局部文本特征，和/或，基于CNN提取的全局纹理特征。

作为一种可选的实施方式，上述步骤S120中，提取第一图像集合中的每个图像的学习内容特征，可以包括：基于特征点检测算法提取第一图像集合中的每个图像的局部文本特征。

示例性地，局部文本特征可以包括多个文本特征点，其中每个文本特征点可以采用预设的特征点描述算子表征。例如，可以采用预设的特征点描述算子确定与文本特征点对应的向量，该向量可以表征该文本特征点。

示例性地，该多个文本特征点可以包括采用尺度、方向、大小等图像低阶信息所刻画的文本的细节特征。由于学习视频中的主要内容往往包括文本，文本一般具有明显的笔画特征，笔画的特征点也较为丰富，因此，通过特征点检测算法和特征点描述算子来进行特征提取，可以实现采用低阶算法得到图像中的多处显著特征，不仅提升学习内容特征的丰富性和显著性，还提升了特征提取效率。

相应地，在学习内容特征包括上述局部文本特征的情况下，可以基于局部文本特征对第一图像集合进行聚类，得到多个目标图像类簇。

作为一种可选的实施方式，上述步骤S120中，提取第一图像集合中的每个图像的学习内容特征，可以包括：基于CNN提取第一图像集合中的每个图像的全局纹理特征。

示例性地，全局纹理特征可以包括图像中的插图的纹理变化、颜色等特征，这类特征可采用高阶语义信息表征。由于CNN往往采用堆叠式的结构设计，其中高层结构能铺捉到具有较大的感受野的特征，因此，通过CNN提取全局纹理特征，可以提升全局纹理特征的准确性，避免采用低阶特征描述产生冗余特征。

相应地，在学习内容特征包括上述全局纹理特征的情况下，可以基于全局纹理特征对第一图像集合进行聚类，得到多个目标图像类簇。

需要说明的是，上述实施方式也可以进行结合，即在上述步骤S120中，既提取局部文本特征，也提取全局纹理特征。其中，提取局部文本特征和提取全局纹理特征的步骤可以先后执行，也可以并行执行。若采用上述局部文本特征和全局纹理特征结合，则可以从低级局部特征和高级全局特征两个维度来提取学习内容特征，从而提取到图像中较为全面、准确的特征，且兼具较高的特征提取效率。

相应地，在学习内容特征包括局部文本特征和全局纹理特征的情况下，可以基于两种特征，先后进行聚类，从而基于多层次的聚类，提升聚类效果，从而提升学习视频的摘要信息的准确性。

图2示出了本公开另一个实施例提供的学习视频的摘要生成方法的流程示意图。作为一种可选的实施方式，如图2所示，在上述步骤S120中，基于每个图像的学习内容特征进行聚类，得到多个目标图像类簇，包括：

步骤S210、基于每个图像的局部文本特征对第一图像集合进行聚类，得到多个第一图像类簇；

步骤S220、基于多个第一图像类簇，得到多个目标图像类簇。

其中，可以将多个第一图像类簇作为用于提取摘要信息的多个目标图像类簇。也可以对多个第一图像类簇进行进一步处理，得到多个目标图像类簇。例如，将相邻的具有较多相似信息的第一图像类簇合并，得到多个目标图像类簇；或者，基于多个第一图像类簇进行再次聚类，得到多个目标图像类簇。

上述实施方式充分利用学习视频中的局部文本特征，从而可将具有相似文本的图像聚为同一类簇，将具有不同文本的图像划分到不同类簇。如此，基于各目标图像类簇的代表图像得到学习视频的摘要信息，可以使得该摘要信息以较少的数据量体现学习视频中丰富的文本内容，从而有利于快速了解学习视频，降低选择学习视频的时间和精力成本。

在一种可选的实施方式中，上述步骤S121、基于每个图像的局部文本特征对第一图像集合进行聚类，得到多个第一图像类簇，可以包括：

基于第一图像集合中的每个图像的局部文本特征以及预设的第一相似度阈值，对第一图像集合进行聚类，得到多个第二图像类簇；

在多个第二图像类簇中的每个第二图像类簇中选取代表图像，并基于每个第二图像类簇的代表图像，得到第二图像集合；

基于第二图像集合中的每个图像的局部文本特征以及预设的第二相似度阈值，对第二图像集合进行聚类，得到多个第一图像类簇；其中，第二相似度阈值小于第一相似度阈值。

根据上述实施方式，基于局部文本特征进行两次聚类，得到多个第一图像类簇。其中，第一次聚类所采用的第一相似度阈值较大，即第一图像集合中相似度非常高的图像才会聚在同一个第二图像类簇，使得在第二图像类簇中选取代表图像组成第二图像集合时，仅过滤掉相似度非常高的图像，保证了第二图像集合中的图像数量，即保证了学习视频中视频帧的召回率。相应地，第二次聚类所采用的第二相似度阈值较小，则基于第二次聚类的结果选取代表图像得到学习视频的摘要信息，可以降低摘要信息中的内容重复度。也就是说，根据上述实施方式，可以在保证召回率和减少内容重复度两方面取得平衡，从而优化摘要信息的选取效果。

如前述说明，在聚类过程中，可以基于图像集合中两个图像之间的相似度是否大于预设的相似度阈值，确定该两个图像是否属于同一类簇。在采用局部文本特征进行聚类时，由于局部文本特征包括多个文本特征点，因此，可采用RANSAC(Random SampleConsensus，随机抽样一致性算法)确定两个图像之间的相似度。具体地，可以采用RANSAC确定两个图像所对应的两组特征点中内群点(inliner)的数量和离群点(outliner)的数量，从而基于内群点的数量和离群点的数量确定相似度。

在一种可选的实施方式中，上述步骤S122、基于多个第一图像类簇，得到多个目标图像类簇，可以包括：

在多个第一图像类簇中的每个第一图像类簇中选取代表图像，并基于每个第一图像类簇的代表图像，得到第三图像集合；

基于第三图像集合中的每个图像的全局纹理特征，对第三图像集合进行聚类，得到多个目标图像类簇。

可选地，在每个第一图像类簇中选取代表图像的方式，可以是选取第一图像类簇中的第一个图像、最后一个图像或关键图像等。

根据上述实施方式，先基于局部文本特征进行聚类，再基于全局纹理特征进行聚类，从而基于多种特征的多层次聚类，从特征的准确性、特征的全面性、图像召回率以及图像重复度等多个方面，提升聚类结果中各图像类簇的代表图像的代表性，并降低代表图像的数据总量，从而优化摘要信息的提取效果。

在上述基于全局纹理特征的聚类过程中，也可以基于图像集合中两个图像之间的相似度是否大于预设的第三相似度阈值，确定该两个图像是否属于同一类簇。其中，可以采用两个图像的全局纹理特征之间的余弦距离作为两个图像之间的相似度。其中，全局纹理特征可以采用向量表征。

可以理解，实际应用中，也可以先基于全局纹理特征进行聚类，再基于局部文本特征进行聚类。例如，可以先基于全局纹理特征对第一图像集合进行聚类，再基于聚类结果确定第四图像集合，并基于局部文本特征对第四图像集合进行聚类，得到多个目标图像类簇。其具体实现过程可以参考上述实施方式类似地设置，在此不进行赘述。

图3示出了本公开另一实施例提供的学习视频的摘要生成方法的场景示意图。其中，摘要信息为预定格式的课件。如图3所示，该学习视频的摘要生成方法可以由电子设备31执行。该电子设备31可以是服务器。该电子设备31与用户设备32连接，该方法可以包括以下步骤S310～步骤S350：

步骤S310、基于学习视频，得到第一图像集合。

步骤S320、提取第一图像集合中的每个图像的学习内容特征，并基于每个图像的学习内容特征进行聚类，得到多个目标图像类簇。

步骤S330、在多个目标图像类簇中的每个目标图像类簇中选取对应的代表图像。

步骤S340、基于每个目标图像类簇对应的代表图像，得到学习视频的摘要信息。

其中，步骤S310～步骤S340与前述实施例中的步骤S110～步骤S140类似，可以参考前述实施例实现，在此不进行赘述。

步骤S350、向用户设备32输出学习视频以及课件，以在用户设备的视频推荐页面中对课件与学习视频进行关联展示。

示例性地，该用户设备32可以是个人计算机、智能电话、平板电脑等终端设备。如图3所示，用户设备32可以展示多个不同的学习视频，并将每个学习视频的摘要信息与该学习视频进行关联展示。如此，用户可以通过在视频推荐页面中浏览各学习视频所关联的课件，了解各学习视频中的学习内容，从而降低选择学习视频的成本。

需要说明的是，本公开实施例的学习视频的摘要生成方法的应用方式不限于此。例如，可以利用本公开实施例的该方法进行视频的去重。具体地，可以生成两个视频的摘要信息，并基于两个视频的摘要信息之间的相似度，确定两个视频之间的相似度，从而在两个视频之间的相似度大于阈值时，确定该两个视频为重复的视频。

下面提供本公开实施例的方法的一个具体的应用示例。在该应用示例中，学习视频的摘要生成方法包括以下步骤一～步骤五。

步骤一、输入学习视频的视频源地址。

步骤二、采用预设的抽帧命令对学习视频进行抽帧，其中，预设的抽帧命令包含抽帧频率、视频源地址和视频帧保存地址。执行该命令即可按照该抽帧频率对视频源地址中的学习视频进行抽帧，并将抽帧得到的第一图像集合保存到该视频帧保存地址中。第一图像集合的结构形式例如是{图像1，图像2，图像3，……图像N}

步骤三、基于视频帧保存地址中的第一图像集合，应用多层次视频聚合方式，得到多个目标图像类簇。多个目标图像类簇的结构形式例如是{{图像1，图像6}，{图像7，图像10，…，图像14}，…，{图像N}}。其中，最外层集合包含F个内层集合，代表F个目标图像类簇，F为大于或等于1的整数。每个内层集合包含一个或多个图像/视频帧。

其中，多层次视频聚合方式，主要包括两个阶段。

特征提取阶段：

考虑到学习视频中的内容大多以文本和插图内容为主，因此特征提取从低级局部特征和高级全局特征两个维度来进行设计，分别用于提取局部文本特征和全局纹理特征。其中，文本多是笔画特征，而且笔画的方向特征也较为丰富，因此通过特征点检测算法和特征点描述算子来进行特征提取。插图的纹理颜色较为丰富，且一般包含较丰富的语义信息，如果采用低阶特征描述，会产生非常多的冗余特征，且鲁棒性较差，因此通过CNN网络结构提取高级语义特征。CNN由于其堆叠式的结构设计，高层特征往往具有较大的感受野，能够捕获到图像的较为全局的特征。

对于第一图像集合中的每个图像，可以提取到局部文本特征P

内容聚合阶段：

内容聚合阶段的输入信息包括：第一图像集合{图像1，图像2，图像3，……图像N}，以及各图像的局部文本特征P

内容聚合阶段采用多层次聚类。图4示出了该多层次聚类的示意图，具体包括以下三个层次的聚类过程。

第一层次：基于局部文本特征P

此处可以通过预置的聚类算法模块实现。该聚类算法模块采用局部文本特征相似度计算模块计算图像之间的相似度，根据相似度是否大于相似度阈值，确定图像是否属于同一类簇。其中，设置较高的相似度阈值，以保证视频内容的召回率。例如相似度阈值为0.9。

假设图像1的局部文本特征为P

基于P

计算匹配分数Score，其中，Score＝N

在Score≥Threshold的情况下，确定两个图像属于同一类簇；否则，确定两个图像不属于同一类簇。Threshold为相似度阈值。

如图4所示，通过对第一图像集合进行聚类，可以输出M个第二图像类簇，分别为第二图像类簇1～第二图像类簇M，其中，M为大于或等于2的整数。

基于上述输出，取每个第二图像类簇的首帧构造输入第二层次进行聚类的第二图像集合。参考图4的示例，第二图像集合例如是{图像1，图像3，图像6，…，图像N}。

第二层次：基于局部文本特征P

此处可以通过预置的聚类算法模块实现，采用局部文本特征相似度计算模块计算图像之间的相似度，具体算法原理可参考第一层次。其中，设置相对较低的相似度阈值，以减少视频内容的重复度，例如相似度阈值为0.8。

如图4所示，通过对第二图像集合进行聚类，可以输出K个第一图像类簇，分别为第一图像类簇1～第一图像类簇K，其中，K为大于或等于2且小于或等于M的整数。

基于上述输出，取每个第一图像类簇的首帧构造输入第三层次进行聚类的第三图像集合。参考图4的示例，第三图像集合例如是{图像1，图像6，…，图像N}。

第三层次：基于全局纹理特征F

此处可以通过预置的聚类算法模块实现，具体算法原理可参考第一层次，不同点在于采用全局纹理特征相似度计算模块计算图像之间的相似度。其中，相似度阈值可以根据实际需求设置，例如设置为0.99。

假设图像1的全局纹理特征为F

计算余弦距离cosθ，其中，

在cosθ≥Threshold的情况下，确定两个图像属于同一类簇；否则，确定两个图像不属于同一类簇。Threshold为相似度阈值。

如图4所示，通过对第三图像集合进行聚类，可以输出F个目标图像类簇，分别为目标图像类簇1～目标图像类簇F，其中，F为大于或等于2且小于或等于K的整数。

步骤四、根据视频时间选取每个目标图像类簇中的首帧作为代表图像。此处选取策略不唯一，也可以根据实际需求选取其他帧作为代表图像。

步骤五、基于各代表图像得到摘要信息。该摘要信息的结构形式例如是{图像1，图像7，……，图像N}。

可以看到，根据上述方法，由于多个目标图像类簇是基于学习视频所对应的第一图像集合中各图像的学习内容特征进行聚类得到的，因此，一个目标图像类簇的代表图像可以较好地表征该类簇中的学习内容，不同目标图像类簇的代表图像可以包含不同的学习内容。如此，基于各目标图像类簇的代表图像得到学习视频的摘要信息，可以使得该摘要信息以较少的数据量体现学习视频中丰富的学习内容，从而有利于快速了解学习视频，降低选择学习视频的时间和精力成本。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供一种用于实现上述方法的学习视频的摘要生成装置。图5示出了本公开一个实施例提供的学习视频的摘要生成装置的示意性框图。

抽帧模块510，用于基于学习视频，得到第一图像集合；

图像聚类模块520，用于提取所述第一图像集合中的每个图像的学习内容特征，并基于所述每个图像的学习内容特征进行聚类，得到多个目标图像类簇；

图像选取模块530，用于在所述多个目标图像类簇中的每个目标图像类簇中选取对应的代表图像；

摘要确定模块540，用于基于所述每个目标图像类簇对应的代表图像，得到所述学习视频的摘要信息。

在一些实施例中，学习内容特征包括基于特征点检测算法提取的局部文本特征，和/或，基于卷积神经网络提取的全局纹理特征。

在一些实施例中，在图5的基础上，如图6所示，图像聚类模块530，包括：

第一聚类单元610，用于基于所述每个图像的局部文本特征对所述第一图像集合进行聚类，得到多个第一图像类簇；

第二聚类单元620，用于基于所述多个第一图像类簇，得到所述多个目标图像类簇。

在一些实施例中，所述第一聚类单元610用于：

基于所述第一图像集合中的每个图像的局部文本特征以及预设的第一相似度阈值，对所述第一图像集合进行聚类，得到多个第二图像类簇；

在所述多个第二图像类簇中的每个第二图像类簇中选取代表图像，并基于所述每个第二图像类簇的代表图像，得到第二图像集合；

基于所述第二图像集合中的每个图像的局部文本特征以及预设的第二相似度阈值，对所述第二图像集合进行聚类，得到所述多个第一图像类簇；其中，所述第二相似度阈值小于所述第一相似度阈值。

在一些实施例中，所述第二聚类单元620用于：

在所述多个第一图像类簇中的每个第一图像类簇中选取代表图像，并基于所述每个第一图像类簇的代表图像，得到第三图像集合；

基于所述第三图像集合中的每个图像的全局纹理特征，对所述第三图像集合进行聚类，得到所述多个目标图像类簇。

在一些实施例中，如图7所示，所述摘要信息为预定格式的课件的情况下，还包括输出模块710，用于向用户设备输出所述学习视频以及所述课件，以在所述用户设备的视频推荐页面中对所述课件与所述学习视频进行关联展示。

本公开实施例中，各模块或单元的具体实施方式和有益效果如前文所阐述内容，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如一种学习视频的摘要生成方法。例如，在一些实施例中，一种学习视频的摘要生成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的一种学习视频的摘要生成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种学习视频的摘要生成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：姚海;赵以诚;施鹏;
专利申请人：北京百度网讯科技有限公司;

上一篇：一种先后释放的植入器械及其输送系统
下一篇：2D1R阵列结构及其制备方法