一种基于脚本的多模态特征匹配视频剪辑方法及系统

文献发布时间：2024-04-18 20:02:40

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于脚本的多模态特征匹配视频剪辑方法及系统。

背景技术

传统的短视频制作和剪辑方式主要包括以下步骤：1、视频内容策划，编写视频脚本；2、拍摄素材或者查找现有内容作为可用素材；3、使用视频编辑工具将素材按照脚本要求编辑成为成品视频。这样一个视频制作好需要较长的时间，并且过程中每个步骤都需要较大的人力消耗。

现有一种基于视频模板的短视频自动生产方式，即预先针对某种特定场景或类型编辑好一组固定的视频素材，然后使用者只需要将这组视频素材中的视频、音频替换成自己准备的素材，再输入准备好的文本内容，即可完成短视频的制作。这种方式虽然解决了一部分人力和时间的消耗，但是生产的视频形式受限于所选用的视频模板，包括视频的播放画面区域、视频尺寸、转场动画等。相当于视频脚本是固定模式并且素材的选择和应用场景也具有局限性。例如中秋节日相关的模板只能用于制作中秋活动相关的视频上，如果想生产其他内容的视频，则需要增加相关的模板，这样又增加了制作模板人员的工作。

发明内容

针对现有技术中存在的问题，提供了一种基于脚本的多模态特征匹配视频剪辑方法及系统，通过对视频生产脚本文件的文本向量特征与素材库中的视频进行匹配，完成智能剪辑。

本发明第一方面提出了一种基于脚本的多模态特征匹配视频剪辑方法，包括：

获取视频生产脚本以及候选视频；

提取视频生产脚本的文本向量特征以及对候选视频进行分片并提取各视频片段的多模态视频向量特征；

基于注意力机制对齐并融合视频生产脚本和候选视频的特征，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段，并根据匹配的视频片段逐一完成剪辑；

根据剪辑得到的视频片段推荐匹配的视频模板；

视频生产脚本内容添加至视频模板中，并于剪辑得到的视频片段合成，得到成品视频。

进一步的，所述分片的方法包括：根据片段的时长、片段的分辨率或片段的向量特征进行划分。

进一步的，基于提示学习、领域适应微调对多模态预训练模型进行模型训练，将训练完毕的多模态模型用来提取视频生产脚本的文本向量特征、各视频片段的多模态视频向量特征，其中多模态视频向量特征包括文本、图像以及声音。

进一步的，还包括：基于视频内容的语义信息评价分片的质量，并加上用户的个性化爱好抽取代表视频主要内容的高质量分片并聚合得到视频摘要。

进一步的，所述视频模板的推荐方法为：结合剪辑产生的视频片段主题，推荐与剪辑产生的视频片段的特征或标签匹配度较高的模板库里的模板。

进一步的，所述视频片段合成过程中，根据视频模板确定包装素材，并将包装素材条件到视频中，其中包装素材包括字幕、空镜、转场、特效、和/或贴图。

本发明第二方面提供了一种基于脚本的多模态特征匹配视频剪辑系统，包括：

脚本输入模块，用于获取用户给定的视频生产脚本；

视频生产模块，用于根据视频生产脚本提取的文本向量特征，对候选视频提取多模态特征，并结合与用户个性化偏好的视频摘要提取和智能剪辑，将智能剪辑后的视频片段匹配推荐的视频模板，按照视频生产脚本内容顺序合成生成成品视频。

进一步的，所述视频生产模块包括场景分片及合并模块、多模态嵌入模块；其中，

场景分片及合并模块，用于将连续的视频流基于画面切换将其分割成独立的视频片段。

多模态嵌入模块，基于提示学习、领域适应微调对多模态预训练模型进行模型训练，将训练完毕的多模态模型用来提取视频生产脚本的文本向量特征、各视频片段的多模态视频向量特征。

进一步的，

所述视频生产模块包括跨模态特征融合模块和分数预测模块，其中，

跨模态特征融合模块，基于注意力机制实现跨模态特征融合以得到表征效果更好的向量特征，实现视频生产脚本和候选视频的特征融合和对齐；

分数预测模块，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段。

进一步的，视频生产模块还包括视频合成模块，根据匹配的视频片段完成剪辑，并基于多模态特征实现跨模态召回与排序算法获取匹配的模板，视频生产脚本内容添加至视频模板中并结合剪辑结果，按照视频生产脚本内容顺序合成生成成品视频。

与现有技术相比，采用上述技术方案的有益效果为：本发明可以在仅提供视频生产脚本(唱词)与多个候选视频的前提下，实现智能标签提取与智能剪辑并自动匹配与视频主题相符的模板合成视频成片。

附图说明

图1为本发明提出的基于脚本的多模态特征匹配视频剪辑方法示意图。

图2为本发明提出的基于脚本的多模态特征匹配视频剪辑框架图。

图3为本发明一具体场景示意图。

图4为本发明一实施例中视频模板推荐标签获取流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

针对传统的视频自动制作方案的弊端，本发明实施例提出了一种基于脚本的多模态特征匹配视频剪辑方法，在用户提供脚本文本(唱词)与多个候选视频的前提下，实现智能标签提取与智能剪辑并自动匹配与视频主题相符的模板合成视频成片。具体方案如下：

请参考图1，一种基于脚本的多模态特征匹配视频剪辑方法，包括：

步骤1、获取视频生产脚本以及候选视频；建立多模态语义特征提取与表征框架，提取视频生产脚本的文本向量特征以及对候选视频进行分片并提取各视频片段的多模态视频向量特征。

本实施例中提出的视频剪辑方法依赖于用户提供的视频生产脚本以及候选视频。视频生产脚本通常包括运镜、景别、时长、画面描述等信息。

在实际应用，可以预先构建符合业务场景的长视频和短视频数据集，收集剪辑素材，包含图片、视频素材等。

本实施例中，采用基于Schema引导的多媒体内容语义特征提取与表征方法，可以在不同领域和不同模态下都能够适用的语义特征提取与表征方法，从根本上提高算法模型的泛化性以适配更多的业务场景。在视频语义理解的场景下，自带多领域(新闻、体育等)、多模态(文本、图像、声音等)的特性，对统一表征框架的研究也将有助于后期整个算法模型的更新迭代。

为了更好实现对视频的进行剪辑，在提取视频特征是先对候选视频进行分片处理，在一个实施例中，根据片段的时长、片段的分辨率或片段的向量特征进行分片划分。在进行视频分片后，执行多模态的视频向量特征提取。

如图2所示为本实施例提出的基于脚本的多模态特征匹配视频剪辑框架图，其中，场景分片及合并模块、多模态嵌入模块主要实现了多媒体内容语义特征提取与表征。具体的，

场景分片及合并模块用于将连续的视频流基于画面切换将候选视频分割成独立的视频片段。多模态嵌入模块基于提示学习、领域适应微调等技术方法对多模态预训练模型进行模型训练，采用训练完毕的多模态模型来提取视频生产脚本的文本向量特征和各视频片段的多模态视频向量特征(包括图像、音频等模态的向量特征)。

步骤2、对齐并融合视频生产脚本和候选视频的特征，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段，并根据匹配的视频片段逐一完成剪辑。

在图2所示的基于脚本的多模态特征匹配视频剪辑框架示意图中。该步骤主要在跨模态特征融合模块、分数预测模块实现，具体的，跨模态特征融合模块基于注意力机制来实现跨模态特征融合以得到表征效果更好的向量特征，达到对齐并融合视频生产脚本和候选视频的特征的效果。分数预测模块则是根据视频的文本向量特征，匹配具有最优视频向量特征的视频片段得出基于本框架的内容语义得分，根据匹配的最优视频片段完成视频剪辑。

在该过程中，还可以根据需求生成视频摘要，基于视频内容的语义信息合理评价提取的视频分片的质量；加上考虑用户的个性化偏好，抽取能够代表视频主要内容的高质量分片并聚合得到视频摘要。通过添加用户的个性化偏好对视频摘要进行约束，能够实现视频摘要的错误修正。

本实施例中，参考图2，视频摘要的生成主要在分数校订模块中实现，支持在初始视频摘要的基础上，实现多种用户自定义偏好模块相关算法修正视频片段得分，更新得到符合用户偏好的视频摘要。其中，用户自定义偏好模块由用户个性化设置，在一个实施例中包括查询关键词、个人偏好、模糊约束、遮挡约束、镜头偏好以及其他。

步骤3、根据剪辑得到的视频片段推荐匹配的视频模板。

本实施例中，结合剪辑产生的视频片段的主题，推荐与智能剪辑产生的视频片段的特征或标签匹配度较高的模板库里的模板。

请参考图2，本实施例中，根据原始视频素材推荐匹配的视频模板，采用基于跨模态召回及排序实现视频模板的选择上，充分考虑视频对应的文本内容、音频内容、视觉内容所包含的特征或标签来获取最恰当的模板。

步骤4、视频合成。

本实施例中，将视频生产脚本内容添加至视频模板中；脚本各片段之间的转场、特效等根据推荐的模板进行套用，为智能推荐的视频确定包装素材，其中包括但不限于字幕、空镜、转场、特效、贴图，将脚本视频进行合成，得到成品视频以及视频摘要。

如图2所示，基于多模态语义特征的视频摘要与模板推荐是一项跨多个赛道的复杂实现过程，本实施例中将其划分为多个子任务展开研究并整合到统一的框架下，包括：构建符合业务场景的长视频和短视频数据集；引导并完成多模态语义特征提取与表征框架的构建；实现不同模态的特征提取与表征算法(可能表达为隐空间或实体标签)；基于提取的多模态特征在无监督的模型架构下实现视频摘要算法；在初始视频摘要的基础上，实现多种用户自定义偏好模块相关算法修正视频片段得分，更新得到符合用户偏好的视频摘要；基于提取的多模态特征实现跨模态召回与排序算法，以获取合乎视频主题的模板。

以图3所示，“大型会议”为特定场景脚本的视频片段推荐为例，在该场景中，对于视频输入，执行下述过程：

语音识别：将语音信号转换为文本信息。镜头切分：将连续的视频流基于画面切换将其分割成独立的镜头片段。人脸识别：识别视频中的不同人脸并进行标记。会议场景运动：检测会议场景中的物体或人物运动。会议场景景别：识别会议场景中的景别变化。会议场景角度识别：识别会议场景中摄像机的拍摄角度。外景场景运动：检测外景场景中的物体或人物运动。外景场景景别：识别外景场景中的景别变化。外景场景角度识别：识别外景场景中摄像机的拍摄角度。特定目标识别：识别和追踪视频中的特定目标或物体。特定场景识别：识别视频中的特定场景或环境。画面场景识别:识别视频中的不同场景和背景。人物行为识别：识别和分类视频中人物的行为和动作。音频分析：对视频中的音频信号进行分析和处理。

再结合脚本输入，进行图文跨模态匹配：在图像、文本和音频之间进行跨模态的信息匹配和关联，实现更精准的检索。最后融合分析分镜视频摘要：融合分析推理可以综合以上各项能力，实现更高级的分镜视频摘要功能。

该示例中所设计的脚本涵盖了分镜画面内容描述、配音文本、附加条件、画面场景、会议-镜头景别、会议-镜头角度、会议-镜头运动、会议-同期类型、外景-镜头景别、外景-镜头角度、外景-镜头运动、外景-特定目标、外景-特定场景、外景-同期类型、出镜人物、人物行为、同期声共计17个脚本可编辑字段，并设计了每个字段可编辑范围、约束条件，输入与输出接口设计等。

基于指定的大型会议脚本，设计了整体大型会议剪辑流程：其中包含了Shot切分，人脸识别，会议场景运动、景别、角度识别，外景场景运动、景别、角度识别，特定目标识别，特定场景识别，画面场景识别，人物行为识别，音频分析，图文跨模态匹配，融合分析推理共15个基础模块。

根据一些已有模板类型，结合现有技术能力及时效性、资源成本、标签可信度等因素，确定以OCR与ASR获取文本信息，以文本分类、事件抽取、正则运算进行标签提取的技术路线，具体流程如图4所示。最终确定了法律、经济、文化、教育、体育(综合事件抽取)、科学、技术、医药卫生、娱乐休闲、人事任免、组织行为(如：走访、参观、调研)、意外事故、自然灾害-地震灾害、自然灾害-洪水灾害、自然灾害-地质灾害、自然灾害-气象灾害、司法事件(如：诉讼、约谈等)、节日、节气等可以与模板标签进行匹配的内容标签。

在一个实施例中，本发明还提出了一种基于脚本的多模态特征匹配视频剪辑系统，包括：

脚本输入模块，用于获取用户给定的视频生产脚本；视频生产脚本中包含多条视频制作要求，每条视频制作支持包含运镜、景别、时长、画面描述等信息。

具体的，在视频生产模块中包括：基于Schema引导实现多媒体内容语义特征提取，在不同领域和不同模态下都能够适用的语义特征提取方法；基于多模态特征与用户个性化偏好的视频摘要和智能剪辑，其主要目的就是基于视频内容的语义信息和用户的个性化偏好设置抽取出能够代表视频主要内容的高质量片段；基于最优特征匹配的视频模板推荐，是为智能剪辑产生的视频片段选择合适的模板；视频智能合成，将剪辑后的视频按照脚本规则和模板规则合成视频。

请参考图2，本实施例中，视频生产模块包括场景分片及合并模块、多模态嵌入模块；其中，

场景分片及合并模块，用于将连续的视频流基于画面切换将其分割成独立的视频片段。视频片段的划分逻辑包括但不限于素材片段的时长，素材片段的分辨率，或者素材片段的向量特征。

本实施例中，视频生产模块包括跨模态特征融合模块和分数预测模块，其中，

跨模态特征融合模块，基于注意力机制实现跨模态特征融合以得到表征效果更好的向量特征，实现视频生产脚本和候选视频的特征融合和对齐；

分数预测模块，根据视频生产脚本的文本向量特征，匹配具有最优视频向量特征的视频片段。

本实施例中，视频生产模块还包括视频合成模块，根据匹配的视频片段完成剪辑，并基于多模态特征实现跨模态召回与排序算法获取匹配的模板，视频生产脚本内容添加至视频模板中并结合剪辑结果，按照视频生产脚本内容顺序合成生成成品视频。

需要说明的是，在本实施例中，还基于视频内容的语义信息合理评价提取的视频分片的质量；加上考虑用户的个性化偏好，抽取能够代表视频主要内容的高质量分片并聚合得到视频摘要。

进一步的，本实施例中根据原始视频素材推荐匹配的视频模板，基于提取的多模态特征实现跨模态召回与排序算法，获取合乎视频主题的模板，得到符合视频的模板推荐结果。得到的视频模块可以在视频合成时直接添加脚本各片段之间的转场、特效等，生成高质量的成品视频。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中所述的基于脚本的多模态特征匹配视频剪辑方法及系统。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的基于脚本的多模态特征匹配视频剪辑方法及系统。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义；实施例中的附图用以对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：成都索贝数码科技股份有限公司;

上一篇：镜头防护控制方法、装置、终端设备及计算机可读存储介质
下一篇：一种视频剪辑方法、装置、设备及存储介质