导航：首页> 制冷或冷却；加热和制冷的联合系统；热泵系统；冰的制造或储存；气体的液化或固化>视频处理方法、装置、电子设备及计算机可读存储介质

视频处理方法、装置、电子设备及计算机可读存储介质

文献发布时间：2024-01-17 01:16:56

技术领域

本申请涉及互联网技术领域，尤其涉及一种视频处理方法、装置、电子设备及计算机可读存储介质。

背景技术

视频特别是短视频已经逐渐成为在网络中进行社交和信息传播的重要媒介。用户可以通过视频编辑工具进行视频制作以表达想法，并发布到网络中以进行各种形式的互动。

然而，相关技术提供的视频编辑工具需要用户具备一定的视频编辑技能，对于缺乏视频编辑技能的普通用户来说，需要经过多次尝试才能编辑出满意的视频效果，可见，相关技术难以支持普通用户进行高效和高质量的视频编辑。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够以高效的方式实现对视频的高质量编辑。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频处理方法，包括：

在视频播放界面播放视频；

响应于当播放至第一时间点时接收到的编辑触发操作，显示视频编辑界面，其中，所述视频编辑界面包括视频片段的编辑预览区域以及与所述视频片段相关的多个素材，所述视频片段包括所述第一时间点；

响应于针对所述多个素材中的至少一个目标素材的选择操作，在所述编辑预览区域中显示所述至少一个目标素材；

响应于编辑完成操作，在所述视频播放界面中播放添加有所述至少一个目标素材的所述视频片段。

本申请实施例提供一种视频处理装置，包括：

播放模块，用于在视频播放界面播放视频；

显示模块，用于响应于当播放至第一时间点时接收到的编辑触发操作，显示视频编辑界面，其中，所述视频编辑界面包括视频片段的编辑预览区域以及与所述视频片段相关的多个素材，所述视频片段包括所述第一时间点；

所述显示模块，还用于响应于针对所述多个素材中的至少一个目标素材的选择操作，在所述预览区域中显示所述至少一个目标素材；

所述播放模块，还用于响应于编辑完成操作，在所述视频播放界面中播放添加有所述至少一个目标素材的所述视频片段。

本申请实施例提供一种视频处理方法，包括：

向终端设备发送视频，以使所述终端设备播放所述视频；

接收所述终端设备发送的编辑触发操作对应的指令，确定所述视频中的视频片段的开始时间点和结束时间点、以及与所述视频片段相关的多个素材；

向所述终端设备发送所述视频片段的开始时间点和结束时间点、以及所述多个素材，以使所述终端设备显示包括所述视频片段、以及所述多个素材的视频编辑界面；

接收所述终端设备发送的视频编辑操作对应的指令，生成添加有至少一个目标素材的所述视频片段，其中，所述至少一个目标素材是在所述视频编辑界面中被选中的。

本申请实施例提供一种视频处理装置，包括：

发送模块，用于向终端设备发送视频，以使所述终端设备播放所述视频；

接收模块，用于接收所述终端设备发送的编辑触发操作对应的指令；

确定模块，用于确定所述视频中的视频片段的开始时间点和结束时间点、以及与所述视频片段相关的多个素材；

所述发送模块，还用于向所述终端设备发送所述视频片段的开始时间点和结束时间点、以及所述多个素材，以使所述终端设备显示包括所述视频片段、以及所述多个素材的视频编辑界面；

所述接收模块，还用于接收所述终端设备发送的视频编辑操作对应的指令；

生成模块，用于生成添加有至少一个目标素材的所述视频片段，其中，所述至少一个目标素材是在所述视频编辑界面中被选中的。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的视频处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的视频处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，用于引起处理器执行时，实现本申请实施例提供的视频处理方法。

本申请实施例具有以下有益效果：

当接收到编辑触发操作时，自动获取包括视频播放界面中当前播放的第一时间点的视频片段，并智能化地推荐与视频片段相关的多个素材，供用户进行选择，从而为用户特别是缺乏视频编辑技能的用户针对视频的编辑提供了很大的便利，满足了用户针对视频进行快速编辑的需求，提升了视频编辑的质量。

附图说明

图1是本申请实施例提供的视频处理系统100的架构示意图；

图2是本申请实施例提供的终端设备400-1的结构示意图；

图3是本申请实施例提供的服务器200的结构示意图；

图4是本申请实施例提供的视频处理方法的流程示意图；

图5是本申请实施例提供的视频处理方法的应用场景示意图；

图6是本申请实施例提供的视频处理方法的应用场景示意图；

图7是本申请实施例提供的视频处理方法的流程示意图；

图8是本申请实施例提供的视频处理方法的流程示意图；

图9是本申请实施例提供的视频处理方法的应用场景示意图；

图10是本申请实施例提供的视频处理方法的应用场景示意图；

图11是本申请实施例提供的视频处理方法的应用场景示意图；

图12是本申请实施例提供的视频处理方法的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\…”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\…”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

在以下的描述中，所涉及的术语“多个”是指至少两个。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于：用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)素材：用于添加到视频中的材料，以丰富视频的趣味性，从而实现对视频的编辑(又称二次创作)，其中，素材的类型可以包括表情包、图片、文字等。

本申请实施例提供一种视频处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够以高效的方式实现对视频的高质量编辑。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器，或者由终端设备和服务器协同实施。

示例的，参见图1，图1是本申请实施例提供的视频处理系统100的架构示意图，为实现支撑一个提高视频处理效率的应用，如图1所示，视频处理系统100包括：服务器200、网络300、终端设备400-1以及终端设备400-2，其中，终端设备400-1和终端设备400-2通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备为终端设备为例，本申请实施例提供的视频处理方法可以由终端设备单独实现。例如，以图1中示出的用户1对应的终端设备400-1为例，在终端设备400-1上运行有客户端410-1，客户端410-1可以是各种类型的客户端，例如直播客户端、视频播放器客户端、以及浏览器等。当客户端410-1接收到用户1触发的视频播放操作时，在视频播放界面播放视频，接着客户端410-1响应于当播放至第一时间点时接收到的编辑触发操作，显示视频编辑界面，其中，视频编辑界面包括视频中的视频片段的编辑预览区域以及与视频片段相关的多个素材，且视频片段包括第一时间点；随后客户端410-1响应于用户1触发的针对多个素材中的至少一个目标素材的选择操作，在编辑预览区域中显示被选中的至少一个目标素材；最后客户端410-1响应于编辑完成操作，在视频播放界面中播放添加有至少一个目标素材的视频片段，如此，能够以高效的方式实现对视频的高质量编辑，提高了视频处理效率和用户的使用体验。

此外，当视频的类型为在线视频时，客户端410-1在生成添加有至少一个目标素材的视频片段之后，还可以将添加有至少一个目标素材的视频片段通过网络300发送至服务器200，以使服务器200将添加有至少一个目标素材的视频片段发送至播放该视频的其他终端设备(例如用户2对应的终端设备400-2)，从而满足了用户基于编辑后的视频进行实时互动的诉求。

在另一些实施例中，本申请实施例提供的视频处理方法也可以由服务器和终端设备协同实施。例如，服务器200通过网络300向用户1对应的终端设备400-1以及用户2对应的终端设备400-2发送视频，以使终端设备400-1运行的客户端410-1和终端设备400-2运行的客户端410-2播放服务器200发送的视频。接着，当用户1在观看视频的过程中想要对视频进行二次创作时，可以点击视频播放界面中显示的视频编辑按钮(即编辑触发操作)，此时，终端设备400-1会向服务器200发送编辑触发操作对应的指令，以使服务器200确定视频中的视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材。随后服务器200向终端设备400-1发送确定出的视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材，以使客户端410-1显示包括视频片段、以及与视频片段相关的多个素材的视频编辑界面。最后，服务器200在接收到终端设备400-1发送的视频编辑操作对应的指令后，生成添加有至少一个目标素材的视频片段，其中，至少一个目标素材是用户1从视频编辑界面显示的多个素材中选中的。

此外，服务器200在生成添加有至少一个目标素材的视频片段之后，可以向终端设备400-1以及终端设备400-2发送添加有至少一个目标素材的视频片段，以使客户端410-1和客户端410-2播放添加有至少一个目标素材的视频片段，如此，能够以轻量化且高效的方式实现对视频的编辑，满足了用户基于编辑后的视频进行实时互动的诉求。

需要说明的是，终端设备400-1也可以基于自身的运算能力在本地确定出视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材，从而在终端设备400-1本地生成添加有至少一个目标素材的视频片段，如此，服务器200仅需要向终端设备400-2发送添加有至少一个目标素材的视频片段，实现了二次创造后的视频的高效输出，满足了用户实时互动的诉求。

在一些实施例中，本申请实施例还可以借助于云技术(Cloud Technology)实现，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

示例的，图1中示出的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是视频编辑服务，供终端设备400-1或终端设备400-2进行调用。终端设备400-1和终端设备400-2可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在另一些实施例中，终端设备400-1或服务器200还可以通过运行计算机程序来实现本申请实施例提供的视频处理方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，APPlication)，即需要在操作系统中安装才能运行的程序，如短视频类的应用程序(对应上文的客户端410)；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序，如嵌入至直播类的应用程序中的小程序组件，其中，该小程序组件可以由用户控制运行或关闭。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面对图1中示出的终端设备400-1的结构进行说明。参见图2，图2是本申请实施例提供的终端设备400-1的结构示意图，图2所示的终端设备400-1包括：至少一个处理器420、存储器460、至少一个网络接口430和用户接口440。终端设备400-1中的各个组件通过总线系统450耦合在一起。可理解，总线系统450用于实现这些组件之间的连接通信。总线系统450除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统450。

处理器420可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口440包括使得能够呈现媒体内容的一个或多个输出装置441，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口440还包括一个或多个输入装置442，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器460可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器460可选地包括在物理位置上远离处理器420的一个或多个存储设备。

存储器460包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器460旨在包括任意适合类型的存储器。

在一些实施例中，存储器460能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统461，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块462，用于经由一个或多个(有线或无线)网络接口430到达其他电子设备，示例性的网络接口430包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块463，用于经由一个或多个与用户接口440相关联的输出装置441(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块464，用于对一个或多个来自一个或多个输入装置442之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的视频处理装置可以采用软件方式实现，图2示出了存储在存储器460中的视频处理装置465，其可以是程序和插件等形式的软件，包括以下软件模块：播放模块4651、显示模块4652、更新模块4653、确定模块4654、接收模块4655和发送模块4656，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。需要指出的是，在图2中为了方便表达，一次性示出了上述所有模块，但是不应视为在视频处理装置465排除了可以只包括播放模块4651和显示模块4652的实施，将在下文中说明各个模块的功能。

下面继续对图1中示出的服务器200的结构进行说明。参见图3，图3是本申请实施例提供的服务器200的结构示意图。如图3所示，服务器200包括：至少一个处理器210、至少一个网络接口220、总线系统230、以及存储器240。其中，存储器240包括：操作系统241、网络通信模块242和视频处理装置243。视频处理装置243可以是程序和插件等形式的软件，包括以下软件模块：发送模块2431、接收模块2432、确定模块2433和生成模块2434，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

下面将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的视频处理方法。本申请实施例提供的视频处理方法可以由服务器或者终端设备单独实施，也可以由服务器和终端设备协同实施，下面以由服务器和终端设备协同实施本申请实施例提供的视频处理方法为例进行说明。

示例的，参见图4，图4是本申请实施例提供的视频处理方法的流程示意图，将结合图4示出的步骤进行说明。

在步骤101中，在视频播放界面播放视频。

在一些实施例中，服务器在接收到终端设备发送的视频获取请求消息之后，向终端设备发送所请求的视频，以使终端设备在视频播放界面播放视频，例如终端设备在接收到服务器发送的视频之后，响应于用户触发的视频播放操作，在视频播放界面播放视频。

需要说明的是，服务器也可以定期(例如每隔10分钟)向终端设备推送最新的视频。

在步骤102中，响应于当播放至第一时间点时接收到的编辑触发操作，显示视频编辑界面。

这里，视频编辑界面包括视频中的视频片段的编辑预览区域以及与视频片段相关的多个素材，其中，视频片段包括第一时间点，例如可以将第一时间点作为视频片段的开始时间点、中间时间点、或者结束时间点。

在一些实施例中，编辑预览区域中的画面可以是静止的，例如可以在编辑预览区域中显示视频片段的首帧、中间帧、或者末帧。当然，也可以在编辑预览区域中播放视频片段，例如用户在选中目标素材之后，可以在编辑预览区域中播放视频片段中添加有被选中的目标素材的时间段。

在另一些实施例中，在显示视频编辑界面时，可以将视频播放界面切换到后台，并控制视频播放界面暂停播放；当然，也可以将视频播放界面和视频编辑界面分屏显示，并控制视频播放界面继续播放或者暂停播放。当视频播放界面继续播放时，为了避免两个界面中的声音发生冲突，可以控制两个界面中的任意一个静音(例如可以控制视频播放界面中播放的视频静音，或者控制视频编辑界面中播放的视频片段静音)。并且，两个界面的播放可以是通过两个播放进程实现的，从而可以彼此独立播放，互不干扰。

在一些实施例中，在显示包括视频片段的视频编辑界面之前，还可以执行以下处理：确定视频片段的开始时间点和结束时间点，或者，接收由服务器确定并发送的视频片段的开始时间点和结束时间点；其中，视频片段的开始时间点和结束时间点是通过以下任意一种方式确定的：基于第一时间点(例如可以将第一时间点作为视频片段的开始时间点、中间时间点、或者结束时间点)的设定长度，确定视频片段的开始时间点和结束时间点；对视频进行场景识别处理，将第一时间点所处的场景片段的开始时间点确定为视频片段的开始时间点、以及将场景片段的结束时间点确定为视频片段的结束时间点；对视频进行情节识别处理，将第一时间点所处的情节片段的开始时间点确定为视频片段的开始时间点、以及将情节片段的结束时间点确定为视频片段的结束时间点。

示例的，以第一时间点为0:10为例(即当视频播放界面中的视频播放至第10秒时接收到编辑触发操作，例如当视频播放界面中的视频播放至第10秒时，接收到用户针对视频播放界面中显示的编辑按钮的点击操作)，可以将第一时间点作为视频片段的中间时间点，并向前向后各取设定的长度(例如假设为2秒)，从而可以得到视频片段的开始时间点(即0:08)和结束时间点(即0:12)。

示例的，以第一时间点为0:20为例，即用户在视频播放界面中的视频播放至第20秒时点击了视频播放界面显示的编辑按钮(即编辑触发操作)，此时，终端设备会向服务器发送编辑触发操作对应的指令，以使服务器调用场景识别模型对视频进行场景识别处理，得到第20秒的图像帧所在的场景片段(例如场景片段A)，随后服务器可以将场景片段A的开始时间点(假设为0:15)和结束时间点(假设为0:23)发送至终端设备，从而终端设备可以将场景片段A的开始时间点和结束时间点作为视频片段的开始时间点和结束时间点(即从视频中截取出的视频片段的时间段为0:15至0:23)。

示例的，以第一时间点为0:15为例，即用户在视频播放界面中的视频播放至第15秒时点击了视频播放界面显示的编辑按钮(即编辑触发操作)，此时，终端设备会向服务器发送编辑触发操作对应的指令，以使服务器调用情节识别模型对视频进行情节识别处理，得到第15秒的图像帧所在的情节片段(例如情节片段B)，随后服务器可以将情节片段B的开始时间点(假设为0:10)和结束时间点(假设为0:16)发送至终端设备，从而终端设备可以将情节片段B的开始时间点和结束时间点作为视频片段的开始时间点和结束时间点(即从视频中截取出的视频片段的时间段为0:10至0:16)。

需要说明的是，终端设备也可以通过自身的运算能力对视频进行场景识别处理或者情节识别处理，得到视频片段的开始时间点和结束时间点，从而减少终端设备与服务器之间交互产生的资源消耗。

在一些实施例中，在显示与视频片段相关的多个素材之前，还可以执行以下处理：确定多个素材，或者，接收由服务器确定并发送的与视频片段相关的多个素材，其中，多个素材是通过以下任意一种方式确定的：从视频片段中提取至少一个图像帧；对每个图像帧进行图像识别处理，得到图像帧包括的对象的类别；基于至少一个图像帧分别包括的对象的类别，确定视频片段的场景类型；基于视频片段的场景类型查询素材库，得到与视频片段相关的多个素材(例如可以计算视频片段的场景类型(例如办公室、公园、地铁等)与素材库中每个候选素材携带的标签之间的相似度，将相似度大于相似度阈值的多个候选素材确定为与视频片段相关的多个素材)；对视频片段进行音频识别处理，得到对应的文本；对文本进行分词处理，并将分词处理后得到的多个词与关键词库进行匹配处理，得到至少一个关键词；基于至少一个关键词查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材(例如可以计算关键词与素材库中每个候选素材携带的标签之间的相似度，将相似度大于相似度阈值的多个候选素材确定为与视频片段相关的多个素材)。

需要说明的是，也可以基于终端设备自身的运算能力来确定出与视频片段相关的多个素材，从而减少终端设备与服务器之间的交互产生的资源消耗。

在另一些实施例中，视频编辑界面还可以包括至少一种类型的素材分别对应的类型控件，其中，素材的类型包括以下至少之一：表情包、文字、图片，则可以通过以下方式实现上述的显示与视频片段相关的多个素材：当被选中的类型控件为表情包控件时，显示与视频片段相关的多个表情包；当被选中的类型控件为文字控件时，显示与视频片段相关的多个文字；当被选中的类型控件为图片控件时，显示与视频片段相关的多张图片，如此，用户可以通过点击不同的类型控件，来切换选择自己需要的素材的类型。

在步骤103中，响应于针对多个素材中的至少一个目标素材的选择操作，在编辑预览区域中显示至少一个目标素材。

在一些实施例中，视频编辑界面还可以包括视频片段的时间轴、以及与时间轴并行的至少一个时间条控件，其中，每个时间条控件对应一个目标素材，且时间条控件与视频片段的时间轴对齐的时间段，是目标素材在视频片段中的添加时间段，则还可以针对至少一个时间条控件执行以下处理：响应于针对任一时间条控件的调整操作，更新任一时间条控件与视频片段的时间轴对齐的时间段。

示例的，调整操作的类型可以包括：拖动操作、移动操作，则可以通过以下方式实现上述的响应于针对任一时间条控件的调整操作，更新任一时间条控件与视频片段的时间轴对应的时间段：执行以下处理至少之一：响应于针对任一时间条控件的拖动操作，更新任一时间条控件与视频片段的时间轴对齐的时间段的位置，其中，对齐的时间段的长度保持不变；响应于针对任一时间条控件中至少一端的时间节点的移动操作，更新至少一端的时间节点与视频片段的时间轴对齐的时间段的相应时间节点的位置，其中，对齐的时间段的长度发生变化(例如变长或者变短)。

举例来说，参见图5，图5是本申请实施例提供的视频处理方法的应用场景示意图，如图5所示，在视频编辑界面500中显示有视频片段的时间轴510、以及与视频片段相关的多个素材(例如表情包)，当用户在多个表情包中选中表情包520-1和表情包520-2时，在视频编辑界面500中显示表情包520-1对应的时间条控件530-1、以及表情包520-2对应的时间条控件530-2，其中，时间条控件530-1与视频片段的时间轴510对齐的时间段为0:11至0:14(即表情包520-1在视频片段中的添加时间段为第11秒至第14秒)，时间条控件530-2与视频片段的时间轴510对齐的时间段为0:13至0:16(即表情包520-2在视频片段中的添加时间段为第13秒至第16秒)，当用户对表情包520-1在视频片段中的添加时间段不满意时，可以对时间条控件530-1进行调整，例如可以移动时间条控件530-1右端的时间节点(即时间条控件530-1右边的箭头)，从而使时间条控件530-1与视频片段的时间轴510对齐的时间段的长度发生变化(例如在经过调整之后，时间条控件530-1与视频片段的时间轴510对齐的时间段缩短至0:11至0:12.5，即表情包520-1在视频片段中的添加时间段将更新为第11至12.5秒)。此外，当用户对表情包520-2在视频片段中的添加时间段不满意时，可以按住时间条控件530-2，并对时间条控件530-2进行整体拖动，从而改变时间条控件530-2与视频片段的时间轴510对齐的时间段的位置(例如在进行调整之后，时间条控件530-2与视频片段的时间轴510对齐的时间段为0:12至0:15，即表情包520-2在视频片段中的添加时间段将更新为第12秒至第15秒)。

需要说明的是，时间条控件530-1和时间条控件530-2也可以在同一行显示，本申请实施例不对时间条控件的显示位置进行具体限定。

在一些实施例中，用户在从多个素材中选中至少一个目标素材之后，还可以针对每个被选中的目标素材执行以下处理：确定目标素材的添加时间段，或者，接收由服务器确定并发送的目标素材的添加时间段；其中，添加时间段的确定方式包括以下任意一种：获取针对目标素材预先设定的添加时间段(例如针对每个目标素材，可以预先设定其对应的添加时间段，并且不同类型的目标素材，对应的添加时间段可以是不同的)；逐帧计算视频片段中的图像帧与目标素材的特征(例如颜色、风格、类型等)之间的相似度，将相似度大于相似度阈值的连续多帧图像对应的时间段，确定为目标素材的添加时间段。

示例的，以目标素材为表情包A为例，例如用户在与视频片段相关的多个表情包中选中表情包A时，可以获取针对表情包A预设设定的添加时间段，从而可以根据所获取的添加时间段在视频编辑界面的相应位置显示与表情包A对应的时间条控件(即表情包A对应的时间条控件在视频编辑界面中的初始位置是基于所获取的添加时间段确定的，当用户对表情包A在视频片段中的添加时间段不满意时，还可以对表情包A对应的时间条控件进行调整，从而更新表情包A在视频片段中的添加时间段)。

示例的，以目标素材为图片B为例，例如用户在与视频片段相关的多张图片中选中图片B时，终端设备可以将图片B发送至服务器，以使服务器逐帧计算视频片段中的图像帧与图片B的特征(例如颜色、风格等)之间的相似度，并将相似度大于相似度阈值(例如90％)的连续多帧图像对应的时间段，确定为图片B的添加时间段，随后服务器将确定出的图片B的添加时间段发送至终端设备，从而终端设备可以在视频编辑界面的相应位置显示图片B对应的时间条控件。

需要说明的是，也可以基于终端设备自身的运算能力逐帧计算视频片段中的图像帧与图片B的特征之间的相似度，从而确定出图片B的添加时间段。

在另一些实施例中，当在编辑预览区域中显示至少一个目标素材时，还可以执行以下处理至少之一：响应于针对任一目标素材的移动操作，将任一目标素材从编辑预览区域中的第一位置移动至编辑预览区域中的第二位置；响应于针对任一目标素材的缩放操作，更新任一目标素材的尺寸；响应于针对任一目标素材的旋转操作，更新任一目标素材的显示角度。

示例的，参见图6，图6是本申请实施例提供的视频处理方法的应用场景示意图，如图6所示，在视频编辑界面600中显示有与视频片段相关的多个素材(例如表情包)，当用户从多个表情包中选中表情包610-1和表情包610-2时，在编辑预览区域620中显示用户选中的表情包610-1和表情包610-2。当用户对表情包610-1的尺寸不满意时，可以对表情包610-1进行缩放操作，例如放大表情包610-1的尺寸；当用户对表情包610-2在视频片段中的添加位置不满意时，可以对表情包610-2进行移动操作，例如可以将表情包610-2从编辑预览区域620的第一位置(例如对象的右下方)拖动到编辑预览区域620的第二位置(例如对象的左边)，从而调整表情包610-2在视频片段中的添加位置。

在一些实施例中，当在编辑预览区域中显示至少一个目标素材时，还可以执行以下处理：根据编辑预览区域中的对象的尺寸，对至少一个目标素材的尺寸进行更新，以使至少一个目标素材更新后的尺寸与编辑预览区域中的对象的尺寸适配；或者，根据编辑预览区域中的多个对象分别所在的区域，将至少一个目标素材的尺寸更新至目标尺寸，其中，目标尺寸为至少一个目标素材在被添加至编辑预览区域时不遮挡多个对象的最大尺寸。

示例的，以目标素材为表情包A为例，当在编辑预览区域中显示表情包A时，还可以根据编辑预览区域中显示的对象(例如对象1)的尺寸，对表情包A的尺寸进行自动更新，例如假设对象1的尺寸为5cm*5cm，表情包A的初始尺寸为1cm*1cm，则可以将表情包A的尺寸自动更新至5cm*5cm，以与对象1的尺寸适配。

示例的，以目标素材为图片B为例，当在编辑预览区域中显示图片B时，还可以根据编辑预览区域中显示的多个对象(例如包括对象2和对象3)分别所在的区域，将图片B的尺寸自动更新至图片B在被添加至编辑预览区域时不遮挡对象2和对象3的最大尺寸，如此，在不对编辑预览区域中原先显示的对象进行遮挡的情况下，又能使添加的目标素材最为显著。

在一些实施例中，还可以通过以下方式实现上述的在编辑预览区域中显示至少一个目标素材：针对被选中的每个目标素材执行以下处理：在编辑预览区域中对应目标素材的添加位置显示目标素材。

需要说明的是，每个被选中的目标素材在编辑预览区域中对应的添加位置可以是各不相同的，当然，也可以是部分目标素材对应的添加位置是部分重叠的，例如当编辑预览区域中对象占据的面积较大时，为了不遮挡编辑预览区域中的对象，可以将部分目标素材重叠显示。

在另一些实施例中，承接上文，在编辑预览区域中对应目标素材的添加位置显示目标素材之前，还可以执行以下处理：针对每个目标素材执行以下处理：响应于位置设定操作，将编辑预览区域中被选定的位置确定为目标素材的添加位置，或者，接收由服务器确定并发送的目标素材的添加位置，其中，添加位置是通过以下任意一种方式确定的：将编辑预览区域中未遮挡编辑预览区域中的对象的位置，确定为目标素材的添加位置；将编辑预览区域中与编辑预览区域中的对象的角色、动作、装饰至少之一适配的位置，确定为目标素材的添加位置；其中，对象的类型包括：编辑预览区域中的任意对象、编辑预览区域中出现时间最长的对象、编辑预览区域中与用户发生互动的对象等。

示例的，上述与对象的角色适配的位置可以是与对象的性格、年龄、或者外貌适配的位置等，例如当对象为小孩时，可以将小孩的头部位置确定为目标素材(例如卡通帽子)的添加位置；当对象为中年男人时，可以将中年男人的手部确定为目标素材(例如手表素材)的添加位置，从而在添加目标素材之后能够更加丰富对象的对象特征。

示例的，上述与对象的动作适配的位置可以是与对象的手部动作、或者肢体动作适配的位置，例如当对象正在抬腿时，可以将对象的脚部位置确定为目标素材(例如足球素材)的添加位置；当对象正在抬头时，可以将对象的头部位置确定为目标素材(例如西瓜素材)的添加位置，从而在添加目标素材之后能够更加丰富对象的动作表现。

示例的，上述与对象的装饰适配的位置可以是装饰本身所在的位置，例如当对象的装饰为帽子时，可以将帽子所在的位置确定为目标素材(例如羽毛素材)的添加位置；当对象的装饰为衣领时，可以将衣领所在的位置确定为目标素材(例如领带素材)的添加位置，从而使添加目标素材之后的视频具有更好的美学效果。

示例的，以目标素材为表情包A为例，用户在从与视频片段相关的多个表情包中选中表情包A后，还可以在编辑预览区域中设定表情包A的位置，从而在编辑预览区域中用户选定的位置显示表情包A。

示例的，以目标素材为图片B为例，用户在从与视频片段相关的多张图片中选中图片B之后，终端设备向服务器发送选择操作对应的指令，此时，服务器可以调用对象识别模型对编辑预览区域进行对象识别处理，以确定出编辑预览区域中对象(例如对象A)所在的位置，随后服务器将对象A在编辑预览区域中所在的位置发送至终端设备，从而使终端设备在编辑预览区域中未遮挡对象A的位置显示图片B。当然，服务器在接收到终端设备发送的选择操作对应的指令后，也可以调用对象识别模型，确定出编辑预览区域中与编辑预览区域中的对象(例如对象C)的动作适配的位置(例如对象C的手掌所在的位置)，随后服务器可以将编辑预览区域中对象C的手掌所在的位置发送至终端设备，从而终端设备可以在对象C的手掌所在的位置显示图片B。

需要说明的是，也可以通过终端设备自身的运算能力对编辑预览区域进行对象识别处理，从而得到编辑预览区域中用于添加目标素材的位置，以节约终端设备与服务器之间交互产生的资源消耗。

在步骤104中，响应于编辑完成操作，在视频播放界面中播放添加有至少一个目标素材的视频片段。

在一些实施例中，在接收到用户触发的编辑完成操作之后，可以控制视频编辑界面切换到后台，并重新显示视频播放界面(即从视频编辑界面重新跳转回视频播放界面)，以及在视频播放界面中播放添加有至少一个目标素材的视频片段。并且，在播放完添加有至少一个目标素材的视频片段之后，还可以继续播放剩余的视频。

在另一些实施例中，参见图7，图7是本申请实施例提供的视频处理方法的流程示意图，如图7所示，可以通过步骤1041至步骤1043实现上述的在视频播放界面中播放添加有至少一个目标素材的视频片段，将结合图7示出的步骤进行说明。

在步骤1041中，判断至少一个目标素材的添加时间段是否位于第一时间点之前，若是，则执行步骤1042；若否，则执行步骤1043。

在步骤1042中，从第二时间点开始播放视频片段，并当视频片段的播放进度处于添加时间段时，在视频片段中显示至少一个目标素材。

这里，第二时间点为添加时间段包括的开始显示时间之前m秒的时间点，其中，m为大于0的实数。

示例的，以目标素材为表情包A为例，假设第一时间点为0:10(即当视频播放界面中的视频播放至第10秒时接收到编辑触发操作，例如在视频播放至第10秒时，接收到用户针对视频播放界面中显示的编辑按钮的点击操作)，同时假设表情包A的添加时间段为0:08至0:11，即表情包A在视频片段中的开始显示时间为第8秒，则在完成编辑操作之后，可以从开始显示时间之前m秒的时间点(例如第5秒)开始播放视频片段，如此，在完成编辑操作之后，用户可以从头观看编辑后的视频片段，提高了用户的使用体验。

在步骤1043中，从第一时间点开始播放视频片段，并当视频片段的播放进度处于添加时间段时，在视频片段中显示至少一个目标素材。

示例的，以目标素材为图片B为例，假设第一时间点为0:15(即当视频播放界面中的视频播放至第15秒时接收到编辑触发操作，例如当视频播放界面中的视频播放至第15秒时，接收到用户针对视频播放界面中显示的编辑按钮的点击操作)，同时假设图片B的添加时间段为0:16至0:20，即图片B的添加时间段位于第一时间点之后，则在完成编辑操作之后，可以从第15秒开始播放视频片段，即从暂停的时间点开始重新播放，提高了视频播放的连贯性，进而也提升了用户的观看体验。

在一些实施例中，当视频的类型为在线视频时，还可以执行以下处理：向服务器发送在视频编辑界面接收的任一操作对应的指令，以使服务器同步生成添加有至少一个目标素材的视频片段，并向播放视频的其他终端设备发送添加有至少一个目标素材的视频片段，其中，其他终端设备为：播放视频的多个终端设备中除发送指令的终端设备之外的终端设备。

示例的，以发送指令的终端设备为用户1对应的终端设备1为例，终端设备1可以向服务器发送在视频编辑界面接收到的用户1触发的任一操作对应的指令(例如终端设备1在接收到用户1在视频编辑界面触发的一个操作时，即向服务器发送该操作对应的指令；当然，终端设备1也可以将用户1在视频编辑界面触发的多个操作分别对应的指令一起发送给服务器，以节约系统资源)，以使服务器同步生成添加有至少一个目标素材(即用户1在视频编辑界面中选中的素材)的视频片段，并向播放视频的其他终端设备(例如正在播放同一视频的终端设备2和终端设备3)发送添加有至少一个目标素材的视频片段。

本申请实施例提供的视频处理方法，当终端设备接收到编辑触发操作时，自动获取包括视频播放界面中当前播放的第一时间点的视频片段，并智能化地推荐与视频片段相关的多个素材，供用户进行选择，从而为用户特别是无视频编辑基础的用户针对视频的二次创作提供了很大的便利，满足了用户针对视频进行快速二次创作的需求。

下面，以在线视频场景为例，说明本申请实施例在一个实际的应用场景中的示例性应用。

在进行视频编辑时，相关技术提供的方案通常仅能够对终端设备本地的视频内容进行编辑，导致整体互动体验缺乏便捷、快速、以及智能化，无法对用户特别是无编辑基础的用户进行互动的渗透，也无法控制编辑后的视频整体的效果和内容。

鉴于此，本申请实施例提供一种视频处理方法，针对在线视频流场景，能够满足用户在观看视频流场景下的直接参与意愿，例如通过在线定位当前时间节点(对应于上述的第一时间点)，抽取当前时间节点前后指定时间段内的视频片段，进入视频编辑界面。同时通过分析该视频片段的图像和音频，推荐符合该视频片段的场景的表情包、图片、文字等作为实时可选的素材，实现在线视频流场景下的直接编辑。此外，在编辑完成之后，服务器也可以基于用户在终端设备触发的编辑操作对应的指令，同步生成与终端设备本地相同的编辑后的视频，从而终端设备无需上传编辑后的视频，实现针对视频的低消耗的快速二次创作智能编辑。

示例的，参见图8，图8是本申请实施例提供的视频处理方法的流程示意图，将结合图8示出的步骤进行说明。

在步骤201中，服务器向终端设备发送在线视频的视频流。

在步骤202中，终端设备根据接收的视频流播放在线视频。

在步骤203中，终端设备向服务器发送编辑触发操作对应的指令。

终端设备在接收到编辑触发操作之后，可以向服务器发送编辑触发操作对应的指令。

在步骤204中，服务器确定视频中的视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材。

在一些实施例中，服务器在接收到终端设备发送的编辑触发操作对应的指令之后，可以基于该指令确定出视频中需要编辑的视频片段的开始时间点和结束时间点、以及与确定出的视频片段相关的多个素材。

在步骤205中，服务器向终端设备发送视频片段的开始时间点和结束时间点、以及多个素材。

在一些实施例中，服务器在确定出视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材之后，可以将确定出的视频片段的开始时间点和结束时间点、以及多个素材发送至终端设备。

在步骤206中，终端设备显示包括视频片段、以及多个素材的视频编辑界面。

在一些实施例中，终端设备在接收到服务器发送的视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材之后，可以显示包括视频片段的编辑预览区域、以及与视频片段相关的多个素材的视频编辑界面。

在步骤207中，终端设备向服务器发送视频编辑操作对应的指令。

在一些实施例中，终端设备在接收到用户在视频编辑界面中触发的视频编辑操作(例如包括素材选择操作、添加时间段调整操作、素材尺寸调整操作、素材添加位置调整操作等)时，可以向服务器发送视频编辑操作对应的指令。

在步骤208中，服务器生成添加有至少一个目标素材的视频片段。

在一些实施例中，服务器在接收到终端设备发送的视频编辑操作对应的指令之后，可以基于该指令对服务器中存储的视频片段执行与用户在终端设备显示的视频编辑界面中执行的相同的视频编辑操作，从而生成添加有至少一个目标素材的视频片段(即与在终端设备本地生成的完全相同的编辑后的视频片段)，从而终端设备无需上传编辑后的视频片段，服务器可以直接将编辑后的视频片段向其他终端设备发送，提高了视频编辑、以及发布的效率。

下面对图8示出的的视频处理方法应用于在线视频刷流场景的处理进行进一步说明。在接收到用户触发的编辑指令时，拉取当前播放的时间节点前后一定时间段(例如20秒)的视频片段作为编辑范围，接着对拉取的视频片段包括的图像和音频进行分析，提取出关键词，以基于关键词推荐贴合视频片段的场景的表情包、文字、图片等素材，供用户针对视频片段进行快速二次创作使用。

示例的，参见图9，图9是本申请实施例提供的视频处理方法的应用场景示意图，如图9所示，在视频编辑界面900中显示有贴合所拉取的视频片段的多种不同类型的素材，且每种类型的素材均有对应的一个按钮，例如包括表情包按钮910-1、文字按钮910-2、以及图片按钮910-3，当用户点击表情包按钮910-1时，在视频编辑界面900中显示贴合视频片段的多个表情包，当用户从多个表情包中选中表情包920-1时，可以在编辑预览区域中显示用户选中的表情包920-1；当用户需要在视频片段中添加文字时，可以点击文字按钮910-2，此时，将在视频编辑界面900中切换显示贴合视频片段的多个文字，当用户在多个文字中选中文字920-2时，可以在编辑预览区域中显示用户选中的文字920-2；当用户需要在视频片段中添加图片时，也可以点击视频编辑界面900中显示的图片按钮910-3，此时，将在视频编辑界面900中切换显示贴合视频片段的多张图片，当用户从多张图片中选中图片920-3时，在编辑预览区域中显示用户选中的图片920-3。

示例的，参见图10，图10是本申请实施例提供的视频处理方法的应用场景示意图，如图10所示，左图是原始视频的画面，右图是经过二次创作之后的视频的画面(在经过二次创作之后的视频中显示有用户在编辑过程中选中的表情包1001)，此外，用户针对视频进行二次创作的场景是在视频刷流背景下触发的，因此服务器可以基于用户在终端设备本地触发的指令，同步生成与终端设备本地相同的二次创作后的视频片段并进行发布，从而终端设备无需上传即可发布，实现了针对视频的快速二次创作与轻量化编辑。

示例的，参见图11，图11是本申请实施例提供的视频处理方法的应用场景示意图，如图11所示，在视频播放界面1100中显示有添加素材按钮1110，当用户在观看视频的过程中点击添加素材按钮1110时，服务器可以拉取当前播放的时间节点前后的一定时间段内的视频片段，并同步进入本地缓存和云端缓存，同时服务器还可以对所拉取的视频片段进行分析，得到与该视频片段的内容相关的表情包、文字、图片等素材，并将得到的素材发送至终端设备。也就是说，针对终端设备，当接收到用户针对添加素材按钮1110(即编辑按钮)的点击操作时，会基于所拉取的视频片段进入二次创作界面1120(对应于上述的视频编辑界面)，并在二次创作界面1120中显示服务器下发的与视频片段的内容相关的多个素材(例如表情包、文字、图片等)。当用户在二次创作界面1120显示的多个表情包中选中表情包1130时，可以在编辑预览区域中显示用户选中的、且处于可编辑状态的表情包1130(用户可以通过单指或者双指，对处于可编辑状态的表情包1130进行旋转、缩放、以及移动等操作，以调整表情包1130的显示角度、尺寸、以及在视频片段中的添加位置等)、以及与表情包1130对应的时间条控件1140(用户可以通过整体拖动时间条控件1140或者移动时间条控件1140两端的箭头，来调整表情包1130在视频片段中的添加时间段)。如此，用户可以根据推荐的多个素材，直接对所拉取的视频片段进行便携且轻量化的二次创作，同时服务器侧也可以基于用户在终端设备侧触发的指令，同时生成一份相同的二次创作后的视频片段，从而在二次创作完成后，终端设备无需上传，服务器可以直接将二次创作后的视频片段立即新增进视频流中。随后，当终端设备接收到用户针对二次创作界面1120显示的编辑完成按钮1150的点击操作时，会从二次创作界面1120重新跳转回视频播放界面1100，并在视频播放界面1100中播放添加有表情包1130的视频片段，即在二次创作完成后，会自动回到刷流场景，用户可以继续体验视频。

示例的，参见图12，图12是本申请实施例提供的视频处理方法的原理示意图，如图12所示，本申请实施例提供的视频处理方法主要涉及用户侧、前端(即终端设备)和后台(即服务器)三个层面，下面分别进行具体说明。

(一)用户侧：用户在观看视频的过程中可以点击编辑按钮进入二次创作界面，例如针对在线刷流场景，服务器可以提取视频片段，并基于所提取的视频片段控制前端进入二次创作界面。在进入二次创作界面之后，会在二次创作界面中显示与视频片段的内容相关的多个素材，供用户进行选择，同时用户在选中素材之后，还会在二次创作界面中显示与被选中的素材对应的时间条控件，以供用户对素材在视频片段中的添加时间段进行调整。在编辑完成之后，用户还可以对已编辑的视频进行确认。

(二)前端：主要涉及二次创作编辑模块(对应于上述的编辑预览区域)、素材展示模块和视频刷流模块，其中，在素材展示模块中被用户选中的目标素材可以在二次创作编辑模块进行显示，此时，用户还可以通过单指或者双指，对被选中的目标素材进行旋转、缩放、以及移动等操作。并且还可以对页面进行区域范围控制，例如当被选中的目标素材的尺寸超过视频图像本身的尺寸时，目标素材将会被切除。素材展示模块主要用于接收服务器下发的与视频片段的内容相关的多个素材，并在所接收的多个素材(包括表情包、文字、图片等)在相应的位置进行展示，供用户进行选择。视频刷流模块主要用于通过服务器进行同步创作，从而实现无感切换回视频刷流场景。

(三)后台：后台的处理主要涉及以下五个步骤：1)在线创作时，针对用户点击编辑按钮的时间节点开始计算，实时截取当前播放的时间节点前后一定时间段(例如20秒)的视频片段(若当前时间节点前后未满20秒时，则可以自动拉取所有的时间段对应的视频片段)；2)从截取的视频片段中快速抽离出图像和音频，并进行同步分析，例如针对抽离出的图像，可以进行图像识别处理，得到图像中显示的对象的类别；针对抽离出的音频，可以进行音频识别处理，并对音频中涉及的关键词进行标注，随后与数据库中的数据进行索引，得到与视频片段的内容相关的多个内容关键词；3)在得到内容关键词之后，可以基于内容关键词与已经标签好的素材库进行匹配，从而得到与视频片段的内容相关的多个图片、文字、表情包等。用户在从多个素材中选中目标素材之后，还可以在终端设备本地针对目标素材进行缩放、移动、旋转、以及添加时间段的调整等操作。此时，服务器侧会依据用户在终端设备本地执行的指令，同步生成一份与本地完全相同的编辑后的视频片段，用作用户在发出确认指令后云端上传使用；4)服务器会记录用户在二次创作界面中触发的编辑指令，同步云端输出，从而无需等待时间，直接将二次创作后的视频片段新增至视频流中；5)用户继续刷流，若目标素材的添加时间段位于用户点击编辑按钮进行二次创作的时间节点之前，则回到视频播放界面(即刷流页)之后，从添加时间段的前5秒开始继续播放视频；若目标素材的添加时间段位于用户点击编辑按钮进行二次创作的时间节点之后，则直接从用户点击编辑按钮的时间节点进行续播。

本申请实施例提供的视频处理方法，通过对在线视频流中的视频片段进行二次创作，提升了用户在在线刷流场景下针对视频进行二次创作的效率和用户体验，特别是云端的高效输出，无需依靠本地数据和网络，实现以高效且轻量化的方式对视频的二次创作。此外，本申请实施例提供的方案，还能够智能化地推荐与视频片段的内容相关的素材，针对无视频编辑基础的用户，可以为其制作高质量且符合内容场景的二次创作后的视频提供便利。同时，这种差异化的优势，满足了用户实时互动的诉求，提供在线视频流的高效创作体验，进而带动用户的活跃度，提高转化率与实际留存率。

下面继续说明本申请实施例提供的视频处理装置465的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器460的视频处理装置465中的软件模块可以包括：播放模块4651和显示模块4652。

播放模块4651，用于在视频播放界面播放视频；显示模块4652，用于响应于当播放至第一时间点时接收到的编辑触发操作，显示视频编辑界面，其中，视频编辑界面包括视频片段的编辑预览区域以及与视频片段相关的多个素材，视频片段包括第一时间点；显示模块4652，还用于响应于针对多个素材中的至少一个目标素材的选择操作，在预览区域中显示至少一个目标素材；播放模块4651，还用于响应于编辑完成操作，在视频播放界面中播放添加有至少一个目标素材的视频片段。

在一些实施例中，视频编辑界面还包括视频片段的时间轴、以及与时间轴并行的至少一个时间条控件，每个时间条控件对应一个目标素材，且时间条控件与时间轴对齐的时间段，是目标素材在视频片段中的添加时间段；视频处理装置465还包括更新模块4653，用于响应于针对任一时间条控件的调整操作，更新任一时间条控件与时间轴对齐的时间段。

在一些实施例中，调整操作的类型包括：拖动操作、移动操作；更新模块4653，还用于执行以下处理至少之一：响应于针对任一时间条控件的拖动操作，更新任一时间条控件与时间轴对齐的时间段的位置，其中，对齐的时间段的长度保持不变；响应于针对任一时间条控件中至少一端的时间节点的移动操作，更新至少一端的时间节点与时间轴对齐的时间段的相应时间节点的位置，其中，对齐的时间段的长度发生变化。

在一些实施例中，视频处理装置465还包括确定模块4654，用于针对每个目标素材执行以下处理：确定目标素材的添加时间段，其中，添加时间段的确定方式包括以下任意一种：获取针对目标素材预先设定的添加时间段；逐帧计算视频片段中的图像帧与目标素材的特征之间的相似度，将相似度大于相似度阈值的连续多帧图像对应的时间段，确定为目标素材的添加时间段。

在一些实施例中，视频处理装置465还包括接收模块4655，用于接收由服务器确定并发送的目标素材的添加时间段；其中，添加时间段的确定方式包括以下任意一种：获取针对目标素材预先设定的添加时间段；逐帧计算视频片段中的图像帧与目标素材的特征之间的相似度，将相似度大于相似度阈值的连续多帧图像对应的时间段，确定为目标素材的添加时间段。

在一些实施例中，当在编辑预览区域中显示至少一个目标素材时，更新模块4653，还用于执行以下处理至少之一：响应于针对任一目标素材的移动操作，将任一目标素材从编辑预览区域中的第一位置移动至编辑预览区域中的第二位置；响应于针对任一目标素材的缩放操作，更新任一目标素材的尺寸；响应于针对任一目标素材的旋转操作，更新任一目标素材的显示角度。

在一些实施例中，显示模块4652，还用于针对被选中的每个目标素材执行以下处理：在编辑预览区域中对应目标素材的添加位置显示目标素材。

在一些实施例中，在编辑预览区域中对应目标素材的添加位置显示目标素材之前，确定模块4654，还用于针对每个目标素材执行以下处理：响应于位置设定操作，将编辑预览区域中被选定的位置确定为目标素材的添加位置。

在一些实施例中，在编辑预览区域中对应目标素材的添加位置显示目标素材之前，接收模块4655，还用于接收由服务器确定并发送的目标素材的添加位置，其中，添加位置是通过以下任意一种方式确定的：将编辑预览区域中未遮挡编辑预览区域中的对象的位置，确定为目标素材的添加位置；将编辑预览区域中与编辑预览区域中的对象的角色、动作、装饰至少之一适配的位置，确定为目标素材的添加位置；其中，对象的类型包括：编辑预览区域中的任意对象、编辑预览区域中出现时间最长的对象、编辑预览区域中与用户发生互动的对象。

在一些实施例中，在编辑预览区域中对应目标素材的添加位置显示目标素材之前，确定模块4654，还用于针对每个目标素材执行以下处理：确定目标素材的添加位置，其中，添加位置是通过以下任意一种方式确定的：将编辑预览区域中未遮挡编辑预览区域中的对象的位置，确定为目标素材的添加位置；将编辑预览区域中与编辑预览区域中的对象的角色、动作、装饰至少之一适配的位置，确定为目标素材的添加位置；其中，对象的类型包括：编辑预览区域中的任意对象、编辑预览区域中出现时间最长的对象、编辑预览区域中与用户发生互动的对象。

在一些实施例中，播放模块4651，还用于若至少一个目标素材的添加时间段位于第一时间点之前，则从第二时间点开始播放视频片段，并当视频片段的播放进度处于添加时间段时，在视频片段中显示至少一个目标素材；其中，第二时间点为添加时间段包括的开始显示时间之前m秒的时间点，m为大于0的实数；以及用于若至少一个目标素材的添加时间段位于第一时间点之后，则从第一时间点开始播放视频片段，并当视频片段的播放进度处于添加时间段时，在视频片段中显示至少一个目标素材。

在一些实施例中，在显示视频编辑界面之前，确定模块4654，还用于确定视频片段的开始时间点和结束时间点，其中，视频片段的开始时间点和结束时间点是通过以下任意一种方式确定的：基于第一时间点的设定长度，确定视频片段的开始时间点和结束时间点；对视频进行场景识别处理，将第一时间点所处的场景片段的开始时间点确定为视频片段的开始时间点、以及将场景片段的结束时间点确定为视频片段的结束时间点；对视频进行情节识别处理，将第一时间点所处的情节片段的开始时间点确定为视频片段的开始时间点、以及将情节片段的结束时间点确定为视频片段的结束时间点。

在一些实施例中，在显示视频编辑界面之前，接收模块4655，还用于接收由服务器确定并发送的视频片段的开始时间点和结束时间点；其中，视频片段的开始时间点和结束时间点是通过以下任意一种方式确定的：基于第一时间点的设定长度，确定视频片段的开始时间点和结束时间点；对视频进行场景识别处理，将第一时间点所处的场景片段的开始时间点确定为视频片段的开始时间点、以及将场景片段的结束时间点确定为视频片段的结束时间点；对视频进行情节识别处理，将第一时间点所处的情节片段的开始时间点确定为视频片段的开始时间点、以及将情节片段的结束时间点确定为视频片段的结束时间点。

在一些实施例中，在显示与视频片段相关的多个素材之前，确定模块4654，还用于确定多个素材，其中，多个素材是通过以下任意一种方式确定的：从视频片段中提取至少一个图像帧；对每个图像帧进行图像识别处理，得到图像帧包括的对象的类别；基于至少一个图像帧分别包括的对象的类别，确定视频片段的场景类型；基于视频片段的场景类型查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材；对视频片段进行音频识别处理，得到对应的文本；对文本进行分词处理，并将分词处理后得到的多个词与关键词库进行匹配处理，得到至少一个关键词；基于至少一个关键词查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材。

在一些实施例中，在显示与视频片段相关的多个素材之前，接收模块4655，还用于接收由服务器确定并发送的与视频片段相关的多个素材，其中，多个素材是通过以下任意一种方式确定的：从视频片段中提取至少一个图像帧；对每个图像帧进行图像识别处理，得到图像帧包括的对象的类别；基于至少一个图像帧分别包括的对象的类别，确定视频片段的场景类型；基于视频片段的场景类型查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材；对视频片段进行音频识别处理，得到对应的文本；对文本进行分词处理，并将分词处理后得到的多个词与关键词库进行匹配处理，得到至少一个关键词；基于至少一个关键词查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材。

在一些实施例中，当视频的类型为在线视频时，视频处理装置465还包括发送模块4656，用于向服务器发送在视频编辑界面接收的任一操作对应的指令，以使服务器同步生成添加有至少一个目标素材的视频片段，并向播放视频的其他终端设备发送添加有至少一个目标素材的视频片段，其中，其他终端设备为：播放视频的多个终端设备中除发送指令的终端设备之外的终端设备。

在一些实施例中，更新模块4653，用于根据编辑预览区域中的对象的尺寸，对至少一个目标素材的尺寸进行更新，以使至少一个目标素材更新后的尺寸与编辑预览区域中的对象的尺寸适配；或者，用于根据编辑预览区域中的多个对象分别所在的区域，将至少一个目标素材的尺寸更新至目标尺寸，其中，目标尺寸为至少一个目标素材在被添加至编辑预览区域时不遮挡多个对象的最大尺寸。

在一些实施例中，视频编辑界面还包括至少一种类型的素材对应的类型控件，其中，素材的类型包括以下至少之一：表情包、文字、图片；显示模块4652，还用于当被选中的类型控件为表情包控件时，显示与视频片段相关的多个表情包；当被选中的类型控件为文字控件时，显示与视频片段相关的多个文字；当被选中的类型控件为图片控件时，显示与视频片段相关的多张图片。

下面继续说明本申请实施例提供的视频处理装置243的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器240的视频处理装置243中的软件模块可以包括：发送模块2431、接收模块2432、确定模块2433和生成模块2434。

发送模块2431，用于向终端设备发送视频，以使终端设备播放视频；接收模块2432，用于接收终端设备发送的编辑触发操作对应的指令；确定模块2433，用于确定视频中的视频片段的开始时间点和结束时间点、以及与视频片段相关的多个素材；发送模块2431，还用于向终端设备发送视频片段的开始时间点和结束时间点、以及多个素材，以使终端设备显示包括视频片段、以及多个素材的视频编辑界面；接收模块2432，还用于接收终端设备发送的视频编辑操作对应的指令；生成模块2434，用于生成添加有至少一个目标素材的视频片段，其中，至少一个目标素材是在视频编辑界面中被选中的。

在一些实施例中，发送模块2431，还用于向其他终端设备发送添加有至少一个目标素材的视频片段，其中，其他终端设备是播放视频的多个终端设备中除发送指令的终端设备之外的终端设备。

在一些实施例中，确定模块2433，还用于获取终端设备在接收到编辑触发操作时视频播放的第一时间点，并执行以下处理之一：对视频进行场景识别处理，将第一时间点所处的场景片段的开始时间点确定为视频片段的开始时间点、以及将场景片段的结束时间点确定为视频片段的结束时间点；对视频进行情节识别处理，将第一时间点所处的情节片段的开始时间点确定为视频片段的开始时间点、以及将情节片段的结束时间点确定为视频片段的结束时间点。

在一些实施例中，确定模块2433，还用于执行以下处理至少之一：从视频片段中提取至少一个图像帧；对每个图像帧进行图像识别处理，得到图像帧包括的对象的类别；基于至少一个图像帧分别包括的对象的类别，确定视频片段的场景类型；基于视频片段的场景类型查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材；对视频片段进行音频识别处理，得到对应的文本；对文本进行分词处理，并将分词处理后得到的多个词与关键词库进行匹配处理，得到至少一个关键词；基于至少一个关键词查询素材库，得到与视频片段相关的多个素材；其中，素材库包括携带有标签的多个候选素材。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本申请实施例提供的视频处理装置中未尽的技术细节，可以根据图4、或图7任一附图的说明而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令(即可执行指令)，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的。。方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的视频处理方法，例如，如图4、或图7示出的视频处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈楠;黄信;
专利申请人：腾讯科技（深圳）有限公司;