导航：首页> 计算；推算；计数>视频播放方法、装置、服务器以及存储介质

视频播放方法、装置、服务器以及存储介质

文献发布时间：2023-06-19 12:07:15

技术领域

本发明涉及多媒体文件处理领域，特别涉及一种视频播放方法、装置、服务器以及计算机可读存储介质。

背景技术

视频会议和视频通话可为异地分布的用户提供一个包括音、视、图、文等多种媒体的全方位感知的控件环境，是现代信息社会不可缺少的一个技术热点。

现有的视频播放方法中，多个用户分别利用对应的发送端进行实时音视频数据的录制，并将录制的实时音视频数据发送给其他用户，以实现各异地用户之间的信息交流。

但是，采用现有的视频播放方法，用户体验较差。

发明内容

本发明的主要目的是提供一种视频播放方法、装置、服务器以及计算机可读存储介质，旨在解决现有技术中采用现有的视频播放方法，用户体验较差的技术问题。

为实现上述目的，本发明提出一种视频播放方法，用于服务器，所述方法包括以下步骤：

接收发送端发送的结果视频，所述结果视频是将文本数据添加到目标视频数据中获得，所述文本数据是对目标视频中的语音信息进行转换获得，所述目标视频是对目标用户进行录制获得；

在所述结果视频中提取所述文本数据和所述目标视频；

将所述目标视频转换为输出视频，并基于所述文本数据，获得输出字幕；

将所述输出字幕添加到所述输出视频中，以获得结果视频；

将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕。

可选的，所述结果视频中还包括所述文本数据在所述目标视频中的目标时间戳；所述基于所述文本数据，获得输出字幕的步骤，包括：

基于所述文本数据和所述目标时间戳，获得所述输出字幕。

可选的，所述结果视频包括多个目标用户分别对应的多个结果视频，一个结果视频对应一个目标视频，一个目标视频对应一个文本数据，一个文本数据对应一个目标时间戳；所述将所述目标视频转换为输出视频的步骤，包括：

对所述多个目标视频进行视频合并，以获得所述输出视频；

所述基于所述文本数据和所述目标时间戳，获得所述输出字幕的步骤，包括：

基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕。

可选的，所述对所述多个目标视频进行视频合并，以获得所述输出视频的步骤，包括：

对所述多个目标视频的视频帧进行合并，获得具有第一预设分辨率的合并视频帧；

基于所述合并视频帧，获得具有所述第一预设分辨率的所述输出视频。

可选的，所述基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕的步骤之前，所述方法还包括：

获取所述多个目标视频中各目标视频的视频帧在所述合并视频帧中的位置信息；

所述基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕的步骤，包括：

基于所述位置信息、所述多个文本数据和所述多个目标时间戳，获得输出字幕。

可选的，所述将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕的步骤之前，所述方法还包括：

获取所述接收端的第二预设分辨率；

对所述结果视频进行分辨率转换，以获得具有所述第二预设分辨率的转换视频，所述转换视频包括所述输出字幕；

所述将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕的步骤，包括：

所述将所述转换视频发送至接收端，以使所述接收端播放所述转换视频和所述输出字幕。

可选的，所述将所述输出字幕添加到所述输出视频中，以获得结果视频的步骤，包括：

将所述输出字幕以补充增强信息或者场消隐期信息的方式插入到所述输出视频中，以获得所述结果视频。

此外，为实现上述目的，本发明还提出了一种视频播放装置，用于服务器，所述装置包括：

接收模块，用于接收发送端发送的结果视频，所述结果视频是将文本数据添加到目标视频数据中获得，所述文本数据是对目标视频中的语音信息进行转换获得，所述目标视频是对目标用户进行录制获得；

提取模块，用于在所述结果视频中提取所述文本数据和所述目标视频；

转换模块，用于将所述目标视频转换为输出视频，并基于所述文本数据，获得输出字幕；

添加模块，用于将所述输出字幕添加到所述输出视频中，以获得结果视频；

发送模块，用于将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕。

此外，为实现上述目的，本发明还提出了一种服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并在所述处理器上运行视频播放程序，所述视频播放程序被所述处理器执行时实现如上述任一项所述的视频播放方法的步骤。

此外，为实现上述目的，本发明还提出了一种计算机可读存储介质，所述计算机可读存储介质上存储有视频播放程序，所述视频播放程序被处理器执行时实现如上述任一项所述的视频播放方法的步骤。

本发明技术方案提出了一种视频播放方法，用于服务器，所述方法包括以下步骤：接收发送端发送的结果视频，所述结果视频是将文本数据添加到目标视频数据中获得，所述文本数据是对目标视频中的语音信息进行转换获得，所述目标视频是对目标用户进行录制获得；在所述结果视频中提取所述文本数据和所述目标视频；将所述目标视频转换为输出视频，并基于所述文本数据，获得输出字幕；将所述输出字幕添加到所述输出视频中，以获得结果视频；将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕。

现有的视频播放方法中，接收端播放录制的实时音视频时，音频数据的声音会不清楚，导致接收端的用户无法听清目标用户的声音，接收端的用户无法获取到信息，用户体验较差。通过本发明的视频播放方法，将目标用户的语音信息转换成文本数据，并获得文本数据对应的输出字幕，以及在播放结果视频时，播放输出字幕，使得接收端的用户可以通过输出字幕获取到信息，用户体验较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图；

图2为本发明视频播放方法第一实施例的流程示意图；

图3为本发明视频播放装置第一实施例的结构框图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图。

通常，服务器包括：至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的视频播放程序，所述视频播放程序配置为实现如前所述的视频播放方法的步骤。

处理器301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器301可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关视频播放方法操作，使得视频播放方法模型可以自主训练学习，提高效率和准确度。

存储器302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器301所执行以实现本申请中方法实施例提供的视频播放方法。

在一些实施例中，终端还可选包括有：通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地，外围设备包括：射频电路304、显示屏305和电源306中的至少一种。

通信接口303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中，处理器301、存储器302和通信接口303被集成在同一芯片或电路板上；在一些其他实施例中，处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时，显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时，显示屏305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏305可以为一个，电子设备的前面板；在另一些实施例中，显示屏305可以为至少两个，分别设置在电子设备的不同表面或呈折叠设计；在再一些实施例中，显示屏305可以是柔性显示屏，设置在电子设备的弯曲表面上或折叠面上。甚至，显示屏305还可以设置成非矩形的不规则图形，也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图1中示出的结构并不构成对发送端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频播放程序，所述视频播放程序被处理器执行时实现如上文所述的视频播放方法的步骤。因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。确定为示例，程序指令可被部署为在一个服务器上执行，或者在位于一个地点的多个服务器上执行，又或者，在分布在多个地点且通过通信网络互连的多个服务器上执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

基于上述硬件结构，提出本发明视频播放方法的实施例。

参照图2，图2为本发明视频播放方法第一实施例的流程示意图，所述方法用于发送端，所述包括以下步骤：

步骤S11：接收发送端发送的结果视频，所述结果视频是将文本数据添加到目标视频数据中获得，所述文本数据是对目标视频中的语音信息进行转换获得，所述目标视频是对目标用户进行录制获得。

需要说明的是，本法发明的执行主体为服务器，服务器安装视频播放程序，服务器执行视频播放程序时，实现本发明的视频播放方法。

本发明的视频播放方法主要针对于视频通话和视频会议等即时视频通信场景。即时视频通信场景不具有字幕功能，在某些特定场景中，用户的语音可能会不清楚(多人视频会议时，多个用户同时发言，音频内容较多，使得接收端的用户无法听清楚)，此时，通过本发明的方法，产生文本数据，并播放文本数据，以使接收端的用户可以通过文本数据获取到目标用户表达的内容。

可以理解的是，目标用户即为参加视频通话(或视频会议)的全部用户，发送端即为参加视频通话(或视频会议)的全部用户对应的发送端，接收端即为参加视频通话(或视频会议)的全部用户对应的接收端；其中，发送端和接收端的结构参照服务器的结构描述，结构相似，此处不再赘述。

在本发明中，目标视频除包括目标用户的视频之外，还包括对目标用户进行录制时，录制的音频，即所述目标视频包括目标音频。另外，录制的目标音频是一直持续的音频，目标音频中包括的信息并非全部有效，有效音频可以是目标音频中包括目标用户语音的语音信息，在对目标音频进行转换时，只是对有效音频(即语音信息)进行转换，以获得文本数据。

其中，将所述文本数据以补充增强信息或者场消隐期信息的方式插入到所述目标视频中，以获得所述结果视频。

在H264/H265的视频压缩标准中SEI(补充增强信息)是利用视频编码的规范特性，在某些特定的数据区域进行补充增强信息的插入，这些信息本身包含在视频中，这样可以快速高效的传递一些视频补充信息。而在视频压缩标准中，场消隐期信息是利用视频编码的规范特性，在某些特定的数据区域进行场消隐期数据的插入，这些信息本身包含在视频中，这样可以快速高效的传递一些视频补充信息。

步骤S12：在所述结果视频中提取所述文本数据和所述目标视频。

步骤S13：将所述目标视频转换为输出视频，并基于所述文本数据，获得输出字幕。

其中，所述结果视频中还包括所述文本数据在所述目标视频中的目标时间戳；所述基于所述文本数据，获得输出字幕的步骤，包括：基于所述文本数据和所述目标时间戳，获得所述输出字幕。即，在该实施例中，文本数据是以字幕的形式添加到输出视频中。输出字幕具有所述目标时间戳，播放输出字幕时，在目标时间戳对应的时间到达时，播放输出字幕。

可以理解的是，目标时间戳即为文本数据对应的语音信息在所述目标视频中的播放时间，例如，目标视频中1分10秒的语音信息为：北京会议室报道。则该语音信息对应的文本数据的目标时间戳即为1分10秒。

通常，在视频通话或视频会议场景中，目标用户是多个，即：所述结果视频包括多个目标用户分别对应的多个结果视频，一个结果视频对应一个目标视频，一个目标视频对应一个文本数据，一个文本数据对应一个目标时间戳；所述将所述目标视频转换为输出视频的步骤，包括：对所述多个目标视频进行视频合并，以获得所述输出视频；相应的，所述基于所述文本数据和所述目标时间戳，获得所述输出字幕的步骤，包括：基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕。

其中，所述对所述多个目标视频进行视频合并，以获得所述输出视频的步骤，包括：对所述多个目标视频的视频帧进行合并，获得具有第一预设分辨率的合并视频帧；基于所述合并视频帧，获得具有所述第一预设分辨率的所述输出视频。

需要说明的是，通常发送端发来的目标视频的分辨率可能是不同的(例如1K、2K或4K)，需要将他们合并为输出视频，输出视频的分辨率为第一预设分辨率，较优的选择，在本申请中第一预设分辨率为8K；其中，1K分辨率为1920*1080，2K分辨率为2560*1440，4K分辨率为3840*2160，8K分辨率为7680*4320。输出视频即是将合并视频帧整合成的视频。

具体应用中，合并视频帧具有多个不同的显示区域，不同的显示区域用于显示不同的目标视频的画面。例如，目标视频为4个目标视频，则合并视频帧具有4个不同的显示区域，一个显示区域用于显示一个目标视频的画面。

可以理解的是，当目标用户不超过4个时，输出视频的合并视频帧可以是单页显示的，一页合并视频帧即包括多个目标用户分别对应的目标视频的画面；当目标用户超过4个时，可以是多页显示的输出视频的合并视频帧(每页显示4个目标视频对应的合并视频帧，每页合并频帧均是具有第一预设分辨率的，多页合并视频帧涉及到全部目标用户的目标视频)，用户可以进行翻页操作，切换不同的显示页面；当目标用户超过4个时，也可以将多个目标用户对应的视频帧合并为一页显示的合并视频帧，整页合并视频帧具有第一预设分辨率。具体的显示方式，本发明不做限制。

其中，所述基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕的步骤之前，所述方法还包括：获取所述多个目标视频中各目标视频的视频帧在所述合并视频帧中的位置信息；相应的，所述基于所述多个文本数据和所述多个目标时间戳，获得所述输出字幕的步骤，包括：基于所述位置信息、所述多个文本数据和所述多个目标时间戳，获得输出字幕。

多个文本数据来源于多个目标用户分别对应的目标视频，需要将多个文本数据，基于所述位置信息(一个目标视频对应的一个位置信息)和多个目标时间戳，整合为一个输出字幕。在输出视频的合并视频帧中，目标视频(或目标视频中的视频帧)对应的画面具有不同的显示区域，显示区域在合并视频帧的位置信息即为所述位置信息。

例如，目标视频包括两个，对应的，文本数据包括两个，分别为0分6秒时A目标视频的a文本数据和1分3秒时B目标视频的b文本数据，A目标视频的显示区域在左侧区域，B目标视频的显示区域为右侧区域，位置信息为：A目标视频在左侧区域和B目标视频在右侧区域(左侧区域和右侧区域为整个矩形的合并视频帧，在中线处平均分割后对应的两个显示区域)，基于所述位置信息、所述多个文本数据和所述多个目标时间戳，获得输出字幕，输出字幕的内容为：0分6秒时a文本数据和1分3秒时b文本数据，其中a文本数据在左侧区域播放，b文本数据在右侧区域播放。

步骤S14：将所述输出字幕添加到所述输出视频中，以获得结果视频。

具体的，所述将所述输出字幕添加到所述输出视频中，以获得结果视频的步骤，包括：将所述输出字幕以补充增强信息或者场消隐期信息的方式插入到所述输出视频中，以获得所述结果视频。

步骤S15：将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕。

需要说明的是，在该实施例中，结果视频即是指对输出视频添加了输出字幕的视频，播放输出视频时，即播放输出字幕。接收端播放输出字幕时，是在目标字幕中的目标时间戳对应的时间到达时，自动播放输出字幕。

例如，目标用户包括4个，4个目标用户发送端采集到的目标视频均为4K视频，对应的4个语音信息的内容如下：

其中，1234为四个目标用户的4路目标视频，ABCD为语音信息对应的文本数据的代称，发送端过补充增强信息将信息A和B的数据插入到4K视频信号1和2中，发送端通过场消隐期信息将信息C和D的数据插入到4K视频信号3和4中。这样就形成了新的4K视频信号1A、2B、3C和4D，所述多个结果视频。在另一实施例中，也可以由服务器直接从原ABCD中通过语音识别技术提取对应的文本数据，不需要发送端进行文本数据的提取。

服务器，可以通过识别补充增强信息和者场消隐期信息，将1A、2B、3C和4D四路4K视频中的文本数据解析出来，基于文本数据对应的目标时间戳(00：00:04、00：00:02、00：00:05和00：00:05)、文本数据(你好我是北京会议室、你好我是上海会议室、你好我是广州会议室和你好我是深圳会议室)以及位置信息(1234视频分别位于左上、右上、左下和右下)，获得输出字幕，输出字幕内容如下：

此时，输出视频为将4路4K视频合并成的8K视频，8K视频中涉及4路视频，4路视频的显示区域分别显示在左上、右上、左下和右下。

另外，是将输出字幕以用补充增强信息的方式插入到拼接视频中，插入方式如下：

其中，播放结果视频和输出字幕的表现如下：

视频进行的时间为00:00:02

视频进行的时间为00:00:04

视频进行的时间为00：00:05

视频进行的时间为00：00:06

进一步的，所述将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕的步骤之前，所述方法还包括：获取所述接收端的第二预设分辨率；对所述结果视频进行分辨率转换，以获得具有所述第二预设分辨率的转换视频，所述转换视频包括所述输出字幕；所述将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕的步骤，包括：所述将所述转换视频发送至接收端，以使所述接收端播放所述转换视频和所述输出字幕。

需要说明的是，接收端可能不能直接播放第一预设分辨率的输出视频，需要将其转换为转换视频，转换视频的分辨率为接收端的对应的第二预设分辨率(一般为接收端的具有的显示分辨率)，以使接收端可以播放转换视频和输出字幕。

参照图3，图3为本发明视频播放装置第一实施例的结构框图，装置用于发送端，所述装置包括：

接收模块10，用于接收发送端发送的结果视频，所述结果视频是将文本数据添加到目标视频数据中获得，所述文本数据是对目标视频中的语音信息进行转换获得，所述目标视频是对目标用户进行录制获得；

提取模块20，用于在所述结果视频中提取所述文本数据和所述目标视频；

转换模块30，用于将所述目标视频转换为输出视频，并基于所述文本数据，获得输出字幕；

添加模块40，用于将所述输出字幕添加到所述输出视频中，以获得结果视频；

发送模块50，用于将所述结果视频发送至接收端，以使所述接收端播放所述结果视频和所述输出字幕。

以上所述仅为本发明的可选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：朱星龙;张恩勇;
专利申请人：深圳市九洲电器有限公司;

上一篇：一种球铰拉线可变辅助轮式蛇形机器人
下一篇：一种结合特征聚合和注意力机制的红外视频目标检测方法