导航：首页> 医学或兽医学；卫生学>多路直播混流方法、服务器、终端设备、系统及存储介质

多路直播混流方法、服务器、终端设备、系统及存储介质

文献发布时间：2023-06-19 16:08:01

技术领域

本发明涉及互联网直播技术领域，尤其涉及一种多路直播混流方法、服务器、终端设备、系统及存储介质。

背景技术

随着人们对多路直播室需求的提升，一个直播室中除了比赛的直播流还有各个观众的直播流，这样同一个直播室内的观众在观看比赛的同时还可以互相“面对面”交流讨论，而不仅仅是发送弹幕评论来表达自身观点，这在一定程度上提升了全场景沉浸式体验。现有的直播混流方案通常采用MCU(Microcontroller Unit，微控制单元)架构，其主要的处理逻辑是：接收每个共享端的音视频流，经过解码、与其他解码后的音视频进行混流、重新编码，之后再将混好的音视频流发送给房间里的所有人。

但随着共享音视频流的终端数增加，MCU需要对大量的音视频流进行编解码混流和分发处理，这会大幅消耗CPU、带宽等服务端资源。正因为对服务端的资源耗费很大，所以MCU架构所能共享的终端数有限，一般十几路音视频流就会达到服务端资源上限。也就是说在一个直播室最多只能支持十几个观众共同观看比赛并“面对面”交流。此外，现有的混流直播方案多是将各直播流混流后直接推送至各终端，而实际情况中，观众很可能在观看比赛的过程中临时去办别的事离开终端摄像头范围，并且没有主动退出直播室，而此时终端仍然在向服务端推流，这对服务端带宽等资源无疑是一种浪费，降低了多路直播系统的可用性，从而对用户体验造成影响。

因此，有必要提出一种提升多路直播用户体验的解决方案。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种多路直播混流方法、服务器、终端设备、系统及存储介质，旨在提升多路直播的用户体验。

为实现上述目的，本发明提供一种多路直播混流方法，所述多路直播混流方法应用于服务端，所述多路直播混流方法包括：

获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流；

基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端，以供各所述终端根据所述通知信息推送自适应清晰度的音视频流；

接收所述自适应清晰度的音视频流，将所述自适应清晰度的音视频流进行混流，并将混流后的音视频流分发推送至各所述终端，以供各所述终端将所述混流后的音视频流提供至用户。

可选地，所述获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流的步骤包括：

获取各所述终端推送的音视频流；

对各所述音视频流进行特征提取，得到特征提取结果；

根据所述特征提取结果对各所述音视频流标注对应的优先级标签，得到所述目标音视频流。

可选地，所述根据所述特征提取结果对各所述音视频流标注对应的优先级标签，得到所述目标音视频流的步骤包括：

根据所述特征提取结果判断各所述音视频流所属的直播流类型；

根据各所述音视频流所属的直播流类型，对各所述音视频流标注对应的优先级标签，得到所述目标音视频流，其中，所述优先级标签包括第一优先级标签与第二优先级标签，所述第二优先级标签在标注过程中附加对应的时间戳。

可选地，所述所述基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端的步骤包括：

检测所述多路直播状态；

根据所述多路直播状态判断所述服务端资源是否低于第一预设阈值；

若所述服务端资源低于所述第一预设阈值，则调用图像检测模块对所述第二优先级标签对应的目标音视频流进行检测，得到检测结果；

根据所述检测结果判断所述第二优先级标签对应的目标音视频流中是否存在未检测到人脸的目标音视频流；

若所述第二优先级标签对应的目标音视频流中存在未检测到人脸的目标音视频流，则向所述未检测到人脸的目标音视频流对应的终端发送第一通知，其中，所述第一通知包括中止推流通知或推送最低清晰度音视频流通知。

可选地，所述检测所述多路直播状态的步骤之后还包括：

根据所述多路直播状态判断所述服务端资源是否低于第二预设阈值；

若所述服务端资源低于所述第二预设阈值，则根据所述优先级标签、各所述音视频流所属终端的网络状态以及所述时间戳，向各所述目标音视频流对应的终端发送第二通知，其中，所述第二通知包括自适应降级推流清晰度通知。

可选地，所述获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流的步骤之前还包括：

接收各所述终端发送的加入直播请求；

根据所述加入直播请求生成推流通知，并将所述推流通知发送至对应的终端，以供所述终端根据所述推流通知向所述服务端推送预设清晰度的音视频流。

可选地，所述多路直播混流方法应用于终端，所述所述多路直播混流方法包括以下步骤：

发送音视频流至服务端，以供所述服务端根据所述音视频流得到目标音视频流，并基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端；

接收所述服务端发送的通知信息，并根据所述通知信息推送自适应清晰度的音视频流至所述服务端，以供所述服务端接收所述自适应清晰度的音视频流，将所述自适应清晰度的音视频流进行混流，并将混流后的音视频流分发推送至各所述终端；

接收所述服务端发送的混流后的音视频流，并将所述混流后的音视频流提供至用户。

可选地，所述发送音视频流至服务端的步骤之前还包括：

接收所述用户的操作指令，并根据所述操作指令发送加入直播请求至所述服务端，以供所述服务端根据所述加入直播请求生成推流通知并发送至所述终端；

获取所述服务端发送的推流通知，以根据所述推流通知发送预设清晰度的音视频流至所述服务端。

可选地，所述接收所述服务端发送的通知信息，并根据所述通知信息推送自适应清晰度的音视频流至所述服务端的步骤包括：

接收所述服务端发送的第一通知和/或第二通知，其中，所述第一通知包括中止推流通知或推送最低清晰度音视频流通知，所述第二通知包括自适应降级推流清晰度通知；

根据所述中止推流通知停止向所述服务端推送所述音视频流，或

根据所推送最低清晰度音视频流通知和/或第二通知调整向所述服务端推送的音视频流的清晰度。

此外，为实现上述目的，本发明还提供一种多路直播混流服务器，所述多路直播混流服务器包括：

获取模块，用于获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流；

通知模块，用于基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端，以供各所述终端根据所述通知信息推送自适应清晰度的音视频流；

混流模块，用于接收所述自适应清晰度的音视频流，将所述自适应清晰度的音视频流进行混流，并将混流后的音视频流分发推送至各所述终端，以供各所述终端将所述混流后的音视频流提供至用户。

此外，为实现上述目的，本发明还提供一种多路直播混流终端设备，所述多路直播混流终端设备包括：

推流模块，用于发送音视频流至服务端，以供所述服务端根据所述音视频流得到目标音视频流，并基于所述目标音视频流中预先标注的优先级标签生成通知信息，将混流后的音视频流与所述通知信息分发推送至各所述终端；

自适应模块，用于接收所述服务端发送的通知信息，并根据所述通知信息推送自适应清晰度的音视频流至所述服务端；

接收模块，用于接收所述服务端发送的混流后的音视频流，并将所述混流后的音视频流提供至用户。

此外，为实现上述目的，本发明还提供一种多路直播混流系统，所述多路直播混流系统包括服务器、终端设备、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多路直播混流程序，所述多路直播混流程序被所述处理器执行时实现如上所述的多路直播混流方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多路直播混流程序，所述多路直播混流程序被处理器执行时实现如上所述的多路直播混流方法的步骤。

本发明实施例提出的一种多路直播混流方法、服务器、终端设备、系统及存储介质，通过获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流；基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端，以供各所述终端根据所述通知信息推送自适应清晰度的音视频流；接收所述自适应清晰度的音视频流，将所述自适应清晰度的音视频流进行混流，并将混流后的音视频流分发推送至各所述终端，以供各所述终端将所述混流后的音视频流提供至用户。通过基于预先标注的优先级标签生成通知信息并发送至相应的终端，使各终端推送自适应清晰度的音视频流，实现了对服务端资源进行自适应释放与分配，提高了多路直播系统的可用性，从而提升了多路直播的用户体验。

附图说明

图1为现有技术中采用MCU进行直播的架构示意图；

图2为本发明实施例中采用SFU进行直播的架构示意图；

图3为本发明多路直播混流装置所属终端设备的功能模块示意图；

图4为本发明多路直播混流方法第一示例性实施例的流程示意图；

图5为图4实施例中步骤S10的具体流程示意图；

图6为图5实施例中步骤S103的具体流程示意图；

图7为图4实施例中步骤S20的具体流程示意图；

图8为本发明多路直播混流方法第二示例性实施例的流程示意图；

图9为本发明多路直播混流方法第三示例性实施例的流程示意图；

图10为本发明多路直播混流方法第四示例性实施例的流程示意图；

图11为本发明实施例中的动态自适应混流直播策略的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流；基于所述目标音视频流中预先标注的优先级标签生成通知信息，并将所述通知信息发送至相应的终端，以供各所述终端根据所述通知信息推送自适应清晰度的音视频流；接收所述自适应清晰度的音视频流，将所述自适应清晰度的音视频流进行混流，并将混流后的音视频流分发推送至各所述终端，以供各所述终端将所述混流后的音视频流提供至用户。通过基于预先标注的优先级标签生成通知信息并发送至相应的终端，使各终端推送自适应清晰度的音视频流，实现了对服务端资源进行自适应释放与分配，提高了多路直播系统的可用性，从而提升了多路直播的用户体验。

本发明实施例涉及的技术术语：

MCU(Microcontroller Unit，微控制单元)：又称单片微型计算机或者单片机，是把中央处理器的频率与规格做适当缩减，并将内存、计数器、USB、A/D转换、UART、PLC、DMA等周边接口，甚至LCD驱动电路都整合在单一芯片上，形成芯片级的计算机，为不同的应用场合做不同组合控制；

MIX：混流模块，用于对各音视频流进行混流；

SFU：在多路直播场景中作为一个媒体流路由器，接收终端的音视频流，并根据需要转发给其他终端。

现有的直播混流方案通常采用MCU架构，其主要的处理逻辑是：接收每个共享端的音视频流，经过解码、与其他解码后的音视频进行混流、重新编码，之后再将混好的音视频流发送给房间里的所有人。参照图1，图1为现有技术中采用MCU进行直播的架构示意图，如图1所示，以B1与B2同时共享音视频流为例，它们首先将流推送给MCU服务器，MCU服务器收到两路流后，分别将两路流进行解码，之后再将解码后的两路流进行混流，然后再编码，编码后的流数据再分发给B3和B4。

MCU只需要对两路音视频流进行解码、混流、编码处理，但随着共享音视频流的终端数增加，MCU需要对大量的音视频流进行编解码混流和分发处理，这会大幅消耗CPU、带宽等服务端资源。正因为对服务端的资源耗费很大，所以MCU架构所能共享的终端数有限，一般十几路音视频流就会达到服务端资源上限。也就是说在一个直播室最多只能支持十几个观众共同观看比赛并“面对面”交流。现有的混流直播方案多是将各直播流混流后直接推送至各终端，而实际情况中，观众很可能在观看直播的过程中临时去办别的事离开终端摄像头范围，并且没有主动退出直播室，而此时终端仍然在向服务端推流，这对服务端带宽等资源无疑是一种浪费。

本发明提供一种基于图像检测的动态自适应多路直播混流方案，本方案MIX混流模块底层采用了SFU架构，和MCU架构相比其结构较为简单。参照图2，图2为本发明实施例中采用SFU进行直播的架构示意图，如图2所示，SFU在多路直播场景中更多是作为一个媒体流路由器，接收终端的音视频流，根据需要转发给其他终端。由于SFU只是接收直播流然后转发给其他人而不需要额外再进行编解码，其对CPU资源的消耗很小，所以SFU能分发的直播流数远多于MCU架构。此外，因为SFU只是对音视频数据包的直接转发，它可以根据当前的带宽状况、网络状况选择性地丢弃或补充相应的数据包，进而降低时延保证直播流的连续性。

具体地，参照图3，图3为本发明多路直播混流装置所属终端设备的功能模块示意图。该多路直播混流装置可以为独立于终端设备的、能够进行多路直播混流的装置，其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端，还可以为具有数据处理功能的固定终端设备或服务器等。

在本实施例中，该多路直播混流装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。

存储器130中存储有操作系统以及多路直播混流程序，多路直播混流装置可以将获取的各终端推送的音视频流、根据各所述音视频流得到的目标音视频流、基于所述目标音视频流中预先标注的优先级标签生成的通知信息、接收的所述自适应清晰度的音视频流，以及将所述自适应清晰度的音视频流进行混流得到的混流后的音视频流等信息存储于该存储器130中；输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等，通过通信模块140与外部设备或服务器进行通信。

其中，存储器130中的多路直播混流程序被处理器执行时实现以下步骤：

获取各终端推送的音视频流，并根据各所述音视频流得到目标音视频流；