导航：首页> 流体压力执行机构；一般液压技术和气动技术>直播弹幕的处理方法、模型、电子装置及计算机存储介质

直播弹幕的处理方法、模型、电子装置及计算机存储介质

文献发布时间：2023-06-19 11:50:46

技术领域

本申请涉及计算机技术领域，尤其涉及一种直播弹幕的处理方法、模型、电子装置及计算机存储介质。

背景技术

随着移动互联网的普及以及资费的降低，短视频以及直播等业务获得了空前的发展，游戏直播、户外直播、赛事直播等直播场景得到了广泛的运用。在这些业务中，为了增加视频和直播的互动性，往往会在视频和直播的场景中添加上弹幕的效果，以进行实时的互动、评论。

在一些特殊场景中，当直播用户在观看直播时，例如，游戏直播，购物直播、户外直播等视频直播时，满屏弹幕会影响用户直播内容本身，导致用户经常关弹幕看比赛，减少了观众间的互动，尤其会遮挡视频中的重要对象，影响观看视频的用户体验。

发明内容

本申请主要解决的技术问题是提供一种直播弹幕的处理方法、模型、电子装置及计算机可读存储介质，能够解决当直播用户在观看游戏赛事直播时，满屏弹幕会影响用户观看赛事内容本身的问题。

为解决上述技术问题，本申请第一方面提供一种直播弹幕的处理方法，所述方法包括：获取到直播视频的视频帧；通过深度学习网络对所述视频帧进行分类处理，得到包括第一目标图像的第一画面；对所述第一目标图像进行定位，得到至少一个所述第一图像的位置信息；利用所述第一目标图像的位置信息对第二目标图像进行定位，得到所述第二图像的位置信息；基于所述第一图像的位置信息和所述第二图像的位置信息确定目标区域的轮廓信息；通过所述直播画面的所述目标区域之外的区域显示弹幕信息。

为解决上述技术问题，本申请第二方面提供一种直播弹幕的处理模型，所述处理模型包括：视频流获取模块，所述视频流获取模块用于获取直播视频的视频帧；人工智能处理模块，所述人工智能处理模块用于通过深度学习网络对所述视频帧进行分类处理，得到包括第一目标图像的第一画面；对所述第一目标图像进行定位，得到至少一个所述第一图像的位置信息；利用所述第一目标图像的位置信息对第二目标图像进行定位，得到所述第二图像的位置信息；基于所述第一图像的位置信息和所述第二图像的位置信息确定目标区域的轮廓信息；弹幕处理模块，所述弹幕处理模块用于通过所述直播画面的所述目标区域之外的区域显示弹幕信息。

为了解决上述问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现上述第一方面的处理方法。

为了解决上述问题，本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面的处理方法。

本申请的有益效果是：区别于现有技术的情况，本申请在获取到直播视频的视频帧；通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面；对第一目标图像进行定位，得到至少一个第一图像的位置信息；利用第一目标图像的位置信息对第二目标图像进行定位，得到第二图像的位置信息；基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息；通过直播画面的目标区域之外的区域显示弹幕信息。本申请通过基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息，提升直播用户观看直播时的观看体验，开弹幕的同时不影响用户关系点的内容本身，实时隐藏弹幕，显示用户关注点的内容。

附图说明

图1是本申请直播弹幕处理方法的第一实施方式的流程示意图；

图2是本申请直播弹幕处理方法的第二实施方式的流程示意图；

图3是本申请直播弹幕的处理模型的一实施例的框架示意图；

图4是本申请电子设备一实施例的框架示意图；

图5是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

参阅图1，图1是本申请直播弹幕处理方法的一实施方式的流程示意图。具体而言，可以包括如下步骤：

步骤S101：获取到直播视频的视频帧。

当直播用户观看直播时，例如，游戏直播，购物直播、户外直播等视频直播时，首先从第一终端获取直播视频的视频流，在获取到直播视频的视频流后，对直播视频的视频流进行解码，从而获取到直播视频的视频帧。

以游戏直播为例，首先要获取游戏直播视频的视频流，在获取到游戏直播视频的视频流后，对该视频流进行解码处理，从而获取到直播视频的视频帧。

步骤S102：通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面。

在本实施例中，在获取到直播视频的视频帧后，通过深度学习网络对视频帧进行分类处理，以得到包括第一目标图像的第一画面。其中，第一目标图像可以是被控角色、被控角色技能或者大小龙等游戏画面。

以游戏直播为例，在获取到游戏直播视频的视频帧后，通过深度学习网络将视频帧进行分类处理，得到包括第一目标图像的第一画面，即游戏画面，以及不包括第一目标图像的非游戏画面，例如：广告画面，解说画面等非游戏画面。优选的，可以采用mobilenetv技术对视频帧进行分类处理。

步骤S103：对第一目标图像进行定位，得到至少一个第一图像的位置信息。

在本实施例中，在对视频帧进行分类处理得到包括第一目标图像的第一画面后，通过第一目标的特征点对第一目标图像进行定位，从而得到至少一个第一图像的位置信息。

以游戏直播为例，当该第一目标为被控角色的状态条时，对视频帧进行分类得到包括被控角色的状态条图像的第一画面后，通过识别被控角色的状态条对被控角色的状态条图像进行定位，优选的，采用SSD目标检测方法对被控角色的状态条进行检测，从而对被控角色的状态条图像进行定位，得到至少一个被控角色的状态条的位置信息。在一个第一画面中，被控角色可以有一个或者一个以上，因此，被控角色的状态条图像的第一画面可以有一个或者一个以上。

其中，当第一目标图像为被控角色技能时，对视频帧进行分类得到包括被控角色的状态条图像的第一画面后，采用SSD目标检测方法对被控角色技能进行检测，具体地，对部分被控角色技能的特征点进行检测，该部分被控角色技能的视觉效果明显，因此，该部分被控角色技能的特征点明显，即可快速的检测到被控角色技能，从而对被控角色技能进行定位，得到被控角色技能的位置信息。

步骤S104：利用第一目标图像的位置信息对第二目标图像进行定位，得到第二图像的位置信息。

在本实施例中，在得到第一目标图像的位置信息后，利用第一目标图像的位置信息对第二目标图像进行定位，以得到第二图像的位置信息。

以游戏直播为例，第一目标图像为被控角色的状态条图像，第二目标图像为被控角色图像，在得到被控角色的状态条的位置信息后，利用被控角色的状态条的位置信息对被控角色图像进行定位，以得到被控角色的位置信息。具体地，在得到被控角色的状态条的位置信息后，得到至少一个被控角色的状态条图像的第一边框，将该第一边框按照设定方向进行扩大，得到包括被控角色的第二边框，即得到被控角色的位置信息。一般的，被控角色的状态条设置在被控角色的正上方，在检测到包括被控角色的状态条的第一边框后，可以通过将第一边框按照设定方法进行扩大，例如向被控角色的状态条下方扩大，即可得到包括被控角色的第二边框。

步骤S105：基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息。

在本实施例中，在得到第一图像的位置信息和第二图像的位置信息后，进一步基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息。

以游戏直播为例，第一图像为被控角色技能图像，第二图像为被控角色图像，在得到被控角色技能图像和被控角色图像的位置信息后，其中，位置信息包括被控角色技能边框内图像和被控角色边框内图像，将得到的被控角色技能边框内图像和被控角色边框内图像减去第一画面整张图的像素的均值，在将得到的差做二值化处理，从而确定目标区域的轮廓信息。

步骤S106：通过直播画面的目标区域之外的区域显示弹幕信息。

在本实施例中，在确定目标区域的轮廓信息后，将该目标区域的轮廓信息进行压缩编码得到轮廓数据结构，再通过数据广播传输给组内用户，用户端对该轮廓数据结构进行解码，将解码后的目标区域的轮廓数据结构与直播视频的视频帧进行对齐处理，使得解码后的目标区域的轮廓数据结构与直播视频的当前视频帧的时间戳保持一致。然后，对该视频帧进行渲染，在直播视频上渲染弹幕，以通过直播保护膜的目标区域之外的区域显示弹幕信息，即在被控角色以及被控角色技能对应的边框位置处不显示弹幕信息。

区别于现有技术的情况，本申请在获取到直播视频的视频帧；通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面；对第一目标图像进行定位，得到至少一个第一图像的位置信息；利用第一目标图像的位置信息对第二目标图像进行定位，得到第二图像的位置信息；基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息；通过直播画面的目标区域之外的区域显示弹幕信息。本申请通过基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息，提升直播用户观看直播时的观看体验，开弹幕的同时不影响用户关注点的内容本身，实时隐藏弹幕，显示用户关注点的内容。

请参阅图2，图2是本申请直播弹幕的处理方法的第二实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S201：获取到直播视频的视频帧。

步骤S201与上述步骤S101相同，在此不再赘述。

步骤S202：通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面。

步骤S202与上述步骤S102相同，在此不再赘述。

步骤S203：对至少一个第一目标图像进行检测，得到至少一个第一目标图像的第一边框。

在本实施例中，以游戏直播为例，第一目标图像包括被控角色的状态条图像、被控角色技能图像，对至少一个第一目标图像进行检测，从而得到至少一个第一目标图像的第一边框。具体地，采用SSD目标检测方法通过检测第一目标图像的特征点，从而得到对应的第一目标图像的第一边框。每一个被控角色的状态条、被控角色技能图像均可以得到对应的第一边框。

步骤S204：将第一边框按照设定方向进行扩大，得到包括第二图像的第二边框。

在本实施例中，以游戏直播为例，由于在游戏直播视频中被控角色的特征点不明显，无法有效的直接通过被控角色图像的特征点对被控角色图像的进行定位，因此，可以通过检测被控角色上方的被控角色的状态条，由于被控角色的状态条特征明显，可以快速方便的获取被控角色的状态条图像的第一边框，再将被控角色的状态条图像的第一边框按照设定方向进行扩大，一般地，被控角色的状态条设置在被控角色的正上方，且被控角色的状态条长度与被控角色宽度基本一致，即将被控角色的状态条图像的第一边框往正下方扩大，即可得到包括第二图像的第二边框，该第二图像为被控角色图像。

步骤S205：利用第二边框确定目标区域的轮廓信息。

在本实施例中，以游戏直播为例，在得到包括第二图像的第二边框后，其中，该第二图像为被控角色图像，进一步利用第二边框确定目标区域的轮廓信息。具体地，在得到包括被控角色图像的第二边框后，将第二边框内图像的像素减去第一画面的整张图像的像素的均值，再将得到的差做二值化处理，从而确定目标区域的轮廓信息。

在确定目标区域的轮廓信息后，在通过预设算法对目标区域的轮廓信息进行膨胀腐蚀处理，得到平滑化的目标区域的轮廓信息。具体地，通过膨胀腐蚀等算法对目标区域的轮廓信息进行膨胀腐蚀处理，将目标区域的轮廓扩张、羽化，使得目标区域的轮廓边缘平滑。

步骤S206：记录前n帧的目标区域的轮廓信息，并与当前帧的目标区域的轮廓信息进行帧间平滑处理，得到输出的目标区域的轮廓信息。

在本实施例中，需要对视频流每一帧对应的第一画面进行处理得到每一帧的目标区域的轮廓信息，并记录前n帧的目标区域的轮廓信息，并与当前帧的目标区域的轮廓信息进行帧间平滑处理，以得到输出的目标区域的轮廓信息。

以游戏直播为例，该轮廓信息包括目标区域的轮廓的像素均值，根据记录的前n帧的目标区域的轮廓的像素均值，与当前帧的目标区域的轮廓的像素均值相加求均值，从而得到当前要输出帧的轮廓信息。其中，对于被控角色以及被控角色技能，根据被控角色和被控角色技能的属性的不同，例如：被控角色技能的持续时间，可以选取不同的n的值。

步骤S207：对目标区域的轮廓信息进行压缩编码，得到所述目标区域的轮廓数据结构。

在本实施例中，在得到目标区域的轮廓信息后，对目标区域的轮廓信息进行压缩编码，将目标区域的轮廓信息用多边形表示。其中，多边形用多边形的任一顶点以及其他顶点对应该顶点的偏移表示目标区域的轮廓数据结构，例如，多边形为矩形时，矩形用左上角的顶点以及其他三个顶点对应左上角顶点的偏移表示目标区域的轮廓数据结构，从而减少带宽量，节省成本。在其他实施例中，多边形也可以是三角形、五边形等。

步骤S208：将目标区域的轮廓数据结构与直播视频的视频帧进行对齐处理，并渲染弹幕，以通过直播画面的目标区域之外的区域显示弹幕信息。

在本实施例中，目标区域的轮廓数据结构通过数据广播传输给组内用户，用户端对该轮廓数据结构进行解码，将解码后的目标区域的轮廓数据结构与直播视频的视频帧进行对齐处理，使得解码后的目标区域的轮廓数据结构与直播视频的当前视频帧的时间戳保持一致。然后，对该视频帧进行渲染，在直播视频上渲染弹幕，以通过直播保护膜的目标区域之外的区域显示弹幕信息，即在被控角色、被控角色技能对应的边框位置处不显示弹幕信息。

数据广播传输给组内用户，用户端对该轮廓数据结构进行解码，将解码后的目标区域的轮廓数据结构与直播视频的视频帧进行对齐处理，使得解码后的目标区域的轮廓数据结构与直播视频的当前视频帧的时间戳保持一致。然后，对该视频帧进行渲染，在直播视频上渲染弹幕，以通过直播保护膜的目标区域之外的区域显示弹幕信息，即在被控角色和被控角色技能对应的边框位置处不显示弹幕信息。

请参阅图3，图3是本申请直播弹幕的处理模型的一实施例的框架示意图。直播弹幕的处理模型30包括：视频流获取模块301，视频流获取模块301用于获取直播视频的视频帧；人工智能处理模块302，人工智能处理模块302用于通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面；对第一目标图像进行定位，得到至少一个第一图像的位置信息；利用第一目标图像的位置信息对第二目标图像进行定位，得到第二图像的位置信息；基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息；弹幕处理模块303，弹幕处理模块303用于通过直播画面的目标区域之外的区域显示弹幕信息。

在本实施例中，视频流获取模块301在获取到直播视频的视频帧后，人工智能处理模块302通过深度学习网络将视频帧进行分类处理，得到包括第一目标图像的第一画面，即游戏画面，以及不包括第一目标图像的非游戏画面，例如：广告画面，解说画面等非游戏画面。

人工智能处理模块302在对视频帧进行分类处理得到包括第一目标图像的第一画面后，通过第一目标的特征点对第一目标图像进行定位，从而得到至少一个第一图像的位置信息。

以游戏直播为例，当该第一目标为被控角色的状态条时，人工智能处理模块302对视频帧进行分类得到包括被控角色的状态条图像的第一画面后，通过识别被控角色的状态条对被控角色的状态条图像进行定位，优选的，采用SSD目标检测方法对被控角色的状态条进行检测，从而对被控角色的状态条图像进行定位，得到至少一个被控角色的状态条的位置信息。在一个第一画面中，被控角色可以有一个或者一个以上，因此，被控角色的状态条图像的第一画面可以有一个或者一个以上。

其中，当第一目标图像为被控角色技能时，人工智能处理模块302对视频帧进行分类得到包括被控角色的状态条图像的第一画面后，采用SSD目标检测方法对被控角色技能进行检测，具体地，对部分被控角色技能的特征点进行检测，该部分被控角色技能的视觉效果明显，因此，该部分被控角色技能的特征点明显，即可快速的检测到被控角色技能，从而对被控角色技能进行定位，得到被控角色技能的位置信息。

人工智能处理模块302在得到第一目标图像的位置信息后，利用第一目标图像的位置信息对第二目标图像进行定位，以得到第二图像的位置信息。

其中，第一目标图像为被控角色的状态条图像，第二目标图像为被控角色图像，人工智能处理模块302在得到被控角色的状态条的位置信息后，利用被控角色的状态条的位置信息对被控角色图像进行定位，以得到被控角色的位置信息。具体地，在得到被控角色的状态条的位置信息后，得到至少一个被控角色的状态条图像的第一边框，将该第一边框按照设定方向进行扩大，得到包括被控角色的第二边框，即得到被控角色的位置信息。一般的，被控角色的状态条设置在被控角色的正上方，在检测到包括被控角色的状态条的第一边框后，可以通过将第一边框按照设定方法进行扩大，例如向被控角色的状态条下方扩大，即可得到包括被控角色的第二边框。

弹幕处理模块303在确定目标区域的轮廓信息后，将该目标区域的轮廓信息进行压缩编码得到轮廓数据结构，再通过数据广播传输给组内用户，弹幕处理模块303对该轮廓数据结构进行解码，将解码后的目标区域的轮廓数据结构与直播视频的视频帧进行对齐处理，使得解码后的目标区域的轮廓数据结构与直播视频的当前视频帧的时间戳保持一致。然后，对该视频帧进行渲染，在直播视频上渲染弹幕，以通过直播保护膜的目标区域之外的区域显示弹幕信息，即在被控角色以及被控角色技能对应的边框位置处不显示弹幕信息。

人工智能处理模块302在得到第一图像的位置信息和第二图像的位置信息后，进一步基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息。具体地，第一图像为被控角色技能图像，第二图像为被控角色图像，人工智能处理模块302在得到被控角色技能图像和被控角色图像的位置信息后，其中，位置信息包括被控角色技能边框内图像和被控角色边框内图像，将得到的被控角色技能边框内图像和被控角色边框内图像减去第一画面整张图的像素的均值，在将得到的差做二值化处理，从而确定目标区域的轮廓信息。

请参阅图4，图4是本申请电子设备一实施例的框架示意图。电子设备40包括相互耦接的存储器401和处理器402，处理器402用于执行存储器401中存储的程序指令，以实现上述任一直播弹幕的处理方法实施例的步骤。在一个具体的实施场景中，电子设备40可以包括但不限于：微型计算机、服务器。

具体而言，处理器402用于控制其自身以及存储器401以实现上述任一直播弹幕的处理方法实施例的步骤。处理器402还可以称为CPU(Central Processing Unit，中央处理单元)。处理器402可能是一种集成电路芯片，具有信号的处理能力。处理器402还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器402可以由集成电路芯片共同实现。

上述方案，处理器402在获取到直播视频的视频帧；通过深度学习网络对视频帧进行分类处理，得到包括第一目标图像的第一画面；对第一目标图像进行定位，得到至少一个第一图像的位置信息；利用第一目标图像的位置信息对第二目标图像进行定位，得到第二图像的位置信息；基于第一图像的位置信息和第二图像的位置信息确定目标区域的轮廓信息；通过直播画面的目标区域之外的区域显示弹幕信息。

请参阅图5，图5是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令500，程序指令500用于实现上述任一直播弹幕的处理方法实施例的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、模型、设备，可以通过其它的方式实现。例如，以上所描述的模型实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：司季雨;吴晓东;张广乾;章焱;程凯常;
专利申请人：广州虎牙科技有限公司;

上一篇：矿用井下纯水水箱
下一篇：一种基于改进支持向量机的注塑产品质量预测方法