掌桥专利:专业的专利平台
掌桥专利
首页

直播信息的实时显示方法及装置

文献发布时间:2024-04-18 19:52:40


直播信息的实时显示方法及装置

技术领域

本申请涉及直播领域,特别涉及一种直播信息的实时显示方法及装置。

背景技术

随着移动互联网和直播应用的快速发展,直播行业的影响力越来越大,直播软件的功能也越来越强大。但是,直播软件中直播间的功能通常较为单一,对于直播视频流中的信息,以文本的形式进行内容显示的功能几乎是缺失的,这不利于观众与主播间的信息交互,降低了用户体验。

发明内容

本申请实施例提供了一种直播信息的实时显示方法及装置。

根据本申请实施例的一个方面,提供了直播信息的实时显示方法,所述方法包括:

对直播视频流中的音频信息进行识别,得到文本信息;

获取预设的提示信息,所述提示信息用于指示文本预测器输出所述文本信息相关的关键词以及所述关键词所属的预设类别;所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签;

融合所述提示信息和所述文本信息,得到模型输入信息;

将所述模型输入信息输入所述文本预测器,触发所述文本预测器输出关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果;

将基于所述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果生成的信息显示在所述直播视频流对应的直播间中;

其中,所述文本预测器由大型生成式语言模型进行提示学习得到。

根据本申请实施例的一个方面,提供了一种直播信息的实时显示装置,所述装置包括:

文本识别模块,用于对直播视频流中的音频信息进行识别,得到文本信息;

显示模块,用于获取预设的提示信息,所述提示信息用于指示文本预测器输出所述文本信息相关的关键词以及所述关键词所属的预设类别;所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签;融合所述提示信息和所述文本信息,得到模型输入信息;将所述模型输入信息输入所述文本预测器,触发所述文本预测器输出关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果;将基于所述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果生成的信息显示在所述直播视频流对应的直播间中;其中,所述文本预测器由大型生成式语言模型进行提示学习得到。

根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述直播信息的实时显示方法。

根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述直播信息的实时显示方法。

本申请实施例提供的技术方案可以带来如下有益效果:

本申请实施例提供一种直播信息的实时显示方法及装置,其中所述直播信息的实时显示方法可以在直播间的显示界面上提供直播内容关联的信息,便于用户更深层次的与主播交互,以及理解直播间传递的信息,理解直播内容。本申请提供的直播信息的实时显示方法以文本形式显示直播内容关联的信息,降低用户由于听不清直播内容导致的信息遗漏,显著提升直播效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的直播信息的实时显示方法的方法流程图;

图2是本申请一个实施例提供的直播信息的实时显示方法中预测结果显示方法的示意图;

图3是本申请一个实施例提供的直播信息的实时显示方法中文本预测器的训练方法的示意图;

图4是本申请一个实施例提供的直播信息的实时显示方法中视频流优化模型的训练方法的示意图;

图5是本申请一个实施例提供的直播信息的实时显示装置的结构框图。

具体实施方式

在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。

请参考图1,其示出了本申请一个实施例提供的直播信息的实时显示方法的方法流程图。该方法可以包括以下几个步骤:

S101.对直播视频流中的音频信息进行识别,得到文本信息。

本实施例对直播视频流中的音频信息进行识别,得到文本信息的具体算法不做限定,可以使用现有技术,举个例子,直播视频流中主播提及“我特别喜欢‘小池塘’这首歌”,得到的文本信息就是“我特别喜欢‘小池塘’这首歌”。音频文本的转换而已,无需对此进行赘述。

S102.获取预设的提示信息,所述提示信息用于指示文本预测器输出所述文本信息相关的关键词以及所述关键词所属的预设类别。所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签。

提示学习是目前比较热门的大型生成式语言模型的训练以及应用技术。通过输入提示信息指导大型生成式语言模型输出某个应用场景下的合适的结果,是大型生成式语言模型横向扩展应用的重要技术。提示学习和提示信息的概念都属于现有技术,对此本申请实施例不做限定。本申请实施例的贡献在于在提示学习和提示信息的概念的基础上,将大型生成式语言模型在文本预测方向落地,也就是说,通过设计提示信息,所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签,探索到了大型生成式语言模型在这一具体场景的落地效果,使得大型生成式语言模型可以针对文本信息输出其有关的关键词和关键词所属的具体类别。

具体来说,本申请实施例特别设计的所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签。具体来说,该提示信息可以为“请输出至多三个关键词A、B、C,至少一个关键词A,并输出每一关键词对应所属的类别D,并且限定输出的各关键词均属于名词,输出的各类别均属于标签集合,标签集合为‘歌曲、影视作品、网络热词、网络新闻、网络热搜’,关键词属于内容库E支持的关键词”,其中ABC都是关键词标签,D为类别标签,E表示预设的媒体库。通过设计该特殊的提示信息,可以得到准确的文本预测结果,该提示信息可以指示大型生成式语言模型在预设的内容库支持的关键词集合范畴内预测待预测的文本信息有关的关键词,并预测关键词对应的类别。

本申请中的文本预测器就是一种大型生成式语言模型,其具体说来是对大型生成式语言模型进行在文本预测方向落地后形成的在文本预测方向的专业模型,该模型由本申请提出并训练,后文有述。

S103.融合所述提示信息和所述文本信息,得到模型输入信息。

将这两个信息进行拼接即可得到模型输入信息。

S104.将所述模型输入信息输入所述文本预测器,触发所述文本预测器输出关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果。

S105.将基于所述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果生成的信息显示在所述直播视频流对应的直播间中。

其中,所述文本预测器由大型生成式语言模型进行提示学习得到。

请参考图2,其示出预测结果显示方法,所述将基于所述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果生成的信息显示在所述直播视频流对应的直播间中,包括:

S201.根据述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果,确定目标关键词和所述目标关键词所属的目标类别。

关键词标签的预测结果就是目标关键词,类别标签的预测结果就是目标类别。

S202.根据所述目标关键词和所述目标类别,生成检索提示控件,将所述检索提示控件显示在所述直播间中。

举个例子,文本信息可以是对小池塘的具体描述信息,然后文本预测器预测出来目标关键词“小池塘”以及其所属类别“歌曲”,可以显示检索提示控件,该控件上有信息“预测出歌曲‘小池塘’,您需要显示全部歌词么?”,如果点击该控件中的“是”,显示“小池塘”全部歌词,如果点击该控件中的“否”,关闭该控件。

如果点击该控件中的“是”,可以认为该控件被触发。在所述检索提示控件被触发的情况下,基于所述目标关键词和所述目标类别查询内容库,得到查询结果,所述查询结果指示所述目标关键词在所述目标类别对应的信息,所述信息的内容含量大于所述目标关键词的内容含量。在所述直播间显示所述查询结果。

沿用前文示例,所述目标关键词“小池塘”在所述目标类别“歌曲”对应的信息,就是“小池塘”这个歌曲的全部歌词。本申请实施例中所述目标类别对应的信息都指的是文本状态的信息。如果目标关键词是影视作品的名称,目标类别是影视作品,则对应的信息可以是该影视作品的简介。如果目标关键词是网络热搜的名称,目标类别是网络热搜,则对应的信息可以是该网络热搜的简介。关于内容库,本申请强调,文本预测器可以预测的所述类别标签的全部可能的类别都被记载在所述内容库,所述内容库中每一类别下的各个文本内容中的关键词的全集指向所述文本预测器可以预测的关键词标签对应的标签全集,也就是说文本预测器输出的关键测预测结果必然属于内容库对应的关键词的全集。

请参考图3,其示出文本预测器的训练方法,所述文本预测器通过下述方法训练得到:

S301.根据样本文本信息和所述提示信息生成样本模型输入信息。

样本文本信息就是一段文本内容而已,比如一段关于钢琴的文本内容,其对应的关键词标注和类别标注都由人工设定,比如,关键词标注为“钢琴”,类别标注为“影视作品”,每个关键词标注都有其对应的类别标注,本申请实施例并不限定每个关键词标注对应的类别标注的数量,一一对应也行,提示信息前文有述。模型输入信息的获取方法参考前文。

S302.将所述样本模型输入信息输入预训练的大型生成式语言模型,触发所述大型生成式语言模型对所述样本模型输入信息中的关键词标签以及所述关键词标签关联的类别标签,进行预测,得到预测结果。

本申请实施例中的文本预测器由预设的大型生成式语言模型通过结合上述提示信息进行提示学习得到。随着技术的快速发展,各种类型大型生成式语言模型发展非常快速,本申请实施例中的大型生成式语言模型主体架构为基于Transform模型构建的参数数量大于预设值的生成式语言模型,当然,对于该预设值本领域技术人员可以自行确定。现有技术中有很多符合该条件的大型生成式语言模型都可以选用,本申请实施例不做限定,比如可以选用开源双语双向密集预训练大型生成式语言模型。

S303.根据所述预测结果、与所述样本文本信息对应的关键词标注和类别标注之间的差异,调节所述大型生成式语言模型的参数,得到所述文本预测器。

具体来说,所述根据所述预测结果、与所述样本文本信息对应的关键词标注和类别标注之间的差异,调节所述大型生成式语言模型的参数,得到所述文本预测器,包括:对所述大型生成式语言模型中预设参数进行冻结处理。根据所述预测结果、与所述样本文本信息对应的关键词标注和类别标注之间的差异,计算训练损失。根据所述训练损失,调整所述大型生成式语言模型中未被冻结的参数,得到所述文本预测器。

值得注意的是,预测结果包括关键词标签的预测结果和类别标签的预测结果,关键词标签的预测结果与关键词标注可以计算关键词维度的交叉熵损失。类别标签的预测结果与类别标注可以计算类别维度的交叉熵损失。两个交叉熵损失的加权求和结果可以作为总的训练损失,当然,权值不做限定,由本领技设定即可,不构成实施障碍。

本申请实施例并不限定具体冻结哪些参数,可以根据实际情况进行选择,这也跟具体使用的大型生成式语言模型的具体结构有关,选择方式并不构成本申请实施例的实施障碍,对此,不做赘述。如果不冻结参数直接基于梯度下降法进行调参,也能实现本申请,就是训练时间长一些。本申请实施例中可以基于梯度下降法对未被冻结的参数进行调整。当调整次数达到预设的次数阈值,或者当损失小于预设的损失阈值的情况下,停止调参,得到上述文本预测器。本申请提出的各阈值都能自行设定,不做赘言。

直播间有可能会出现卡顿现象,本申请实施例在显示直播信息的基础上还可以进一步针对卡顿现象提出直播视频流的切换方法,就是在卡顿发生的时候可以自动为用户切换清晰度低一些的直播视频流。

默认情况下直播视频流是具备最高清晰度的视频,为了减少卡顿可以将该视频进行有损压缩,但是有损压缩又显著降低清晰度,因此,本申请实施例可以对有损压缩的视频进行清晰度优化,并在卡顿出现的时候将最高清晰度的直播视频流切换为清晰度优化后的直播视频流,这样既降低了卡顿现象又不显著降低清晰度体验。

本申请实施例基于视频流优化模型对有损压缩后得到的直播视频流进行优化。请参考图4,其示出视频流优化模型的训练方法示意图。该方法包括:

S401.获取第一样本视频以及压缩标签,所述压缩标签为所述第一样本视频对应的压缩方式对应的标签。

现有技术中有很多中有损压缩方式,可以为常见的各有损压缩方式设置对应的压缩标签。对无损视频进行某种有损压缩后可以得到第一样本视频以及该压缩标签。

S402.将所述第一样本视频输入第一网络进行基于卷积的信息提取,得到第一样本特征信息,所述第一样本特征信息指示所述第一样本视频的压缩方式对视频质量产生的损失。

有损压缩可能影响了图像边缘清晰度,也可能引入了局部位置更多噪声,这些影响会通过第一样本特征信息量化出来。第一网络的基于卷积的信息提取如何执行不需要限定,因为使用现有技术中神经网络中实现基于卷积的信息提取的结构即可。

S403.将所述第一样本特征信息输入第二网络进行标签预测,得到压缩预测值。

第二网络的标签预测如何执行不需要限定,因为使用现有技术中神经网络中实现标签预测的结构即可。本申请实施例中的各个网络都不需要额外进行说明,因为都可以使用现有技术的神经网络中具备相应功能的层来搭建,本申请的价值在于基于这些网络的结构来实现具体的训练过程,也就是训练的逻辑步骤,以及后续的损失设计,以及这些不同的网络组合起来实现清晰度优化的这一整体构思。而非某个单一网络的具体结构,在此特意说明。

S404.获取预设的特征集,所述特征集包括每一压缩标签对应的特征子集,所述特征子集包括该压缩标签对应的各种可能的特征信息。

每一种类的压缩方式不同参数下呈现不同的质量损失,这些质量损失被量化后可以通过枚举的方式列出来,量化时也可以使用第一网络,或者,其他成熟的神经网络。本申请对此不做限定,形成特征集。之所以一个压缩标签可以有多个特征子集,是因为同一个压缩方式可能对应不同压缩参数,每个压缩参数都对应一个特征,因此,形成特征子集。特征集的获取并不构成本案的实施限制。特征集可以被理解为一种先验信息,并不具备获取难度,特此说明。

S405.基于所述特征集和所述压缩预测值,确定第一特征信息集和第二特征信息集,所述第一特征信息集为所述压缩预测值对应的特征子集形成的集合,所述第二特征信息集为所述特征集与所述第一特征信息集的差集。

压缩预测值对应被预测出来的某种压缩方式,其必然与某个压缩标签一致,将该压缩标签对应的特征子集形成的集合作为第一特征信息集即可。

S406.基于所述第一样本特征信息、所述第一特征信息集和所述第二特征信息集计算的三元组损失函数,得到信息距离损失。

三元组损失函数是现有技术,信息集也是一种信息,因此直接使用该三元组损失函数即可,无需额外说明,对本领技而言不具备实施难度。

S407.根据所述压缩预测值和所述压缩标签之间的差异,计算压缩方式损失。根据所述信息距离损失和所述压缩方式损失的加权求和结果,确定第一损失。

两个数据之间的差异的度量方式可以有很多,在此不做赘述,可参考现有技术。权值可以由程序人员自行设定,在此不做赘述。

S408.根据所述第一损失,调整所述第一网络和所述第二网络的参数,直至到达预设的收敛条件,得到训练好的第一网络。

调参方法和收敛条件使用现有技术,不做说明。

S409.获取第二样本视频。将所述第二样本视频进行基于滑动窗口的划分处理,得到多个第三样本视频。

滑动窗口大小不做限定,优选包括三个视频帧。滑动步长不做限定,优选步长为1个视频帧。

S410.将所述第二样本视频输入所述训练好的第一网络,得到第二样本特征信息。针对每一所述第三样本视频,将所述第三样本视频和所述第二样本特征信息输入第三网络,所述第三网络用于融合所述第三样本视频中的各个图像,并基于融合结果和所述第二样本特征信息生成一个样本目标帧图像。

本申请实施例并不限定融合方法,比如,可以对于第三样本视频中的各个图像进行特征提取和特征对齐,基于特征对齐结果和第二样本特征信息预测样本目标帧图像。特征提取、特征对齐是常见的特征处理方式,不做赘述。信息预测指的是基于一个图像、相关图像和相关的压缩信息进行提高清晰度方向的图像预测,这一操作可以由神经网络实现,即第三网络,该第三网络的结构无需进行特殊设计,可以使用现有的神经网络结构。也就是说,第三网络的图像预测能力是通过学习得来的,而学习过程就是下文的调参过程。

S411.根据各所述样本目标帧图像形成目标帧序列。在所述第二样本视频中提取与所述目标帧序列对应的参考序列。获取所述参考序列的人工优化结果,所述人工优化结果为由人工对该参考序列中每一帧图像基于该第二样本视频所经历的压缩方式进行图像恢复后得到的结果。根据所述目标帧序列和所述人工优化结果之间的差异,调整所述第三网络的参数,直至达到收敛条件,得到训练好的第三网络。

第二样本视频显然是经历过压缩的有损视频,这个无需赘言,图像恢复过程与图像压缩目的相反,是为了提高清晰度的。人工过程不做限定,使用常见的清晰度提升手段即可。

基于第三样本视频中的多个图像只能够预测出一个提高清晰度之后的样本目标帧图像,也就是说,预测出的图像数量其实是小于原本的图像数量的,举个例子,通过图像1、图像2和图像3预测出对应于图像2的提高了清晰度的图像2A。因此,针对目标帧序列中的每个被预测出的图像,可以在第二样本视频中找到对应的低清晰度的图像,从而得到参考序列。图像序列之间的差异可以通过单个图像的差异通过统计得来,对此,不做限定。

S412.基于所述训练好的第一网络和所述训练好的第三网络确定所述视频流优化模型。

显然,所述视频流优化模型包括所述训练好的第一网络和所述训练好的第三网络。还包括前述训练过程中在第一网络和第三网络之外执行的各个操作所对应的逻辑组件。

在具体使用该视频流优化模型的时候,可以将待优化的第一视频输入所述视频流优化模型,得到多个优化后的帧图像所形成第二视频。对各个优化后的帧图像进行双线性插值处理,得到第三视频。将所述第二视频中的各个帧图像,与所述第三视频中的相应的各个帧图像进行加和,得到第四视频。根据所述第四视频得到所述第一视频的优化结果,所述所述第一视频的优化结果的清晰度高于所述第一视频。第一视频可以就是有损压缩后的视频。

根据前述可以确定第四视频的图像帧数量小于第一视频,并且第四视频中每个图像帧可以在第一视频中找到对应的低清晰度图像帧,也就是说将第四视频作为第一视频中相应的图像帧的优化结果,而第四视频中不存在并且在第一视频中存在的图像帧可以保留,也可以基于邻近的已经被优化的图像帧进行优化,从而得到第一视频的优化结果。

下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。

请参考图5,其示出了本申请一个实施例提供的直播信息的实时显示装置的框图。该装置可以包括:

文本识别模块501,用于对直播视频流中的音频信息进行识别,得到文本信息。

显示模块502,用于获取预设的提示信息,所述提示信息用于指示文本预测器输出所述文本信息相关的关键词以及所述关键词所属的预设类别。所述提示信息包括待预测的关键词标签以及所述关键词标签关联的类别标签。融合所述提示信息和所述文本信息,得到模型输入信息。将所述模型输入信息输入所述文本预测器,触发所述文本预测器输出关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果。将基于所述关键词标签的预测结果,以及所述关键词标签对应的类别标签的预测结果生成的信息显示在所述直播视频流对应的直播间中。其中,所述文本预测器由大型生成式语言模型进行提示学习得到。

需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

本申请一个实施例提供计算机设备。该计算机设备可以是服务器,以用于执行上述直播信息的实时显示方法。本申请一个实施例提供计算机存储介质,以用于记载上述直播信息的实时显示方法。可选地,该计算机可读存储介质可以包括:ROM(Read OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid StateDrives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance RandomAccess Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述直播信息的实时显示方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。

另外,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120116332696