掌桥专利:专业的专利平台
掌桥专利
首页

基于弹幕文本的问题集获取方法、装置及计算机设备

文献发布时间:2023-06-19 11:27:38


基于弹幕文本的问题集获取方法、装置及计算机设备

技术领域

本发明涉及人工智能的智能决策技术领域,尤其涉及一种基于弹幕文本的问题集获取方法、装置、计算机设备及存储介质。

背景技术

传统线下教学天然有利于教学双方建立输出,反馈,优化的正循环。但是伴随互联网技术的发展,有越来越多的教学内容逐渐从线下被转移到线上。尤其在企业培训场景下,为了方便打破时间和地域限制,视频培训模式开始在企业培训中占据更多比重。

弹幕信息在培训场景下是非常宝贵的数据资源,包含大量课堂即时反馈、评价、提问等。目前各视频平台尤其教育平台对弹幕的利用仍然有限。在直播课程中,讲师可以实时关注弹幕留言做针对性解答,而录播课程中的弹幕信息一般更加难以充分利用。

录播课程中由于弹幕内容一般缺少上下文信息,即便弹幕列表被保存,讲师也难以将其中的留言和讲解内容相对应,需重新回顾视频才能获得对讲解内容的相应弹幕评价内容,导致对热点弹幕文本的提取和定位效率低下。

发明内容

本发明实施例提供了一种基于弹幕文本的问题集获取方法、装置、计算机设备及存储介质,旨在解决现有技术中录播视频课程中由于弹幕内容被保存后,需重新回顾视频才能获得对讲解内容的相应弹幕评价内容,导致对热点提问弹幕文本的提取和定位效率低下的问题。

第一方面,本发明实施例提供了一种基于弹幕文本的问题集获取方法,其包括:

获取所选定的目标视频数据在上一个弹幕采集周期内的弹幕文本数据集;

将所述弹幕文本数据集中每一条弹幕文本数据输入至预先训练的文本语句类型识别模型,得到与每一条弹幕文本数据对应的文本语句类型,获取所述弹幕文本数据集中文本语句类型为疑问句的弹幕文本数据组成目标弹幕文本数据集;

按所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间以及与所述目标视频数据对应的多个时间划分段,依时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列;

通过对所述问题数量时间序列进行拐点检测,得到拐点检测结果集;

获取所述拐点检测结果集中的上升拐点以及每一上升拐点对应的时间划分段,由每一上升拐点对应的时间划分段进行组合得到目标时间划分段集;

通过对所述目标时间划分段集中每一目标时间划分段对应的目标弹幕文本数据子集分别进行文本聚类,得到与每一目标时间划分段对应的文本聚类结果;

获取每一文本聚类结果中文本聚类数量降序排名未超出预设的排名阈值对应的聚类文本,组成与每一文本聚类结果分别对应的目标聚类文本子集;以及

获取每一目标时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集,组成与每一目标时间划分段对应的混合数据集,将混合数据集发送至目标用户端。

第二方面,本发明实施例提供了一种基于弹幕文本的问题集获取装置,其包括:

弹幕数据集获取单元,用于获取所选定的目标视频数据在上一个弹幕采集周期内的弹幕文本数据集;

目标弹幕文本获取单元,用于将所述弹幕文本数据集中每一条弹幕文本数据输入至预先训练的文本语句类型识别模型,得到与每一条弹幕文本数据对应的文本语句类型,获取所述弹幕文本数据集中文本语句类型为疑问句的弹幕文本数据组成目标弹幕文本数据集;

问题数量时间序列获取单元,用于按所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间以及与所述目标视频数据对应的多个时间划分段,依时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列;

拐点检测单元,用于通过对所述问题数量时间序列进行拐点检测,得到拐点检测结果集;

目标时间划分段集获取单元,用于获取所述拐点检测结果集中的上升拐点以及每一上升拐点对应的时间划分段,由每一上升拐点对应的时间划分段进行组合得到目标时间划分段集;

文本聚类结果获取单元,用于通过对所述目标时间划分段集中每一目标时间划分段对应的目标弹幕文本数据子集分别进行文本聚类,得到与每一目标时间划分段对应的文本聚类结果;

目标聚类文本子集获取单元,用于获取每一文本聚类结果中文本聚类数量降序排名未超出预设的排名阈值对应的聚类文本,组成与每一文本聚类结果分别对应的目标聚类文本子集;以及

混合数据集获取单元,用于获取每一目标时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集,组成与每一目标时间划分段对应的混合数据集,将混合数据集发送至目标用户端。

第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于弹幕文本的问题集获取方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于弹幕文本的问题集获取方法。

本发明实施例提供了一种基于弹幕文本的问题集获取方法、装置、计算机设备及存储介质,先是在目标视频数据在上一个弹幕采集周期内的弹幕文本数据集中进行疑问句提取和时间段划分后疑问句数量统计得到问题数量时间序列,然后对其进行拐点检测得到上升拐点对应的目标时间划分段集,最后分析各目标时间划分段集中的核心问题组成核心问题集。通过自然语言处理技术和时序拐点技术实现了提炼视频弹幕文本中的核心问题集,无需用户回顾整个视频即可快速获取弹幕文本中的核心问题集,提高了热点提问弹幕文本的提取和定位效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于弹幕文本的问题集获取方法的应用场景示意图;

图2为本发明实施例提供的基于弹幕文本的问题集获取方法的流程示意图;

图3为本发明实施例提供的基于弹幕文本的问题集获取装置的示意性框图;

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

请参阅图1和图2,图1为本发明实施例提供的基于弹幕文本的问题集获取方法的应用场景示意图;图2为本发明实施例提供的基于弹幕文本的问题集获取方法的流程示意图,该基于弹幕文本的问题集获取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。

如图2所示,该方法包括步骤S101~S108。

S101、获取所选定的目标视频数据在上一个弹幕采集周期内的弹幕文本数据集。

在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的终端进行详细介绍。本申请是在服务器的角度描述技术方案。

第一是服务器,在服务器中存储有大量的录播类型视频数据(一般是培训类的讲解视频,每一讲解视频对应一个讲师),用户端可以登录服务器后选定其中一个或多个录播类型视频数据进行观看,并可以在观看录播类型视频数据的任意时间点发送弹幕文本。服务器在接收到大量用户针对某一个录播类型视频数据发送的弹幕文本后,可以将弹幕文本的文本语句类型以及文本内容利用NLP(即自然语言处理技术)和时序拐点检测技术提炼疑问类型弹幕文本,录播类型视频数据对应的讲师针对提问内容做多种形式的补充说明,之后生成补充材料链接加入对应时间段的视频画面,通过这一方式为师生双方建立反馈循环机制。

第二是用户端,有多个用户端都可以与服务器建立通讯连接并在线观看录播类型视频数据,例如用户端A可以登录服务器后选定其中一个或多个录播类型视频数据进行观看,并可以在观看录播类型视频数据的任意时间点发送弹幕文本。

目标视频数据具体实施时是录播类型视频数据,录播类型视频数据的特点是用户可以随时打开这一录播类型视频数据进行观看,当用户观看到录播类型视频数据某一个时间点时可以编辑弹幕文本并发送,以在录播类型视频数据对应的显示界面上进行显示,弹幕文本以一定的移动速度从显示界面的一侧移动到另一侧直至不显示。

多个用户可以针对同一录播类型视频数据发送弹幕文本,这样服务器可以收集多个用户在一段时间内(如可以将上一个弹幕采集周期理解为上一自然周)发送的全部弹幕文本。此时上述列举的多个用户可以针对同一录播类型视频数据发送弹幕文本的情况下,这一录播类型视频数据可以理解为服务器选定的待分析目标视频数据(也即目标视频数据),上一个弹幕采集周期可以理解为上一自然周。

S102、将所述弹幕文本数据集中每一条弹幕文本数据输入至预先训练的文本语句类型识别模型,得到与每一条弹幕文本数据对应的文本语句类型,获取所述弹幕文本数据集中文本语句类型为疑问句的弹幕文本数据组成目标弹幕文本数据集。

在本实施例中, 当服务器对目标视频数据在上一个弹幕采集周期内的所有弹幕文本进行收集后,组成了弹幕文本数据集。在弹幕文本数据集中,每一条弹幕文本数据至少包括以下属性:一是弹幕文本(例如某一条弹幕文本是知识点A怎么理解),二是以视频播放时间轴为参考的弹幕发送时间(例如上述举例的知识点A怎么理解这一弹幕文本是在目标视频数据播放至第8分钟进行发送),三是以系统时间为参考的弹幕文本实际发送时间(例如上述举例的知识点A怎么理解这一弹幕文本是在2018年12月1日8:00发送)。

在一实施例中,所述文本语句类型识别模型是支持向量机分类模型,步骤S102之前还包括:

获取历史弹幕文本集作为样本集;

获取所述历史弹幕文本集中每一历史弹幕文本对应的句子向量;

获取每一历史弹幕文本对应的文本语句类型标注值;其中,文本语句类型为疑问句的弹幕文本标注值为1,文本语句类型为非疑问句的弹幕文本标注值为0;

将每一历史弹幕文本对应的句子向量作为待训练支持向量机分类模型的输入,将句子向量对应的标注值作为待训练支持向量机分类模型的输出对待训练支持向量机分类模型进行训练,得到支持向量机分类模型,并获取支持向量机分类模型对应的分类超平面。

在本实施例中,在服务器中可以预先训练一个文本语句类型识别模型,以对所述弹幕文本数据集中每一条弹幕文本数据的语句类型进行识别。该文本语句类型识别模型最简单的实现方式是仅仅识别弹幕文本数据是疑问句或是非疑问句,也就是采用一个二分类模型即可(例如支持向量机分类模型),例如文本语句类型识别模型具体是用词袋模型构造句子向量以训练SVM分类模型。具体实施时,可以事先对一批历史弹幕文本做标记,将历史弹幕文本做切词处理,用词袋模型构造句子向量训练SVM分类模型。

在对弹幕文本数据集中疑问句类型的弹幕文本进行识别后,由疑问句类型的弹幕文本组成目标弹幕文本数据集,也即是筛选并保留了提问型弹幕文本。

S103、按所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间以及与所述目标视频数据对应的多个时间划分段,依时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列。

在本实施例中,由于所述目标弹幕文本数据集中包括的每一条目标弹幕文本数据均是包括弹幕发送时间这一数据属性,此时可以目标视频数据对应的视频播放时间轴来进行时间段划分,然后依照时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列。例如,可以预先设置一个时间窗口值(例如时间窗口值为3-5s)将所述目标视频数据对应的目标视频时长进行划分,得到多个时间划分段。通过将各时间段对应的弹幕文本数量处理成问题数量时间序列,可以进一步分析哪一些时间段的提问较多,从而可以作针对性的解答。

在一实施例中,步骤S103包括:

根据预先设置的时间窗口值将所述目标视频数据对应的目标视频时长进行划分,得到与所述目标视频时长对应的时间划分段集;

根据所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间,统计获取所述时间划分段集中每一时间划分段内对应的目标弹幕文本数据子集;

按各目标弹幕文本数据子集对应的时间划分段的时间升序顺序,依序统计每一目标弹幕文本数据子集对应的弹幕数量,组成问题数量时间序列。

在本实施例中,可将时间窗口值设置为3-5s,例如可将时间窗口值设置为4s,且目标视频数据对应的目标视频时长为1800s,则通过所设置的时间窗口值可以将所述目标视频数据对应的目标视频时长进行划分为1800/4=475个时间段,也即与所述目标视频时长对应的时间划分段集中包括475个时间划分段。由于所述目标弹幕文本数据集中每一条目标弹幕文本数据均具有弹幕发送时间这一属性值,此时可以按时间划分段的时间升序顺序、且根据弹幕发送时间这一属性值统计获取所述时间划分段集中每一时间划分段内对应的目标弹幕文本数据子集。最后再依序统计每一目标弹幕文本数据子集对应的弹幕数量,由按时间顺序升序排列的弹幕数量组成问题数量时间序列。通过这一划分方式,能将视频时长较长的目标视频数据进行更加细粒度的划分,进行更加准确的数据分析。

S104、通过对所述问题数量时间序列进行拐点检测,得到拐点检测结果集。

在本实施例中,对所述问题数量时间序列进行拐点检测时,拐点检测有多种成熟的方法可以选择,例如可以采用二分分割方法(二分分割方法即Binary Segmentation),选用线性损失函数。由于拐点数量不定,需要给损失函数增加惩罚项,例如选取L_0惩罚项,用来平衡选择不同拐点数量时的模型复杂度和拟合度。

在一实施例中,步骤S104包括:

调用预先存储的二分分割模型,并获取所述二分分割模型对应的损失函数;

通过二分分割模型获取所述问题数量时间序列中满足使得所有问题数量值对应的总体损失为最小值的目标问题数量值,组成拐点检测结果集。

在本实施例中,二分分割模型对应的是一种顺序贪心算法,在每次迭代中,执行单 个变化点的检测并产生估计值。例如第一个估计的拐点

其中,

S105、获取所述拐点检测结果集中的上升拐点以及每一上升拐点对应的时间划分段,由每一上升拐点对应的时间划分段进行组合得到目标时间划分段集。

在本实施例中,可以通过拐点检测检测出上升拐点(上升拐点对应的问题数量值一般是某一序列区间内的最大值),而每一上升拐点均对应一个时间划分段,在找出了所有上升拐点对应的时间划分段,由这些时间划分段组成目标时间划分段集,目标时间划分段集中包括的所有时间划分段均可以理解为提问集中的时间段。

S106、通过对所述目标时间划分段集中每一目标时间划分段对应的目标弹幕文本数据子集分别进行文本聚类,得到与每一目标时间划分段对应的文本聚类结果。

在本实施例中,对每一个疑问度高度集中的目标时间划分段的提问内容分别做聚类分析。此步骤为了避免给讲师反馈针对一个时间片段的重复性问题,需要对相似语义的弹幕文本进行合并(这是因为弹幕文本中存在用词不同语义相同的情况),此步骤是将待聚类的弹幕文本先分词得到弹幕分词后再进行embedding向量化,再用词向量合成句向量,运用混合高斯模型(GMM)做文本聚类,进而找到针对每一个提问热点时间划分段的核心问题集。

在一实施例中,步骤S106包括:

获取第i个目标时间划分段中第i组目标弹幕文本数据子集中包括的目标弹幕文本;其中,i的初始值为1,且i的取值范围是[1,k],k的取值与目标时间划分段集中所包括目标时间划分段的总个数相等;

获取第i组目标弹幕文本数据子集中包括的目标弹幕文本分别对应的句子向量;

将第i组目标弹幕文本数据子集对应的每一句子向量根据预先训练的高斯混合模型进行聚类,得到第i组目标弹幕文本数据子集对应的第i组文本聚类结果;

将i自增1更新i值,判断i是超出k;若i未超出k,返回执行所述获取第i个目标时间划分段中第i组目标弹幕文本数据子集中包括的目标弹幕文本的步骤;

若i超出k,结束流程。

在本实施例中,当获取了k组目标弹幕文本数据子集后,需要依次对每一组目标弹幕文本数据子集进行文本聚类。在文本聚类过程中,例如以第1个目标时间划分段中第1组目标弹幕文本数据子集为例,是先将第1组目标弹幕文本数据子集中每一目标弹幕文本均对应转换为句子向量(文本转化为句子向量是现有技术,此处不展开赘述),然后将每一目标弹幕文本分别对应的句子向量输入至高斯混合模型进行聚类,得到对应的第1组文本聚类结果。

其中,高斯混合模型是利用高斯概率密度分布函数精确的量化事物,通常可用于解决同一集合下的数据包括多个不同的分布的情况,同一类分布的数据对应同一个高斯概率密度分布函数。而且,高斯混合模型用于文本聚类与K-means聚类(即K均值聚类)方法类似。

S107、获取每一文本聚类结果中文本聚类数量降序排名未超出预设的排名阈值对应的聚类文本,组成与每一文本聚类结果分别对应的目标聚类文本子集。

在本实施例中,针对每一个提问热点时间划分段的核心问题集进行筛选时,可以是挑选出每一个提问热点时间划分段中聚类数量排名前3对应的聚类文本,从而组成了与每一个提问热点时间划分段对应的核心问题集。通过这一方式,有效的降低了问题数量,使得最终结果聚焦于核心问题集。

S108、获取每一目标时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集,组成与每一目标时间划分段对应的混合数据集,将混合数据集发送至目标用户端。

在本实施例中,可以将每一个提问热点时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集(目标聚类文本子集可以理解为核心问题集)进行组合得到一个混合数据集,以多个混合数据集的方式返送至讲师使用的目标用户端。这样讲师不用回顾整个视频便可获知疑问度高的一组课堂内容。(如果教学并不是以PPT或板书结合讲解等形式呈现,画面中无法反映讲解内容,可以对此时间节点前后一段时间音频做文字转换再提炼关键词,以关键词代替视频画面的形式反馈给讲师。)

在一实施例中,步骤S108之后还包括:

接收目标用户端发送的与每一混合数据集分别对应的答复数据,将每一混合数据集的答复数据增加至对应目标时间划分段的时间段视频数据中,得到与所述目标视频数据对应的答疑视频数据。

在本实施例中,讲师针对每一混合数据集分别对应上传答复数据(可以理解为补充资料,这些补充资料可以帮助观看视频的用户进行疑问解答。

在一实施例中,所述将每一混合数据集的答复数据增加至对应目标时间划分段的时间段视频数据中,得到与所述目标视频数据对应的答疑视频数据,包括:

将每一混合数据集的答复数据的原始文本数据或是超链接地址增加至对应目标时间划分段的时间段视频数据中,得到对应的答疑视频数据。

在本实施例中,目标用户端上传的补充资料可以是原始文本数据或是与原始文本数据对应的超链接地址,这样其他观看答疑视频数据的用户可以直接点击查看,也可以是对应一个超链接地址以供用户点击跳转查看。讲师操作目标用户端上传补充材料后,在提炼的每个提问热点时间划开始的一段时间内在视频画面中显示相应的补充材料链接,方便学生直接针对当下难点进行着重学习。

该方法通过自然语言处理技术和时序拐点技术实现了提炼视频弹幕文本中的核心问题集,无需用户回顾整个视频即可快速获取弹幕文本中的核心问题集,提高了热点提问弹幕文本的提取和定位效率。

本发明实施例还提供一种基于弹幕文本的问题集获取装置,该基于弹幕文本的问题集获取装置用于执行前述基于弹幕文本的问题集获取方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于弹幕文本的问题集获取装置的示意性框图。该基于弹幕文本的问题集获取装置100可以配置于服务器中。

如图3所示,基于弹幕文本的问题集获取装置100包括:弹幕数据集获取单元101、目标弹幕文本获取单元102、问题数量时间序列获取单元103、拐点检测单元104、目标时间划分段集获取单元105、文本聚类结果获取单元106、目标聚类文本子集获取单元107、混合数据集获取单元108。

弹幕数据集获取单元101,用于获取所选定的目标视频数据在上一个弹幕采集周期内的弹幕文本数据集。

在本实施例中, 目标视频数据具体实施时是录播类型视频数据,录播类型视频数据的特点是用户可以随时打开这一录播类型视频数据进行观看,当用户观看到录播类型视频数据某一个时间点时可以编辑弹幕文本并发送,以在录播类型视频数据对应的显示界面上进行显示,弹幕文本以一定的移动速度从显示界面的一侧移动到另一侧直至不显示。

多个用户可以针对同一录播类型视频数据发送弹幕文本,这样服务器可以收集多个用户在一段时间内(如可以将上一个弹幕采集周期理解为上一自然周)发送的全部弹幕文本。此时上述列举的多个用户可以针对同一录播类型视频数据发送弹幕文本的情况下,这一录播类型视频数据可以理解为服务器选定的待分析目标视频数据(也即目标视频数据),上一个弹幕采集周期可以理解为上一自然周。

目标弹幕文本获取单元102,用于将所述弹幕文本数据集中每一条弹幕文本数据输入至预先训练的文本语句类型识别模型,得到与每一条弹幕文本数据对应的文本语句类型,获取所述弹幕文本数据集中文本语句类型为疑问句的弹幕文本数据组成目标弹幕文本数据集。

在本实施例中, 当服务器对目标视频数据在上一个弹幕采集周期内的所有弹幕文本进行收集后,组成了弹幕文本数据集。在弹幕文本数据集中,每一条弹幕文本数据至少包括以下属性:一是弹幕文本(例如某一条弹幕文本是知识点A怎么理解),二是以视频播放时间轴为参考的弹幕发送时间(例如上述举例的知识点A怎么理解这一弹幕文本是在目标视频数据播放至第8分钟进行发送),三是以系统时间为参考的弹幕文本实际发送时间(例如上述举例的知识点A怎么理解这一弹幕文本是在2018年12月1日8:00发送)。

在一实施例中,所述文本语句类型识别模型是支持向量机分类模型,基于弹幕文本的问题集获取装置100还包括:

样本集获取单元,用于获取历史弹幕文本集作为样本集;

句子向量获取单元,用于获取所述历史弹幕文本集中每一历史弹幕文本对应的句子向量;

语句类型标注单元,用于获取每一历史弹幕文本对应的文本语句类型标注值;其中,文本语句类型为疑问句的弹幕文本标注值为1,文本语句类型为非疑问句的弹幕文本标注值为0;

支持向量机训练单元,用于将每一历史弹幕文本对应的句子向量作为待训练支持向量机分类模型的输入,将句子向量对应的标注值作为待训练支持向量机分类模型的输出对待训练支持向量机分类模型进行训练,得到支持向量机分类模型,并获取支持向量机分类模型对应的分类超平面。

在本实施例中,在服务器中可以预先训练一个文本语句类型识别模型,以对所述弹幕文本数据集中每一条弹幕文本数据的语句类型进行识别。该文本语句类型识别模型最简单的实现方式是仅仅识别弹幕文本数据是疑问句或是非疑问句,也就是采用一个二分类模型即可(例如支持向量机分类模型),例如文本语句类型识别模型具体是用词袋模型构造句子向量以训练SVM分类模型。具体实施时,可以事先对一批历史弹幕文本做标记,将历史弹幕文本做切词处理,用词袋模型构造句子向量训练SVM分类模型。

在对弹幕文本数据集中疑问句类型的弹幕文本进行识别后,由疑问句类型的弹幕文本组成目标弹幕文本数据集,也即是筛选并保留了提问型弹幕文本。

问题数量时间序列获取单元103,用于按所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间以及与所述目标视频数据对应的多个时间划分段,依时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列。

在本实施例中,由于所述目标弹幕文本数据集中包括的每一条目标弹幕文本数据均是包括弹幕发送时间这一数据属性,此时可以目标视频数据对应的视频播放时间轴来进行时间段划分,然后依照时间升序统计各时间划分段分别对应的目标弹幕文本数据数量,组成问题数量时间序列。例如,可以预先设置一个时间窗口值(例如时间窗口值为3-5s)将所述目标视频数据对应的目标视频时长进行划分,得到多个时间划分段。通过将各时间段对应的弹幕文本数量处理成问题数量时间序列,可以进一步分析哪一些时间段的提问较多,从而可以作针对性的解答。

在一实施例中,问题数量时间序列获取单元103包括:

窗口划分单元,用于根据预先设置的时间窗口值将所述目标视频数据对应的目标视频时长进行划分,得到与所述目标视频时长对应的时间划分段集;

目标弹幕文本数据子集获取单元,用于根据所述目标弹幕文本数据集中每一条目标弹幕文本数据对应的弹幕发送时间,统计获取所述时间划分段集中每一时间划分段内对应的目标弹幕文本数据子集;

序列值获取单元,用于按各目标弹幕文本数据子集对应的时间划分段的时间升序顺序,依序统计每一目标弹幕文本数据子集对应的弹幕数量,组成问题数量时间序列。

在本实施例中,可将时间窗口值设置为3-5s,例如可将时间窗口值设置为4s,且目标视频数据对应的目标视频时长为1800s,则通过所设置的时间窗口值可以将所述目标视频数据对应的目标视频时长进行划分为1800/4=475个时间段,也即与所述目标视频时长对应的时间划分段集中包括475个时间划分段。由于所述目标弹幕文本数据集中每一条目标弹幕文本数据均具有弹幕发送时间这一属性值,此时可以按时间划分段的时间升序顺序、且根据弹幕发送时间这一属性值统计获取所述时间划分段集中每一时间划分段内对应的目标弹幕文本数据子集。最后再依序统计每一目标弹幕文本数据子集对应的弹幕数量,由按时间顺序升序排列的弹幕数量组成问题数量时间序列。通过这一划分方式,能将视频时长较长的目标视频数据进行更加细粒度的划分,进行更加准确的数据分析。

拐点检测单元104,用于通过对所述问题数量时间序列进行拐点检测,得到拐点检测结果集。

在本实施例中,对所述问题数量时间序列进行拐点检测时,拐点检测有多种成熟的方法可以选择,例如可以采用二分分割方法(二分分割方法即Binary Segmentation),选用线性损失函数。由于拐点数量不定,需要给损失函数增加惩罚项,例如选取L_0惩罚项,用来平衡选择不同拐点数量时的模型复杂度和拟合度。

在一实施例中,拐点检测单元104包括:

模型获取单元,用于调用预先存储的二分分割模型,并获取所述二分分割模型对应的损失函数;

拐点确定单元,用于通过二分分割模型获取所述问题数量时间序列中满足使得所有问题数量值对应的总体损失为最小值的目标问题数量值,组成拐点检测结果集。

在本实施例中,二分分割模型对应的是一种顺序贪心算法,在每次迭代中,执行单 个变化点的检测并产生估计值。例如第一个估计的拐点

其中,

目标时间划分段集获取单元105,用于获取所述拐点检测结果集中的上升拐点以及每一上升拐点对应的时间划分段,由每一上升拐点对应的时间划分段进行组合得到目标时间划分段集。

在本实施例中,可以通过拐点检测检测出上升拐点(上升拐点对应的问题数量值一般是某一序列区间内的最大值),而每一上升拐点均对应一个时间划分段,在找出了所有上升拐点对应的时间划分段,由这些时间划分段组成目标时间划分段集,目标时间划分段集中包括的所有时间划分段均可以理解为提问集中的时间段。

文本聚类结果获取单元106,用于通过对所述目标时间划分段集中每一目标时间划分段对应的目标弹幕文本数据子集分别进行文本聚类,得到与每一目标时间划分段对应的文本聚类结果。

在本实施例中,对每一个疑问度高度集中的目标时间划分段的提问内容分别做聚类分析。此步骤为了避免给讲师反馈针对一个时间片段的重复性问题,需要对相似语义的弹幕文本进行合并(这是因为弹幕文本中存在用词不同语义相同的情况),此处是将待聚类的弹幕文本先分词得到弹幕分词后再进行embedding向量化,再用词向量合成句向量,运用混合高斯模型(GMM)做文本聚类,进而找到针对每一个提问热点时间划分段的核心问题集。

在一实施例中,文本聚类结果获取单元106还用于:

获取第i个目标时间划分段中第i组目标弹幕文本数据子集中包括的目标弹幕文本;其中,i的初始值为1,且i的取值范围是[1,k],k的取值与目标时间划分段集中所包括目标时间划分段的总个数相等;

获取第i组目标弹幕文本数据子集中包括的目标弹幕文本分别对应的句子向量;

将第i组目标弹幕文本数据子集对应的每一句子向量根据预先训练的高斯混合模型进行聚类,得到第i组目标弹幕文本数据子集对应的第i组文本聚类结果;

将i自增1更新i值,判断i是超出k;若i未超出k,返回执行所述获取第i个目标时间划分段中第i组目标弹幕文本数据子集中包括的目标弹幕文本的步骤;

若i超出k,结束流程。

在本实施例中,当获取了k组目标弹幕文本数据子集后,需要依次对每一组目标弹幕文本数据子集进行文本聚类。在文本聚类过程中,例如以第1个目标时间划分段中第1组目标弹幕文本数据子集为例,是先将第1组目标弹幕文本数据子集中每一目标弹幕文本均对应转换为句子向量(文本转化为句子向量是现有技术,此处不展开赘述),然后将每一目标弹幕文本分别对应的句子向量输入至高斯混合模型进行聚类,得到对应的第1组文本聚类结果。

其中,高斯混合模型是利用高斯概率密度分布函数精确的量化事物,通常可用于解决同一集合下的数据包括多个不同的分布的情况,同一类分布的数据对应同一个高斯概率密度分布函数。而且,高斯混合模型用于文本聚类与K-means聚类(即K均值聚类)方法类似。

目标聚类文本子集获取单元107,用于获取每一文本聚类结果中文本聚类数量降序排名未超出预设的排名阈值对应的聚类文本,组成与每一文本聚类结果分别对应的目标聚类文本子集。

在本实施例中,针对每一个提问热点时间划分段的核心问题集进行筛选时,可以是挑选出每一个提问热点时间划分段中聚类数量排名前3对应的聚类文本,从而组成了与每一个提问热点时间划分段对应的核心问题集。通过这一方式,有效的降低了问题数量,使得最终结果聚焦于核心问题集。

混合数据集获取单元108,用于获取每一目标时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集,组成与每一目标时间划分段对应的混合数据集,将混合数据集发送至目标用户端。

在本实施例中,可以将每一个提问热点时间划分段对应的时间段、时间段视频数据、以及目标聚类文本子集(目标聚类文本子集可以理解为核心问题集)进行组合得到一个混合数据集,以多个混合数据集的方式返送至讲师使用的目标用户端。这样讲师不用回顾整个视频便可获知疑问度高的一组课堂内容。(如果教学并不是以PPT或板书结合讲解等形式呈现,画面中无法反映讲解内容,可以对此时间节点前后一段时间音频做文字转换再提炼关键词,以关键词代替视频画面的形式反馈给讲师。)

在一实施例中,基于弹幕文本的问题集获取装置100还包括:

答复数据接收单元,用于接收目标用户端发送的与每一混合数据集分别对应的答复数据,将每一混合数据集的答复数据增加至对应目标时间划分段的时间段视频数据中,得到与所述目标视频数据对应的答疑视频数据。

在本实施例中,讲师针对每一混合数据集分别对应上传答复数据(可以理解为补充资料,这些补充资料可以帮助观看视频的用户进行疑问解答。

在一实施例中,所述答复数据接收单元还用于:

将每一混合数据集的答复数据的原始文本数据或是超链接地址增加至对应目标时间划分段的时间段视频数据中,得到对应的答疑视频数据。

在本实施例中,目标用户端上传的补充资料可以是原始文本数据或是与原始文本数据对应的超链接地址,这样其他观看答疑视频数据的用户可以直接点击查看,也可以是对应一个超链接地址以供用户点击跳转查看。讲师操作目标用户端上传补充材料后,在提炼的每个提问热点时间划开始的一段时间内在视频画面中显示相应的补充材料链接,方便学生直接针对当下难点进行着重学习。

该装置通过自然语言处理技术和时序拐点技术实现了提炼视频弹幕文本中的核心问题集,无需用户回顾整个视频即可快速获取弹幕文本中的核心问题集,提高了热点提问弹幕文本的提取和定位效率。

上述基于弹幕文本的问题集获取装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。

请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。

参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于弹幕文本的问题集获取方法。

该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于弹幕文本的问题集获取方法。

该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于弹幕文本的问题集获取方法。

本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。

应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于弹幕文本的问题集获取方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 基于弹幕文本的问题集获取方法、装置及计算机设备
  • 基于弹幕文本的问题集获取方法、装置及计算机设备
技术分类

06120112934830