掌桥专利:专业的专利平台
掌桥专利
首页

弹幕数据处理方法、装置、设备以及存储介质

文献发布时间:2023-06-19 10:00:31


弹幕数据处理方法、装置、设备以及存储介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种弹幕数据处理方法、装置、设备以及存储介质。

背景技术

在自然语言处理(Natural Language Processing,简称NLP)领域,服务机器人的语料数据库或者模型训练都需要大量的样本数据,样本数据的质量和数量影响着模型的质量或者语料数据库的质量。

样本数据标注成本较高,通常情况下采用数据处理方法来扩充样本数据。以弹幕数据为例,现有技术中,通常采用随机换词、随机语序变换、随机词插入、随机删除等数据增强方式。其中,随机换词是指在弹幕数据中随机选择其中的词语替换成备选库中意思相近的词语。随机语序变化是指在弹幕数据中随机选择其中词语进行位置变换。随机词插入是指在弹幕数据中随机选择一个位置插入备选库中的词语。随机删除是指在弹幕数据中随机选择一个词进行删除。

然而,由于现有技术是是采用随机方式,导致经过数据增强后得到的弹幕数据语句不通顺,另外,随机插入或者随机换词的方式受限于备选词库大小,使得弹幕数据多样性差。

发明内容

本申请提供一种弹幕数据处理方法、装置、设备以及存储介质,该方案所生成的弹幕数据语句通顺,无需使用备选数据库,提高弹幕数据的多样性。

第一方面,本申请提供一种弹幕数据处理方法,包括:

计算已获取的预设数量的训练弹幕数据之间的相似度;

根据相似度进行聚类,以得到多个训练弹幕数据簇;

根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本;

采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。

可选地,计算已获取的预设数量的训练弹幕数据之间的相似度,具体包括:

获得任意两个训练弹幕数据之间的第一双语互译质量评估指标以及第二双语互译质量评估指标;

根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度;

其中,第一双语互译质量评估指标是以其中一个训练弹幕数据为参考标准时获得的,第二双语互译质量评估指标是以另一个训练弹幕数据为参考标准时获得的。

可选地,根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度,具体包括:

根据第一公式计算获得两个训练弹幕数据之间的相似度,其中,第一公式具体为:

d=0.5[unigram_blue(a,b)+unigram_blue(b,a)]

其中,d表示相似度,a和b均表示训练弹幕数据,unigram_blue()表示一元双语互译质量评估指标算法。

可选地,第二目标训练样本包括正训练样本和负训练样本;根据多个训练弹幕数据簇获得第二目标训练样本,具体包括:

对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得正训练样本;

对位于不同训练弹幕数据簇中两个训练弹幕数据组合获得负训练样本;

采用第二目标训练样本对判别模型进行训练,包括:

采用正训练样本和负训练样本对预训练后的判别模型进行训练,获得已训练的判别模型。

可选地,第一目标训练样本包括输入样本和输出样本,根据多个训练弹幕数据簇获得第一目标训练样本具体包括:

对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得输入样本和输出样本;

采用第一目标训练样本对处理模型进行训练,包括:

采用输入样本和输出样本对预训练后的处理模型进行训练,获得已训练的处理模型。

可选地,已训练的处理模型用于获取与当前弹幕数据对应的多个相似弹幕数据;已训练的判别模型用于计算相似弹幕数据的评估值,评估值用于从多个相似弹幕中确定输出弹幕数据。

可选地,评估值用于经过归一化处理后获得采样概率,采样概率用于对多个相似弹幕进行采样获得输出弹幕数据。

第二方面,本申请提供一种弹幕数据增强装置,包括:

计算模块,用于计算已获取的预设数量的训练弹幕数据之间的相似度;

获得模块,用于根据相似度进行聚类,以得到多个训练弹幕数据簇;

获得模块还用于根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本;

获得模块还用于采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。

第三方面,本申请提供一种电子设备,包括:

存储器,用于存储程序;

处理器,用于执行存储器存储的程序,当程序被执行时,处理器用于执行第一方面及可选方案所涉及的弹幕数据处理方法。

第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令;

计算机执行指令被处理器执行时用于实现第一方面及可选方案所涉及的弹幕数据处理方法。

在本申请实施例提供的弹幕数据处理方法、装置、设备以及存储介质,根据任意两两训练弹幕数据之间的相似度对训练弹幕数据进行聚类处理,获得多个训练弹幕数据簇,再根据训练弹幕数据簇确定第一目标训练样本和第二目标训练样本,使用第一目标训练样本训练处理模型,并使用第二目标训练样本训练判别模型,根据所获得已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺以及与当前弹幕数据语义接近的相似弹幕数据。另外,根据以其中一个弹幕数据为参考标准计算得到的第一BLEU和以另一个弹幕数据为参考标准计算得到第二BLEU,计算两个弹幕数据之间相似度,再根据计算得到相似度进行聚类处理,可以消除BLEU算法的不对称性,进而提高聚类效果,可以获得高质量的第一目标训练样本和第二训练样本。

附图说明

图1为本申请实施例提供的弹幕数据处理方法的应用场景图;

图2为本申请一实施例提供的弹幕数据处理方法的流程示意图;

图3为本申请另一实施例提供的处理模型的结构示意图;

图4为本申请另一实施例提供的判别模型的结构示意图;

图5为本申请另一实施例提供的弹幕数据处理装置的结构示意图;

图6为本申请另一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请提供一种弹幕数据处理方法、装置、设备以及存储介质,旨在解决现有弹幕数据处理方法所生成弹幕数据不通顺,且多样性不高的问题。本申请的发明构思是:计算任意两个训练弹幕数据之间相似度,以根据相似度对训练弹幕数据进行聚类处理获得多个训练弹幕数据簇,进而根据训练弹幕数据簇获得用于训练处理模型的第一目标训练样本和用于训练判别模型的第二目标训练样本,根据所获得的已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺且和当前弹幕数据语义相近的相似弹幕数据。

本申请所提供的弹幕数据处理方法,可以应用于模型训练或者为客服机器人提供语料数据库。下面以弹幕数据处理方法为例说明,如图1所示,服务器101在响应客户端102的请求前运行本申请实施例提供的弹幕数据处理方法,对本地存储的语料库进行数据增强。客户端102接收用户输入的用户请求,该用户请求可以是根据用户输入语音数据生成的,也可以是根据用户输入语句生成的,例如:用户语音输入“早上好”。将用户请求传输至服务器101,服务器101对用户请求进行解析,从语料库中调取相应语句并返回至客户端。客户端接收到相应语句后,并播放相应语句,例如:客户端接收到来自服务器的语句“早上好”,并播放该语句。

本申请实施例提供的弹幕数据处理方法还可以应用于其他需要对弹幕数据进行增强处理的使用场景,此处不做限制。

如图2所示,本申请一实施例提供一种弹幕数据处理方法,该弹幕数据处理方法包括如下步骤:

S201、计算已获取的预设数量的训练弹幕数据之间的相似度。

其中,根据视频弹幕数据或者直播间弹幕数据获得训练弹幕数据。

针对视频弹幕数据,将某个视频的弹幕数据进行去重处理,以保证弹幕数据中不存在重复的弹幕。再将该视频的弹幕数据作为一组训练弹幕数据,计算该组训练弹幕数据中任意两个训练弹幕数据之间的相似度。

针对直播间弹幕数据,可以按天对每个直播间的弹幕数据进行汇总,再对每个直播间的每天的弹幕数据进行去重处理,将保证汇总结果中不会出现重复的弹幕。并选择任意一个直播间的任意一天的弹幕数据作为一组训练弹幕数据,计算该组训练弹幕数据中任意两个训练弹幕数据之间的相似度。

S202、根据相似度进行聚类以得到多个训练弹幕数据簇。

其中,针对一组训练弹幕数据,获得该组训练弹幕数据中任意两个弹幕数据之间相似度后,根据任意两个弹幕数据之间相似度进行聚类处理获得多个训练弹幕数据簇。

此处以基于密度的聚类算法(Density-Based Spatial Clustering ofApplications with Noise,简称:DBSCAN)为例说明聚类过程。一组训练弹幕数据的数量为50个,可以计算获得

S203、根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本。

其中,从多个训练弹幕数据簇中选择训练弹幕数据作为第一目标训练样本和第二目标训练样本。第一目标训练样本用于训练处理模型,第二目标训练样本用于训练判别模型。

S204、采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。

其中,采用第一目标训练样本对处理模型进行训练得到已训练的处理模型,采用第二目标训练样本对判别模型进行训练已训练的判别模型。

处理模型和判别模型均为处理自然语言的模型。已训练的处理模型用于对当前弹幕数据进行处理,并输出与当前弹幕数据对应的多个相似弹幕数据。相似弹幕数据是指与当前弹幕数据的语义相同的弹幕数据。

已训练的判别模型用于计算相似弹幕数据的评估值,评估值用于从多个相似弹幕中确定输出弹幕数据。

采用已经训练的处理模型对当前弹幕数据进行处理,输出多样性高且语句通顺的相似弹幕数据,采用已经训练的判别模型计算相似弹幕数据的评估值,以根据相似弹幕数据的评估值从多个相似弹幕中选择与当前弹幕数据语义相近的输出弹幕数据。

需要说明的是,上述步骤S201-S204中的执行主体可以是服务器、计算机等设备,也可以是由服务器和计算机组成的处理系统,并且各个步骤可以对应于相同的执行主体,也可以分别对应于不同的执行主体,此处不作具体限定。

在本申请实施例提供的弹幕数据处理方法中,根据任意两两训练弹幕数据之间的相似度对训练弹幕数据进行聚类处理,获得多个训练弹幕数据簇,再根据训练弹幕数据簇确定第一目标训练样本和第二目标训练样本,使用第一目标训练样本训练处理模型,并使用第二目标训练样本训练判别模型,根据已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺以及与当前弹幕数据语义接近的相似弹幕数据。

本申请另一实施例提供一种弹幕数据处理方法,该弹幕数据处理方法包括如下步骤:

S301、计算已获取的预设数量的训练弹幕数据之间的相似度。

其中,双语互译质量评估指标(Bilingual Evaluation Understudy,简称BLEU)一般用于机器翻译任务,用于计算翻译后语句和原语句之间的相似程度,当BLEU数值越高,翻译后语句和原语句之间的相似程度越高,翻译质量越高。本申请中使用BLEU评价两个弹幕数据之间的相似度。

BLEU是不对称的,语句A作为原语句,语句B作为翻译后语句计算得到的第一BLEU,语句B作为原语句,语句A作为翻译后语句计算得到的第一BLEU,第一BLEU和第二BLEU是不同的。而在数据增强过程中,是没有顺序的,也就是语句A转述为语句B和语句B转述为语句A都是可以的,在使用BLEU评价两个弹幕数据之间的相似度需要是对称的。

因此,针对一组训练弹幕数据,获得任意两个训练弹幕数据之间的第一BLEU以及第二BLEU。其中,第一BLEU是以两个训练弹幕数据的其中一个训练弹幕数据为参考标准时获得的,第二BLEU是以两个训练弹幕数据的另一个训练弹幕数据为参考标准时获得的。根据第一BLEU和第二BLEU,计算获得任意两个训练弹幕数据之间的相似度。

优选地,根据如下公式计算获得任意两个训练弹幕数据之间的相似度。

d=0.5[unigram_blue(a,b)+unigram_blue(b,a)]

其中,a和b均表示训练弹幕数据,unigram_blue()表示一元双语互译质量评估指标算法。unigram_blue(a,b)表示以训练弹幕数据b作为参考标准计算弹幕数据a和弹幕数据b之间的一元双语互译质量评估指标。unigram_blue(b,a)表示以训练弹幕数据a作为参考标准计算弹幕数据a和弹幕数据b之间的一元双语互译质量评估指标。

S302、根据相似度进行聚类,以得到多个训练弹幕数据簇。

其中,该步骤已经在上述实施例中详细说明,此处不再赘述。

S303、根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本。

其中,第一目标训练样本包括输入样本和输出样本,从多个训练弹幕数据簇中选择输入样本和输出样本。具体地,对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得输入样本和输出样本。也就是从同一训练弹幕数据簇中选择两个训练弹幕数据,其中一个作为输入样本,另外一个作为输出样本。

其中,第二目标训练样本包括正训练样本和负训练样本,从多个训练弹幕数据簇选择正训练样本和负训练样本。具体的,对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得正训练样本,对位于不同训练弹幕数据簇中两个训练弹幕数据组合获得负训练样本。正训练样本和负训练样本用于训练判别模型。

在对训练弹幕数据进行组合时,可以按照d

S304、采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。

其中,采用正训练样本和负训练样本对预训练后的判别模型进行训练,获得已训练的判别模型。采用输入样本和输出样本对预训练后的处理模型进行训练,获得已训练的处理模型。

在使用正训练样本和负训练样本对判别模型进行训练时,将正训练样本标记为1,将负训练样本标记为0。正训练样本作为判别模型的输入,正训练样本的标记值作为判别模型的输出。负训练样本作为判别模型的输入,负训练样本的标记值作为判别模型的输出。

在对处理模型进行训练前,可以使用互联网中文本数据对处理模型进行预训练。同样地,在对判别模型进行训练前,可以使用互联网中文本数据对判别模型进行预训练。

对判别模型进行预训练,再使用正训练样本和负训练样本对进行预训练后的判别模型进行训练,可以使判别模型快速收敛。对处理模型进行预训练,再使用输入样本和输出样本对进行预训练后的处理模型进行训练,可以使处理模型快速收敛。

如图3所示,处理模型包括GPT-2模型、线性层和回归层。先使用互联网中海量文本数据分别对GPT-2模型进行预训练,再使用输入样本和输出样本对GPT-2模型训练。

在使用输入样本和输出样本对GPT-2模型训练时,将输入样本和输出样本使用分隔符进行串接获得GPT-2模型的输入数据。例如:按照d

如图4所示,判别模型包括BERT模型、线性层和回归层。先使用互联网中海量文本数据分别对BERT模型进行预训练,再使用正训练样本和负训练样本对BERT模型训练。

在使用正训练样本和负训练样本对BERT模型训练时,将正训练样本或者负训练样本输入BERT模型,BERT模型输出训练样本的类别数据,线性层计算BERT模型输出的类别数据的交叉熵,并根据类别数据的交叉熵计算BERT模型的损失值,使用损失值优化BERT中的参数。回归层在计算相似弹幕数据的评估值时使用。

在本申请实施例提供的弹幕数据处理方法中,采用对称的BLEU计算获得两个训练弹幕数据之间的相似度,可以使每个训练弹幕数据簇中弹幕数据的大部分词语相同,也就是保证每个训练弹幕数据簇中弹幕相似度较高,进而可以获得高质量的第一目标训练样本和第二训练样本,使用第一目标训练样本训练处理模型,并使用第二目标训练样本训练判别模型,所获得已训练的处理模型和已训练的判别模型可以输出多样性高、语句通顺以及与当前弹幕数据语义接近的相似弹幕数据。

本申请另一实施例提供一种弹幕数据处理方法,该弹幕数据处理方法包括如下步骤:

S401、根据已训练的处理模型对当前弹幕数据处理获得多个相似弹幕数据。

其中,当前弹幕数据是指需要进行数据增强的弹幕数据。

若当前弹幕数据用于训练模型时,可以将已经标注过的弹幕数据作为当前弹幕数据。例如:根据弹幕数据表示人类的心情的类型对弹幕数据进行标注,将“伤心”、“难过”以及“悲伤”等弹幕数据标记为一类,将“开心”、“快乐”以及“高兴”等弹幕数据标记为另一类,可以选择任意一类中弹幕数据进行数据增强,以增加该类中弹幕数据量,进而可以使用进行增强后的该类弹幕数据训练模型。

当需要对服务机器人的语料数据库中弹幕数据进行增强,可以从语料数据库中任意弹幕数据作为当前弹幕数据。

将当前弹幕数据作为已训练的处理模型的输入数据,经过处理模型的处理获得当前弹幕数据的相似弹幕数据。

已训练的处理模型包括已训练的GPT-2模型、线性层和回归层。在使用已训练的处理模型对当前弹幕数据处理时,GPT-2模型对当前弹幕数据进行处理,并按位输出相似弹幕数据,线性层计算GPT-2模型输出的相似弹幕数据中每个字的交叉熵,回归层对相似弹幕数据中每个字的交叉熵进行归一化处理获得相似弹幕数据的联合概率值。根据相似弹幕数据的联合概率值从GPT-2模型生成的相似弹幕数据中确定当前弹幕数据的相似弹幕数据。

S402、根据已训练的判别模型计算每个相似弹幕数据的评估值。

其中,将相似弹幕数据和当前弹幕数据作为判别模型的输入数据,经过判别模型处理,可以输出相似弹幕数据的评估值。评估值用于评估相似弹幕数据和当前弹幕数据在语义上的相似度。

已训练的判别模型包括已训练的BERT模型、线性层和回归层。在使用已训练的判别模型计算相似弹幕数据的评估值时,BERT模型对相似弹幕数据和当前弹幕数据进行处理输出相似弹幕数据的类别数据,线性层计算BERT模型输出的类别数据的交叉熵,回归层根据类别数据的交叉熵计算相似弹幕数据的评估值。

S403、根据评估值从多个相似弹幕中确定输出弹幕数据。

其中,可以采用如下方式获得输出弹幕数据:对每个相似弹幕数据的评估值进行归一化处理获得采样概率。根据相似弹幕数据的采样概率对相似弹幕数据进行采样获得输出弹幕数据。

例如:可以根据采样概率构建采样集,采样集中包括所有相似弹幕数据,且每个相似弹幕数据的数量是根据采样概率确定的。也就是高采样概率对应的相似弹幕数据的数量大,低采样概率对应的相似弹幕数据的数量小。在对所构建采样集进行随机采样输出弹幕数据。也就保证评估值的相似弹幕数据被作为输出弹幕数据的概率高。

在本申请实施例提供的弹幕数据处理方法中,使用已经训练的处理模型对当前弹幕数据进行处理,输出多样性高且语句通顺的相似弹幕数据,使用已经训练的判别模型计算相似弹幕数据的评估值,以根据相似弹幕数据的评估值从多个相似弹幕中选择与当前弹幕数据语义相近的输出弹幕数据。另外,根据相似弹幕数据的评估值获得相似弹幕数据的采样概率,再对相似弹幕数据进行采样获得输出弹幕数据,所输出弹幕数据多样性更好。

如图5所示,本申请另一实施例提供一种弹幕数据增强装置500,该装置500包括:

计算模块501,用于计算已获取的预设数量的训练弹幕数据之间的相似度;

获得模块502,用于根据相似度进行聚类,以得到多个训练弹幕数据簇;

获得模块502还用于根据多个训练弹幕数据簇分别获得第一目标训练样本和第二目标训练样本;

获得模块502还用于采用第一目标训练样本对处理模型进行训练,以及采用第二目标训练样本对判别模型进行训练,以得到已训练的处理模型和已训练的判别模型。

可选地,计算模块501具体用于:

获得任意两个训练弹幕数据之间的第一双语互译质量评估指标以及第二双语互译质量评估指标;

根据第一双语互译质量评估指标和第二双语互译质量评估指标计算获得任意两个训练弹幕数据之间的相似度;

其中,第一双语互译质量评估指标是以其中一个训练弹幕数据为参考标准时获得的,第二双语互译质量评估指标是以另一个训练弹幕数据为参考标准时获得的。

可选地,计算模块501具体用于:

根据第一公式计算获得两个训练弹幕数据之间的相似度,其中,第一公式具体为:

d=0.5[unigram_blue(a,b)+unigram_blue(b,a)]

其中,d表示相似度,a和b均表示训练弹幕数据,unigram_blue()表示一元双语互译质量评估指标算法。

可选地,第二目标训练样本包括正训练样本和负训练样本;

获得模块502具体用于:

对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得正训练样本;

对位于不同训练弹幕数据簇中两个训练弹幕数据组合获得负训练样本;

获得模块502具体用于:

采用正训练样本和负训练样本对预训练后的判别模型进行训练,获得已训练的判别模型。

可选地,第一目标训练样本包括输入样本和输出样本;

获得模块502具体用于:

对位于相同训练弹幕数据簇中两个训练弹幕数据组合获得输入样本和输出样本;

获得模块502具体用于:

采用输入样本和输出样本对预训练后的处理模型进行训练,获得已训练的处理模型。

可选地,已训练的处理模型用于获取与当前弹幕数据对应的多个相似弹幕数据;已训练的判别模型用于计算相似弹幕数据的评估值,评估值用于从多个相似弹幕中确定输出弹幕数据。

可选地,评估值用于经过归一化处理后获得采样概率,采样概率用于对多个相似弹幕进行采样获得输出弹幕数据。

如图6所示,本申请另一实施例提供的电子设备600包括:发送器601、接收器602、存储器603以及处理器604。

发送器601,用于发送指令和数据;

接收器602,用于接收指令和数据;

存储器603,用于存储计算机执行指令;

处理器604,用于执行存储器存储的计算机执行指令,以实现上述实施例中弹幕数据处理方法所执行的各个步骤。具体可以参见前述弹幕数据处理方法实施例中的相关描述。

可选地,上述存储器603既可以是独立的,也可以跟处理器604集成在一起。当存储器603独立设置时,该电子设备还包括总线,用于连接存储器603和处理器604。

本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上电子设备所执行的弹幕数据处理方法。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

相关技术
  • 弹幕数据处理方法、装置、设备以及存储介质
  • 弹幕数据处理方法、装置、计算机可读存储介质和计算机设备
技术分类

06120112388545