掌桥专利:专业的专利平台
掌桥专利
首页

弹幕敏感词的处理方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:44:10


弹幕敏感词的处理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域,尤其涉及一种弹幕敏感词的处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的快速发展,各企业逐渐采用直播的方式作为信息交流的传播媒介,在直播的过程中,直播主持人可以和观看直播的观众通过弹幕内容进行互动,令直播主持人进一步明确观看直播的观众的需求,提高直播的收益效率。但在直播过程中往往存在一些不法分子利用弹幕传播一些暴力、反动等敏感言论,这对直播环境造成了极大的恶劣影响。

现有的敏感词屏蔽算法主要是基于传统的拼音、字形进行改进,并利用敏感词库做字符串匹配,从而实现敏感词屏蔽。但这种敏感词屏蔽算法的只能屏蔽音形相近的敏感词,但无法屏蔽那些语义相近的敏感词,导致屏蔽敏感词的准确率低下。

发明内容

本发明提供了一种弹幕敏感词的处理方法、装置、设备及存储介质,用于提高屏蔽弹幕敏感词的准确率。

本发明第一方面提供了一种弹幕敏感词的处理方法,包括:获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列;遍历所述词序列,并采用匹配算法将所述词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,所述预置敏感词词库至少包括形近词库和拼音词库;若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本;若所述多个分词字符与标准敏感词不匹配,则对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,在本发明第一方面的第一种实现方式中,所述获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列包括:获取弹幕文本,利用jieba分词算法对所述弹幕文本进行分词,得到第一分词序列;通过ltp分词算法对所述弹幕文本进行分词,得到第二分词序列;采用hanlp分词算法对所述弹幕文本进行分词,得到第三分词序列;基于合并原则对所述第一分词序列、所述第二分词序列和所述第三分词序列进行筛选,得到所述弹幕文本对应的词序列。

可选的,在本发明第一方面的第二种实现方式中,所述基于合并原则对所述第一分词序列、所述第二分词序列和所述第三分词序列进行筛选,得到所述弹幕文本对应的词序列包括:通过合并原则在所述第一分词序列、所述第二分词序列和所述第三分词序列中筛选出序列长度最短的分词序列,并将所述序列长度最短的分词序列确定为目标序列;若所述目标序列的数量为一个,则将所述目标序列确定为所述弹幕文本对应的词序列;若所述目标序列的数量为至少两个,则计算每个目标序列的分词概率值,并将所述分词概率值最大所对应的目标序列确定为所述弹幕文本对应的词序列。

可选的,在本发明第一方面的第三种实现方式中,所述若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本包括:若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则确定目标分词字符的字符位置;在所述字符位置上利用预置屏蔽字符替换所述目标分词字符,得到屏蔽后的弹幕文本。

可选的,在本发明第一方面的第四种实现方式中,所述若所述多个分词字符与标准敏感词不匹配,则对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本包括:若所述多个分词字符与标准敏感词不匹配,则对所述弹幕文本进行字符拆分,得到拆分字符,并将所述拆分字符输入至深度分类模型的映射层中,通过所述映射层将所述拆分字符映射成字符向量;根据所述字符向量确定所述拆分字符对应的类别标签;基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,在本发明第一方面的第五种实现方式中,所述根据所述字符向量确定所述拆分字符对应的类别标签包括:将所述字符向量输入至预训练模型中,通过所述预训练模型生成每个字符向量的字符概率占比;将每个字符向量的字符概率占比输入至条件随机场中,通过所述条件随机场识别对每个字符向量的字符概率占比进行分析,确定与所述字符向量对应的拆分字符的类别标签。

可选的,在本发明第一方面的第六种实现方式中,所述基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本包括:统计所述拆分字符对应的类别标签的标签数量,并统计所述类别标签中标签属性为敏感词属性的目标数量;通过所述标签数量和所述目标数量计算敏感字符占比值,当敏感词字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

本发明第二方面提供了一种弹幕敏感词的处理装置,包括:分词模块,用于获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列;匹配模块,用于遍历所述词序列,并采用匹配算法将所述词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,所述预置敏感词词库至少包括形近词库和拼音词库;第一替换模块,若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则用于利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本;第二替换模块,若所述多个分词字符与标准敏感词不匹配,则用于对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,在本发明第二方面的第一种实现方式中,所述分词模块包括:第一分词单元,用于获取弹幕文本,利用jieba分词算法对所述弹幕文本进行分词,得到第一分词序列;第二分词单元,用于通过ltp分词算法对所述弹幕文本进行分词,得到第二分词序列;第三分词单元,用于采用hanlp分词算法对所述弹幕文本进行分词,得到第三分词序列;筛选单元,用于基于合并原则对所述第一分词序列、所述第二分词序列和所述第三分词序列进行筛选,得到所述弹幕文本对应的词序列。

可选的,在本发明第二方面的第二种实现方式中,所述筛选单元具体用于:通过合并原则在所述第一分词序列、所述第二分词序列和所述第三分词序列中筛选出序列长度最短的分词序列,并将所述序列长度最短的分词序列确定为目标序列;若所述目标序列的数量为一个,则将所述目标序列确定为所述弹幕文本对应的词序列;若所述目标序列的数量为至少两个,则计算每个目标序列的分词概率值,并将所述分词概率值最大所对应的目标序列确定为所述弹幕文本对应的词序列。

可选的,在本发明第二方面的第三种实现方式中,所述第一替换模块具体用于:若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则确定目标分词字符的字符位置;在所述字符位置上利用预置屏蔽字符替换所述目标分词字符,得到屏蔽后的弹幕文本。

可选的,在本发明第二方面的第四种实现方式中,所述第二替换模块包括:拆分单元,若所述多个分词字符与标准敏感词不匹配,则用于对所述弹幕文本进行字符拆分,得到拆分字符,并将所述拆分字符输入至深度分类模型的映射层中,通过所述映射层将所述拆分字符映射成字符向量;确定单元,用于根据所述字符向量确定所述拆分字符对应的类别标签;替换单元,用于基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,在本发明第二方面的第五种实现方式中,所述确定单元具体用于:将所述字符向量输入至预训练模型中,通过所述预训练模型生成每个字符向量的字符概率占比;将每个字符向量的字符概率占比输入至条件随机场中,通过所述条件随机场识别对每个字符向量的字符概率占比进行分析,确定与所述字符向量对应的拆分字符的类别标签。

可选的,在本发明第二方面的第六种实现方式中,所述替换单元具体用于:统计所述拆分字符对应的类别标签的标签数量,并统计所述类别标签中标签属性为敏感词属性的目标数量;通过所述标签数量和所述目标数量计算敏感字符占比值,当敏感词字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

本发明第三方面提供了一种弹幕敏感词的处理设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述弹幕敏感词的处理设备执行上述的弹幕敏感词的处理方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的弹幕敏感词的处理方法。

本发明提供的技术方案中,获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列;遍历所述词序列,并采用匹配算法将所述词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,所述预置敏感词词库至少包括形近词库和拼音词库;若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本;若所述多个分词字符与标准敏感词不匹配,则对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。本发明实施例中,通过多种分词算法对弹幕文本进行分词,经整合后得到弹幕文本对应的词序列,将词序列中的分词字符和标准敏感词进行匹配,当两者匹配时,利用预置屏蔽字符代替对应的分词字符,当两者不匹配时,利用深度分类模型计算弹幕文本每个拆分字符的类别标签,根据类别标签进一步确定弹幕文本是否需要屏蔽,提高了屏蔽弹幕敏感词的准确率。

附图说明

图1为本发明实施例中弹幕敏感词的处理方法的一个实施例示意图;

图2为本发明实施例中弹幕敏感词的处理方法的另一个实施例示意图;

图3为本发明实施例中弹幕敏感词的处理装置的一个实施例示意图;

图4为本发明实施例中弹幕敏感词的处理装置的另一个实施例示意图;

图5为本发明实施例中弹幕敏感词的处理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种弹幕敏感词的处理方法、装置、设备及存储介质,用于提高屏蔽弹幕敏感词的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中弹幕敏感词的处理方法的一个实施例包括:

101、获取弹幕文本,利用分词算法对弹幕文本进行分词,得到多个分词序列,并对多个分词序列进行筛选,得到词序列;

可以理解的是,本发明的执行主体可以为弹幕敏感词的处理装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

随着互联网技术的快速发展,各企业逐渐采用直播的方式作为信息交流的传播媒介,在直播的过程中,直播主持人可以和观看直播的观众通过弹幕内容进行互动,令直播主持人进一步明确观看直播的观众的需求,提高直播的收益效率。但在直播过程中往往存在一些不法分子利用弹幕传播一些暴力、反动等敏感言论,这对直播环境造成了极大的恶劣影响。现有的敏感词屏蔽算法主要是基于传统的拼音、字形进行改进,并利用敏感词库做字符串匹配,从而实现敏感词屏蔽。这种敏感词屏蔽算法的最大缺点就是只能屏蔽那些音形相近的敏感词,但无法屏蔽那些语义相近的敏感词。

在屏蔽弹幕文本中的敏感词的过程中,首先需要获取直播或视频中弹幕文本,这里的弹幕文本可以利用现有的文字识别技术进行识别,将识别到的弹幕所对应的字符进行整合,即可得到对应的弹幕文本。需要说明的是,这里的文字识别技术是本领域中惯用的技术手段,故不在此赘述。在获取到弹幕文本之后,利用多个分词算法对弹幕文本进行分词,对弹幕文本进行排列组合,得到不同的分词序列。

需要说明的是,因不同的分词算法对同一弹幕文本进行分词计算,可能得到不同的分词序列结果,所以在本申请中采用至少三种分词算法对弹幕文本进行分词计算,提高分词结果的准确性,具体的,本申请中所使用的是jieba分词算法、ltp分词算法、hanlp分词算法。

需要强调的是,为进一步保证上述弹幕文本的私密和安全性,上述弹幕文本还可以存储于一区块链的节点中。

102、遍历词序列,并采用匹配算法将词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,预置敏感词词库至少包括形近词库和拼音词库;

循环遍历步骤101中得到的词序列中的每一个分词字符,并将分词字符与预置敏感词词库中的标准敏感词进行匹配,其中预置敏感词词库中至少包括形近词库和拼音词库,依次将分词字符与形近词库和拼音词库进行匹配,若分词字符与预置敏感词库中的任何一个标准敏感词相匹配,则说明该弹幕文本中存在敏感词。

103、若多个分词字符中至少一个目标分词字符与标准敏感词匹配,则利用预置屏蔽字符替换至少一个目标分词字符,得到屏蔽后的弹幕文本;

需要说明的是,弹幕文本中的分词字符的数量为多个,一旦弹幕文本中的存在分词字符(一个或至少两个)与标准敏感词相匹配,就说明弹幕文本中存在敏感词,则需要定位于标准敏感词相匹配的分词字符的字符位置,并利用预置屏蔽字符将该分词字符替换掉,直接得到屏蔽后的弹幕文本。

104、若多个分词字符与标准敏感词不匹配,则对弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算拆分字符的类别标签,基于类别标签计算拆分字符的敏感字符占比值,当拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换拆分字符,得到屏蔽后的弹幕文本。

若分词字符与标准敏感词不匹配,并不能说明弹幕文本中不存在敏感词,需要进一步对弹幕文本进行检测,首先对弹幕文本进行字符拆分,这里进行的字符拆分即为将弹幕文本中的每个字符均进行拆分,进而得到弹幕文本对应的拆分字符,可以理解的是,这里的拆分字符数量为多个;然后利用深度分类模型计算每个拆分字符的类别标签,通过不同类别的分类标签,计算拆分字符的敏感字符占比值,当拆分字符的敏感字符占值比大于敏感阈值时,利用屏蔽字符替换拆分字符,得到屏蔽后的弹幕文本。

本发明实施例中,通过多种分词算法对弹幕文本进行分词,经整合后得到弹幕文本对应的词序列,将词序列中的分词字符和标准敏感词进行匹配,当两者匹配时,利用预置屏蔽字符代替对应的分词字符,当两者不匹配时,利用深度分类模型计算弹幕文本每个拆分字符的类别标签,根据类别标签进一步确定弹幕文本是否需要屏蔽,提高了屏蔽弹幕敏感词的准确率。

请参阅图2,本发明实施例中弹幕敏感词的处理方法的另一个实施例包括:

201、获取弹幕文本,利用分词算法对弹幕文本进行分词,得到多个分词序列,并对多个分词序列进行筛选,得到词序列;

具体的,服务器首先获取弹幕文本,利用jieba分词算法对弹幕文本进行分词,得到第一分词序列。其中,jieba分词算法对弹幕文本进行分词的步骤如下:

(1)加载预置字典,生成预置字典对应的字符前缀树;

(2)使用正则表达式获取连续的中文字符和英文字符,并利用获取到的中文字符、英文字符和字符前缀树将待分词的弹幕文本切分成短语列表,通过查字典(DAG)和动态规划计算每个短语的最大概率组合路径,而对于没有在字典中查到的字,将其组合成一个新的短语,并使用HMM模型进行分词;

(3)利用python的yield语法生成词语生成器,通过词语生成器返回分词后的词语,得到第一分词序列。

其次,服务器通过ltp分词算法对弹幕文本进行分词,得到第二分词序列。其中,ltp分词算法对弹幕文本进行分词的步骤如下:

(1)提取弹幕文本中文本字符对应的字符特征,可以理解的是,这里的文本字符存在多个,对应的字符特征也为多个;

(2)根据文本字符对应的字符特征计算特征权重值,同样的这里的特征权重值也为多个;

(3)通过动态规划路径(Viterbi)预计特征权重值对文本字符进行解码,生成对应的分词序列,得到第二分词序列。

然后,服务器采用hanlp分词算法对弹幕文本进行分词,得到第三分词序列。其中,hanlp分词算法对弹幕文本进行分词的步骤如下:

(1)计算弹幕文本对应的语料图谱,这里的语料图谱指的是弹幕文本中所有词语可能构成的图;

(2)利用快速offset法对构成的语料图谱进行存储,其中,语料图谱是以一个一维数组进行存储的,其中数组中每个元素是一个单链表;

(3)通过动态规划路径(Viterbi)计算每个词语组合的权重值并筛选出权重值需大的词语组合,生成对应的分词序列,得到第三分词序列。

需要说明的是,这里的分词算法还可以包括盘古分词算法、Yaha分词算法和清华THULAC分词算法等,利用多个分词算法对弹幕文本进行分词处理再融合可以有效的减少了文本的分词错误,从而进一步提高了算法对敏感词屏蔽的准确率。

最后,服务器基于合并原则对第一分词序列、第二分词序列和第三分词序列进行筛选,得到弹幕文本对应的词序列。具体的,服务器通过合并原则在第一分词序列、第二分词序列和第三分词序列中筛选出序列长度最短的分词序列,并将序列长度最短的分词序列确定为目标序列;若目标序列的数量为一个,则服务器将目标序列确定为弹幕文本对应的词序列;若目标序列的数量为至少两个,则服务器计算每个目标序列的分词概率值,并将分词概率值最大所对应的目标序列确定为弹幕文本对应的词序列。

在得到第一分词序列、第二分词序列和第三分词序列之后,根据合并原则对得到的三个分词序列进行筛选,这里的合并的原则就是按照最小切分从多个分词序列中选择长度最短的一个作为最终的分词结果,若长度最短的分词序列不止一个,则从中挑选最可能的一个(即分词序列中的每个词的概率和最大的那个序列)作为最终的分词结果。举例子说明:假设输入文本为“你有病吗?”,且分词工具或算法数量n=3(即jieba分词、ltp分词、hanlp分词),再假设这三种分词工具的切分结果分别如下:

分词序列1:你->有->病->吗->? 序列长度:4

分词序列2:你->有病->吗->? 序列长度:3

分词序列3:你有->病->吗->? 序列长度:3

则执行“合并n个分词序列”后得到最终的分词序列为:“你->有病->吗->?”。

需要强调的是,为进一步保证上述弹幕文本的私密和安全性,上述弹幕文本还可以存储于一区块链的节点中。

202、遍历词序列,并采用匹配算法将词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,预置敏感词词库至少包括形近词库和拼音词库;

循环遍历步骤201中得到的词序列中的每一个分词字符,并将分词字符与预置敏感词词库中的标准敏感词进行匹配,其中预置敏感词词库中至少包括形近词库和拼音词库,依次将分词字符与形近词库和拼音词库进行匹配,若分词字符与预置敏感词库中的任何一个标准敏感词相匹配,则说明该弹幕文本中存在敏感词。

这里预置敏感词库中的形近词库和拼音词库是基于预置的字典建立的,预置的字典为标准的字词结合的典籍,其记录了大量的字与词语语料。其中,形近词库用于指示与标准敏感词语料的字符形状相近的语料集合,如:标准敏感词:干,其形近混淆语料为:于;拼音词库用于指示与标准敏感词语料的字符音标易产生混淆音标的语料集合,如近音混淆语料为:麻痹。

203、若多个分词字符中至少一个目标分词字符与标准敏感词匹配,则利用预置屏蔽字符替换至少一个目标分词字符,得到屏蔽后的弹幕文本;

具体的,若多个分词字符中至少一个目标分词字符与标准敏感词匹配,则服务器确定目标分词字符的字符位置;服务器在字符位置上利用预置屏蔽字符替换目标分词字符,得到屏蔽后的弹幕文本。

当分词字符与标准敏感词匹配时,可以利用统一的定位符号在分词字符与标准敏感词相同的位置上进行标记,这样在进行分词字符查找时,直接查找定位符号即可,提高了查找分词字符的字符位置的准确性。

需要说明的是,这里的预置屏蔽字符可以为预设的符号,如“*”、“#”、“”,也可以为预设的文字,如“口”,在本申请中,并不对预置屏蔽字符进行设定,可以根据实际情况进行屏蔽字符的设定。

204、若多个分词字符与标准敏感词不匹配,则对弹幕文本进行字符拆分,得到拆分字符,并将拆分字符输入至深度分类模型的映射层中,通过映射层将拆分字符映射成字符向量;

若没有分词字符与标准敏感词匹配,并不能说明弹幕文本中不存在敏感词,需要进一步对弹幕文本进行检测,步骤201至步骤203是从词语的角度对弹幕文本进行检测的,而本步骤中是从字的角度对弹幕文本进行检测的。首先需要对弹幕文本进行拆分,举例说明:按输入文本中的每个字符对如下弹幕文本进行切分;输入:你有病吗?输出:你->有->病->吗->?然后直接将拆分字符输入至深度分类模型的映射层中,通过映射层直接将拆分字符映射成字符向量,最后根据字符向量确定拆分字符对应的类别标签。

205、根据字符向量确定拆分字符对应的类别标签;

具体的,服务器将字符向量输入至预训练模型中,通过预训练模型生成每个字符向量的字符概率占比;服务器将每个字符向量的字符概率占比输入至条件随机场中,通过条件随机场识别对每个字符向量的字符概率占比进行分析,确定与字符向量对应的拆分字符的类别标签。

需要说明的是,这里的类别标签包括五种类型:B-d(敏感词起始字符)、I-d(敏感词中间字符)、B-g(非敏感词起始字符)、I-g(非敏感词中间字符)、O(其他非汉字字符(即标点符号、字母、数字等))。每个弹幕文本中存在类别标签为敏感词的拆分字符越多,说明该弹幕文本中的存在敏感词的概率越大。

举例说明,将例句“你有病吗?”对应的字符向量输入至预训练模型中,会生成每个字符向量的字符概率占比,分别如下表1所示:

表1例句中每个字符向量的字符概率占比示例表

将上述每个字符向量的字符概率占比输入至条件随机场中,即可确定字符向量对应的拆分字符的类别标签,如下表2所示:

表2例句中每个拆分字符的类别标签示例表

206、基于类别标签计算拆分字符的敏感字符占比值,当拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换拆分字符,得到屏蔽后的弹幕文本。

具体的,服务器统计拆分字符对应的类别标签的标签数量,并统计类别标签中标签属性为敏感词属性的目标数量;服务器通过标签数量和目标数量计算敏感字符占比值,当敏感词字符占比值大于敏感阈值时,利用预置屏蔽字符替换拆分字符,得到屏蔽后的弹幕文本。

在最后服务器统计拆分字符对应分类标签的标签数量以及标签属性为敏感词属性的目标数量,通过标签数量和目标数量计算,根据敏感字符占比值判断是否屏蔽该词,即当敏感词字符占比值大于敏感阈值时,利用屏蔽字符替换拆分字符。这里的敏感阈值优选设定为0.5。

举个例子:假设当前遍历到的词为“病”时,则从ALBERT+CRF的输出字符类别序列中找到其对应的类别标签(即上述的“I-d”),而这个类别标签属于敏感字符,因此计算得到:敏感字符占比=1/1=1,1大于0.5,所以屏蔽当前“病”这个词。

本发明实施例中,通过多种分词算法对弹幕文本进行分词,经整合后得到弹幕文本对应的词序列,将词序列中的分词字符和标准敏感词进行匹配,当两者匹配时,利用预置屏蔽字符代替对应的分词字符,当两者不匹配时,利用深度分类模型计算弹幕文本每个拆分字符的类别标签,根据类别标签进一步确定弹幕文本是否需要屏蔽,提高了屏蔽弹幕敏感词的准确率。

上面对本发明实施例中弹幕敏感词的处理方法进行了描述,下面对本发明实施例中弹幕敏感词的处理装置进行描述,请参阅图3,本发明实施例中弹幕敏感词的处理装置一个实施例包括:

分词模块301,用于获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列;

匹配模块302,用于遍历所述词序列,并采用匹配算法将所述词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,所述预置敏感词词库至少包括形近词库和拼音词库;

第一替换模块303,若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则用于利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本;

第二替换模块304,若所述多个分词字符与标准敏感词不匹配,则用于对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

本发明实施例中,通过多种分词算法对弹幕文本进行分词,经整合后得到弹幕文本对应的词序列,将词序列中的分词字符和标准敏感词进行匹配,当两者匹配时,利用预置屏蔽字符代替对应的分词字符,当两者不匹配时,利用深度分类模型计算弹幕文本每个拆分字符的类别标签,根据类别标签进一步确定弹幕文本是否需要屏蔽,提高了屏蔽弹幕敏感词的准确率。

请参阅图4,本发明实施例中弹幕敏感词的处理装置的另一个实施例包括:

分词模块301,用于获取弹幕文本,利用分词算法对所述弹幕文本进行分词,得到多个分词序列,并对所述多个分词序列进行筛选,得到词序列;

匹配模块302,用于遍历所述词序列,并采用匹配算法将所述词序列中的多个分词字符与预置敏感词词库中的标准敏感词进行匹配,所述预置敏感词词库至少包括形近词库和拼音词库;

第一替换模块303,若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则用于利用预置屏蔽字符替换所述至少一个目标分词字符,得到屏蔽后的弹幕文本;

第二替换模块304,若所述多个分词字符与标准敏感词不匹配,则用于对所述弹幕文本进行字符拆分,得到拆分字符,利用深度分类模型计算所述拆分字符的类别标签,基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用所述预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,分词模块301包括:

第一分词单元3011,用于获取弹幕文本,利用jieba分词算法对所述弹幕文本进行分词,得到第一分词序列;

第二分词单元3012,用于通过ltp分词算法对所述弹幕文本进行分词,得到第二分词序列;

第三分词单元3013,用于采用hanlp分词算法对所述弹幕文本进行分词,得到第三分词序列;

筛选单元3014,用于基于合并原则对所述第一分词序列、所述第二分词序列和所述第三分词序列进行筛选,得到所述弹幕文本对应的词序列。

可选的,筛选单元3014具体用于:

通过合并原则在所述第一分词序列、所述第二分词序列和所述第三分词序列中筛选出序列长度最短的分词序列,并将所述序列长度最短的分词序列确定为目标序列;

若所述目标序列的数量为一个,则将所述目标序列确定为所述弹幕文本对应的词序列;

若所述目标序列的数量为至少两个,则计算每个目标序列的分词概率值,并将所述分词概率值最大所对应的目标序列确定为所述弹幕文本对应的词序列。

可选的,第一替换模块303具体用于:

若所述多个分词字符中至少一个目标分词字符与标准敏感词匹配,则确定目标分词字符的字符位置;

在所述字符位置上利用预置屏蔽字符替换所述目标分词字符,得到屏蔽后的弹幕文本。

可选的,第二替换模块304包括:

拆分单元3041,若所述多个分词字符与标准敏感词不匹配,则用于对所述弹幕文本进行字符拆分,得到拆分字符,并将所述拆分字符输入至深度分类模型的映射层中,通过所述映射层将所述拆分字符映射成字符向量;

确定单元3042,用于根据所述字符向量确定所述拆分字符对应的类别标签;

替换单元3043,用于基于所述类别标签计算所述拆分字符的敏感字符占比值,当所述拆分字符的敏感字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

可选的,确定单元3042具体用于:

将所述字符向量输入至预训练模型中,通过所述预训练模型生成每个字符向量的字符概率占比;

将每个字符向量的字符概率占比输入至条件随机场中,通过所述条件随机场识别对每个字符向量的字符概率占比进行分析,确定与所述字符向量对应的拆分字符的类别标签。

可选的,替换单元3043具体用于:

统计所述拆分字符对应的类别标签的标签数量,并统计所述类别标签中标签属性为敏感词属性的目标数量;

通过所述标签数量和所述目标数量计算敏感字符占比值,当敏感词字符占比值大于敏感阈值时,利用预置屏蔽字符替换所述拆分字符,得到屏蔽后的弹幕文本。

本发明实施例中,通过多种分词算法对弹幕文本进行分词,经整合后得到弹幕文本对应的词序列,将词序列中的分词字符和标准敏感词进行匹配,当两者匹配时,利用预置屏蔽字符代替对应的分词字符,当两者不匹配时,利用深度分类模型计算弹幕文本每个拆分字符的类别标签,根据类别标签进一步确定弹幕文本是否需要屏蔽,提高了屏蔽弹幕敏感词的准确率。

上面图3和图4从模块化功能实体的角度对本发明实施例中的弹幕敏感词的处理装置进行详细描述,下面从硬件处理的角度对本发明实施例中弹幕敏感词的处理设备进行详细描述。

图5是本发明实施例提供的一种弹幕敏感词的处理设备的结构示意图,该弹幕敏感词的处理设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对弹幕敏感词的处理设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在弹幕敏感词的处理设备500上执行存储介质530中的一系列指令操作。

弹幕敏感词的处理设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的弹幕敏感词的处理设备结构并不构成对弹幕敏感词的处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种弹幕敏感词的处理设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述弹幕敏感词的处理方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述弹幕敏感词的处理方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 弹幕敏感词的处理方法、装置、设备及存储介质
  • 一种区块链敏感词处理方法、装置、存储介质及设备
技术分类

06120113033997