掌桥专利:专业的专利平台
掌桥专利
首页

网络有害信息关键词提取方法和有害关键词库构建方法

文献发布时间:2023-06-19 16:04:54



技术领域

本发明属于数据挖掘技术领域,具体涉及一种网络有害信息关键词提取方法和有害关键词库构建方法。

背景技术

随着互联网技术的快速发展,我国已经全面进入信息化时代,信息的存储成本更低,传播更加便捷,使得网络信息量呈现指数增长。

丰富的信息在给我们的生活带来诸多便利的同时,也为有害信息的诞生与传播提供了渠道。而目前,我国对互联网信息的监控和对信息的分级还处于发展阶段,官方监管系统还存在诸多漏洞。面对互联网上的海量数据,普通居民尤其是缺少社会经验的未成年人,缺乏对信息的辨别能力,容易受到有害信息的影响,大量网络有害信息会荼毒居民的日常生活,影响社会的稳定性。

因此,如何准确地对网络内容中有害信息进行关键词的识别和提取,以辅助官方机构进行有害信息巡查,是一个亟待解决的问题。

发明内容

为了解决现有技术中存在的上述问题,本发明提供了一种网络有害信息关键词提取方法和有害关键词库构建方法。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明实施例提出了一种网络有害信息关键词提取方法,包括:

从互联网上获取初始文本数据信息;

将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词;

利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性;

利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。

在本发明的一个实施例中,所述将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词,包括:

将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述;

将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,将分词属性描述后的分词作为判定词。

在本发明的一个实施例中,所述将所述初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述,包括:

将所述初始文本数据信息P划分为多个字段,得到P={P

针对每个字段P

其中,i∈[1,N];Pid

在本发明的一个实施例中,所述将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,包括:

将每个字段划分为多个分词,得到该字段的分词数组V={V

针对所述分词数组中的每个分词V

其中,j∈[1,M];Vid

在本发明的一个实施例中,所述利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性,包括:

针对每个判定词,基于该判定词的分词信息内容,在所述原始有害关键词库中查找是否有包含该判定词的有害信息内容;若有,表示匹配结果为成功,则确定该判定词为有害分词,并将该判定词的分词价值量赋值为1;否无,表示匹配结果为未成功,则确定该判定词为无害分词,并将该判定词的分词价值量赋值为0。

在本发明的一个实施例中,所述针对每个判定词,基于该判定词的分词信息内容,在所述原始有害关键词库中查找是否有包含该判定词的有害信息内容,包括:

针对每个判定词,判断在所述原始有害关键词库中是否有与该判定词的文本内容相同的关键词,若有与该判定词的文本内容相同的关键词,则确定查找到包含该判定词的有害信息内容;

若无与该判定词的文本内容相同的关键词,利用该判定词的分词关联性,确定由该判定词和与该判定词有关联的其他分词共同构成的各关联词组,判断在所述原始有害关键词库中是否有与至少一个所述关联词组的文本内容相同的关键词组,若有,则确定查找到包含该判定词的有害信息内容。

在本发明的一个实施例中,所述利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词,包括:

针对每个有害分词,在该有害分词出现的每个字段中,分别确定该有害分词的所有关联词组;

对该有害分词的每个关联词组,统计该关联词组在该有害分词出现的所有字段中的出现次数,并将出现次数排名在前的预设数量个关联词组中,除去该有害分词之外的其余分词提取出作为该有害分词对应的疑似有害分词。

在本发明的一个实施例中,所述确定每个判定词的有害性之后,所述方法还包括:

利用每个判定词的有害性判定结果,对所述初始文本数据信息不同层级中有害信息的丰度进行评估。

在本发明的一个实施例中,所述利用每个判定词的有害性判定结果,对所述初始文本数据信息不同层级中有害信息的丰度进行评估,包括:

针对每个字段,利用该字段内各判定词被赋值的分词价值量、分词权重和分词关联性计算该字段的字段价值量,以利用该字段的字段价值量对字段中有害信息的丰度进行评估;

利用计算得到的所述初始文本数据信息中所有字段的字段价值量,计算所述初始文本数据信息对应的信息集价值量,以利用所述信息集价值量对所述初始文本数据信息中有害信息的丰度进行评估。

第二方面,本发明实施例提出了一种有害关键词库构建方法,包括:

从互联网上获取初始文本数据信息;

将所述初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词;

利用所述判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性;

利用确定的每个有害分词,在所述初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词;

针对每个疑似有害分词,利用分词导入词库的方式得到该疑似有害分词对应的测试有害关键词库,并对该疑似有害分词对应的测试有害关键词库进行性能检验,若性能满足预设要求,则将该疑似有害分词确定为已判有害分词;

基于所有已判有害分词和所述原始有害关键词库,得到更新的有害关键词库。

本发明实施例所提供的网络有害信息关键词提取方法,通过将互联网上获取的初始文本数据信息以分词为最小单位进行多个级别的分级划分,并对每一级划分出的各单位均进行与级别对应的属性标准化描述,能够将凌乱的信息集划分为格式统一的标准化分词并进行属性标注得到判定词。判定词具有标准化、详细的数据信息,能够方便对整个信息集进行有害信息提取等处理。通过利用判定词的属性,进行判定词与原始有害关键词库的匹配,能够利用匹配结果确定每个判定词是否为有害分词,并基于确定的每个有害分词在所述初始文本数据信息中,利用分词之间的关联性属性,查找到与该有害分词同时出现且出现次数达到预设要求的分词,进行提取作为疑似有害分词。可见,本发明实施例能够基于语境中有害信息的关联性,查找到有害分词相关的所有有害信息,因此,能够对互联网环境中的有害信息进行全面准确的识别和提取。利用本发明实施例提取出的疑似有害分词,能够有效辅助官方机构进行有害信息巡查等工作。

进一步的,本发明实施例利用分词有害性的判定结果,能够对初始文本数据信息不同层级中有害信息的丰度进行评估,也有利于有害信息巡查等工作的进行。

本发明实施例所提供的有害关键词库构建方法基于本发明实施例提供的网络有害信息关键词提取方法实现,在提取到疑似有害分词后,将各疑似有害分词和相关的属性信息导入所述原始有害关键词库,得到测试有害关键词库;对所述测试有害关键词库进行性能检验,在其性能满足预设要求时,确定所述测试有害关键词库为更新的有害关键词库。本发明实施例通过性能检验步骤,能够进一步核实疑似有害分词是否真正有害,并在确定有害时进行有害关键词库的更新,因此,能够进一步保证导入的有害信息的准确性。本发明实施例采用基于机器学习的关键词库构建方法解决互联网有害信息识别提取和词库构建问题,能够根据网络热点及时对互联网环境有害信息进行识别和关键词提取完成词库构建,并根据既有词库和新数据信息进行系统自我迭代升级。该有害关键词库构建方法具有收敛性快,效率高,能够进行我学习以及维护成本低等优点,能够用于网络有害信息词库的升级和互联网有害信息巡查,在网络环境下根据实时热点及时更新敏感词汇,监控敏感信息的产生和传播。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1为本发明实施例提供的一种网络有害信息关键词提取方法的流程示意图;

图2为本发明实施例提供的网络有害信息关键词提取方法中信息匹配的流程示意图;

图3为本发明实施例所提供的网络有害信息关键词提取方法中截止到不同层级有害信息丰度评估的部分流程示意图;

图4为本发明实施例提供的一种有害关键词库构建方法的流程示意图;

图5为本发明实施例所提供的有害关键词库构建方法中关于词库检测和更新部分的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了准确地对网络内容中有害信息进行关键词的识别和提取,以辅助官方机构进行有害信息巡查,本发明实施例提供了一种网络有害信息关键词提取方法和一种有害关键词库构建方法。

需要说明的是,本发明实施例所提供的一种网络有害信息关键词提取方法和一种有害关键词库构建方法的执行主体可以分别为一种网络有害信息关键词提取装置以及一种有害关键词库构建装置,任一装置均可以运行于对应的电子设备中。其中,对应的电子设备可以为一服务器或终端设备,当然并不局限于此。

第一方面,本发明实施例提供了一种网络有害信息关键词提取方法,如图 1所示,可以包括以下步骤:

S1,从互联网上获取初始文本数据信息。

本发明实施例可以利用爬虫技术获取存在于互联网上的文本数据,即得到初始文本数据信息。

S2,将初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词。

本发明实施例可以将初始文本数据信息按照内容量从高到低划分为多个级别,比如各级别的单位可以依次为章节、字段和分词。其中,分词为划分的最小单位,分词即为单词,如a、b等。可以理解的是,字段由多个分词构成,章节由多个段落构成,而初始文本数据信息又由多个章节组成。当然,本发明实施例对初始文本数据信息的级别划分形式可以不限于以上方式,但不论为何种划分方式,均具有最小单位分词。

本发明实施例可以根据初始文本数据信息的内容量大小,确定所划分的级别数,比如可以预先设置从小到大的多个阈值:第一阈值和第二阈值等。当判定当前获取的初始文本数据信息的内容量大于第一阈值但小于第二阈值时,将初始文本数据信息划分为字段和分词两个级别;当判定当前获取的初始文本数据信息的内容量大于或等于第二阈值时,将初始文本数据信息划分为章节、字段和分词三个级别,等等。

或者,本发明实施例可以获取内容量在一定范围内的初始文本数据信息,之后依据与该内容量适应的固定的级别划分方式进行后续处理。

或者,由于初始文本数据信息的内容量差异并不大,本发明实施例为了简便处理,提高效率,也可以针对所有初始文本数据信息,均选取一种固定的级别划分方式。

在将初始文本数据信息划分为多个级别后,本发明实施例针对每一级别,将划分出的各单位均进行多方面的属性标准化描述,也就是利用一个单位多方面的属性来描述该单位的信息内容以实现各级别的规格统一化和信息内容标准化。多方面的属性比如可以包括该单位的位置信息、内容信息,以及关于有害性的相关信息,等等。针对不同的级别,属性标准化描述的方式可以不同,比如,单位越小,属性标准化描述可以越细致,等等。

比如,可选的一种实施方式中,将初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词,可以包括以下步骤:

S21,将初始文本数据信息划分为多个字段,并对每个字段进行标准化的字段属性描述。

S22,将每个字段划分为多个分词,并对每个分词进行标准化的分词属性描述,将分词属性描述后的分词作为判定词。

也就是说,在该种实施方式中,将初始文本数据信息划分为字段和分词两个级别。

针对S21,可选的一种实施方式中,可以包括:

S211,将初始文本数据信息P划分为多个字段,得到P={P

S212,针对每个字段P

其中,对于

Det

Wei

Val

可见,针对每个字段,均可以用标准化的4方面属性进行描述,其中,除了字段价值量Val

针对S22,可选的一种实施方式中,可以包括:

S221,将每个字段划分为多个分词,得到该字段的分词数组 V={V

S222,针对分词数组中的每个分词V

其中,对于

Det

Rel

Wei

其中,L

为了便于理解,在此举例说明,比如分词V

Val

可见,针对每个分词,均可以用标准化的5方面属性进行描述,其中,除了分词价值量Val

在此对字段信息内容Det

本发明实施例通过对初始文本数据信息进行不同层级的划分和属性信息描述,完成了信息内容标准化。经过对初始文本数据信息对应的信息集进行分段,再对所得字段进行切片也就是分词划分处理,可以将凌乱的信息集划分为格式统一的标准化分词,并对分词进行属性信息标注得到判定词。判定词具有标准化、详细的数据信息,方便对整个信息集进行评估和后续步骤的信息处理。

关于上述过程,可以用对信息集建立如下模型来表述:

其中,F(x)表示为将信息集划分为字段集合的过程,并在此过程中将字段标准化并提取字段的属性信息,P

S3,利用判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性。

原始有害关键词库中含有若干有害分词以及相应的词组等,每个有害分词也标识有5方面的属性信息。若在原始有害关键词库中能够查找到与判定词的属性满足一定相似性的有害信息,则能够确定该判定词是有害的,反之则可以确定该判定词是无害的,继而可以利用分词有害性判定结果对原先空置的分词价值量进行赋值。

因此,可选的一种实施方式中,S3可以包括:

针对每个判定词,基于该判定词的分词信息内容,在原始有害关键词库中查找是否有包含该判定词的有害信息内容。

若有,表示匹配结果为成功,则确定该判定词为有害分词,并将该判定词的分词价值量赋值为1;否无,表示匹配结果为未成功,则确定该判定词为无害分词,并将该判定词的分词价值量赋值为0。

其中,针对每个判定词,基于该判定词的分词信息内容,在原始有害关键词库中查找是否有包含该判定词的有害信息内容,可以包括:

针对每个判定词,判断在原始有害关键词库中是否有与该判定词的文本内容相同的关键词,若有与该判定词的文本内容相同的关键词,则确定查找到包含该判定词的有害信息内容;

若无与该判定词的文本内容相同的关键词,利用该判定词的分词关联性,确定由该判定词和与该判定词有关联的其他分词共同构成的各关联词组,判断在原始有害关键词库中是否有与至少一个关联词组的文本内容相同的关键词组,若有,则确定查找到包含该判定词的有害信息内容。

当然,如果在原始有害关键词库中没有查找到与该判定词的文本内容相同的关键词,也没有查找到与任何一个关联词组的文本内容相同的关键词组,则确定没有查找到包含该判定词的有害信息内容。

为了便于理解,在此举例说明,针对一个判定词“a”,将其在原始有害关键词库中进行检索,如果原始有害关键词库中能够检索到“a”,则说明直接匹配成功,将判定词“a”的分词价值量赋值为1,并结束该分词的匹配进程;如果原始有害关键词库中未能够检索到“a”,则利用“a”的属性:分词关联性Rel

上述匹配过程可以用以下公式表达:

其中,Val

当然,还可以进一步结合分词长度L

可以理解的是,经过S3步骤,每个分词的分词价值量得到赋值。

关于S3步骤的具体流程,请参见图2理解,图2为本发明实施例提供的网络有害信息关键词提取方法中信息匹配的流程示意图。其中,现有词库指原始有害关键词库。

可选的一种实施方式中,确定每个判定词的有害性之后,方法还包括:

利用每个判定词的有害性判定结果,对初始文本数据信息不同层级中有害信息的丰度进行评估。

具体的,根据每个判定词被赋值的分词价值量,对初始文本数据信息不同层级中有害信息的丰度进行评估。其中,有害信息的丰度表征有害信息的丰富程度。

可选的一种实施方式中,利用每个判定词的有害性判定结果,对初始文本数据信息不同层级中有害信息的丰度进行评估,包括:

1)针对每个字段,利用该字段内各判定词被赋值的分词价值量、分词权重和分词关联性计算该字段的字段价值量,以利用该字段的字段价值量对字段中有害信息的丰度进行评估。

该步骤为字段价值量判断,具体根据前文判定词的价值量结合分词之间的关联关系,以及在所属字段的权重,得到该字段的价值量,用于衡量该字段中有害信息的丰度。具体计算公式如下:

其中,Val

Val

其中,可以理解的是,通过该步骤的字段价值量判断,初始文本数据信息的每个字段最终有一个字段价值量Val

2)利用计算得到的初始文本数据信息中所有字段的字段价值量,计算初始文本数据信息对应的信息集价值量,以利用信息集价值量对初始文本数据信息中有害信息的丰度进行评估。

该步骤是对信息集的价值量进行评估,该评估过程用如下公式表示:

V

其中V

具体的,基于和1)同样的原理,计算信息集的价值量V

其中,Val

可以理解的是,通过上述判定词匹配、字段价值量判断和信息集的价值量评估,可以对初始文本数据信息不同层级,即分词、字段和数据集本身中有害信息的丰度进行评估,确定其有害性,具体的,字段价值量和信息集的价值量均为0~1之间的数值,数值越高说明含有有害信息的程度越高,即有害信息的丰度越高。前面步骤的流程示意可以参见图3,图3为本发明实施例所提供的网络有害信息关键词提取方法中截止到不同层级有害信息丰度评估的部分流程示意图。

本发明实施例通过该体系能够科学地评估不同层级有害信息的丰度;能够建立快速响应机制,及时根据反馈结果判定该信息有害与否并准确定位有害信息的位置坐标。具体的,针对一个有害字段,可以根据其字段ID编号进行定位;而针对一个有害分词,可以根据其分词ID编号进行定位,确定它是哪一个分段的哪一个分词。

S4,利用确定的每个有害分词,在初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。

由于分词之间具有一定的关联性,在一些有害的语义场景中,往往一些分词会同时出现,如果一个分词是有害分词,那么,和它同时出现且出现频率较高的分词也有可能是有害分词,因此,可以利用分词的关联性查找新增有害分词及故意模糊的隐晦有害词。

可选的一种实施方式中,利用确定的每个有害分词,在初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词,包括:

(1)针对每个有害分词,在该有害分词出现的每个字段中,分别确定该有害分词的所有关联词组。

该步骤利用判定词的分词关联性Rel

在字段P

在字段P

(2)对该有害分词的每个关联词组,统计该关联词组在该有害分词出现的所有字段中的出现次数,并将出现次数排名在前的预设数量个关联词组中,除去该有害分词之外的其余分词提取出作为该有害分词对应的疑似有害分词。

在上述示例中,计算“a”的每个关联词组在字段P

或者,预设数量可以为大于1的自然数,比如为2时,则针对上例,选取排序在前的2个关联词组“ab”和“ac”,从中确定疑似有害分词为“b”和“c”。

或者,若在某种情况下,出现次数排名最前的是多个出现次数相同的关联词组,比如,“ab”3次,“ac”3次,“ad”3次,则可以将这三个关联词组全部选取并从中确定疑似有害分词。

如何选取出现次数排名在前的预设数量个关联词组可以根据需要设定,在此不一一举例。

需要说明的是,通常不会出现同一字段中分词组合多次出现的情况,即使出现了,本发明实施例视为仅出现一次。

可以理解的是,在确定出疑似有害分词后,可以对这些疑似有害分词进行针对性地分词、网络巡查、监管等。

本发明实施例所提供的网络有害信息关键词提取方法,通过将互联网上获取的初始文本数据信息以分词为最小单位进行多个级别的分级划分,并对每一级划分出的各单位均进行与级别对应的属性标准化描述,能够将凌乱的信息集划分为格式统一的标准化分词并进行属性标注得到判定词。判定词具有标准化、详细的数据信息,能够方便对整个信息集进行有害信息提取等处理。通过利用判定词的属性,进行判定词与原始有害关键词库的匹配,能够利用匹配结果确定每个判定词是否为有害分词,并基于确定的每个有害分词在初始文本数据信息中,利用分词之间的关联性属性,查找到与该有害分词同时出现且出现次数达到预设要求的分词,进行提取作为疑似有害分词。可见,本发明实施例能够基于语境中有害信息的关联性,查找到有害分词相关的所有有害信息,因此,能够对互联网环境中的有害信息进行全面准确的识别和提取。利用本发明实施例提取出的疑似有害分词,能够有效辅助官方机构进行有害信息巡查等工作。

进一步的,本发明实施例利用分词有害性的判定结果,能够对初始文本数据信息不同层级中有害信息的丰度进行评估,也有利于有害信息巡查等工作的进行。

目前,社会迫切的需要能够辅助官方机构进行有害信息巡查的监管技术。其中,至关重要的手段之一就是建立有害关键词库便于对敏感信息进行识别和监督。有害信息词库的构建需要经历信息的识别、关键词的提取以及词库的拓展三个阶段。

传统的信息词库构建过程中存在诸多问题,主要包括:

方法需要大量依赖人力,且受到审核人主观性的影响较大,更新升级需要重新构建,迭代速度慢,局限性高;针对特定行业的基于领域的词库构建方法需要具体行业具体分析,受行业局限性较大,同时针对特定领域的词库构建方法对审核人员的专业要求比较严格,需要专业人员长期高强度参与,在词库更新升级方面衔接性较差。

基于语法的信息处理方法对数据的格式要求比较严格,对于语法严谨数据格式规范的信息,如科研报告、学术论文等文本具有较好的适应性,但由于互联网信息受个体语言习惯以及个性化表达等因素的影响,语言格式要求并不严谨,而且有害信息会故意采用隐晦的格式来规避监察,因此采用的现有方法并不能高效地处理互联网环境中大量的有害信息文本。

基于语义情感的信息词库构建方法可以处理一些表意明确的数据,但对模糊信息的辨别能力较差,在识别大段隐晦信息时容易提取不准确,造成信息误判,等等。

而网络有害信息具有隐蔽性强、模糊性高、更迭速度快等特点,上述现有方法构建的信息关键词库较难满足行业对互联网环境下的有害信息巡查要求。

基于上述问题,第二方面,本发明实施例提供了一种有害关键词库构建方法,如图4所示,可以包括以下步骤:

S01,从互联网上获取初始文本数据信息。

S02,将初始文本数据信息以分词为最小单位进行分级划分,对每一级划分出的各单位均进行与级别对应的属性标准化描述,并将属性标准化描述后的分词作为判定词。

S03,利用判定词的属性,进行判定词与原始有害关键词库的匹配,利用匹配结果,确定每个判定词的有害性。

S04,利用确定的每个有害分词,在初始文本数据信息中,查找到与该有害分词同时出现且出现次数达到预设要求的分词并提取出作为疑似有害分词。

关于步骤S01~S04,请参见第一方面的网络有害信息关键词提取方法中 S1~S4的相关内容,在此不做重复说明。

S05,针对每个疑似有害分词,利用分词导入词库的方式得到该疑似有害分词对应的测试有害关键词库,并对该疑似有害分词对应的测试有害关键词库进行性能检验,若性能满足预设要求,则将该疑似有害分词确定为已判有害分词。

本发明实施例提取的疑似有害分词可能是新发现的有害分词,但也可能是语义模糊的正常文本。因此,为了准确性,需要经过进一步测试检验是否需要将其列入原始有害关键词库进行词库更新。并且,为了衡量每个疑似有害分词是否真正有害,避免正常词的相互干扰,本发明实施例将每个疑似有害分词单独导入相关的有害关键词库进行后续检验。

可选的第一种实施方式中,该步骤S05可以包括:

针对每个疑似有害分词,将该疑似有害分词导入原始有害关键词库,得到该疑似有害分词对应的测试有害关键词库,并对该疑似有害分词对应的测试有害关键词库进行性能检验,若性能满足预设要求,则将该疑似有害分词确定为已判有害分词。

在该种实施方式下,提取出的多个疑似有害分词可以并行操作,分别导入同一个有害关键词库---原始有害关键词库,得到的每个测试有害关键词库均是原始有害关键词库添加了相应的一个疑似有害分词后得到的。同时,每个疑似有害分词导入时,需要将该疑似有害分词和它的分词关联关系等属性信息同时导入原始有害关键词库,便于后续步骤的词库检验,测试有害关键词库可以表示为K

其中,疑似有害分词需要导入的属性信息还包括分词信息内容Det

针对一个测试有害关键词库进行性能检验的过程,可以利用一些预设的性能指标,对该测试有害关键词库进行性能检验,在其性能满足预设要求时,确定导入的这个疑似有害分词为已判有害分词,即确定其有害。

本发明实施例可以根据需要选取一个或者多个预设的性能指标对新旧有害关键词库进行性能对比检验。针对该可选的第一种实施方式,旧有害关键词库为原始有害关键词库,新有害关键词库为当前待检验的测试有害关键词库。

比如可选的一种实施方式中,预设的性能指标可以包括:

系统差异化率、正常文本检测差异和有害信息检测文本差异中的一个或者多个。

具体的,系统差异化率以α表示,若α为正值,说明新有害关键词库的系统综合性能相比旧有害关键词库有所提升,则说明导入的这个疑似有害分词是有意义的,可以考虑正式导入;正常文本检测差异以β表示,表示正常文本误判率降低程度,数值越大,表示新有害关键词库对正常文本误判率越小,性能越佳;有害信息检测文本差异以γ表示,表示有害信息识别准确率,数值越高,表示新有害关键词库对有害信息的识别准确率越高,性能越佳。

本发明实施例可以对获得的测试有害关键词库进行稳定性和可靠性检验,对比新旧有害关键词库的监察性能差异。具体的,可以导入多段测试用例的正常文本和有害信息文本,评估旧有害关键词库和新有害关键词库即待检测的测试有害关键词库的性能。测试用正常文本信息记为TN

在计算得到上述任一个性能指标后,可以利用预先由人工确定的判别阈值α

当然,如果使用两个或者三个性能指标一起进行检测,则需要使用的所有性能指标均满足预设要求,才能确定该测试有害关键词库的性能满足预设要求。如果检测有一个疑似有害分词对应的测试有害关键词库的性能不满足预设要求,确该疑似有害分词为正常分词,此时可以选择更换下一个疑似有害分词进行检测或者对原有的疑似有害分词更换相应的判别阈值重新检测。

可选的第二种实施方式中,该步骤S05可以包括:

针对当前次的疑似有害分词,将该疑似有害分词导入当前次获得的有害关键词库,得到该当前次的疑似有害分词对应的测试有害关键词库,并对该当前次的疑似有害分词对应的测试有害关键词库进行性能检验,若性能满足预设要求,则将该当前次的疑似有害分词确定为已判有害分词。其中,当前次获得的有害关键词库是由当前次之前所有已判有害分词加入原始有害关键词库得到的。

为了便于理解,在此举例说明,比如,本发明实施例提取出3个疑似有害分词,针对第1个疑似有害分词,将该疑似有害分词导入原始有害关键词库,得到该当前次(第1次)的疑似有害分词对应的测试有害关键词库,标记为K

可以理解的是,在该种实施方式下,提取出的多个疑似有害分词是串行操作的。当迭代次数增加,当前次获得的有害关键词库的数据量会增加。

其中,一个测试有害关键词库进行性能检验的过程与前文相同,但针对每次迭代,旧有害关键词库为当前次获得的有害关键词库,新有害关键词库为当前待检验的测试有害关键词库。

S06,基于所有已判有害分词和原始有害关键词库,得到更新的有害关键词库。

针对S05中的第一种实施方式,可以并行确定出多个已判有害分词,可以将所有已判有害分词一起正式导入原始有害关键词库,得到更新的有害关键词库,即实现了有害关键词库的更新。针对该种方式的S5和S6的处理过程,可以参见图5,图5为本发明实施例所提供的有害关键词库构建方法中关于词库检测和更新部分的流程示意图。需要说明的是,图5的流程在处理时,是针对输入的疑似分词集合中每个疑似分词依次进行处理的。

针对S05中的第二种实施方式,将所有已判有害分词导入原始有害关键词库即得到更新的有害关键词库,其实也就是将最新确定的一个已判有害分词正式导入其检测时所使用的当前次获得的有害关键词库,就可以得到更新的有害关键词库。

经过实验对比两种实施方式,第一种实施方式的误判率会更低一些。第一种实施方式的查全率会更高一些,可以根据具体使用需求选择使用。

本发明实施例所提供的有害关键词库构建方法基于本发明实施例提供的网络有害信息关键词提取方法实现,在提取到疑似有害分词后,将各疑似有害分词和相关的属性信息导入原始有害关键词库,得到测试有害关键词库;对测试有害关键词库进行性能检验,在其性能满足预设要求时,确定测试有害关键词库为更新的有害关键词库。本发明实施例通过性能检验步骤,能够进一步核实疑似有害分词是否真正有害,并在确定有害时进行有害关键词库的更新,因此,能够进一步保证导入的有害信息的准确性。本发明实施例采用基于机器学习的关键词库构建方法解决互联网有害信息识别提取和词库构建问题,能够根据网络热点及时对互联网环境有害信息进行识别和关键词提取完成词库构建,并根据既有词库和新数据信息进行系统自我迭代升级。该有害关键词库构建方法具有收敛性快,效率高,能够进行我学习以及维护成本低等优点,能够用于网络有害信息词库的升级和互联网有害信息巡查,在网络环境下根据实时热点及时更新敏感词汇,监控敏感信息的产生和传播。

以下以实验数据说明本发明实施例所提供的有害关键词库构建方法的有效性。

为了验证该有害关键词库构建方法处理信息的能力和词库稳健性,本发明实施例设置测试用例实验,引入一组疑似有害信息集和正常文本信息集,将数据导入模型进行分析,对信息集进行评估并进行词库更新,更新方式使用S05 中可选的第一种实施方式。考虑到对设备的负担和该实验的重要程度,为本次实验分配的算力资源将控制在合理范围内,因此对实验中使用的信息集设定了数据量。

(一)测试用例:

实验中,用待测试信息文本{“A1语句”;“A2语句”;“A3语句”;“A4语句”;“A5语句”;“A6语句”;“A7语句”;“A8语句”}导入进行测试,设置α

节选部分分词分析如下表1所示,其中,分词具体内容可能涉及有害信息,此处以a、b等符号代替:

表1

其中,关于表1第一行中的各个概念,“位置”是指分词在信息集中的位置,如(2,1,2)表示该分词的位置是信息集第2个字段的第1个分词后的第2个分词。“内容”是指分词的文本内容。“价值量”是指分词的分词价值量Val

在本实验中,一些词如“a”本身是没有任何价值的,在字段关联组合之后也难以判断有害与否,通过词库检测就可以判定为正常分词,对该分段其他位置进行同样的检测若价值量(包括表1中的价值量和关联价值)都比较低,就可以判定整段信息不具备有害性。一些词如“b”等本身具备一定的敏感性,如果在信息集中存在可能的关联词就会进一步加深其价值量,进而判定其有害。还有一些词本身不具备价值量,但是用过特定的组合会产生有害性,主要是非法行业的一些“黑话”或者隐晦的意思表示,可以通过本模型的关联性判别功能识别出该有害信息。分词之间的关联关系受文本集的影响,可能会和多个分词组成关联关系,也可能不包含关联关系。

进一步,本发明实施例还可以得到一些疑似有害词“c”、“e”、“f”等,以这三个词为例,构建测试有害关键词库并检验是否将这些疑似有害分词及关联关系纳入原始有害关键词库。导入测试用正常本文词库和有害信息词库,对构建的测试词库性能进行检验。

得到输出结果如下表2所示:

表2

其中,关于表2第一行中的各个概念,“关联集”是指当前分词的关联词组的个数。“误判率”是β。“查准率”是γ。“综合性”是α。“检验结果”是指当前分词经上述指标检验后的结果;1表示性能满足预设要求,可以将该分词及关联词组导入相关词库;0表示性能不满足预设要求,无需将该分词及关联词组导入相关词库。

由表2可见,“e”及其关联关系的查准率更高,误判率更低,综合性能更优,符合词库更新要求可以导入词库;“c”及其关联关系查准率高的同时误判率也大幅提升,综合性能提升并不符合预设,因此不导入词库;“f”及其关联关系误判率提升更明显,使系统性能出现下降,因此也不导入现有词库。可见,本发明实施例能够有效检验疑似有害信息是否真正有害,实现有害关键词库的构建和更新处理。

综上,针对互联网环境中有害信息词识别和关键词库构建问题,传统巡查方法在进行监管是依赖人工识别率高,词库升级较慢,正常文本误判率高。而本发明实施例采用的基于机器学习的关键词判定匹配方法建立的词库相比其他方法,收敛速度快,效率高,误判率低且能都进行自我升级迭代,及时根据社会热点和语言发展更新关键词库。能够提升有害信息词库的完全性和准确性。

以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

相关技术
  • 网络有害信息关键词提取方法和有害关键词库构建方法
  • 一种供电服务客户满意度关键词库构建方法及装置
技术分类

06120114692790