掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、设备和计算机可读存储介质

文献发布时间:2024-01-17 01:15:20


一种数据处理方法、设备和计算机可读存储介质

技术领域

本申请涉及通信领域中的数据处理技术,尤其涉及一种数据处理方法、设备和计算机可读存储介质。

背景技术

数据是企业的核心资产,互联网企业拥有大量的用户原创性内容,这些内容不可避免的存在大量不良信息(如网暴、诈骗等信息)。在内容管理的过程中,需要筛选出不良信息以进行安全治理。但是,不良信息的特征积累成本很高,只有大型企业具备有效的、成熟的不良信息识别策略。而为了网络大环境的健康发展,社会需要企业共享不良信息过滤策略;可这些策略跟内容数据一样也是企业的核心资产,无法共享;目前,相关技术中只是对检索过程进行加密,最终用户将获得检索到的明文结果,依然存在对不良信息进行检测中过滤策略容易泄露的问题。

发明内容

为解决上述技术问题,本申请实施例期望提供一种数据处理方法、设备和计算机可读存储介质,解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题。

本申请的技术方案是这样实现的:

一种数据处理方法,所述方法包括:

接收第一设备发送的具有分类的加密后的待处理词和每一类所述加密后的待处理词对应的簇索引,并接收第二设备发送的加密后的策略关键词;其中,所述加密后的待处理词和所述加密后的策略关键词是采用所述第二设备确定的同一目标密钥加密的;每一所述策略关键词具有策略标签;所述加密后的待处理词是待处理文本的样本文本中的词;

基于所述加密后的策略关键词和所述策略标签,对所述加密后的待处理词进行处理,得到待处理词中异常词和所述异常词的异常标签;

从所述簇索引中确定所述异常词对应的目标簇索引,并发送所述目标簇索引和所述异常标签至所述第一设备,以使所述第一设备基于所述目标簇索引和所述异常标签确定待处理文本中的异常文本和所述待处理文本的标签。

上述方案中,所述基于所述加密后的策略关键词和所述策略标签,对所述加密后的待处理词进行处理,得到待处理词中异常词和所述异常词的异常标签,包括:

将所述加密后的待处理词与所述加密后的策略关键词进行匹配处理,得到匹配结果;

在所述匹配结果表征所述加密后的待处理词中存在与所述加密后的策略关键词匹配的词的情况下,从所述加密后的策略关键词中确定与所述加密后的待处理词匹配的目标关键词,并从所述加密后的待处理词中确定与所述加密后的策略关键词匹配的目标词;

获取所述目标关键词的目标标签;

确定所述目标词对应的待处理词为所述异常词,并确定所述目标标签为所述异常标签。

上述方案中,所述基于所述加密后的策略关键词和所述策略标签,对所述加密后的待处理词进行处理,得到待处理词中异常词和所述异常词的异常标签之前,还包括:

确定所述加密后的待处理词中包括的词的数量;

在确定所述加密后的待处理词中包括的词的数量大于检索阈值的情况下,基于所述加密后的策略关键词对所述加密后的待处理词进行处理,得到所述异常词和所述异常标签;其中,所述检索阈值是所述第二设备确定并发送至第三设备的。

一种数据处理方法,所述方法包括:

获取待处理文本,并对所述待处理文本进行分词处理得到待处理词;

基于所述待处理词对所述待处理文本进行聚类,得到聚类文本;

确定每一簇所述聚类文本的样本文本,并设置每一簇所述聚类文本的簇索引与所述每一簇聚类文本的样本文本中包括的待处理词之间的目标对应关系;

采用目标密钥对所述每一样本文本中包括的待处理词进行加密得到加密后的待处理词,并发送所述加密后的待处理词和对应的所述簇索引至第三设备;

接收所述第三设备发送的目标簇索引和异常标签,并基于所述目标对应关系、目标簇索引和所述异常标签,确定所述待处理文本的异常文本和标签;其中,所述目标簇索引用来标识所述待处理词中的异常词所对应的簇。

上述方案中,所述基于所述待处理词对所述待处理文本进行聚类,得到聚类文本,包括:

确定所述待处理词的词义;

基于所述待处理词的词义对所述待处理文本进行聚类,得到所述聚类文本。

上述方案中,所述确定每一簇所述聚类文本的样本文本,包括:

对每一簇所述聚类文本中的所述待处理文本进行分析,并基于分析结果和检索阈值从所述每一簇聚类文本的待处理文本中确定目标文本;其中,所述检索阈值是第二设备确定并发送至第一设备的;

针对所述每一簇聚类文本,设置所述目标文本为所述样本文本。

上述方案中,所述基于所述目标对应关系、目标簇索引和所述异常标签,确定所述待处理文本的异常文本和标签,包括:

基于所述目标对应关系和所述目标簇索引,确定所述目标簇索引对应的目标样本文本;

从所述待处理文本中确定与所述目标样本文本属于同一簇的第一目标文本,并设置所述第一目标文本的标签为第一标签;其中,所述第一标签表征所述第一目标文本存在异常。

上述方案中,所述方法还包括:

确定所述待处理文本中除所述第一目标文本外的第二目标文本;

设置所述第二目标文本的标签为第二标签;其中,所述第二标签表征所述第二目标文本正常。

一种第三设备,所述第三设备包括:第一处理器、第一存储器和第一通信总线;

所述第一通信总线用于实现第一处理器和第一存储器之间的通信连接;

所述第一处理器用于执行第一存储器中的数据处理程序,以实现如上述所述的数据处理方法的步骤。

一种第一设备,所述第一设备包括:第二处理器、第二存储器和第二通信总线;

所述第二通信总线用于实现第二处理器和第二存储器之间的通信连接;

所述第二处理器用于执行第二存储器中的数据处理程序,以实现如上述所述的数据处理方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的数据处理方法的步骤。

本申请实施例所提供的数据处理方法、设备和计算机可读存储介质,接收第一设备发送的具有分类的加密后的待处理词和每一类所述加密后的待处理词对应的簇索引,并接收第二设备发送的加密后的策略关键词;加密后的待处理词和加密后的策略关键词是采用第二设备确定的同一目标密钥加密的;每一策略关键词具有策略标签;加密后的待处理词是待处理文本的样本文本中的词;基于加密后的策略关键词和策略标签对加密后的待处理词进行处理,得到待处理词中异常词和异常词的异常标签;从簇索引中确定异常词对应的目标簇索引,并发送目标簇索引和异常标签至第一设备,以使第一设备基于目标簇索引和异常标签确定待处理文本中的异常文本和待处理文本的标签,如此,策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

附图说明

图1为本申请的实施例提供的一种数据处理方法的流程示意图;

图2为本申请的实施例提供的另一种数据处理方法的流程示意图;

图3为本申请的实施例提供的又一种数据处理方法的流程示意图;

图4为本申请的实施例提供的数据处理方法中的形成待处理词的示意图;

图5为本申请的实施例提供的数据处理方法中的对待处理文本进行聚类的示意图;

图6为本申请的实施例提供的数据处理方法中的确定每一簇聚类文本中的样本文本和对应的待处理词的示意图;

图7为本申请的实施例提供的数据处理方法中的策略关键词的示意图;

图8为本申请的实施例提供的数据处理方法中的对待处理词和策略关键词进行加密的示意图;

图9为本申请的实施例提供的数据处理方法中的确定待处理文本中类别为类别1的待处理文本对应的第异常标签的示意图;

图10为本申请的实施例提供的数据处理方法中的第一设备、第二设备和第三设备之间的交互示意图;

图11本申请的实施例提供的一种第三设备的结构示意图;

图12为本申请的实施例提供的一种第一设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

应理解,说明书通篇中提到的“本申请实施例”或“前述实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“本申请实施例中”或“在前述实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中应。在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在未做特殊说明的情况下,电子设备执行本申请实施例中的任一步骤,可以是电子设备的处理器执行该步骤。还值得注意的是,本申请实施例并不限定电子设备执行下述步骤的先后顺序。另外,不同实施例中对数据进行处理所采用的方式可以是相同的方法或不同的方法。还需说明的是,本申请实施例中的任一步骤是电子设备可以独立执行的,即电子设备执行下述实施例中的任一步骤时,可以不依赖于其它步骤的执行。

应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

本申请实施例提供一种数据处理方法,该方法可以应用于第三设备中,参照图1所示,该方法包括以下步骤:

步骤101、接收第一设备发送的具有分类的加密后的待处理词和每一类加密后的待处理词对应的簇索引,并接收第二设备发送的加密后的策略关键词。

其中,加密后的待处理词和加密后的策略关键词是采用第二设备确定的同一目标密钥加密的;每一策略关键词具有策略标签;加密后的待处理词是待处理文本的样本文本中的词。

在本申请其他实施例中,第一设备可以指的是有不良信息检测需求,且拥有大量待处理文本的数据方设备;第二设备可以指的是拥有不良信息识别策略(即策略关键词)的策略方设备。其中,目标密钥可以是第二设备生成并发送至第一设备的;且,加密后的待处理词可以是第一设备采用接收到的目标密钥对确定的待处理文本中的待处理词进行加密后得到的;加密后的策略关键词可以是第二设备采用目标密钥对策略关键词进行加密后得到的。

其中,簇索引可以用来唯一标识每一类别的加密后的待处理词的,且不同类别的加密后的待处理词对应的簇索引不同;策略标签可以表征每一策略关键词所指示的异常类型。

步骤102、基于加密后的策略关键词和策略标签,对加密后的待处理词进行处理,得到待处理词中异常词和异常词的异常标签。

在本申请实施例中,第一设备可以将加密后的待处理词与策略关键词进行匹配处理,并根据匹配处理的结果确定待处理词中的异常词;同时,基于与加密后的待处理词匹配的策略关键词的策略标签,确定异常词对应的异常标签。

步骤103、从簇索引中确定异常词对应的目标簇索引,并发送目标簇索引和异常标签至第一设备,以使第一设备基于目标簇索引和异常标签确定待处理文本中的异常文本和待处理文本的标签。

在本申请实施例中,目标簇索引可以是直接从簇索引中,获取异常词所对应的簇索引来得到的。其中,第三设备可以指的是具有计算能力的计算方设备;并且,计算方设备在确定出数据方设备发送的待处理词中的异常词后,只将异常词多对应的目标簇索引和异常词的异常标签发送给数据方设备,这样数据方设备就不会知道待处理词中存在异常的异常词具体是哪些词而只是知道哪一簇所对应的待处理词中存在异常的词,避免了数据信息的泄露,保证了不良信息识别的准确性和安全性。

本申请实施例所提供的数据处理方法,用来确定异常词的策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

本申请实施例提供一种数据处理方法,该方法可以应用于第一设备中,参照图2所示,该方法包括以下步骤:

步骤201、获取待处理文本,并对待处理文本进行分词处理得到待处理词。

在本申请实施例中,待处理文本可以是需要进行不良信息识别的文本;待处理词可以是去掉待处理文本的语意,并将其转换成词汇集后得到的。其中,每一个待处理文本对应一个包括多个待处理词的词汇集。

步骤202、基于待处理词对待处理文本进行聚类,得到聚类文本。

其中,数据方设备可以根据待处理词本身的信息对待处理文本进行聚类,得到具有分类的聚类文本;每一簇聚类文本中包括多个待处理文件,每一个待处理文本对应有一个词汇集,也就是说,每一簇聚类文本对应多个词汇集。

步骤203、确定每一簇聚类文本的样本文本,并设置每一簇聚类文本的簇索引与每一簇聚类文本的样本文本中包括的待处理词之间的目标对应关系。

在本申请实施例中,数据方设备可以针对每一簇聚类文本,从每一簇聚类文本包括的待处理文本中抽取样本文本;之后,将抽取的样本文本中包括的词汇集进行去重处理得到该簇的样本文本对应的待处理词;同时,确定能够表征每一簇聚类文本的簇索引,并建立该簇索引与所对应的样本文本的待处理词之间的目标对应关系;也就是说,每一簇索引对应的待处理词中不会存在重复的词。

步骤204、采用目标密钥对每一样本文本中包括的待处理词进行加密得到加密后的待处理词,并发送加密后的待处理词和对应的簇索引至第三设备。

在本申请实施例中,目标密钥可以是策略方设备确定好发送给数据方设备的。

步骤205、接收第三设备发送的目标簇索引和异常标签,并基于目标对应关系、目标簇索引和异常标签,确定待处理文本的异常文本和标签。

其中,目标簇索引用来标识待处理词中的异常词所对应的簇。

在本申请实施例中,目标簇索引可以是第三设备(即计算方设备)基于加密后的策略关键词对加密后的待处理词进行处理后得到待处理词中的异常词,并获取异常词对应的簇索引后得到的;异常标签是计算方设备从策略标签中确定与异常词匹配的策略关键词的策略标签后得到的。

本申请实施例所提供的数据处理方法,用来确定异常词的策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

本申请实施例提供一种数据处理方法,参照图3所示,该方法包括以下步骤:

步骤301、第一设备获取待处理文本,并对待处理文本进行分词处理得到待处理词。

在一种可行的实现方式中,以待处理文本包括文本1、文本2…和文本N为例进行说明:如图4所示,可以对每一个待处理文本进行切词处理,从而得到文本1对应的词汇集1、文本2对应的词汇集2、文本N对应的词汇集N。

步骤302、第一设备确定待处理词的词义。

其中,待处理词的词义指的是待处理词所表征的语义。

步骤303、第一设备基于待处理词的词义对待处理文本进行聚类,得到聚类文本。

其中,第一设备可以将待处理词的词义作为对应的待处理文本的文本特征,并基于该文本特征对待处理文本进行聚类,从而得到具有分类的聚类文本。需要说明的是,因为是基于语义进行聚类的,因此同一簇中的待处理文本的内容的相似度最高。在一种可行的实现方式中,如图5所示,文本1、文本3和文本4聚类后可以归到同一簇中,其对应的类别为类别1;文本2聚类后可以归到一个簇中,其对应的类别为类别2;文本N聚类后可以归到一个簇中,其对应的类别为类别n。

步骤304、第一设备对每一簇聚类文本中的待处理文本进行分析,并基于分析结果和检索阈值从每一簇聚类文本的待处理文本中确定目标文本。

其中,检索阈值是第二设备确定并发送至第一设备的。

步骤305、第一设备针对每一簇聚类文本,设置目标文本为样本文本。

在本申请实施例中,每一簇聚类文本对应的样本文本中包括的待处理词的个数必须是大于或等于策略方设备的检索阈值;因此,在给每一簇聚类文本选择样本文本的时候,需要保证筛选出来的目标文本中包括的待处理词的数量要大于或等于检索阈值;也就是说,可以从每一簇聚类文本的待处理文本中获取包括的待处理词的数量大于或等于检索阈值,且能表征该簇的一个或多个文本得到目标文本;之后将该目标文本作为对应的簇聚类文本的样本文本。在一种可行的实现方式中,如图6所示,对于类别1的聚类文本进行抽样后得到的样本文本1,其对应的待处理词(即样本词汇合集)可以包括:word1、word2、word3......wordx;对于类别2的聚类文本进行抽样后得到的样本文本2,其对应的待处理词(即样本词汇合集)可以包括:word1、word2、word3......wordy;对于类别n的聚类文本进行抽样后得到的样本文本n,其对应的待处理词(即样本词汇合集)可以包括:word1、word2、word3......wordz;需要说明的是,每一个样本文本对应的词汇合集中包括的待处理词是进行过去重处理的,也就是说每一个样本文本对应的词汇合集中包括的待处理词不存会重复。

步骤306、第一设备设置每一簇聚类文本的簇索引与每一簇聚类文本的样本文本中包括的待处理词之间的目标对应关系。

其中,目标对应关系可以指的是key-value对应关系;key指的是每一簇聚类文本的簇索引,value指的是每一簇聚类文本的样本文本中包括的待处理词。在一种可行的实现方式中,可以生成如下所示的key-value对应关系:index1:{word1,word2,word3……wordx};index2:{word1,word2,word3……wordy}……indexn:{word1,word2,word3……wordz};其中,index1、index2和indexn指的是key值,其对应的word指的是value值。需要说明的是,每一个value中包括的待处理词的数量大于或等于检索阈值。

步骤307、第一设备采用目标密钥对每一样本文本中包括的待处理词进行加密得到加密后的待处理词,并发送加密后的待处理词和对应的簇索引至第三设备。

在一种可行的实现方式中,如图7所示,第二设备确定的策略关键词可以包括网络暴力信息策略库和诈骗信息策略库,其中,网络暴力信息策略库中可以包括关键词1、关键词2和关键词3,或者,可以包括关键词2和关键词4;诈骗信息策略库中可以包括关键词m,或者,可以包括关键词k和关键词l。

在本申请实施例中,如图8所示,第一设备(即数据方设备)可以采用目标密钥对按照key-value对应关系存储的每一样本文本中的待处理词进行加密,但不对簇索引进行加密;数据方设备的数据格式为{簇索引:加密词汇集},例如,待处理词word1,加密后可以表示为E(word1)。同时,第二设备(即策略方设备)可以采用目标密钥对策略关键词进行加密;策略方设备的数据格式为{不良标签:加密关键词策略},例如,策略关键关键词1,加密后可以表示为E(关键词1)。

步骤308、第三设备接收第一设备发送的具有分类的加密后的待处理词和每一类加密后的待处理词对应的簇索引,并接收第二设备发送的加密后的策略关键词。

其中,加密后的待处理词和加密后的策略关键词是采用第二设备确定的同一目标密钥加密的;每一策略关键词具有策略标签;加密后的待处理词是待处理文本的样本文本中的词。

在本申请实施例中,策略标签可以包括:网络暴力信息和诈骗信息等,策略标签能够标识该策略关键词属于哪种不良信息。

步骤309、第三设备将加密后的待处理词与加密后的策略关键词进行匹配处理,得到匹配结果。

其中,将加密后的待处理词与加密后的策略关键词进行匹配处理,可以指的是判断加密后的待处理词与加密后的策略关键词中的词中是否存在相同的词;只要加密后的待处理词加密后的策略关键词中至少一个词相同,就认为加密后的待处理词中存在与加密后的策略关键词匹配的词;此时,就可以认为该待处理词所对应的簇中的词具有不良信息。需要说明的是,第三设备(即计算方设备)只对接收到的多类加密后的待处理词中包括的待处理词的数量大于或等于检索阈值的那一类或几类加密后的待处理词进行匹配处理。

步骤310、在匹配结果表征加密后的待处理词中存在与加密后的策略关键词匹配的词的情况下,第三设备从加密后的策略关键词中确定与加密后的待处理词匹配的目标关键词,并从加密后的待处理词中确定与加密后的策略关键词匹配的目标词。

在本申请实施例中,目标关键词可以指的是与待处理词相同的策略关键词。

步骤311、第三设备获取目标关键词的目标标签。

其中,目标关键词的目标标签可以指的是与待处理词相同的策略关键词的策略标签。

步骤312、第三设备确定目标词对应的待处理词为异常词,并确定目标标签为异常标签。

在一种可行的实现方式中,如果目标词对应的待处理词属于类别1,那么如图9所示,可以确定类别1的异常标签为诈骗;此时,就认为类别1中包括的文本(即文本、文本3和文本4)都有较高的概率属于诈骗信息。

步骤313、第三设备从簇索引中确定异常词对应的目标簇索引,并发送目标簇索引和异常标签至第一设备。

步骤314、第一设备接收第三设备发送的目标簇索引和异常标签。

步骤315、第一设备基于目标对应关系和目标簇索引,确定目标簇索引对应的目标样本文本。

在本申请实施例中,第一设备可以按照目标对应关系,确定与目标簇索引对应的样本文本得到目标样本文本。

步骤316、第一设备从待处理文本中确定与目标样本文本属于同一簇的第一目标文本,并设置第一目标文本的标签为第一标签。

其中,第一标签表征第一目标文本存在异常。

在本申请实施例中,第一标签可以与异常标签相同,也可以与异常标签不同。

步骤317、第一设备确定待处理文本中除第一目标文本外的第二目标文本。

步骤318、第一设备设置第二目标文本的标签为第二标签。

其中,第二标签表征第二目标文本正常。

在本申请实施例中,第二目标文本可以指的是待处理文本中未被策略关键词命中的簇中包括的词。并且,第二标签可以指的是表征第二目标文本中不存在不良信息的标签;在一种可行的实现方式中,第二标签可以指的是正常。

基于前述实施例,在本申请的其他实施例中,步骤309之前还可以包括以下步骤:

步骤319、第三设备确定加密后的待处理词中包括的词的数量。

步骤320、在确定加密后的待处理词中包括的词的数量大于检索阈值的情况下,第三设备基于加密后的策略关键词对加密后的待处理词进行处理,得到异常词和异常标签。

其中,检索阈值是第二设备确定并发送至第三设备的。

在本申请其他实施例中,如图10所示,策略方设备可以确定目标密钥和检索阈值,并将目标密钥和检索阈值发送给数据方设备;数据方设备可以采用目标密钥对自己拥有的待处理词进行加密,按照{索引:加密词汇集}的数据格式将数据发送给计算方设备;同时,策略方设备可以发送自己的加密后的策略关键词和检索阈值给计算方设备;之后,计算方设备可以将加密词汇集和加密策略进行匹配处理,并将匹配结果发送给数据方设备。

本申请实施例所提供的数据处理方法,用来确定异常词的策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

本申请的实施例提供一种第三设备,该第三设备可以应用于图1和3对应的实施例提供的数据处理方法中,参照图11所示,该第三设备可以包括:第一处理器41、第一存储器42和第一通信总线43;

第一通信总线43用于实现第一处理器41和第一存储器42之间的通信连接;

第一处理器41用于执行第一存储器42中的数据处理程序,以实现如下步骤:

接收第一设备发送的具有分类的加密后的待处理词和每一类加密后的待处理词对应的簇索引,并接收第二设备发送的加密后的策略关键词;

其中,加密后的待处理词和加密后的策略关键词是采用第二设备确定的同一目标密钥加密的;每一策略关键词具有策略标签;加密后的待处理词是待处理文本的样本文本中的词;

基于加密后的策略关键词和策略标签,对加密后的待处理词进行处理,得到待处理词中异常词和异常词的异常标签;

从簇索引中确定异常词对应的目标簇索引,并发送目标簇索引和异常标签至第一设备,以使第一设备基于目标簇索引和异常标签确定待处理文本中的异常文本和待处理文本的标签。

在本申请其他实施例中,第一处理器41用于执行第一存储器42中的数据处理程序的基于加密后的策略关键词和策略标签,对加密后的待处理词进行处理,得到待处理词中异常词和异常词的异常标签,以实现如下步骤:

将加密后的待处理词与加密后的策略关键词进行匹配处理,得到匹配结果;

在匹配结果表征加密后的待处理词中存在与加密后的策略关键词匹配的词的情况下,从加密后的策略关键词中确定与加密后的待处理词匹配的目标关键词,并从加密后的待处理词中确定与加密后的策略关键词匹配的目标词;

获取目标关键词的目标标签;

确定目标词对应的待处理词为异常词,并确定目标标签为异常标签。

在本申请其他实施例中,第一处理器41用于执行第一存储器42中的数据处理程序,还可以实现如下步骤:

确定加密后的待处理词中包括的词的数量;

在确定加密后的待处理词中包括的词的数量大于检索阈值的情况下,基于加密后的策略关键词对加密后的待处理词进行处理,得到异常词和异常标签;其中,检索阈值是第二设备确定并发送至第三设备的。

本申请实施例所提供的第三设备,用来确定异常词的策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

本申请的实施例提供一种第一设备,该第一设备可以应用于图2和3对应的实施例提供的数据处理方法中,参照图12所示,该第一设备可以包括:第二处理器51、第二存储器52和第二通信总线53;

第二通信总线53用于实现第二处理器51和第二存储器52之间的通信连接;

第二处理器51用于执行第二存储器52中的数据处理程序,以实现如下步骤:

获取待处理文本,并对待处理文本进行分词处理得到待处理词;

基于待处理词对待处理文本进行聚类,得到聚类文本;

确定每一簇聚类文本的样本文本,并设置每一簇聚类文本的簇索引与每一簇聚类文本的样本文本中包括的待处理词之间的目标对应关系;

采用目标密钥对每一样本文本中包括的待处理词进行加密得到加密后的待处理词,并发送加密后的待处理词和对应的簇索引至第三设备;

接收第三设备发送的目标簇索引和异常标签,并基于目标对应关系、目标簇索引和异常标签,确定待处理文本的异常文本和标签;

其中,目标簇索引用来标识待处理词中的异常词所对应的簇。

在本申请其他实施例中,第二处理器51用于执行第二存储器52中的数据处理程序的基于待处理词对待处理文本进行聚类,得到聚类文本,还可以实现如下步骤:

确定待处理词的词义;

基于待处理词的词义对待处理文本进行聚类,得到聚类文本。

在本申请其他实施例中,第二处理器51用于执行第二存储器52中的数据处理程序的确定每一簇聚类文本的样本文本,还可以实现如下步骤:

对每一簇聚类文本中的待处理文本进行分析,并基于分析结果和检索阈值从每一簇聚类文本的待处理文本中确定目标文本;

其中,检索阈值是第二设备确定并发送至第一设备的;

针对每一簇聚类文本,设置目标文本为样本文本。

在本申请其他实施例中,第二处理器51用于执行第二存储器52中的数据处理程序的基于目标对应关系、目标簇索引和异常标签,确定待处理文本的异常文本和标签,还可以实现如下步骤:

基于目标对应关系和目标簇索引,确定目标簇索引对应的目标样本文本;

从待处理文本中确定与目标样本文本属于同一簇的第一目标文本,并设置第一目标文本的标签为第一标签;

其中,第一标签表征第一目标文本存在异常。

在本申请其他实施例中,第二处理器51用于执行第二存储器52中的数据处理程序,还可以实现如下步骤:

确定待处理文本中除第一目标文本外的第二目标文本;

设置第二目标文本的标签为第二标签;

其中,第二标签表征第二目标文本正常。

本申请实施例所提供的第一设备,用来确定异常词的策略关键词和待处理词是加密后的,且策略关键词和待处理词的确定,以及识别待处理词中是否具有异常词的处理过程不是在同一设备中执行的,同时,确定待处理词的设备得到的异常词所对应的簇索引,并不能直接知道异常的词是哪些词,从而解决了相关技术中存在对不良信息进行检测中过滤策略容易泄露的问题,既实现了对不良信息的检测又确保了过滤策略的安全性。

基于前述实施例,本申请的实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现图1~3对应的实施例提供的数据处理方法的步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

相关技术
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 数据处理方法、装置、计算机设备及计算机可读存储介质
  • 一种元数据存储方法、装置、设备及计算机可读存储介质
  • 一种数据存储方法、装置、设备及计算机可读存储介质
  • 一种信息处理方法、设备和计算机可读存储介质
  • 一种自动调整缓存的数据处理方法、数据处理系统、数据可视化设备及计算机可读存储介质
  • 一种数据处理方法、计算机设备及计算机可读存储介质
技术分类

06120116086525