掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及数据处理技术领域,尤其涉及一种应用于大数据匿名处理的决策分析方法及服务器。

背景技术

数据匿名化(data anonymization)是通过消除或加密将个人与存储数据联系起来的标识符,以保护私人或敏感信息的过程。数据匿名化还称为数据脱敏、假名化、去标识化等。换言之,数据脱敏主要是指对敏感数据处理的技术手段。当下,隐私泄露等用户个人隐私信息安全问题备受关注,数据匿名作为防范隐私泄露的重要手段之一,其面临的技术壁垒也不容忽视。传统的数据匿名技术通常采用一刀切的处理方式,例如仅对明显的个体隐私数据进行匿名处理,但是这种方式的抗攻击性较弱,容易导致隐私数据的间接泄露。

发明内容

本发明提供一种应用于大数据匿名处理的决策分析方法及服务器,为实现上述技术目的,本发明采用如下技术方案。

第一方面是一种应用于大数据匿名处理的决策分析方法,应用于匿名决策分析服务器,所述方法包括:

获取初始用户数据描述档案,所述初始用户数据描述档案包括敏感关键词集;

利用前馈神经网络语言模型对所述初始用户数据描述档案进行挖掘,得到U个文本词向量关系网,所述前馈神经网络语言模型包括U个词向量挖掘单元,每个词向量挖掘单元的原料是前一个词向量挖掘单元的输出,U为不小于1的整数;

利用第一敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第一用户数据描述档案,所述第一用户数据描述档案包括第一个体特征文本集、第一群体特征文本集及模糊文本集,所述第一个体特征文本集对应于所述敏感关键词集所对应的文本集,所述模糊文本集为所述第一个体特征文本集与所述第一群体特征文本集的关联文本集;

利用第二敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第二用户数据描述档案,所述第二用户数据描述档案包括第二个体特征文本集及第二群体特征文本集,所述第二个体特征文本集对应于所述敏感关键词集所对应的文本集;

依据所述第一用户数据描述档案及所述第二用户数据描述档案,生成待匿名用户数据描述档案,所述待匿名用户数据描述档案包括所述敏感关键词集。

在一些示例性实施例中,所述第一敏感文本抽取模型包括U个字段类别关注单元及文本向量整理单元;所述利用第一敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第一用户数据描述档案,包括:

利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集;

利用所述文本向量整理单元对所述U个混合词条向量集中的V个混合词条向量集进行处理,得到第一词条向量分布,其中,V为小于U的整数;

依据所述第一词条向量分布生成所述第一用户数据描述档案。

在一些示例性实施例中,每个所述文本词向量关系网对应于一个文本知识分布链;所述利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集,包括:

将第n个文本知识分布链及第n-1个文本知识分布链作为第n个所述字段类别关注单元的原料,利用所述第n个字段类别关注单元输出第n个混合词条向量集,其中,所述第n个文本知识分布链对应于第n个文本词向量关系网,所述第n-1个文本知识分布链对应于第n-1个文本词向量关系网,n为大于1且小于U的整数;

将第m个文本知识分布链作为第m个字段类别关注单元的原料,利用所述第m个字段类别关注单元输出第m个混合词条向量集,其中,所述第m个文本知识分布链对应于第m个文本词向量关系网,m为1或U。

在一些示例性实施例中,所述第一敏感文本抽取模型还包括检测模块,所述检测模块用于记录所述字段类别关注单元对文本词向量关系网的处理检测数G,G为不小于1的整数;所述U个文本词向量关系网对应U个文本知识分布链;所述利用所述U个字段类别关注单元对所述U个文本词向量关系网进行处理,生成U个混合词条向量集,包括:

获取所述检测模块记录的所述处理检测数G;

当所述处理检测数G小于第一限值时,将第一文本知识分布链作为第一字段类别关注单元的原料,利用所述第一字段类别关注单元输出第一混合词条向量集,其中,所述第一文本知识分布链对应于第一文本词向量关系网,所述第一文本词向量关系网依据所述前馈神经网络语言模型中的第一词向量挖掘单元得到;

将第二文本知识分布链及所述第一混合词条向量集作为第二字段类别关注单元的原料,利用所述第二字段类别关注单元输出第二混合词条向量集,其中,所述第二文本知识分布链对应于第二文本词向量关系网,所述第二文本词向量关系网依据所述前馈神经网络语言模型中的第二词向量挖掘单元得到;

将第三文本知识分布链及所述第二混合词条向量集作为第三字段类别关注单元的原料,利用所述第三字段类别关注单元输出第三混合词条向量集,其中,所述第三文本知识分布链对应于第三文本词向量关系网,所述第三文本词向量关系网依据所述前馈神经网络语言模型中的第三词向量挖掘单元得到;

将第四文本知识分布链作为第四字段类别关注单元的原料,利用所述第四字段类别关注单元输出第四混合词条向量集,其中,所述第四文本知识分布链对应于第四文本词向量关系网,所述第四文本词向量关系网依据所述前馈神经网络语言模型中的第四词向量挖掘单元得到。

在一些示例性实施例中,所述获取所述检测模块记录的所述处理检测数G之后,还包括:

当所述处理检测数G不小于第一限值且小于第二限值时,将所述第一文本知识分布链及所述第三混合词条向量集,作为所述第一字段类别关注单元的原料,利用所述第一字段类别关注单元输出第五混合词条向量集;

将所述第二文本知识分布链及所述第五混合词条向量集,作为所述第二字段类别关注单元的原料,利用所述第二字段类别关注单元输出第六混合词条向量集;

将所述第三文本知识分布链、所述第三混合词条向量集及所述第六混合词条向量集,作为所述第三字段类别关注单元的原料,利用所述第三字段类别关注单元输出第七混合词条向量集。

在一些示例性实施例中,所述利用所述文本向量整理单元对所述U个混合词条向量集中的V个混合词条向量集进行处理,得到第一词条向量分布,包括:当所述处理检测数G等于所述第二限值时,利用所述文本向量整理单元对所述第四混合词条向量集及所述第七混合词条向量集进行处理,得到第一词条向量分布。

在一些示例性实施例中,所述利用所述文本向量整理单元对所述第四混合词条向量集及所述第七混合词条向量集进行处理,得到第一词条向量分布,包括:

对所述第四混合词条向量集进行语义描述提炼,得到第一词条语义描述;

对所述第一词条语义描述进行文本极性提取,得到第一文本极性;

利用非线性处理模块,对所述第一词条语义描述进行处理,得到第一语义特征;

对所述第七混合词条向量集进行语义描述提炼,得到第二词条语义描述;

对所述第二词条语义描述进行文本极性提取,得到第二文本极性;

利用非线性处理模块,对所述第二词条语义描述进行处理,得到第二语义特征;

依据所述第四混合词条向量集、所述第一语义特征、所述第一文本极性、所述第七混合词条向量集、所述第二语义特征及所述第二文本极性,生成第一词条向量分布。

在一些示例性实施例中,所述第二敏感文本抽取模型包括U+1个滑动平均节点;所述U个文本词向量关系网对应U个文本知识分布链;所述利用第二敏感文本抽取模型对所述U个文本词向量关系网进行处理,得到第二用户数据描述档案,包括:

将第一文本知识分布链作为第一滑动平均节点的原料,利用所述第一滑动平均节点输出第一用户信息视觉表达,其中,所述第一文本知识分布链对应于第一文本词向量关系网,所述第一文本词向量关系网依据所述前馈神经网络语言模型中的第一词向量挖掘单元得到;

将第二文本知识分布链及所述第一用户信息视觉表达作为第二滑动平均节点的原料,利用所述第二滑动平均节点输出第二用户信息视觉表达,其中,所述第二文本知识分布链对应于第二文本词向量关系网,所述第二文本词向量关系网依据所述前馈神经网络语言模型中的第二词向量挖掘单元得到;

将第三文本知识分布链及所述第二用户信息视觉表达作为第三滑动平均节点的原料,利用所述第三滑动平均节点输出第三用户信息视觉表达,其中,所述第三文本知识分布链对应于第三文本词向量关系网,所述第三文本词向量关系网依据所述前馈神经网络语言模型中的第三词向量挖掘单元得到;

将第四文本知识分布链及所述第三用户信息视觉表达作为第四滑动平均节点的原料,利用所述第四滑动平均节点输出第四用户信息视觉表达,其中,所述第四文本知识分布链对应于第四文本词向量关系网,所述第四文本词向量关系网依据所述前馈神经网络语言模型中的第四词向量挖掘单元得到;

将第四用户信息视觉表达作为第五滑动平均节点的原料,利用所述第五滑动平均节点输出第五用户信息视觉表达;

依据所述第五用户信息视觉表达生成所述第二用户数据描述档案。

在一些示例性实施例中,所述初始用户数据描述档案的隐私风险指数为F,其中,F为大于1的整数,所述利用前馈神经网络语言模型对所述初始用户数据描述档案进行挖掘,得到U个文本词向量关系网,包括:

通过第四词向量挖掘单元对所述初始用户数据描述档案进行挖掘,得到第四文本词向量关系网,其中,所述第四文本词向量关系网的隐私风险指数为q4*F;

通过第三词向量挖掘单元对所述第四文本词向量关系网进行处理,得到第三文本词向量关系网,其中,所述第三文本词向量关系网的隐私风险指数为q3*F;

通过第二词向量挖掘单元对所述第三文本词向量关系网进行处理,得到第二文本词向量关系网,其中,所述第二文本词向量关系网的隐私风险指数为q2*F;

通过第一词向量挖掘单元对所述第二文本词向量关系网进行处理,得到第一文本词向量关系网,其中,所述第一文本词向量关系网的隐私风险指数为q1*F。

在一些示例性实施例中,所述依据所述第一用户数据描述档案及所述第二用户数据描述档案,生成待匿名用户数据描述档案,包括:

依据所述第一用户数据描述档案的档案语句与所述第二用户数据描述档案的档案语句的去重处理结果,得到所述待匿名用户数据描述档案。

第二方面是一种匿名决策分析服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述匿名决策分析服务器执行第一方面的方法。

第三方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。

根据本发明的一个实施例,首先获取初始用户数据描述档案,其中,初始用户数据描述档案包括敏感关键词集;接着,利用前馈神经网络语言模型对初始用户数据描述档案进行挖掘,得到U个文本词向量关系网,其中,前馈神经网络语言模型包括U个词向量挖掘单元,每个词向量挖掘单元的原料是前一个词向量挖掘单元的输出;然后利用第一敏感文本抽取模型对U个文本词向量关系网进行处理,得到第一用户数据描述档案,其中,第一用户数据描述档案包括第一个体特征文本集、第一群体特征文本集及模糊文本集,第一个体特征文本集对应于敏感关键词集所对应的文本集,模糊文本集为第一个体特征文本集与第一群体特征文本集的关联文本集;并且利用第二敏感文本抽取模型对U个文本词向量关系网进行处理,得到第二用户数据描述档案,其中,第二用户数据描述档案包括第二个体特征文本集及第二群体特征文本集,第二个体特征文本集对应于敏感关键词集所对应的文本集;最后通过第一用户数据描述档案及第二用户数据描述档案,生成待匿名用户数据描述档案,其中,待匿名用户数据描述档案包括敏感关键词集。本发明实施例利用两个相异的敏感文本抽取模型对初始用户数据描述档案的U个文本词向量关系网进行敏感文本抽取,得到第一用户数据描述档案及第二用户数据描述档案,利用第一用户数据描述档案及第二用户数据描述档案生成待匿名用户数据描述档案,能够综合考虑个体特征文本集、群体特征文本集以及模糊文本集之间的联系,以便在生成待匿名用户数据描述档案时确保个体隐私数据的完全包含以及部分可能导致个体隐私数据间接泄露的模糊文本数据的准确定位,所生成的待匿名用户数据描述档案能够作为数据匿名保护的可信决策依据,从而提高数据匿名保护的针对性和抗攻击性。

附图说明

图1为本发明实施例提供的应用于大数据匿名处理的决策分析方法的流程示意图。

具体实施方式

以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。

图1示出了本发明实施例提供的应用于大数据匿名处理的决策分析方法的流程示意图,应用于大数据匿名处理的决策分析方法可以通过匿名决策分析服务器实现,匿名决策分析服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述匿名决策分析服务器执行步骤110-步骤150所描述的技术方案。

步骤110、获取初始用户数据描述档案。

在本发明实施例中,初始用户数据描述档案包括敏感关键词集。

进一步地,获取到的初始用户数据描述档案可以是利用现有的网络通信技术接收到的用户数据描述档案,还可以是匿名决策分析服务器自身存储的用户数据描述档案。示例性的,初始用户数据描述档案可以是电商用户数据描述档案、办公用户数据描述档案、医疗用户数据描述档案及游戏用户数据描述档案。以初始用户数据描述档案为办公用户数据描述档案为例,敏感关键词集可以是办公用户数据描述档案中的项目关键词、合作方关键词、秘钥关键词、地址关键词或报价关键词中的一种或多种。以初始用户数据描述档案为电商用户数据描述档案为例,敏感关键词集可以是电商用户数据描述档案中的个性化偏好关键词、联系方式关键词或浏览记录关键词中的一种或多种。以初始用户数据描述档案为医疗用户数据描述档案为例,敏感关键词集可以是医疗用户数据描述档案中的病历关键词或身份关键词中的一种或多种。

步骤120、利用前馈神经网络语言模型对初始用户数据描述档案进行挖掘,得到U个文本词向量关系网。

其中,前馈神经网络语言模型(FFNN Language Model,FFNNLM)包括U个词向量挖掘单元,每个词向量挖掘单元的原料是前一个词向量挖掘单元的输出,U为不小于1的整数。词向量挖掘单元可以理解为针对文本特征提取的特征提取层。

可以理解的是,前馈神经网络语言模型为是将用户数据描述档案经过U次词向量挖掘得到的U个文本词向量关系网进行排布,第一次词向量挖掘的原料为初始用户数据描述档案,随后的每次词向量挖掘的原料均为上一次词向量挖掘的输出。进一步地,文本词向量关系网队列的首位是初始用户数据描述档案的高隐私风险指数表示,而末位是低隐私风险指数的预测。本发明实施例将成组的用户数据描述档案理解为档案金字塔或者档案队列,不同队列位置的用户数据描述档案的隐私风险指数存在差异。初始用户数据描述档案由于没有进行任何匿名决策分析,因而具有较高的高隐私风险指数。

可以理解的是,将一组初始用户数据描述档案作为前馈神经网络语言模型的原料,利用前馈神经网络语言模型中的U层词向量挖掘单元,生成U组文本词向量关系网,且U张文本词向量关系网的隐私风险指数各不相同。

步骤130、利用第一敏感文本抽取模型对U个文本词向量关系网进行处理,得到第一用户数据描述档案。

其中,第一用户数据描述档案包括第一个体特征文本集、第一群体特征文本集及模糊文本集,第一个体特征文本集对应于敏感关键词集所对应的文本集,模糊文本集为第一个体特征文本集与第一群体特征文本集的关联文本集。如果基于数据匿名的执行力度来看,第一个体特征文本集的匿名执行力度最大,第一群体特征文本集的匿名执行力度最最小(在一些场景下可以不执行匿名处理),模糊文本集居中(因而模糊文本集可以理解为第一个体特征文本集与第一群体特征文本集的交叉文本集,因而其匿名执行力度位于第一个体特征文本集与第一群体特征文本集之间)。

可以理解的是,第一敏感文本抽取模型可以包括描述档案多分类模块,利用描述档案多分类模块对U个文本词向量关系网进行处理后,经过文本词向量整理和翻译得到第一用户数据描述档案。经过第一敏感文本抽取模型得到的第一用户数据描述档案。

步骤140、利用第二敏感文本抽取模型对U个文本词向量关系网进行处理,得到第二用户数据描述档案。

其中,第二用户数据描述档案包括第二个体特征文本集及第二群体特征文本集,第二个体特征文本集对应于敏感关键词集所对应的文本集。

可以理解的是,利用将U个文本词向量关系网作为第二敏感文本抽取模型的原料,利用第二敏感文本抽取模型输出第二用户数据描述档案,第二敏感文本抽取模型包括U+1个词向量挖掘单元,其中,第一个词向量挖掘单元的原料为一个文本词向量关系网,其后的U-1个词向量挖掘单元的原料为上一层的输出和一个文本词向量关系网,最后的U+1处理层的原料为第U层的输出。

步骤150、通过第一用户数据描述档案及第二用户数据描述档案,生成待匿名用户数据描述档案。

其中,待匿名用户数据描述档案包括敏感关键词集。

可以理解的是,将第一用户数据描述档案及第二用户数据描述档案进行去重合并整理,生成待匿名用户数据描述档案,待匿名用户数据描述档案中包括敏感关键词集,完成用户数据描述档案的匿名前处理(也可以理解为匿名决策分析处理,也即提供需要进行匿名处理的待匿名用户数据描述档案)。

本发明实施例,利用两个相异的敏感文本抽取模型对初始用户数据描述档案的U个文本词向量关系网进行敏感文本抽取,得到第一用户数据描述档案及第二用户数据描述档案,利用第一用户数据描述档案及第二用户数据描述档案生成待匿名用户数据描述档案,能够综合考虑个体特征文本集、群体特征文本集以及模糊文本集之间的联系,以便在生成待匿名用户数据描述档案时确保个体隐私数据的完全包含以及部分可能导致个体隐私数据间接泄露的模糊文本数据的准确定位,所生成的待匿名用户数据描述档案能够作为数据匿名保护的可信决策依据,从而提高数据匿名保护的针对性和抗攻击性。

在一些示例性设计思路下,第一敏感文本抽取模型包括U个字段类别关注单元及文本向量整理单元。其中,步骤130包括子步骤1301至子步骤1305。

步骤1301、利用U个字段类别关注单元对U个文本词向量关系网进行处理,生成U个混合词条向量集。

可以理解的是,将U个文本词向量关系网作为U个字段类别关注单元的原料,且保证每个字段类别关注单元输入一个文本词向量关系网,每个字段类别关注单元输入的文本词向量关系网各不相同,利用U个字段类别关注单元输出U个混合词条向量集,U个混合词条向量集与U个文本词向量关系网对应。

其中,字段类别关注单元用于识别文本词向量关系网中文本词向量的词条类别,从而得到具有多个词条类别的混合词条向量集。词条类别示例性可以包括隐私类别和非隐私类别,或者隐私类别、非隐私类别和待定类别等,在此不作限定。

步骤1303、利用文本向量整理单元对U个混合词条向量集中的V个混合词条向量集进行处理,得到第一词条向量分布。

其中,V为小于U的整数。

可以理解的是,从U个混合词条向量集中确定V个混合词条向量集,将V个混合词条向量集进行向量拼接得到第一词条向量分布,比如可以将V个混合词条向量集进行向量组合得到第一词条向量分布。

步骤1305、通过第一词条向量分布生成第一用户数据描述档案。

可以理解的是,词条向量分布是用户数据描述档案的一种表示方式,词条向量矩阵或者词条向量列表。

本发明实施例,利用第一敏感文本抽取模型包括U个字段类别关注单元对U个文本词向量关系网进行处理,并根据得到的U个混合词条向量集中的V个混合词条向量集进行向量拼接,生成第一用户数据描述档案,提高了第一敏感文本抽取模型的敏感文本抽取的精度及敏感文本抽取的完整性。

在一些示例性设计思路下,每个文本词向量关系网对应于一个文本知识分布链。基于此,子步骤1301包括子步骤3011至子步骤3013。

步骤3011、将第n个文本知识分布链及第n-1个文本知识分布链作为第n个字段类别关注单元的原料,利用第n个字段类别关注单元输出第n个混合词条向量集。

其中,第n个文本知识分布链对应于第n个文本词向量关系网,第n-1个文本知识分布链对应于第n-1个文本词向量关系网,n为大于1且小于U的整数。文本知识分布链可以是文本词向量关系网的矩阵表示,文本词向量关系网可以是知识图谱或者有向图形式的表征。

步骤3013、将第m个文本知识分布链作为第m个字段类别关注单元的原料,利用第m个字段类别关注单元输出第m个混合词条向量集。

其中,第m个文本知识分布链对应于第m个文本词向量关系网,m为1或U。

例如,用户数据描述档案可以以词条向量分布的形式进行表示,故每个文本词向量关系网对应一个文本知识分布链。以U为4为例,由于n大于1且小于U,则n的取值为2或3,m的取值为1或4。当m等于1时,将第一个文本知识分布链作为第一个字段类别关注单元的原料,利用第一个字段类别关注单元输出第一个混合词条向量集;当n等于2时,将第二个文本知识分布链及第一个文本知识分布链作为第二个字段类别关注单元的原料,利用第二个字段类别关注单元输出第二个混合词条向量集;当n等于3时,将第三个文本知识分布链及第二个文本知识分布链作为第三个字段类别关注单元的原料,利用第三个字段类别关注单元输出第三个混合词条向量集;当m等于4时,将第四个文本知识分布链作为第四个字段类别关注单元的原料,利用第四个字段类别关注单元输出第四个混合词条向量集;基于此,利用四个字段类别关注单元对四个文本词向量关系网进行处理,生成四个混合词条向量集。

本发明实施例,通过第一敏感文本抽取模型的不同的字段类别关注单元对一个或两个文本知识分布链进行处理,得到混合词条向量集,提高了第一敏感文本抽取模型的敏感文本抽取的可信度和完整性。

在一些示例性设计思路下,第一敏感文本抽取模型还包括检测模块,检测模块用于记录字段类别关注单元对文本词向量关系网的处理检测数G,G为不小于1的整数。因此检测模块可以理解为次数统计模块,U个文本词向量关系网对应U个文本知识分布链。进一步地,子步骤1301包括子步骤13010至子步骤13015。

步骤13010、获取检测模块记录的处理检测数G。

可以理解的是,检测模块用于记录字段类别关注单元对文本词向量关系网的处理检测数G,每当字段类别关注单元对文本知识分布链进行一次处理时,处理检测数+1。在第一次的字段类别关注单元对文本知识分布链进行处理之前,检测模块的处理检测数G为0,在完成第一次的字段类别关注单元对文本知识分布链进行处理之后,检测模块的处理检测数G为1;在第二次的字段类别关注单元对文本知识分布链进行处理之前,检测模块的处理检测数G为1,在完成第二次的字段类别关注单元对文本知识分布链进行处理之后,检测模块的处理检测数G为2;在第三次的字段类别关注单元对文本知识分布链进行处理之前,检测模块的处理检测数G为2,在完成第三次的字段类别关注单元对文本知识分布链进行处理之后,检测模块的处理检测数G为3;在第四次的字段类别关注单元对文本知识分布链进行处理之前,检测模块的处理检测数G为3,在完成第三次的字段类别关注单元对文本知识分布链进行处理之后,检测模块的处理检测数G为4。

步骤13011、当处理检测数G小于第一限值时。

可以理解的是,第一限值为1,当处理检测数小于1,即为开始第一次字段类别关注单元对文本知识分布链进行处理的过程。

步骤13012、将第一文本知识分布链作为第一字段类别关注单元的原料,利用第一字段类别关注单元输出第一混合词条向量集。

其中,第一文本知识分布链对应于第一文本词向量关系网,第一文本词向量关系网根据前馈神经网络语言模型中的第一词向量挖掘单元得到。

步骤13013、将第二文本知识分布链及第一混合词条向量集作为第二字段类别关注单元的原料,利用第二字段类别关注单元输出第二混合词条向量集。

其中,第二文本知识分布链对应于第二文本词向量关系网,第二文本词向量关系网根据前馈神经网络语言模型中的第二词向量挖掘单元得到。

步骤13014、将第三文本知识分布链及第二混合词条向量集作为第三字段类别关注单元的原料,利用第三字段类别关注单元输出第三混合词条向量集。

其中,第三文本知识分布链对应于第三文本词向量关系网,第三文本词向量关系网根据前馈神经网络语言模型中的第三词向量挖掘单元得到。

步骤13015、将第四文本知识分布链作为第四字段类别关注单元的原料,利用第四字段类别关注单元输出第四混合词条向量集。

其中,第四文本知识分布链对应于第四文本词向量关系网,第四文本词向量关系网根据前馈神经网络语言模型中的第四词向量挖掘单元得到。

例如,第一次字段类别关注单元对文本知识分布链进行处理的过程如下:首先,第一字段类别关注单元对第一文本知识分布链进行处理,得到第一混合词条向量集;其次,第二字段类别关注单元对第二文本知识分布链及第一混合词条向量集进行处理,得到第二混合词条向量集;接着,第三字段类别关注单元对第三文本知识分布链及第二混合词条向量集进行处理,得到第三混合词条向量集;最后,第四字段类别关注单元对第四文本知识分布链进行处理,得到第四混合词条向量集。

本发明实施例,在第一次处理过程中,在第二字段类别关注单元的原料中加入第一字段类别关注单元输出的第一混合词条向量集,利用第一混合词条向量集与第二文本知识分布链同时进行处理,生成第二混合词条向量集,同样的,在第三字段类别关注单元的原料中加入第二字段类别关注单元输出的第二混合词条向量集,利用第二混合词条向量集与第三文本知识分布链同时进行处理,生成第三混合词条向量集,为提高第一敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一些示例性设计思路下,子步骤13010之后还包括子步骤13021至子步骤13024。

步骤13021、当处理检测数G不小于第一限值且小于第二限值时。

其中,第二限值为迭代轮次,当第一限值为1且第二限值为3时,即开始第二次字段类别关注单元对文本知识分布链进行处理的过程;当第一限值为1且第二限值为4时,在第二次字段类别关注单元对文本知识分布链进行处理完成后,开始第三次字段类别关注单元对文本知识分布链进行处理的过程。

步骤13022、将第一文本知识分布链及第三混合词条向量集,作为第一字段类别关注单元的原料,利用第一字段类别关注单元输出第五混合词条向量集。

步骤13023、将第二文本知识分布链及第五混合词条向量集,作为第二字段类别关注单元的原料,利用第二字段类别关注单元输出第六混合词条向量集。

步骤13024、将第三文本知识分布链、第三混合词条向量集及第六混合词条向量集,作为第三字段类别关注单元的原料,利用第三字段类别关注单元输出第七混合词条向量集。

其中,第二阶字段类别关注单元对文本知识分布链进行处理的过程如下:首先,第一字段类别关注单元对第一次中的第三字段类别关注单元的输出的第三混合词条向量集与第一文本知识分布链进行处理,得到第五混合词条向量集;接着,第二字段类别关注单元对第二文本知识分布链及第五混合词条向量集进行处理,得到第六混合词条向量集;最后,第三字段类别关注单元对第三文本知识分布链、第三混合词条向量集及第六混合词条向量集进行处理,得到第七混合词条向量集。

进一步地,第三阶字段类别关注单元对文本知识分布链进行处理的过程如下:首先,第一字段类别关注单元对第二轮中第三字段类别关注单元的输出的第七混合词条向量集及第一文本知识分布链进行处理,得到第八混合词条向量集;接着,第二字段类别关注单元对第八混合词条向量集及第二文本知识分布链进行处理,得到第九混合词条向量集;最后,第三字段类别关注单元对第三文本知识分布链、第七混合词条向量集及第九混合词条向量集进行处理,得到第十混合词条向量集。

本发明实施例,在第二次处理过程中,将上一次中第三字段类别关注单元的输出作为第二次第一字段类别关注单元的原料和第三字段类别关注单元的输出,为提高了第一敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一个可选实施例中,子步骤13010之后还包括子步骤13031至子步骤13032。

步骤13031、当处理检测数G等于第二限值时。

步骤13032、利用文本向量整理单元对第四混合词条向量集及第七混合词条向量集进行处理,得到第一词条向量分布。

可以理解的是,当第二限值为3时,将第一次处理过程中,第四字段类别关注单元输出的第四混合词条向量集,以及第二次处理过程中,第三字段类别关注单元输出的第七混合词条向量集进行向量集拼接,得到第一词条向量分布。

当第二限值为4时,将第一次处理过程中,第四字段类别关注单元输出的第四混合词条向量集,以及第三次处理过程中,第三字段类别关注单元输出的第十混合词条向量集进行向量集拼接,得到第一词条向量分布。

本发明实施例提供了通过第一敏感文本抽取模型进行用户数据描述档案处理的示例性方案。其中,knowledge link1、knowledge link2、knowledge link3及knowledgelink4为步骤120中生成的四个文本词向量关系网对应的四个文本知识分布链,attentionunit1、attention unit2、attention unit3、attention unit4为四个字段类别关注单元,G为检测模块,co-feature unit为文本向量整理单元。第一限值为1,第二限值为4,即当字段类别关注单元的处理检测数G为4时,终止迭代。

第一次字段类别关注单元处理过程包括:首先,将第一文本知识分布链knowledgelink1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第一混合词条向量集entry vector1;接着,将第二文本知识分布链knowledge link2及第一混合词条向量集entry vector1作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第二混合词条向量集entry vector2;然后,将第三文本知识分布链knowledge link3及第二混合词条向量集entry vector2作为第三字段类别关注单元attention unit3的原料,利用第三字段类别关注单元attention unit3输出第三混合词条向量集entry vector3;最后,将第四文本知识分布链knowledge link4作为第四字段类别关注单元attention unit4的原料,利用第四字段类别关注单元attention unit4输出第四混合词条向量集entry vector4。完成第一次字段类别关注单元处理后,检测模块G为1。由于G小于第二限值4,故需要进行第二阶字段类别关注单元处理。

进一步地,第二阶字段类别关注单元处理过程包括:首先,将第一次中的第三字段类别关注单元attention unit3输出第三混合词条向量集entry vector3及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第五混合词条向量集entry vector5;接着,将第二文本知识分布链knowledge link2及第五混合词条向量集entry vector5作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第六混合词条向量集entry vector6;然后,将第三文本知识分布链knowledge link3、第三混合词条向量集entry vector3及第六混合词条向量集entry vector6作为第三字段类别关注单元attention unit3的原料,利用第三字段类别关注单元attention unit3输出第七混合词条向量集entry vector7。完成第二阶字段类别关注单元处理后,检测模块G为2。由于G小于第二限值4,故需要进行第三阶字段类别关注单元处理。

更近一步地,第三阶字段类别关注单元处理过程包括:首先,将第二轮中的第三字段类别关注单元attention unit3输出第七混合词条向量集entry vector7及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第八混合词条向量集entry vector8;接着,将第二文本知识分布链knowledge link2及第八混合词条向量集entry vector8作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第九混合词条向量集entry vector9;然后,将第三文本知识分布链knowledge link3、第七混合词条向量集entry vector7及第九混合词条向量集entry vector9作为第三字段类别关注单元attention unit3的原料,利用第三字段类别关注单元attention unit3输出第十混合词条向量集entry vector10。完成第三阶字段类别关注单元处理后,检测模块G为3。由于G小于第二限值4,故需要进行第四阶字段类别关注单元处理。

此外,第四阶字段类别关注单元处理过程包括:首先,将第三轮中的第三字段类别关注单元attention unit3输出第十混合词条向量集entry vector10及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第十一混合词条向量集entry vector11;接着,将第二文本知识分布链knowledge link2及第十一混合词条向量集entry vector11作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第十二混合词条向量集entry vector12;然后,将第三文本知识分布链knowledge link3、第十混合词条向量集entry vector10及第十二混合词条向量集entry vector12作为第三字段类别关注单元attention unit3的原料,利用第三字段类别关注单元attention unit3输出第十三混合词条向量集entry vector13。完成第四阶字段类别关注单元处理后,检测模块G为4。由于G等于第二限值4,故不需要进行第五阶字段类别关注单元处理。

将第一次中的第四字段类别关注单元attention unit4输出第四混合词条向量集entry vector4及第四轮中的第三字段类别关注单元attention unit3输出第十三混合词条向量集entry vector13输入至文本向量整理单元co-feature unit中,生成第一词条向量分布,通过第一词条向量分布得到第一用户数据描述档案。

本发明实施例,利用不同处理检测数G的混合词条向量集进行向量整合,为提高了第一敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一个可选实施例中,子步骤13032包括子步骤30321至子步骤30327。

步骤30321、对第四混合词条向量集进行语义描述提炼,得到第一词条语义描述。

步骤30322、对第一词条语义描述进行文本极性提取,得到第一文本极性。

步骤30323、利用非线性处理模块,对第一词条语义描述进行处理,得到第一语义特征。

步骤30324、对第七混合词条向量集进行语义描述提炼,得到第二词条语义描述。

步骤30325、对第二词条语义描述进行文本极性提取,得到第二文本极性。

步骤30326、利用非线性处理模块,对第二词条语义描述进行处理,得到第二语义特征。

步骤30327、通过第四混合词条向量集、第一语义特征、第一文本极性、第七混合词条向量集、第二语义特征及第二文本极性,生成第一词条向量分布。

可以理解的是,通过第四混合词条向量集、第一语义特征、第一文本极性、第七混合词条向量集、第二语义特征及第二文本极性,生成第一词条向量分布,具体的包括:通过第四混合词条向量集及第一语义特征,生成第一语义特征集;通过第七混合词条向量集及第二语义特征,生成第二语义特征集;通过第一语义特征集、第一文本极性、第二语义特征集及第二文本极性进行加权计算,得到第一词条向量分布。其中,词条语义描述用于表征词条的深层次含义或者衍生含义,可以作为匿名防护过程中的逆向隐私窃取推导的模拟依据。进一步地,非线性处理模块可以为激活函数,所得到的语义特征能够在文本极性(比如可以为用户隐私提供保护的积极文本的极性、在一定程度上泄露用户隐私的消极文本的极性等)的基础上进行融合,从而得到完整丰富的词条向量分布。

本发明实施例,在进行向量整理的过程中,利用对待整理向量进行语义描述提炼以得到文本极性及语义特征集,进而将文本极性及语义特征集进行加权计算,得到第一词条向量分布,为提高了第一敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一个可选实施例中,第二敏感文本抽取模型包括U+1个滑动平均节点(卷积节点);U个文本词向量关系网对应U个文本知识分布链。基于此,步骤140包括子步骤1401至子步骤1406。

步骤1401、将第一文本知识分布链作为第一滑动平均节点的原料,利用第一滑动平均节点输出第一用户信息视觉表达。

其中,第一文本知识分布链对应于第一文本词向量关系网,第一文本词向量关系网根据前馈神经网络语言模型中的第一词向量挖掘单元得到。用户信息视觉表达可以通过特征向量的形式反映文本知识分布链中包含的文本细节信息和/或由文本推演出的图像信息。

步骤1402、将第二文本知识分布链及第一用户信息视觉表达作为第二滑动平均节点的原料,利用第二滑动平均节点输出第二用户信息视觉表达。

其中,第二文本知识分布链对应于第二文本词向量关系网,第二文本词向量关系网根据前馈神经网络语言模型中的第二词向量挖掘单元得到。

步骤1403、将第三文本知识分布链及第二用户信息视觉表达作为第三滑动平均节点的原料,利用第三滑动平均节点输出第三用户信息视觉表达。

其中,第三文本知识分布链对应于第三文本词向量关系网,第三文本词向量关系网根据前馈神经网络语言模型中的第三词向量挖掘单元得到。

步骤1404、将第四文本知识分布链及第三用户信息视觉表达作为第四滑动平均节点的原料,利用第四滑动平均节点输出第四用户信息视觉表达。

其中,第四文本知识分布链对应于第四文本词向量关系网,第四文本词向量关系网根据前馈神经网络语言模型中的第四词向量挖掘单元得到。

步骤1405、将第四用户信息视觉表达作为第五滑动平均节点的原料,利用第五滑动平均节点输出第五用户信息视觉表达。

步骤1406、通过第五用户信息视觉表达生成第二用户数据描述档案。

本发明实施例示出了通过第二敏感文本抽取模型进行用户数据描述档案处理的示例性方案。其中,knowledge link1、knowledge link2、knowledge link3及knowledgelink4为步骤120中生成的四个文本词向量关系网对应的四个文本知识分布链,node1、node2、node3、node4及node5为第二敏感文本抽取模型中的五个滑动平均节点,Visualexpression1、Visual expression2、Visual expression3、Visual expression4及Visualexpression5为第二敏感文本抽取模型中五个滑动平均节点生成的五个用户信息视觉表达。

首先,将第一文本知识分布链knowledge link1作为第一滑动平均节点node1的原料,利用第一滑动平均节点node1输出第一用户信息视觉表达Visual expression1;其次,将第二文本知识分布链knowledge link2及第一用户信息视觉表达node1作为第二滑动平均节点node2的原料,利用第二滑动平均节点node2输出第二用户信息视觉表达Visualexpression2;再次,将第三文本知识分布链knowledge link3及第二用户信息视觉表达Visual expression2作为第三滑动平均节点node3的原料,利用第三滑动平均节点node3输出第三用户信息视觉表达Visual expression3;接着,将第四文本知识分布链knowledgelink4及第三用户信息视觉表达Visual expression3作为第四滑动平均节点node4的原料,利用第四滑动平均节点node4输出第四用户信息视觉表达Visual expression4;然后,将第四用户信息视觉表达Visual expression4作为第五滑动平均节点node5的原料,利用第五滑动平均节点node5输出第五用户信息视觉表达Visual expression5。最后,通过第五用户信息视觉表达Visual expression5生成第二用户数据描述档案。

本发明实施例,利用对文本词向量关系网进行多轮滑动平均,以生成第二用户数据描述档案,为提高了第一敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一个可选实施例中,初始用户数据描述档案的隐私风险指数为F,其中,F为大于1的整数。基于此,步骤120包括子步骤1201至子步骤1204。

步骤1201、通过第四词向量挖掘单元对初始用户数据描述档案进行挖掘,得到第四文本词向量关系网。

其中,第四文本词向量关系网的隐私风险指数为q4*F。

步骤1202、通过第三词向量挖掘单元对第四文本词向量关系网进行处理,得到第三文本词向量关系网。

其中,第三文本词向量关系网的隐私风险指数为q3*F。

步骤1203、通过第二词向量挖掘单元对第三文本词向量关系网进行处理,得到第二文本词向量关系网。

其中,第二文本词向量关系网的隐私风险指数为q2*F。

步骤1204、通过第一词向量挖掘单元对第二文本词向量关系网进行处理,得到第一文本词向量关系网。

其中,第一文本词向量关系网的隐私风险指数为q1*F。

进一步地,q1-q4分别对应不同的权重系数,且q4>q3>q2>q1。可以理解的是,隐私风险指数随着语义描述提炼的次数的增加而降低。

本发明实施例提供了利用前馈神经网络语言模型对初始用户数据描述档案进行挖掘的示例性方案。其中,files为初始用户数据描述档案,feature extraction unit4、feature extraction unit3、feature extraction unit2、feature extraction unit1为四个词向量挖掘单元,files4、files3、files2、files1为四个词向量挖掘单元输出的四个文本词向量关系网,knowledge link4、knowledge link3、knowledge link2、knowledgelink1为四个文本词向量关系网对应的文本知识分布链。

首先,初始用户数据描述档案files作为第四词向量挖掘单元featureextraction unit4的原料,利用第四词向量挖掘单元feature extraction unit4输出第四文本词向量关系网relationship network4,第四文本词向量关系网relationshipnetwork4对应于第四文本知识分布链knowledge link4;接着,第四文本词向量关系网relationship network4作为第三词向量挖掘单元feature extraction unit3的原料,利用第三词向量挖掘单元feature extraction unit3输出第三文本词向量关系网relationship network3,第三文本词向量关系网relationship network3对应于第三文本知识分布链knowledge link3;然后,第三文本词向量关系网relationship network3作为第二词向量挖掘单元feature extraction unit2的原料,利用第二词向量挖掘单元feature extraction unit2输出第二文本词向量关系网relationship network2,第二文本词向量关系网relationship network2对应于第二文本知识分布链knowledge link2;最后,第二文本词向量关系网relationship network2作为第一词向量挖掘单元featureextraction unit1的原料,利用第一词向量挖掘单元feature extraction unit1输出第一文本词向量关系网relationship network1,第一文本词向量关系网relationshipnetwork1对应于第一文本知识分布链knowledge link1。

本发明实施例,利用前馈神经网络语言模型对初始用户数据描述档案进行挖掘,以多张文本词向量关系网,将文本词向量关系网作为第一敏感文本抽取模型和第二敏感文本抽取模型的原料,为提高了敏感文本抽取模型的敏感文本抽取的可信度和完整性提供支持。

在一个可选实施例中,步骤150包括子步骤1501。

步骤1501、通过第一用户数据描述档案的档案语句与第二用户数据描述档案的档案语句的去重处理结果,得到待匿名用户数据描述档案。

本发明实施例,利用将第一用户数据描述档案与第二用户数据描述档案的档案语句去重处理结果作为待匿名用户数据描述档案的档案语句,将第一用户数据描述档案与第二用户数据描述档案进行去重处理,提高了敏感文本抽取模型的敏感文本抽取的可信度和完整性。

在另一些可独立实施的设计思路下,应用于大数据匿名处理的决策分析方法包括STEP11至STEP51。可以理解的是,STEP12至STEP15为前馈神经网络语言模型的处理过程,STEP21至STEP35为第一敏感文本抽取模型的处理过程,STEP41至STEP46为第一敏感文本抽取模型的处理过程,STEP21至STEP35与STEP41至STEP46无先后执行的顺序,可以是并列执行的方式,待STEP21至STEP35与STEP41至STEP46均执行完成后,执行STEP51。

STEP11、获取初始用户数据描述档案files。

其中,初始用户数据描述档案files包括敏感关键词集。初始用户数据描述档案的隐私风险指数为F。

STEP12、根据前馈神经网络语言模型中的第四词向量挖掘单元featureextraction unit4对初始用户数据描述档案files进行处理,得到第四文本词向量关系网relationship network4。

其中,第四文本词向量关系网relationship network4的隐私风险指数为q4*F。第四文本词向量关系网relationship network4对应于第四文本知识分布链knowledgelink4。

STEP13、根据前馈神经网络语言模型中的第三词向量挖掘单元featureextraction unit3对第四文本词向量关系网relationship network4进行处理,得到第三文本词向量关系网relationship network3。

其中,第三文本词向量关系网relationship network3的隐私风险指数为q3*F。第三文本词向量关系网relationship network3对应于第三文本知识分布链knowledgelink3。

STEP14、根据前馈神经网络语言模型中的第二词向量挖掘单元featureextraction unit2对第三文本词向量关系网relationship network3进行处理,得到第二文本词向量关系网relationship network2。

其中,第二文本词向量关系网relationship network2的隐私风险指数为q2*F。第二文本词向量关系网relationship network2对应于第二文本知识分布链knowledgelink2。

STEP15、根据前馈神经网络语言模型中的第一词向量挖掘单元featureextraction unit1对第二文本词向量关系网relationship network2进行处理,得到第一文本词向量关系网relationship network1。

其中,第一文本词向量关系网relationship network1的隐私风险指数为q1*F。第一文本词向量关系网relationship network1对应于第一文本知识分布链knowledgelink1。

STEP21、获取检测模块记录的字段类别关注单元对文本词向量关系网的处理检测数G。

可以理解的是,检测模块记录的处理检测数G为0,开启第一次字段类别关注单元对文本词向量关系网的处理。

STEP22、将第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第一混合词条向量集entry vector1。

STEP23、将第二文本知识分布链knowledge link2及第一混合词条向量集entryvector1作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第二混合词条向量集entry vector2。

STEP24、将第三文本知识分布链knowledge link3及第二混合词条向量集entryvector2作为第三字段类别关注单元attention unit3的原料,利用第三字段类别关注单元attention unit3输出第三混合词条向量集entry vector3。

STEP25、将第四文本知识分布链knowledge link4作为第四字段类别关注单元attention unit4的原料,利用第四字段类别关注单元attention unit4输出第四混合词条向量集entry vector4。

可以理解的是,完成第一次字段类别关注单元处理后,检测模块G为1。由于G小于第二限值4,故需要进行第二阶字段类别关注单元处理。

STEP26、将第一次中的第三字段类别关注单元attention unit3输出第三混合词条向量集entry vector3及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第五混合词条向量集entry vector5。

STEP27、将第二文本知识分布链knowledge link2及第五混合词条向量集entryvector5作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第六混合词条向量集entry vector6。

STEP28、将第三文本知识分布链knowledge link3、第三混合词条向量集entryvector3及第六混合词条向量集entry vector6作为第三字段类别关注单元attentionunit3的原料,利用第三字段类别关注单元attention unit3输出第七混合词条向量集entry vector7。

可以理解的是,完成第二阶字段类别关注单元处理后,检测模块G为2。由于G小于第二限值4,故需要进行第三阶字段类别关注单元处理。

STEP29、将第二轮中的第三字段类别关注单元attention unit3输出第七混合词条向量集entry vector7及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第八混合词条向量集entry vector8。

STEP30、将第二文本知识分布链knowledge link2及第八混合词条向量集entryvector8作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第九混合词条向量集entry vector9。

STEP31、将第三文本知识分布链knowledge link3、第七混合词条向量集entryvector7及第九混合词条向量集entry vector9作为第三字段类别关注单元attentionunit3的原料,利用第三字段类别关注单元attention unit3输出第十混合词条向量集entry vector10。

可以理解的是,完成第三阶字段类别关注单元处理后,检测模块G为3。由于G小于第二限值4,故需要进行第四阶字段类别关注单元处理。

STEP32、将第三轮中的第三字段类别关注单元attention unit3输出第十混合词条向量集entry vector10及第一文本知识分布链knowledge link1作为第一字段类别关注单元attention unit1的原料,利用第一字段类别关注单元attention unit1输出第十一混合词条向量集entry vector11。

STEP33、将第二文本知识分布链knowledge link2及第十一混合词条向量集entryvector11作为第二字段类别关注单元attention unit2的原料,利用第二字段类别关注单元attention unit2输出第十二混合词条向量集entry vector12。

STEP34、将第三文本知识分布链knowledge link3、第十混合词条向量集entryvector10及第十二混合词条向量集entry vector12作为第三字段类别关注单元attentionunit3的原料,利用第三字段类别关注单元attention unit3输出第十三混合词条向量集entry vector13。

可以理解的是,完成第四阶字段类别关注单元处理后,检测模块G为4。由于G等于第二限值4,故不需要进行第五阶字段类别关注单元处理。

STEP35、将第一次中的第四字段类别关注单元attention unit4输出第四混合词条向量集entry vector4及第四轮中的第三字段类别关注单元attention unit3输出第十三混合词条向量集entry vector13输入至文本向量整理单元co-feature unit中,生成第一词条向量分布,通过第一词条向量分布得到第一用户数据描述档案。

STEP41、将第一文本知识分布链knowledge link1作为第一滑动平均节点node1的原料,利用第一滑动平均节点node1输出第一用户信息视觉表达Visual expression1。

STEP42、将第二文本知识分布链knowledge link2及第一用户信息视觉表达node1作为第二滑动平均节点node2的原料,利用第二滑动平均节点node2输出第二用户信息视觉表达Visual expression2。

STEP43、将第三文本知识分布链knowledge link3及第二用户信息视觉表达Visual expression2作为第三滑动平均节点node3的原料,利用第三滑动平均节点node3输出第三用户信息视觉表达Visual expression3。

STEP44、将第四文本知识分布链knowledge link4及第三用户信息视觉表达Visual expression3作为第四滑动平均节点node4的原料,利用第四滑动平均节点node4输出第四用户信息视觉表达Visual expression4。

STEP45、将第四用户信息视觉表达Visual expression4作为第五滑动平均节点node5的原料,利用第五滑动平均节点node5输出第五用户信息视觉表达Visualexpression5。

STEP46、通过第五用户信息视觉表达Visual expression5生成第二用户数据描述档案。

STEP51、通过第一用户数据描述档案的档案语句与第二用户数据描述档案的档案语句的去重处理结果,得到待匿名用户数据描述档案。

在另一些可独立的设计思路下,在得到待匿名用户数据描述档案之后,可以对待匿名用户数据描述档案中的敏感关键词集进行针对性的数据匿名处理。其中,数据匿名的示例性手段包括:遮蔽Masking、假名化Pseudonymization、泛化Generalization、混排Scrambling和加扰Perturbation等,本领域技术人员可以根据实际情况灵活选择数据匿名手段对待匿名用户数据描述档案进行处理,这样不仅可以精准保护个体特征文本集对应的隐私信息,还可以最大限度对模糊文本集进行匿名处理,避免第三方通过模糊文本集进行反匿名窃取的推演而导致个体特征文本集的部分泄露。

除此之外,在一些可独立实施的设计思路下,在完成对待匿名用户数据描述档案中的敏感关键词集的针对性的数据匿名处理之后,可以得到已匿名用户数据描述档案,然后将已匿名用户数据描述档案进行发布以实现在隐私保护前提下的数据资源共享。基于此,该方法还可以包括如下内容:对待匿名用户数据描述档案中的敏感关键词集进行数据匿名处理,得到已匿名用户数据描述档案;将所述已匿名用户数据描述档案进行发布;根据针对所述已匿名用户数据描述档案的数据访问行为进行数据窃取意图分析,得到数据窃取意图信息;利用所述数据窃取意图信息进行访问权限更新。如此设计,在发布了已匿名用户数据描述档案之后,可以持续跟进数据匿名保护,比如可以进行数据访问行为的数据窃取意图分析,并且在得到数据窃取意图分析之后进行访问权限更新以进一步提高已匿名用户数据描述档案的数据安全性。

除此之外,在一些可独立实施的设计思路下,根据针对所述已匿名用户数据描述档案的数据访问行为进行数据窃取意图分析,得到数据窃取意图信息,可以包括如下内容:获取针对所述数据访问行为的可视化操作数据集合,所述可视化操作数据集合包括至少两条可视化操作数据;获得所述可视化操作数据集合中的各条可视化操作数据与所述数据访问行为之间的联系指数;根据所述各条可视化操作数据对应的联系指数,以及所述各条可视化操作数据的异常操作倾向预测特征,对所述各条可视化操作数据进行整理,得到相应的可视化操作数据组;基于所述可视化操作数据组生成针对所述数据访问行为的目标风险意图结论组,所述目标风险意图结论组包括至少两个目标风险意图结论;基于所述目标风险意图结论组确定数据窃取意图信息。

其中,可以根据目标风险意图结论组中排序靠前的设定数量个目标风险意图结论确定数据窃取意图信息,比如,排序靠前的前三个目标风险意图结论都指向用户画像信息窃取,则可以确定数据窃取意图信息为画像窃取意图。这样可以基于不同的可视化操作数据进行综合排序和分析,以提高数据窃取意图信息的可信度。

除此之外,在一些可独立实施的设计思路下,所述根据所述各条可视化操作数据对应的联系指数,以及所述各条可视化操作数据的异常操作倾向预测特征,对所述各条可视化操作数据进行整理,得到相应的可视化操作数据组,包括:根据所述各条可视化操作数据对应的联系指数,以及所述各条可视化操作数据的异常操作倾向预测特征,对所述各条可视化操作数据进行划分,得到至少两个可视化操作数据队列;对各个可视化操作数据队列进行整理,并分别对所述各个可视化操作数据队列中的各条可视化操作数据进行整理,得到所述可视化操作数据组。

本发明实施例利用两个相异的敏感文本抽取模型对初始用户数据描述档案的U个文本词向量关系网进行敏感文本抽取,得到第一用户数据描述档案及第二用户数据描述档案,利用第一用户数据描述档案及第二用户数据描述档案生成待匿名用户数据描述档案,能够综合考虑个体特征文本集、群体特征文本集以及模糊文本集之间的联系,以便在生成待匿名用户数据描述档案时确保个体隐私数据的完全包含以及部分可能导致个体隐私数据间接泄露的模糊文本数据的准确定位,所生成的待匿名用户数据描述档案能够作为数据匿名保护的可信决策依据,从而提高数据匿名保护的针对性和抗攻击性。

以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。

技术分类

06120115632735