掌桥专利:专业的专利平台
掌桥专利
首页

基于NLP的社交网络隐私感知系统及方法

文献发布时间:2024-04-18 19:52:40



技术领域

本发明属于人工智能技术领域,具体涉及一种基于NLP的社交网络隐私感知系统及方法。

背景技术

互联网场景下,社交模式有了新的方式和节奏,在社交网络中,个体逐渐变得抽象,信息成为网络的组成部分。而在社交过程中,个体隐私信息会随着消息本体不断传播,大大增加了隐私暴露的风险。网络环境中恶意用户也在时刻关注着社交网络中可利用的隐私信息,随着攻击方式越加灵活、攻击手段逐渐多样,社交网络中个体隐私安全时时刻刻遭受着威胁。

申请号为CN201910507192的专利申请公开了一种合同中个人隐私信息抽取的方法和系统,该方法首先从各种数据源收集NLP(Natural Language Processing,自然语言处理)文本语料,并对所收集的NLP文本语料进行数据加工处理以生成经规范化的NLP文本语料;将经规范化的NLP文本语料用于对词向量语言模型进行训练以获得词向量模型;然后,获取个人隐私种子数据,将个人隐私种子数据输入到词向量模型中以预测与个人隐私种子数据相关联的相似词;最后基于所预测的相似词对合同执行数据抽取以识别出与相似词相关联的个人隐私数据。

此外,申请号为CN202210229715的专利申请公开了一种基于NLP的数据脱敏方法,具体地,首先根据机器视觉对文本内容进行识别及格式转换,将表格型文件转换为可编辑文件TXT;然后对TXT文件进行分割处理,通过自然语言处理,利用BERT-BiLSTM-CRF模型进行命名体识别;接着利用正则表达式,使用规则筛选出身份证号和手机号码;最后对识别的命名体以及筛选出的身份证号、手机号进行脱敏,并输出脱敏后文件数据。

然而,相关技术中的隐私感知方法不能提取出隐性的个人隐私信息,如社交平台图片中暴露的地标信息或用户的兴趣爱好等,并且对于文本的格式要求较高,对于不满足格式要求的文本难以提取隐私信息;此外,采用正则表达式匹配隐私信息不是特别准确,效率也比较低。

发明内容

为了解决现有技术中存在的上述问题,本发明提供了一种基于NLP的社交网络隐私感知系统及方法。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明提供一种基于NLP的社交网络隐私感知系统,包括:

输入模块,用于获取用户输入的文本数据,并对所述文本数据进行规约;

数据处理模块,用于对规约的文本数据进行预处理以将字符转化为数字形式,得到文本编码向量;

静态隐私感知模块,用于获取文本编码向量,并从中识别用户的常规隐私实体;

动态隐私感知模块,用于获取文本编码向量,并从中识别用户的兴趣隐私实体;

输出模块,用于输出用户的所述常规隐私实体及兴趣隐私实体。

在本发明的一个实施例中,所述静态隐私感知模块,具体用于基于预先训练好的roFormerBert模型提取所述文本编码向量的特征矩阵,并在利用全局指针global_pointer算法将所述特征矩阵拆分为N个维度为L×L的子矩阵之后,根据各个子矩阵分别确定N个常规隐私实体在用户输入的文本数据中的位置,L表示所述文本编码向量的长度。

在本发明的一个实施例中,所述预先训练好的roFormerBert模型包括Embedding单元和Transformer单元,所述Transformer单元包括依次连接的多个Transformer层;其中,

所述Embedding单元用于对文本编码向量中的每个数字进行字符编码,所述Transformer单元用于根据字符编码的结果提取得到所述特征矩阵。

在本发明的一个实施例中,所述动态隐私感知模块,具体用于获取文本编码向量,并基于预先训练好的roFormerBert模型和UniLM模型识别兴趣隐私实体。

第二方面,本发明提供一种基于NLP的社交网络隐私感知方法,应用于第一方面所述的基于NLP的社交网络隐私感知系统,包括:

获取用户输入的文本数据;

对所述文本数据进行预处理,使所述文本数据由字符转化为数字形式,得到文本编码向量;

将文本编码向量分别输入所述静态隐私感知模块和所述动态隐私感知模块,以使所述静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使所述动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体;

输出所述常规隐私实体和所述兴趣隐私实体,得到用户的隐私感知结果。

在本发明的一个实施例中,对所述文本数据进行预处理的步骤之前,还包括:

对所述文本数据进行规约;

其中,对所述文本数据进行规约的步骤,包括:

删除所述文本数据中的特殊字符,并将所述文本数据由字符串转化为字符数组。

在本发明的一个实施例中,对所述文本数据进行预处理,使所述文本数据由字符转化为数字形式的步骤,包括:

利用Jieba分词对规约的文本数据进行分词;

构建Token类,并利用所述Token类将分词后的文本数据由字符转化为数字形式;

在每条语句的开始及结尾处分别添加开始Token字符和结束Token字符。

在本发明的一个实施例中,将文本编码向量分别输入所述静态隐私感知模块和所述动态隐私感知模块,以使所述静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使所述动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体的步骤,包括:

将文本编码向量输入所述静态隐私感知模块,以使所述静态隐私感知模块基于预先训练好的roFormerBert模型提取所述文本编码向量的特征矩阵,并使所述静态隐私感知模块利用全局指针global_pointer算法将所述特征矩阵拆分为N个维度为L×L的子矩阵之后,根据各个子矩阵分别确定N个常规隐私实体在用户输入的文本数据中的位置,L表示所述文本编码向量的长度;

将文本编码向量输入所述动态隐私感知模块,以使所述动态隐私感知模块基于预先训练好的roFormerBert模型提取所述文本编码向量的特征矩阵,并使所述动态隐私感知模块利用预先训练好的UniLM模型从所述特征矩阵中识别用户的兴趣隐私实体。

在本发明的一个实施例中,所述静态隐私感知模块按照如下步骤确定N个常规隐私实体在用户输入的文本数据中的位置:

分别判断各个子矩阵中是否包含大于0的元素;

若是,则获取该大于0的元素在对应子矩阵中的坐标,得到N个常规隐私实体在用户输入的文本数据中的位置。

在本发明的一个实施例中,所述常规隐私实体包括姓名、生日、地址、职业、学历和公司中的至少一者。

与现有技术相比,本发明的有益效果在于:

本发明提供一种基于NLP的社交网络隐私感知系统及方法,用户在移动端使用时方便快捷,甚至不需要连接网络,只需要输入文字即可得到可能暴露的隐私信息内容,具有实用性。同时,移动端的数据仅在本地传输,安全系数高,即使是企业版,本发明也做到了数据不入库,仅在调用模型时使用数据内容,从而保证了用户的个人信息安全。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的基于NLP的社交网络隐私感知系统的一种结构示意图;

图2是本发明实施例提供的静态隐私感知模块的示意图;

图3是本发明实施例提供的Embedding单元的结构示意图;

图4是本发明实施例提供的Bert模型的结构示意图;

图5是本发明实施例提供的动态隐私感知模块的示意图;

图6是本发明实施例提供的UniLM模型的结构示意图;

图7是本发明实施例提供的基于NLP的社交网络隐私感知系统的一种流程图;

图8是本发明实施例提供的隐私实体数量的分布图;

图9是本发明实施例提供的兴趣类别数量分布图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

图1是本发明实施例提供的基于NLP的社交网络隐私感知系统的一种结构示意图。如图1所示,本发明实施例提供一种基于NLP的社交网络隐私感知系统,包括:

输入模块10,用于获取用户输入的文本数据,并对文本数据进行规约;

数据处理模块20,用于对规约的文本数据进行预处理以将字符转化为数字形式,得到文本编码向量;

静态隐私感知模块30,用于获取文本编码向量,并从中识别用户的常规隐私实体;

动态隐私感知模块40,用于获取文本编码向量,并从中识别用户的兴趣隐私实体;

输出模块50,用于输出用户的常规隐私实体及兴趣隐私实体。

具体而言,上述基于NLP的社交网络隐私感知系统包括输入模块10、数据处理模块20、静态隐私感知模块30、动态隐私感知模块40和输出模块50,其中,输出模块用于对用户输入的文本数据进行规约,使其符合后续的传递规则;接着,数据处理模块20对规约的文本数据进行数据分词和数据标签化的预处理,使用户输入的文本数据转化为数字类型的向量。

如图1所示,经预处理得到的文本编码向量被分别输入静态隐私感知模块30及动态隐私感知模块40,需要说明的是,静态隐私感知模块30用于识别用户输入的文本数据中的常规隐私实体,如姓名、生日、地址、职业、学历、公司等直接表达出来的隐私实体,动态隐私感知模块40则用于根据用户输入的文本数据识别出兴趣隐私实体,这类隐私实体没有直接表达。

进一步地,输出模块50将静态隐私感知模块30与动态隐私感知模块40从文本字符转换成字符串,使其能够满足移动端窗口组件的文本格式要求。

图2是本发明实施例提供的静态隐私感知模块的示意图。可选地,如图2所示,静态隐私感知模块具体用于基于预先训练好的roFormerBert模型提取文本编码向量的特征矩阵,并在利用全局指针global_pointer算法将特征矩阵拆分为N个维度为L×L的子矩阵之后,根据各个子矩阵分别确定N个常规隐私实体在用户输入的文本数据中的位置,L表示文本编码向量的长度。

本实施例中,预先训练好的roFormerBert模型包括Embedding单元和Transformer单元,Transformer单元包括依次连接的多个Transformer层;其中,

Embedding单元用于对文本编码向量中的每个数字进行字符编码,Transformer单元用于根据字符编码的结果提取得到特征矩阵。

具体而言,服务器端将预先训练好的基于roFormerBert模型和全局指针global_pointer算法的静态隐私识别模型通过keras2tensorflow技术转化为可以部署到移动端的.pb模型格式,并利用TensorFlowInferenceInterface接口将转换好的.pb模型部署到移动端。静态隐私感知模块在识别过程中主要是利用feed()函数输入文本编码向量,有多少输入就需要多少feed()函数,然后利用run()函数来对文本编码向量进行计算,再利用fetch()函数来获取计算后输出的特征矩阵,若移动端为安卓系统,则该特征矩阵的维度是一维。

roFormerBert模型与BERT模型的原理相同,采用的是多层Transformer的Encoder单元,主要是为了使多层Encoder通过训练任务大量学习通用知识得到预训练模型,将模型迁移完成下游的任务。BERT模型结构主要是由多层Embedding层组成,图3是本发明实施例提供的Embedding单元的结构示意图,如图3所示,Embedding层由三部分组成,即:SegmentEmbeddings层、Position Embeddings层和Token Embedding层。其中,Token Embedding层就是普通的Embedding层,Segment Embeddings层是用来处理输入句子对的分类任务,Position Embeddings层是对句子中的字词进行位置编码。总体来说,BERT模型的结构就是由多个Embedding层搭建而成。图4是本发明实施例提供的Bert模型的结构示意图,其中,Trm表示Embedding层。

global_pointer全局指针算法利用全局归一化的思路来进行命名实体识别(NER),可以无差别地识别嵌套实体和非嵌套实体,在非嵌套(Flat NER)的情形中它能取得媲美CRF的效果,而在嵌套(Nested NER)情形中也能获得较好的效果。

图5是本发明实施例提供的动态隐私感知模块的示意图。可选地,请参见图5,动态隐私感知模块具体用于获取文本编码向量,并基于预先训练好的roFormerBert模型和UniLM模型识别兴趣隐私实体。

本实施例中,动态隐私感知模块是由预先训练号的roFormerBERT模型和UniLM模型组合而成,roFormerBERT利用旋转编码来实现BERT中绝对编码到相对编码的转变,UniLM模型则用来解决BERT模型不能进行生成式的问题,可以完成单向、序列到序列和双向预测任务。

图6是本发明实施例提供的UniLM模型的结构示意图。如图6所示,与roFormerBERT模型类似,UniLM也是一个包含多个Transformer层的网络模型,但是UniLM能够同时完成Bidirectional LM、Left-to-Right LM、Seq-to-Seq LM这三项任务,图8是UniLM模型的结构。

请继续参见图6,UniLM模型由6个Transformer层组成,输入向量{xi}首先会被转换成H0=[x1,...,x|x|],然后输入至6层Transformer,每一Transformer层的编码输出如下所示:

H

在每一层通过掩码矩阵M来控制每个词的注意力范围,0表示可以关注,负无穷表示不能关注,会被掩码掉。对于第L个Transformer层,自注意头AL的输出计算方式为:

Q=H

图7是本发明实施例提供的基于NLP的社交网络隐私感知系统的一种流程图。请参见图1和图7,本发明实施例还提供一种基于NLP的社交网络隐私感知方法,应用于上述基于NLP的社交网络隐私感知系统,包括:

S1、获取用户输入的文本数据;

S2、对文本数据进行预处理,使文本数据由字符转化为数字形式,得到文本编码向量;

S3、将文本编码向量分别输入静态隐私感知模块和动态隐私感知模块,以使静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体;

S4、输出常规隐私实体和兴趣隐私实体,得到用户的隐私感知结果。

可选地,对文本数据进行预处理的步骤之前,还包括:

对文本数据进行规约;

其中,对文本数据进行规约的步骤,包括:

删除文本数据中的特殊字符,并将文本数据由字符串转化为字符数组。

本实施例中,在将文本数据输入数据处理模块之前,需要先对用户输入的文本数据进行规约,具体地,删除文本数据中的特殊字符,然后将文本数据由字符串转化成字符数组。

上述步骤S2中,对文本数据进行预处理,使文本数据由字符转化为数字形式的步骤,包括:

S201、利用Jieba分词对规约的文本数据进行分词;

S202、构建Token类,并利用Token类将分词后的文本数据由字符转化为数字形式;

S203、在每条语句的开始及结尾处分别添加开始Token字符和结束Token字符。

具体而言,在步骤S2中,利用Jieba分词进行对预处理的文本数据进行分词,然后构建一个Token类以将文本数据由字符转化成数字形式,该Token类主要引用了字符数字字典来对字符进行转化,需要说明的是,字典是通过对所有收集的数据进行词频排序构建得到的,相应的数字代表字符的顺序。最后,对每条语句加上开始token字符和结束token字符,使后识别过程中的模型知道语句的开始和结束。

步骤S3中,将文本编码向量分别输入静态隐私感知模块和动态隐私感知模块,以使静态隐私感知模块从文本编码向量中识别用户的常规隐私实体,并使动态隐私感知模块从文本编码向量中识别用户的兴趣隐私实体的步骤,包括:

S301、将文本编码向量输入静态隐私感知模块,以使静态隐私感知模块基于预先训练好的roFormerBert模型提取文本编码向量的特征矩阵,并使静态隐私感知模块利用全局指针global_pointer算法将特征矩阵拆分为N个维度为L×L的子矩阵之后,根据各个子矩阵分别确定N个常规隐私实体在用户输入的文本数据中的位置,L表示文本编码向量的长度;

S302、将文本编码向量输入动态隐私感知模块,以使动态隐私感知模块基于预先训练好的roFormerBert模型提取文本编码向量的特征矩阵,并使动态隐私感知模块利用预先训练好的UniLM模型从特征矩阵中识别用户的兴趣隐私实体。

本实施例中,将文本编码向量输入静态隐私感知模块,以使静态隐私感知模块基于roFormerBert模型和全局指针global_pointer算法从文本编码向量中识别用户的常规隐私实体的步骤,包括:

将文本编码向量输入静态隐私感知模块,以使静态隐私感知模块基于roFormerBert模型和全局指针global_pointer算法,输出特征矩阵;

将一维数据拆分成N个维度为L×L的矩阵,得到用户的N个常规隐私实体,L表示文本编码向量的长度。

具体而言,请继续参见图2,以用户输入的文本数据是“我今天生日我去看了北京天安门”为例,在数据处理模块的预处理阶段,该文本数据从字符转化为数字,即:Token_id102、1123、1124、2345、……、6274、5678、1276和103,示例性地,1123代表“今”,1124代表“天”,102为开始Token字符,103为结束Token字符,此外,Token_seg_id表示文本中字符的位置编码,位置编码可以通过Token类中进行生成。

接着,输入数字形式的文本编码向量和位置编码向量至输入Embeding单元进行字符编码,从而将每个数字映射为1×768维的向量,Transformer单元包括依次连接的Transformer层:Transformer 0、Transformer 1、Transformer 2、Transformer 3、Transformer 4和Transformer 5,Transformer单元的输出为特征矩阵,这样能将文本中的隐藏特征更好地表示出来。

示例性地,常规隐私实体包括姓名、生日、地址、职业、学历和公司中的至少一者,这里以常规隐私实体包括姓名、生日、地址、职业、学历和公司这六类为例,那么需要拆分得到6个L×L的子矩阵。

最后,针对每个子矩阵,判断其中是否存在大于零的元素,若存在,则可以根据大于零的元素在子矩阵中的坐标确定常规隐私实体在用户输入的文本数据中的位置。

应当理解,本实施例中静态隐私感知模块是由roFormerBert模型和global_pointer全局指针算法组合而成,一方面,roFormerBert模型可以更加深层次地学习到文本特征,同时能更好地解决隐私实体分布不均衡问题,另一方面,全局指针global_pointer全局指针算法可用于解决隐私实体存在的嵌套问题。

对于动态隐私感知模块,另外,本实施例中动态隐私感知模块的执行步骤为:

(1)对输入的文本编码向量进行分词操作,由于在进行roFormerBERT预训练处理时token字典采用字词向量,利用字词向量能更加细粒化输入文本的特征。可选地,利用jieba分词技术进行分词。

(2)利用预先训练好的roFormerBERT模型产生的词汇文本Vocab文件(即由字词到字词编号的文本映射)将文本中的字转换成对应的编码向量,需要生成位置编码和字符编码。

(3)将生成的编码向量输入到roFormerBERT+UnilM模型中进行数据的生成,每次输出一个token的编码。

(4)利用Beam Search算法进行生成文本的解码,循环执行步骤(3),选取每次输出的前m个得分最高的token,将选取出的token与已经生成的token编码序列进行计算,选取出最终得分最高的序列进入下一次循环。

(5)判断是否出现结束字符或者超过最长长度,如果是则结束循环,将输出的token序列转换成文本输出。

请继续参见图5,动态隐私识别模块输入的文本编码向量为“今天的烤鸭真的很好吃”,CLS、SEP分别表示开始Token字符和结束Token字符,同样地,roFormerBERT模型的输出为特征矩阵,UniLM模型基于该特征矩阵预测生成文本为“美食|烤鸭很好吃”,“美食”为“烤鸭很好吃”这一预测生成本文对应的兴趣隐私,也就是说,根据用户输入的文本“今天的烤鸭真的很好吃”,识别到的用户兴趣隐私为“美食”。

需要说明的是,静态隐私感知模块与动态隐私感知模块所使用的模型均是预先在服务器端训练完成的,其中,在对静态隐私感知模块进行训练时,可以提取微博数据集中的隐私数据来生成数据集,通过多人循环对比提取最终得到了7247条含有隐私实体的数据集,所涉及的隐私项主要有姓名、生日、地址、职业、学历、公司等,具体的分布如附表1所示:

表1

表1中,个人信息包括姓名和生日,由于一条数据中可能涉及到多个隐私项,所以表1中各项隐私项的实体数相加之和要大于总体的数据集条数。

图8是本发明实施例提供的隐私实体数量的分布图。如图8所示,地址(LOC)包含2128个隐私数据项,个人信息(BI)包含1502个隐私数据项,职业(JOB)包含3034个隐私数据项,学历(EDU)包含2883个隐私数据项,公司(COM)包含4002个隐私数据项。

对于动态隐私感知模块的训练,本发明通过对微博兴趣区进行数据爬取得到3494条兴趣数据集,这些数据集包含十二类兴趣类别,各类别的分布情况如图9所示,其中,生活时尚类360条、设计美学类294条、游戏类291条、体育类436条、综艺类180条、影视类180条、财经类282条、旅游类246条、母婴类160条、动漫类309条、读书类342类、美食类414条。每个类型都相应地标记了其对应的识别依据。

另外,在本发明中,还可以针对不同应用场景分成个人版与企业版,两者最大的区别在于模型部署的位置。个人版中,预先训练好的模型部署在用户个人移动端上,这样可以保证用户在使用过程中,数据完全不经过云端,完全由本地模型处理,消除用户在使用产品的过程中对服务方所带来的隐私泄漏风险的顾虑。而本发明为了保护模型,全模型采用加密部署,保证攻击者无法直接获取模型。模型所使用的训练数据,也由中文隐私数据集组成,防止恶意用户进行数据投毒。并且,在模型更新过程中,对于敏感梯度采用差分隐私保护,严格保证用户个人敏感信息无法被推断出来。企业版则是针对海量数据,采用云端处理与选择存储的模式,同时采用可信执行环境技术,全程仅在可信区域内调用模型识别隐私信息,保护模型和数据的安全,在存储的过程中也严格保证差分隐私,抵抗用户个人信息推断。此外,在数据传输过程中采用加密处理,保证通信过程中的数据隐私安全。面对不同的数据应用场景,多模式可以确保产品提供合理且适当的隐私保障,让用户在社交场景下切实地得到隐私安全。

通过上述各实施例可知,本发明的有益效果在于:

本发明提供一种基于NLP的社交网络隐私感知系统及方法,用户在移动端使用时方便快捷,甚至不需要连接网络,只需要输入文字即可得到可能暴露的隐私信息内容,具有实用性。同时,移动端的数据仅在本地传输,安全系数高,即使是企业版,本发明也做到了数据不入库,仅在调用模型时使用数据内容,从而保证了用户的个人信息安全。

在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述,然而,在实施所要求保护的本申请过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 一种天线波束切换感测系统、方法及移动终端
  • 拍照场景参数切换系统、切换方法及移动终端
  • 一种移动终端自动切换拍照场景模式的方法及系统
技术分类

06120116334732