掌桥专利:专业的专利平台
掌桥专利
首页

隐私信息的匿名化方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:33:46


隐私信息的匿名化方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域,特别涉及一种隐私信息的匿名化方法、装置、电子设备及存储介质。

背景技术

随着信息技术的快速发展,电子病历作为医疗卫生信息的主要载体,因其存储量大、节省资源、查询方便等优点,已在医院里得到大量推广和使用。然而,医疗数据的积累和日趋丰富的信息化应用,也对信息安全提出了更高的要求。

现有技术中,对电子病历中隐私信息的保密,主要通过去除敏感属性、以泛化或干扰数据值的方式对电子病历的数据库进行修改以防止电子病历中未授权的敏感信息泄露。

可以看出,现有的匿名化方式对电子病历的数据结构具有一定的要求,也即只能适用关系型数据库中数据表所存储的结构化数据的匿名化,因此,现有的匿名化处理方式存在适用性较差的问题。

发明内容

本申请的目的在于,针对上述现有技术中的不足,提供一种隐私信息的匿名化方法、装置、电子设备及存储介质,可以提高匿名化处理方法的适用性。

为实现上述目的,本申请实施例采用的技术方案如下:

第一方面,本发明提供一种隐私信息的匿名化方法,包括:

获取待处理信息;

通过隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型,所述隐私实体识别模型基于预训练语言模型通过对训练样本集训练得到,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

基于预设实体分级机制和所述目标隐私实体的实体类型,确定各所述目标隐私实体的隐私等级;

根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的目标匿名化方式,并采用各所述目标匿名化方式对各所述目标隐私实体进行匿名化处理,输出匿名化后的目标信息。

在可选的实施方式中,所述方法还包括:

获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

根据多个所述训练样本,基于预训练语言模型训练获取所述隐私实体识别模型。

在可选的实施方式中,所述根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的目标匿名化方式,包括:

根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的初始匿名化方式;

响应于对各所述目标隐私实体的初始匿名化方式的调整操作,获取各所述目标隐私实体的目标匿名化方式。

在可选的实施方式中,所述基于所述待处理信息,通过隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型,包括:

基于所述待处理信息,设置待匿名的实体类型;

根据所述待匿名的实体类型,通过所述隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型。

在可选的实施方式中,所述目标匿名化方式为下述任一种:隐藏处理、替代处理、泛化处理;

其中,所述隐藏处理,用于指示删除待匿名的隐私实体,或者,采用预设字符替代所述待匿名的隐私实体;所述替代处理,用于指示采用预定义词对待匿名的隐私实体进行替换操作;所述泛化处理,用于指示采用预设泛化规则对待匿名的隐私实体进行部分删除或替换。

在可选的实施方式中,所述方法还包括:

响应于对所述匿名化后的目标信息中目标隐私实体的新增或者删除操作,新增或者删除所述匿名化后的目标信息中的目标隐私实体。

在可选的实施方式中,所述匿名化后的目标信息中不同实体类型的目标隐私实体区别化标注,和/或,所述匿名化后的目标信息中目标隐私实体与非实体信息区别化标注。

第二方面,本发明提供一种隐私信息的匿名化处理装置,包括:

获取模块,用于获取待处理信息;

识别模块,用于隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型,所述隐私实体识别模型基于预训练语言模型通过对训练样本集训练得到,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

确定模块,用于基于预设实体分级机制和所述目标隐私实体的实体类型,确定各所述目标隐私实体的隐私等级;

处理模块,用于根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的目标匿名化方式,并采用各所述目标匿名化方式对各所述目标隐私实体进行匿名化处理,输出匿名化后的目标信息。

在可选的实施方式中,所述识别模块,还用于获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

根据多个所述训练样本,基于预训练语言模型训练获取所述隐私实体识别模型。

在可选的实施方式中,所述处理模块,具体用于根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的初始匿名化方式;

响应于对各所述目标隐私实体的初始匿名化方式的调整操作,获取各所述目标隐私实体的目标匿名化方式。

在可选的实施方式中,所述识别模块,具体用于基于所述待处理信息,设置待匿名的实体类型;

根据所述待匿名的实体类型,通过所述隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型。

在可选的实施方式中,所述目标匿名化方式为下述任一种:隐藏处理、替代处理、泛化处理;

其中,所述隐藏处理,用于指示删除待匿名的隐私实体,或者,采用预设字符替代所述待匿名的隐私实体;所述替代处理,用于指示采用预定义词对待匿名的隐私实体进行替换操作;所述泛化处理,用于指示采用预设泛化规则对待匿名的隐私实体进行部分删除或替换。

在可选的实施方式中,所述处理模块,还用于响应于对所述匿名化后的目标信息中目标隐私实体的新增或者删除操作,新增或者删除所述匿名化后的目标信息中的目标隐私实体。

在可选的实施方式中,所述匿名化后的目标信息中不同实体类型的目标隐私实体区别化标注,和/或,所述匿名化后的目标信息中目标隐私实体与非实体信息区别化标注。

第三方面,本发明提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如前述实施方式任一所述隐私信息的匿名化方法的步骤。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如前述实施方式任一所述隐私信息的匿名化方法的步骤。

本申请的有益效果是:

本申请实施例提供的隐私信息的匿名化方法、装置、电子设备及存储介质中,包括:获取待处理信息;通过隐私实体识别模型识别待处理信息中的目标隐私实体以及目标隐私实体的实体类型,隐私实体识别模型基于预训练语言模型通过对训练样本集训练得到,训练样本集包括多个训练样本,每个训练样本标注有实体标签,实体标签用于指示训练样本中训练实体的起始位置、结束位置、以及实体类型;基于预设实体分级机制和目标隐私实体的实体类型,确定各目标隐私实体的隐私等级;根据各目标隐私实体的隐私等级,确定各目标隐私实体的目标匿名化方式,并采用各目标匿名化方式对各目标隐私实体进行匿名化处理,输出匿名化后的目标信息,通过该本申请匿名化操作,可以防止待处理信息中敏感信息的泄露,提高待处理信息的安全性。此外,通过引入的隐私实体识别模型,可以适用于非结构化的待处理信息的匿名化操作,相较于现有技术来说,可以提高匿名化方法的适用性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种隐私信息的匿名化方法的流程示意图;

图2为本申请实施例提供的另一种隐私信息的匿名化方法的流程示意图;

图3为本申请实施例提供的一种训练样本的标注方式;

图4为本申请实施例提供的一种训练过程示意图;

图5为本申请实施例提供的又一种隐私信息的匿名化方法的流程示意图;

图6为本申请实施例提供的另一种隐私信息的匿名化方法的流程示意图;

图7为本申请实施例提供的又一种隐私信息的匿名化方法的流程示意图;

图8为本申请实施例提供的一种隐私信息的匿名化装置的功能模块示意图;

图9为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

图1为本申请实施例提供的一种隐私信息的匿名化方法的流程图,该方法的执行主体可以是计算机、服务器、处理器等电子设备。可选地,本申请实施例所提供的匿名化方法可以适用于医疗、网购、外卖等任意领域,在此不作限定,应用本申请实施例,可以实现对用户隐私信息的保护。

如图1所示,该方法包括:

S101、获取待处理信息。

可选地,待处理信息可以是文本格式的信息,其中,在不同的应用领域将对应不同的处理对象,结合上述应用领域来看,该待处理信息对应的适用对象具体可以是电子病历、网购清单、外卖列表等。为了更好地理解本申请,下面以适用场景为医疗领域,适用对象为电子病历为例进行说明。

S102、通过隐私实体识别模型识别待处理信息中的目标隐私实体以及目标隐私实体的实体类型。

可选地,隐私实体识别模型可以基于预训练语言模型通过对训练样本集训练得到,该训练样本集包括多个训练样本,每个训练样本标注有实体标签,实体标签用于指示训练样本中训练实体的起始位置、结束位置、以及实体类型。基于该隐私实体识别模型的设置,可以将待处理信息输入隐私实体识别模型,由隐私实体识别模型输出待处理信息中的目标隐私实体以及目标隐私实体的实体类型。

在一些实施例中,目标隐私实体的实体类型可以是下述实体类型中的任一种:人名、地名、时间、机构名、年龄、民族、职业信息、教育经历、联系方式、个人识别号(可以用于定位个人身份的识别号码,如身份证等证件号、住院号、病历号、检查号等)、既往史(可以包括患者过去病史、既往的健康和生活状况及疾病情况等)、家族史(也即患者家庭情况,可以包括家庭成员、家庭关系、家庭生活状况、出生次序、家族疾病等)、婚育史(也即患者家庭情况,可以包括未婚、已婚(有配偶)、丧偶、离婚等婚姻状态,还可以包括足月产、现存子女数等生育状况)、生活规律(可以描述患者长期规律性存在的生活状况,如个人长期嗜好,抽烟饮酒等)、生活事件(可以用于描述发生在患者或相关人员生活中的突发性、偶发性事件信息,如车祸、吵架、驾车前往、被迫隔离等)、治疗方法(可以包括手术和以治疗为目的的医疗器械的使用等,例如:呼吸机、整形术等治疗记录)、疾病诊断(也即医学上定义的疾病和医生在临床工作中对病因、病生理、分型分期等所作的判断,例如:前列腺腺癌、甲状腺增生、精神分裂症、运动障碍和营养不良等患者被诊断的疾病)、药品名称(指用于预防、治疗和诊断患者疾病的所有药品通用名称、例如:XXX口服液、维生素C等)。

S103、基于预设实体分级机制和目标隐私实体的实体类型,确定各目标隐私实体的隐私等级。

其中,预设实体分级机制可以指示各实体类型对应的隐私等级,值得说明的是,不同的实体类型可以对应相同的隐私等级。

举例说明,比如,某预设实体分级机制中共包括两种等级,也即第一等级和第二等级,其中,第一等级对应的隐私等级为严格保密处理等级,可选地,该第一分级中的实体类型可以包括:人名、地名、机构名、联系方式、个人识别号;第二等级对应的隐私等级为选择性保密处理等级,可选地,上述实体类型中除第一分级中的实体类型外,其余实体类型均可属于第二分级。当然,具体划分方式并不以此为限。

基于上述说明,在得到各目标隐私实体之后,则可以基于该预设实体分级机制,根据各目标隐私实体的实体类型,确定各目标隐私实体的隐私等级。

S104、根据各目标隐私实体的隐私等级,确定各目标隐私实体的目标匿名化方式,并采用各目标匿名化方式对各目标隐私实体进行匿名化处理,输出匿名化后的目标信息。

可选地,属于同一隐私等级的多个隐私实体可以对应相同的匿名化方式,比如,属于上述第一等级的目标隐私实体的匿名化方式可以为隐藏,属于上述第二等级的目标隐私实体的匿名化方式可以为泛化或者替代。

基于上述说明,根据各目标隐私实体的隐私等级,得到各目标隐私实体的目标匿名化方式之后,则可以据此对各目标隐私实体进行匿名化操作,输出匿名化后的目标信息,从而防止待处理信息中敏感信息的泄露,提高待处理信息的安全性。此外,基于上述说明可以看出,本申请实施例由于引入了隐私实体识别模型,因此,可以适用于非结构化的待处理信息的匿名化操作,相较于现有技术来说,可以提高匿名化方法的适用性。

在一些实施例中,所匿名化后的目标信息可以用于医疗机构之间进行医疗数据的共享,在此并不限定后续的处理方式。

综上,本申请实施例提供一种隐私信息的匿名化方法,该方法包括:获取待处理信息;通过隐私实体识别模型识别待处理信息中的目标隐私实体以及目标隐私实体的实体类型,隐私实体识别模型基于预训练语言模型通过对训练样本集训练得到,训练样本集包括多个训练样本,每个训练样本标注有实体标签,实体标签用于指示训练样本中训练实体的起始位置、结束位置、以及实体类型;基于预设实体分级机制和目标隐私实体的实体类型,确定各目标隐私实体的隐私等级;根据各目标隐私实体的隐私等级,确定各目标隐私实体的目标匿名化方式,并采用各目标匿名化方式对各目标隐私实体进行匿名化处理,输出匿名化后的目标信息,通过该本申请匿名化操作,可以防止待处理信息中敏感信息的泄露,提高待处理信息的安全性。此外,通过引入的隐私实体识别模型,可以适用于非结构化的待处理信息的匿名化操作,相较于现有技术来说,可以提高匿名化方法的适用性。

图2为本申请实施例提供的另一种隐私信息的匿名化方法的流程图。

可选地,如图2所示,上述方法还包括:

S201、获取训练样本集,训练样本集包括多个训练样本,每个训练样本标注有实体标签,实体标签用于指示训练样本中训练实体的起始位置、结束位置、以及实体类型。

其中,以医疗领域为例说明各训练样本的获取方式,可选地,可以从多家医院的多个科室中收集数千条真实场景下的电子病历文本数据,筛选包含隐私信息的电子病历文本数据作为训练样本集,并采用机器标注或者人工标注的方式标注各训练样本中训练实体的起始位置、结束位置、以及实体类型。需要说明的是,各训练样本中训练实体的实体类型的分类具体可参见上述S102中的相关描述,在此不再赘述。

图3为本申请实施例提供的一种训练样本的标注方式,从图3中可以看出,该训练样本中共包括:地名、时间、机构名、生活事件共四种实体类型,当然,需要说明的是,训练样本的具体内容并不以此为限,根据实际的应用场景可以包括不同的内容。

S202、根据多个训练样本,基于预训练语言模型训练获取隐私实体识别模型。

可选地,预训练语言模型可以是基于Transformer的双向编码器表示模型(BidirectionalEncoder Representations from Transformer,BERT)、RoBERTa(ARobustly Optimized BERT)等,在此不作限定,其中,RoBERTa模型是BERT的改进版,即简单粗暴称为强力优化的BERT方法。

在一些实施例中,具体在进行训练时,可以将各训练样本的字符序列输入到预训练语言模型中,获得每个字符的上下文表示;使用填表的方法,对于每一个训练实体生成一张矩阵,其每一行代表训练实体的首字符,其每一列代表训练实体的尾字符,若该位置为一个实体,那么该矩阵的相应位置为1,否则为0。可选地,训练过程中,可以基于span分类的解码方法GlobalPointer,对于各训练样本分别通过线性变化得到该训练样本中各实体的首字符和尾字符的向量表示,通过乘性注意力机制计算矩阵中每一个位置的得分并据此来训练隐私实体识别模型,实现了可以利用全局归一化的思路来进行命名实体识别(NER),可以无差别地识别嵌套实体和非嵌套实体,提高本申请方法的适用性。

图4为本申请实施例提供的一种训练过程示意图,如图4所示,第1行第4列的值为1,意味着首字符为“中”,尾字符为“经”,那么“中枢神经”为一个实体。基于上述说明,在训练得到隐私实体识别模型之后,若待处理信息包括“中枢神经”这个目标隐私实体时,则通过该隐私实体识别模型可以识别出该目标隐私实体,以及该目标隐私实体的实体类型。

图5为本申请实施例提供的又一种隐私信息的匿名化方法的流程图。可选地,如图5所示,上述根据各目标隐私实体的隐私等级,确定各目标隐私实体的目标匿名化方式,包括:

S301、根据各目标隐私实体的隐私等级,确定各目标隐私实体的初始匿名化方式。

其中,各目标隐私实体的初始匿名化方式可以根据其所属的隐私等级对应的默认匿名化方式确定。比如,默认属于第一等级的各目标隐私实体的初始匿名化方式为隐藏;默认属于第二等级的各目标隐私实体的初始匿名化方式为泛化,当然,各隐私等级对应的默认匿名化方式的设置并不以此为限。

S302、响应于对各目标隐私实体的初始匿名化方式的调整操作,获取各目标隐私实体的目标匿名化方式。

基于上述说明,可选地,根据实际的应用场景,也可以将属于同一隐私等级的多个隐私实体设置为对应不同的匿名化方式。在一些实施例中,若默认属于第一等级的各目标隐私实体的初始匿名化方式为隐藏,则应用本申请实施例,可以将实体类型“人名”的匿名化方式设置为泛化,比如,可以将人名:“王一一”泛化为“王XX”;将实体类型“机构名”的匿名化方式设置为替代,比如,可以将机构名“上海口腔医院”匿名化为“医院”,根据实际的应用场景可以灵活调整。

应用本申请实施例,实现了可以根据实际的应用场景调整各目标隐私实体的匿名化方式,可以提高本申请方法的灵活性。

图6为本申请实施例提供的另一种隐私信息的匿名化方法的流程图。可选地,如图6所示,上述基于待处理信息,通过隐私实体识别模型识别待处理信息中的目标隐私实体以及目标隐私实体的实体类型,包括:

S401、基于待处理信息,设置待匿名的实体类型。

基于上述说明,为了进一步提高本申请方法的灵活性,本申请实施例还提供可手动设置待匿名的实体类型的匿名化方法。在一些实施例中,具体进行设置时,可以基于该待处理信息,显示默认的实体类型,基于该默认的实体类型,可以从中对其进行删减,可以理解的是,通过该删减操作可以对该默认的实体类型作进一步的调整,以避免默认的实体类型过多不利于后期重要信息的处理。

S402、根据待匿名的实体类型,通过隐私实体识别模型识别待处理信息中的目标隐私实体以及目标隐私实体的实体类型。

其中,基于待匿名的实体类型的设置,则可以通过该隐私实体识别模型识别出待处理信息中属于该待匿名的实体类型的目标隐私实体,并确定该目标隐私实体的实体类型,应用本申请实施例,可以通过限定实体类型,对待处理信息中的目标隐私实体作进一步的筛选,可以提高本申请方法的灵活性和适用性。

可选地,上述目标匿名化方式为下述任一种:隐藏处理、替代处理、泛化处理。

其中,隐藏处理,用于指示删除待匿名的隐私实体,或者,采用预设字符替代待匿名的隐私实体。

举例说明,对于电子病历来说,其通常存在很多涉及患者生活隐私的信息,比如,身份证号、CT号、生活事件等。对于此类信息,基于对患者隐私的保护和患者自身的保护需求,可以采用完全隐藏的方法。比如,对于固定位数的数字信息,如身份证号、电话号等隐私实体,可以先计算该隐私实体的实体长度,接着将数字替换成预设字符(比如,字符“X”、“-”等,在此不作限定)处理,如此可以在实现匿名化的同时保证数字位数不变,保留数据特征。在一些实施例中,对于涉及生活情况的文本长度较大的隐私实体,比如,生活事件、生活规律、婚育史等,对其进行隐藏处理时,既可以计算文本长度后以相同位数预设字符代替,也可以采用置空的方式,即删除文本,避免因过多的特殊匿名化字符带来的阅读理解障碍,根据实际的应用场景可以灵活设置。

替代处理,用于指示采用预定义词对待匿名的隐私实体进行替换操作,其可应用在机构名、民族、职业、药品等实体类型的隐私实体上。

在一些实施例中,可以采用下述的方法确定待匿名的隐私实体对应的预定义词:其中,可以预先建立标准化词典,该标准化词典中可以包括不同实体类型对应的预定义词,当然,对于该标准化词典,也可对其中的预定义词进行增删改查;其次,对待匿名的隐私实体进行信息抽取,将抽取后的信息与标准化词典中的各预定义词进行匹配,具体可以采用关键词匹配、完全匹配等匹配方法,在此不作限定。其中,若匹配成功后,则可以返回该待匿名的隐私实体对应的预定义词。

举例来说,对于机构名这类待匿名的隐私实体,标准化词典可以包括:医院、酒店、福利院、工厂等预定义词。比如,当待匿名的隐私实体的抽取结果为“上海XXXX医院”时与词库中的“医院”匹配成功,即进行替代处理,输出结果为“某医院”;对于民族类待匿名的隐私实体,词库内容即为所有民族名称,替代处理后结果输出为“某民族”或“少数民族”;同理,对于职业类待匿名的隐私实体,匹配成功后输出“某职业”或按照职业大类进行分类,例如:工人和文职人员等;对药物亦可按照药物类别,将具体的药物名称替换为药物大类,在此不再赘述。

泛化处理,用于指示采用预设泛化规则对待匿名的隐私实体进行部分删除或替换,其处理目的主要是将具体信息或者概念泛化到为广泛的表述,从而实现对待匿名的隐私实体的匿名化操作。

基于上述说明,当然,实际应用场景中也存在一些无法与预定义词匹配进行直接替代,或,直接替代会造成语义不通或重要信息结构丢失的待匿名的隐私实体,如具体地址、治疗方法和疾病诊断。其中,若将具体地址统一替换成“某地”,可能会丢失可用作地域性疾病分析的信息,对于这类待匿名的隐私实体的处理,可以采用以下方法:对抽取出的地址信息进行分析,按规则选择性泛化。例如,对于具体地址,按国家、省、市建立,在读取到具体地址信息时保留至市级,其后信息隐去;对于治疗方法,参考医疗知识图谱中的部位和手术方法,可选择性地对治疗手法、介入法、手术部位等部分内容进行泛化处理;对于疾病诊断,同理按照疾病所属科室建立的知识图谱,读取实体后进行匹配,得出包含科室信息的疾病诊断,如特应性皮炎泛化结果为XXX皮炎;

此外,对于待匿名的隐私实体,也可能存在需要保留一定信息量的场景,以便有利于医疗信息分析的数字结构实体,如,时间信息、年龄信息,如果将这些信息全部统一隐去,会造成数据可用性的降低,在一些实施例中,可以对这些信息进行整理与分析,按预设泛化规则泛化处理。比如,时间信息的预设泛化规则为,将信息按照“年/月/日/时刻”对应提取,按照用户需求进行不同精度的泛化处理,如只保留年份信息,或保留只保留月份信息,一定程度上提高数据可用性,将疾病和时间的关系纳入医疗分析之中;年龄信息的预设泛化规则为以5为步长进行区间划分,将年龄对于至区间输出,如38岁的泛化结果为35-40岁。

值得说明的是,与上述替代处理不同的是,泛化处理需要对待匿名的隐私实体进行分析,从而保留部分信息或对部分概念进行推广,而替代处理则主要是关键信息的匹配,整体替代为标准化词典中的预定义词。

另外,需要说明的是,不同实体类别可以存在多种匿名化处理方式,具体方式可根据用户需求进行设置。

综上,应用本申请实施例,可以从目标隐私实体的实体类型出发为各目标隐私实体设置不同的匿名化方式,保证匿名化方式的多样性,此外,匿名化过程中也保留的必要的医疗信息,比如:医学影像资料、检查化验指标等,保证数据具有一定的可用性。

图7为本申请实施例提供的又一种隐私信息的匿名化方法的流程图。

可选地,如图7所示,上述方法还包括:

S501、响应于对匿名化后的目标信息中目标隐私实体的新增或者删除操作,新增或者删除匿名化后的目标信息中的目标隐私实体。

基于上述说明,在得到该匿名化后的目标信息后,考虑到不同应用场景中用户对目标隐私实体的定义不同,比如,第一应用场景中,需要将患者的出生地作为目标隐私实体,而第二应用场景中,由于需要研究出生地对患者生活习惯的影响,因此,需要将患者的出生地作为非隐私实体。因此,为了适应不同应用场景下用户的匿名化需求,本申请实施例还提供一种对匿名化后的目标信息中目标隐私实体进行再编辑的方法。

可选地,对于匿名化后的目标信息,可以采用下划线、第一颜色标注等多种方式在该匿名化后的目标信息增加新的目标隐私实体,当然,也可以采用删除线、第二颜色标注等多种方式删除该匿名化后的目标信息中已确定的目标隐私信息,在此不作限定,应用本申请实施例,可以提高本申请方法的适用性。

值得说明的是,本申请实施例所提供的方法不仅可以适用于医疗机构根据需求进行电子病历文本的匿名化操作;也可以适用于患者,比如,本申请实施例所提供的匿名化方法可以部署在用户终端上,那么患者可以通过该用户终端对自己的电子病历文本进行匿名化操作以指示需要对电子病历文本中的何种信息进行保密操作,可以满足患者的个性化保密需求。可选地,经患者进行匿名化操作之后的电子病历信息文本可以进一步提交至患者所在的医疗机构的数据库进行保存,当然,本申请在此并不限定该匿名化后的电子病历的后续操作。

可选地,匿名化后的目标信息中不同实体类型的目标隐私实体区别化标注,和/或,匿名化后的目标信息中目标隐私实体与非实体信息区别化标注。

在一些实施例中,可以以多种方式展示该匿名化的目标信息以便可以让用户快速掌握该匿名化的目标信息中的关键信息。

比如,可以根据是否属于目标隐私实体进行区别化标注,具体地,可以将匿名化后的目标信息中的目标隐私实体统一标注为黑体加粗,其他信息则正常显示,比如,宋体显示,当然,具体标注方式并不以此为限。

又或者,可以根据该匿名化后的目标信息中各目标隐私实体的实体类型进行区别化标注,比如,第一实体类型的目标隐私实体可以标注为楷体加黑且黄色高亮、第二实体类型的目标隐私实体可以标注为楷体加黑且绿色高亮、第三实体类型的目标隐私实体可以标注为楷体加黑且红色高亮。当然,需要说明的是,具体标注方式并不以此为限,根据实际的应用场景或者用户的使用习惯可以灵活设置,以提高对该匿名化后的目标信息的处理效率。

图8为本申请实施例提供的一种隐私信息的匿名化装置的功能模块示意图,该装置基本原理及产生的技术效果与前述对应的方法实施例相同,为简要描述,本实施例中未提及部分,可参考方法实施例中的相应内容。

如图8所示,该匿名化装置100包括:

获取模块110,用于获取待处理信息;

识别模块120,用于隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型,所述隐私实体识别模型基于预训练语言模型通过对训练样本集训练得到,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

确定模块130,用于基于预设实体分级机制和所述目标隐私实体的实体类型,确定各所述目标隐私实体的隐私等级;

处理模块140,用于根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的目标匿名化方式,并采用各所述目标匿名化方式对各所述目标隐私实体进行匿名化处理,输出匿名化后的目标信息。

在可选的实施方式中,所述识别模块120,还用于获取训练样本集,所述训练样本集包括多个训练样本,每个训练样本标注有实体标签,所述实体标签用于指示所述训练样本中训练实体的起始位置、结束位置、以及实体类型;

根据多个所述训练样本,基于预训练语言模型训练获取所述隐私实体识别模型。

在可选的实施方式中,所述处理模块140,具体用于根据各所述目标隐私实体的隐私等级,确定各所述目标隐私实体的初始匿名化方式;

响应于对各所述目标隐私实体的初始匿名化方式的调整操作,获取各所述目标隐私实体的目标匿名化方式。

在可选的实施方式中,所述识别模块120,具体用于基于所述待处理信息,设置待匿名的实体类型;

根据所述待匿名的实体类型,通过所述隐私实体识别模型识别所述待处理信息中的目标隐私实体以及所述目标隐私实体的实体类型。

在可选的实施方式中,所述目标匿名化方式为下述任一种:隐藏处理、替代处理、泛化处理;

其中,所述隐藏处理,用于指示删除待匿名的隐私实体,或者,采用预设字符替代所述待匿名的隐私实体;所述替代处理,用于指示采用预定义词对待匿名的隐私实体进行替换操作;所述泛化处理,用于指示采用预设泛化规则对待匿名的隐私实体进行部分删除或替换。

在可选的实施方式中,所述处理模块140,还用于响应于对所述匿名化后的目标信息中目标隐私实体的新增或者删除操作,新增或者删除所述匿名化后的目标信息中的目标隐私实体。

在可选的实施方式中,所述匿名化后的目标信息中不同实体类型的目标隐私实体区别化标注,和/或,所述匿名化后的目标信息中目标隐私实体与非实体信息区别化标注。

上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

图9为本申请实施例提供的一种电子设备结构示意图,该电子设备可以集成于上述匿名化装置中。如图9所示,该电子设备可以包括:处理器210、存储介质220和总线230,存储介质220存储有处理器210可执行的机器可读指令,当电子设备运行时,处理器210与存储介质220之间通过总线230通信,处理器210执行机器可读指令,以执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

可选地,本申请还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述方法实施例的步骤。具体实现方式和技术效果类似,这里不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-OnlyMemory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 日志信息处理方法、装置、电子设备及可读存储介质
  • 图像信息的传输方法、装置、存储介质及电子设备
  • 查看保单信息的方法、装置、电子设备及存储介质
  • 信息处理方法及装置、电子设备和存储介质
  • 一种语音信息推送方法、装置、电子设备及存储介质
  • 一种基于关键信息匿名化的智能网联汽车数据训练方法、电子设备及计算机可读存储介质
  • 一种匿名信息跨域推荐方法、装置、电子设备及存储介质
技术分类

06120115953120