掌桥专利:专业的专利平台
掌桥专利
首页

一种应用程序的合规检测方法、装置和电子设备

文献发布时间:2023-06-19 09:33:52


一种应用程序的合规检测方法、装置和电子设备

技术领域

本文件涉及计算机技术领域,尤其涉及一种应用程序的合规检测方法、装置和电子设备。

背景技术

近年来,随着智能手机的普及,应用程序(Application,APP)数量已超500万款,这些APP在为人们生活带来便利的同时,也随之带来一些违规收集用户个人隐私信息的问题。为了整治APP违规收集用户个人隐私信息的乱象,国家监管部门先后发布了《信息安全技术-移动互联网应用程序收集个人信息基本规范》(为便于描述,下文简称“基本规范”)。该“基本规范”规定了地图导航、网络约车、即时通讯、网络社区、网络支付、新闻资讯、网上购物等常用服务类型的APP可收集的用户的最小必要信息。

通常情况下,APP的隐私权政策条款是由专业的法务人员撰写,而APP的开发工作则是由专业的程序开发人员来完成。这就导致由于各自的专业角色不同以及专业领域的知识不同,进而出现APP对应的“基本规范”、APP隐私权政策条款、APP实际执行的代码这三者关于某个数据项的实际采集行为和表述出现不一致、甚至冲突的情况。因此,如何快速准确地检测出上述三者出现的不一致的情况,进而避免APP出现一些违规行为,导致APP被合规处理,仍然需要提供进一步地解决方案。

发明内容

本说明书实施例提供了一种应用程序的合规检测方法、装置和电子设备,以快速准确地检测出上述三者出现的不一致的情况,避免APP出现一些违规行为,导致APP被合规处理的问题。

为解决上述技术问题,本说明书实施例是这样实现的:

第一方面,提出了一种应用程序的合规检测方法,包括:

从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

第二方面,提出了一种应用程序的合规检测装置,包括:

合法数据项获取模块,从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

候选文本获取模块,基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

数据项获取模块,基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

合规检测模块,基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

第三方面,提出了一种电子设备,包括:

处理器;以及

被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:

从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:

从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

本说明书实施例采用上述技术方案至少可以达到下述技术效果:

在对目标应用程序进行合规检测时,能够从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,该应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,目标应用程序的功能类型与多个应用程序中的一个应用程序的功能类型相同;再基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;以及基于预先训练的指定命名实体识别模型,识别候选文本指示采集的数据项;最后基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项以及目标应用程序的代码指示采集的数据项,对目标应用程序的数据项采集权限进行合规检测;其中目标应用程序的代码指示采集的数据项为基于目标应用程序的代码获取到的。

目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,该指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。采用二分类模型、指定命名实体模型,对目标应用程序的隐私政策文本中指定采集的数据项进行自动识别,再将识别结果与应用程序的合规政策库中的合法数据项的采集权限、目标应用程序的代码实际采集的数据项进行比对,能快速实现对应用程序的合规检测,避免应用程序出现一些违规行为而被下架。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:

图1为本说明书实施例提供的一种应用程序的合规检测方法的实现流程示意图;

图2为本说明书一个实施例提供的应用程序的合规检测方法的应用于实际场景中的示意图;

图3为本说明书一个实施例提供的应用程序的合规检测方法应用于实际场景中的流程示意图;

图4为本说明书一个实施例提供的应用程序的合规检测方法中生成的合规检测报告的示意图;

图5为本说明书一个实施例提供的应用程序的合规检测装置的结构示意图;

图6为本说明书一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本文件的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本文件一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文件保护的范围。

以下结合附图,详细说明本说明书各实施例提供的技术方案。

本说明书实施例为了快速准确地检测出APP对应的“基本规范”、APP隐私权政策条款、APP实际执行的代码这三者出现的不一致的情况,避免APP出现一些违规行为,导致APP被合规处理的问题,提出一种应用程序的合规检测方法,在对目标应用程序进行合规检测时,能够从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,该应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,目标应用程序的功能类型与多个应用程序中的一个应用程序的功能类型相同;再基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;以及基于预先训练的指定命名实体识别模型,识别候选文本指示采集的数据项;最后基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项以及目标应用程序的代码指示采集的数据项,对目标应用程序的数据项采集权限进行合规检测;其中目标应用程序的代码指示采集的数据项为基于目标应用程序的代码获取到的。

目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,该指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。采用二分类模型、指定命名实体模型,对目标应用程序的隐私政策文本中指定采集的数据项进行自动识别,再将识别结果与应用程序的合规政策库中的合法数据项的采集权限、目标应用程序的代码实际采集的数据项进行比对,能快速实现对应用程序的合规检测,避免应用程序出现一些违规行为而被下架。

本说明书实施例提供的应用程序的合规检测方法,该方法的执行主体,可以但不限于个人电脑、服务器等能够被配置为执行本发明实施例提供的该方法的装置中的至少一种。

为便于描述,下文以该方法的执行主体为能够执行该方法的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。

具体地,本说明书一个或多个实施例提供的一种应用程序的合规检测方法的实现流程示意图如图1所示,包括:

S110,从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,目标应用程序属于多个应用程序。

其中,目标应用程序的功能类型与多个应用程序中的一个应用程序的功能类型相同。比如应用程序的合规数据库中可存储有具备地图导航功能的APP的合法数据项的采集权限、具备即时通讯功能的APP的合法数据项的采集权限、具备网络约车功能的APP的合法数据项的采集权限、具备网络社区功能的APP的合法数据项的采集权限、具备网络支付功能的APP的合法数据项的采集权限、具备新闻资讯功能的APP的合法数据项的采集权限、……等等功能类型的APP的合法数据项的采集权限。

如背景技术所述,为了整治APP违规收集用户个人隐私信息的乱象,国家监管部门先后发布了“基本规范”,该“基本规范”规定了地图导航、网络约车、即时通讯、网络社区、网络支付、新闻资讯、网上购物等常用服务类型的APP可收集的用户的最小必要信息(也即上文所述的合法数据项的采集权限)。其中,最小必要信息为保障某一服务类型的APP能够正常运行所最少够用的个人信息,包括一旦缺少将导致该类型服务的APP无法实现或无法正常运行的个人信息,以及法律法规要求必须收集的个人信息。

以地图导航类APP为例,该类APP可以为用户提供互联网地图和导航功能。该服务类型APP的最小必要信息如表1所示,由表1可知,地图导航类APP可收集的用户的最小必要信息,也即具备的合法数据项的采集权限包括:仅用于确定用户位置,提供地图搜索展示和导航服务的精准定位信息、以及仅用于在导航服务中判断实时路况及重新规划导航路线的行踪轨迹。

表1 地图导航类APP的最小必要信息

S120,基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本。

应理解,目标应用程序申明的隐私政策文本通常篇幅比较长,而且行文专业,即使是专业法务工作者,也需要为阅读一份隐私政策花费大量的时间。本说明书实施例为了提高对目标应用程序申明的隐私政策文本中存在数据项采集文本的获取效率,可通过预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,具体可以对存在数据项采集的文本和不存在数据项采集的文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本。

可选地,基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本,包括:

获取目标应用程序申明的隐私政策文本;

基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本中,存在数据项采集的文本和不存在数据项采集的文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本。

其中,目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的。

具体地,可预先收集目前市场的主流APP的隐私政策文本集,对这些隐私政策文本中的每一句文本进行打标签,每一句文本的标签用于表征该文本是否存在数据项采集。例如,“为了方便注册账号,我们会保存您的账号和手机号信息”,这句文本则可以被标记为“是”;“但是我们并不分享和收集您的个人位置信息”,该句文本则可以应该被标记为“否”。也就是说,当某一句文本被标注为“是”的标签,则可以标注该句文本存在书项采集,而当某一句文本被标注为“否”的标签,则可以标注该句文本不存在书项采集。

然后,根据上述已经事先打过标签的主流APP的隐私政策文本集训练本说明书实施例中的目标二分类模型,并保存该目标二分类模型用于对目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本。其中,目标二分类模型可以采用SVM、决策树、随机森林、GBDT、Xgboost、Adboost、最大熵模型、逻辑回归模型、神经网络、深度神经网络(例如CNN、RNN、BERT+LR等)等机器学习或深度学习方法训练得到,且不限于这些训练方法。

S130,基于预先训练的指定命名实体识别模型,识别候选文本指示采集的数据项。

其中,指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

为了识别目标应用程序申明的隐私政策文本中的候选文本申明收集哪些数据项,可以先训练指定命名实体标注模型(又称命名实体识别,Name Entity Recognition(NER),简称NER模型)。

具体可收集目前市场的主流APP的隐私政策文本集,对隐私政策文本集中的每个文本用BIOE标记法,标记这些隐私政策文本申明采集了哪些个人信息相关的数据项。其中,BIOE分别代表意义:B,即Begin,表示开始;I,即Intermediate,表示中间;E,即End,表示结尾;O,即Other,表示其他,用于标记无关字符。例如:将“您可能需要提供您的姓名、性别、电话号码等信息”这句话进行标注,结果就是:[O, O, O, O, O, O, O, O, O, B-NAME,E-NAME,O, B-GENDER,E-GENDER,O,B-PHONE,I-PHONE,I-PHONE,E-PHONE,O,O,O,O],其中NAME代表姓名,GENDER代表性别,PHONE代表手机号码,均代表数据项的类别。

然后,根据上述的已经人工事先标注的数据训练指定命名实体识别模型,保存该指定命名实体识别模型用于识别候选文本指示采集的数据项,可选地,指定命名实体识别模型采用下述至少一种深度学习算法训练得到:

隐马尔可夫模型(Hidden Markov Model,HMM);最大熵马尔可夫模型(MaximumEntropy Markov Model,MEMM);条件随机场模型(Conditional Random Field,CRF);邻近算法(Nearest Neighbor,NN)/卷积神经网络(Convolutional Neural Networks,CNN)-CRF;循环神经网络(Recurrent Neural Network,RNN)-CRF;双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)+CRF;来自转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)+CRF。

指定命名实体识别模型采用序列标记的方式,不仅能够识别出目标应用程序申明的隐私政策文本中指示采集的数据项,还能够识别出所包含的一条或多条数据项序列各自的起止位置信息和序列数据项的类别信息。可选地,基于预先训练的指定命名实体识别模型,识别候选文本指示采集的数据项,包括:

基于预先训练的指定命名实体识别模型,依次识别候选文本中指示采集的数据项的类别;

基于候选文本中指示采集的数据项的类别,生成候选文本指示采集的数据项列表。

S140,基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项以及目标应用程序的代码指示采集的数据项,对目标应用程序的数据项采集权限进行合规检测;目标应用程序的代码指示采集的数据项为基于目标应用程序的代码获取到的。

如图2所示,为本说明书一个实施例提供的应用程序的合规检测方法的应用于实际场景中的示意图。在图2中,可将应用程序的合规政策库、APP的源代码、以及APP隐私政策文本输入到融合了目标二分类模型和指定命名实体识别模型的自动化分析系统中,由该自动化分析系统首先从应用程序的合规政策库确定出与APP的功能类型相匹配的合法数据项的采集权限;再由该自动化分析系统确定出APP隐私政策文本中存在数据项采集的候选文本、以及候选文本中指示采集的数据项的类别;然后由该自动化分析系统对APP的代码中与数据项相关的关键字进行扫描和匹配,以获取APP的代码指示采集的数据项列表;最后,基于与APP的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及APP的代码指示采集的数据项列表,对APP的数据项采集权限进行合规检测,得到APP的合规检测报告。

可选地,基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项以及目标应用程序的代码指示采集的数据项,对目标应用程序的数据项采集权限进行合规检测,包括:

获取目标应用程序的代码;

对目标应用程序的代码中与数据项相关的关键字进行扫描和匹配,以获取目标应用程序的代码指示采集的数据项列表;

基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表,对目标应用程序的数据项采集权限进行合规检测。

如图3所示,为本说明书一个实施例提供的应用程序的合规检测方法应用于实际场景中的流程示意图。在图3中包括离线完成部分和在线完成部分。其中:

离线完成部分:

S01,获取应用程序的合规政策库;

该应用程序的合规政策库中包含有不同功能类型的多个APP的合法数据项的采集权限(也即下文所述的最小必要信息数据项与权限),这些应用程序的合法数据项的采集权限符合国家法律法规。

S02,对应用程序的合规政策库进行人工解读;

S03,梳理成不同功能类型APP的最小必要信息数据项与权限。

在线完成部分:

S11,获取目标APP代码与隐私政策文本;

S12,对目标APP的功能类型进行判断;

S13,从应用程序的合规政策库中,获取与目标APP的功能类型相对应的合法数据项的采集权限;

S21,获取目标APP申明的隐私政策文本;

S22,基于目标二分类模型对目标APP申明的隐私政策文本的每句文本进行判断和分类,确定每句文本中是否存在数据项采集,获取存在数据项采集的候选文本;

如果存在数据项采集则执行S23。

S23,基于指定实体识别模型获取候选文本中申明采集的数据项;

S24,汇总目标APP申明的隐私政策文本中申明采集的数据项;

S31,对目标APP的代码进行扫描;

S32,获取目标APP的代码指示采集的数据项列表;

S33,基于与目标APP的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标APP的代码指示采集的数据项列表,生成目标APP的数据项采集权限的合规检测报告。

可选地,基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表,对目标应用程序的数据项采集权限进行合规检测,包括:

对与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表进行比对,确定与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表的一致性;

基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表的一致性,生成目标应用程序的数据项采集权限的合规检测报告。

如图4所示,为本说明书一个实施例提供的应用程序的合规检测方法中生成的合规检测报告的示意图,在图4的第一列,为与目标APP的功能相对应的合法数据项的采集权限列表,在图4的第二列,为目标APP隐私政策文本中申明采集的数据项列表,图4的第三列为目标APP代码实际指示采集的数据项列表。

可选地,为了避免目标应用程序出现一些违规行为,导致目标应用程序被合规处理的问题,在确定与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表存在不一致时,可依据目标应用程序的数据项采集权限的合规检测报告,对目标应用程序的数据项的采集权限进行更正。具体地,本说明书实施例提供的方法还包括:

如果与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项列表以及目标应用程序的代码指示采集的数据项列表存在不一致,则可以基于目标应用程序的数据项采集权限的合规检测报告,对目标应用程序的数据项采集权限进行更正。

在实际应用中,由于目标应用程序的隐私政策文本与目标应用程序的代码通常不是由同一批人员完成,因此,难免会出现这两者与合法数据项的采集权限不一致的情况。本说明书实施例为了及时对该不一致的情况进行更正,可依据目标应用程序的数据项采集权限的合规检测报告,分别确定出目标应用程序的隐私政策文本与目标应用程序的代码中与合法数据项的采集权限不一致的地方,并及时予以更正。

在对目标应用程序进行合规检测时,能够从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,该应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,目标应用程序的功能类型与多个应用程序中的一个应用程序的功能类型相同;再基于预先训练的目标二分类模型,对目标应用程序申明的隐私政策文本进行分类,以获取目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;以及基于预先训练的指定命名实体识别模型,识别候选文本指示采集的数据项;最后基于与目标应用程序的功能相对应的合法数据项的采集权限、候选文本指示采集的数据项以及目标应用程序的代码指示采集的数据项,对目标应用程序的数据项采集权限进行合规检测;其中目标应用程序的代码指示采集的数据项为基于目标应用程序的代码获取到的。

目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,该指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。采用二分类模型、指定命名实体模型,对目标应用程序的隐私政策文本中指定采集的数据项进行自动识别,再将识别结果与应用程序的合规政策库中的合法数据项的采集权限、目标应用程序的代码实际采集的数据项进行比对,能快速实现对应用程序的合规检测,避免应用程序出现一些违规行为而被下架。

图5是本说明书一个或多个实施例提供的一种应用程序的合规检测装置500的结构示意图,包括:

合法数据项获取模块501,从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

候选文本获取模块502,基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

数据项获取模块503,基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

合规检测模块504,基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

可选地,在一种实施方式中,所述候选文本获取模块502,用于:

获取所述目标应用程序申明的隐私政策文本;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本中,存在数据项采集的文本和不存在数据项采集的文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本。

可选地,在一种实施方式中,所述数据项获取模块503,用于:

基于预先训练的指定命名实体识别模型,依次识别所述候选文本中指示采集的数据项的类别;

基于所述候选文本中指示采集的数据项的类别,生成所述候选文本指示采集的数据项列表。

可选地,在一种实施方式中,所述合规检测模块504,用于:

获取所述目标应用程序的代码;

对所述目标应用程序的代码中与数据项相关的关键字进行扫描和匹配,以获取所述目标应用程序的代码指示采集的数据项列表;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项列表以及所述目标应用程序的代码指示采集的数据项列表,对所述目标应用程序的数据项采集权限进行合规检测。

可选地,在一种实施方式中,所述合规检测模块504,用于:

对与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项列表以及所述目标应用程序的代码指示采集的数据项列表进行比对,确定与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项列表以及所述目标应用程序的代码指示采集的数据项列表的一致性;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项列表以及所述目标应用程序的代码指示采集的数据项列表的一致性,生成所述目标应用程序的数据项采集权限的合规检测报告。

可选地,在一种实施方式中,所述装置还包括:

权限更正模块,如果与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项列表以及所述目标应用程序的代码指示采集的数据项列表存在不一致,则基于所述目标应用程序的数据项采集权限的合规检测报告,对所述目标应用程序的数据项采集权限进行更正。

可选地,在一种实施方式中,所述指定命名实体识别模型采用下述至少一种深度学习算法训练得到:

隐马尔可夫模型HMM;最大熵马尔可夫模型MEMM;条件随机场模型CRF;邻近算法NN/卷积神经网络CNN-条件随机场模型CRF;循环神经网络-条件随机场模型RNN-CRF;双向长短期记忆网络Bi-LSTM+条件随机场模型CRF;来自转换器的双向编码表征BERT+条件随机场模型CRF。

应用程序的合规检测装置500能够实现图1~图4的方法实施例的方法,具体可参考图1~图4所示实施例的应用程序的合规检测方法,不再赘述。

图6是本说明书的一个实施例提供的电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成应用程序的合规检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

采用本说明书实施例提供的电子设备可知道:采用二分类模型、指定命名实体模型,对目标应用程序的隐私政策文本中指定采集的数据项进行自动识别,再将识别结果与应用程序的合规政策库中的合法数据项的采集权限、目标应用程序的代码实际采集的数据项进行比对,能快速实现对应用程序的合规检测,避免应用程序出现一些违规行为而被下架。

上述如本说明书图1~图4所示实施例揭示的应用程序的合规检测方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

该电子设备还可执行图1~图4的应用程序的合规检测方法,本说明书在此不再赘述。

当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1~图4所示实施例的方法,并具体用于执行以下操作:

从应用程序的合规政策库中,获取与目标应用程序的功能类型相对应的合法数据项的采集权限,所述应用程序的合规数据库中存储有不同功能类型的多个应用程序的合法数据项的采集权限,所述目标应用程序属于所述多个应用程序;

基于预先训练的目标二分类模型,对所述目标应用程序申明的隐私政策文本进行分类,以获取所述目标应用程序申明的隐私政策文本中存在数据项采集的候选文本;

基于预先训练的指定命名实体识别模型,识别所述候选文本指示采集的数据项;

基于与所述目标应用程序的功能相对应的合法数据项的采集权限、所述候选文本指示采集的数据项以及所述目标应用程序的代码指示采集的数据项,对所述目标应用程序的数据项采集权限进行合规检测;所述目标应用程序的代码指示采集的数据项为基于所述目标应用程序的代码获取到的;

其中,所述目标二分类模型为基于多个应用程序的隐私政策文本、以及用于指示隐私政策文本中是否存在数据项采集的标签训练得到的,所述指定命名实体识别模型为基于多个应用程序的隐私政策文本、以及用于指示存在数据项采集的隐私政策文本中数据项类别的标签训练得到的。

总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

相关技术
  • 一种应用程序的合规检测方法、装置和电子设备
  • 一种应用程序隐私合规检测方法、装置、设备和介质
技术分类

06120112210137