掌桥专利:专业的专利平台
掌桥专利
首页

数据分级方法、装置、计算机设备和存储介质

文献发布时间:2024-04-18 20:01:23


数据分级方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域,特别是涉及一种数据分级方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展,人们在工作、生活和娱乐过程中产生了大量的数据,如姓名、年龄、身份证号、手机号等个人信息数据,又如社交过程中的聊天记录数据、银行交易流水数据等。为了确保各种数据能够处于有效保护和合法利用的状态,以确保数据安全,可以对各种数据进行安全级别划分,根据数据对应的安全级别对相应数据进行保护,如设置不同的密级权限,通过不同的加密算法进行加密等。

目前,在对数据进行分级以确定数据的级别时,往往基于历史表单进行人工分级,或采用规则对具有明显特征的数据进行识别分级,数据分级处理的覆盖的场景有限,需要反复确认分级结果,导致数据分级的处理效率较低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高数据分级处理效率的数据分级方法、装置、计算机设备、存储介质和计算机程序产品。

一种数据分级方法,所述方法包括:

基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

根据初步分类结果进行融合,获得目标字段的字段分类结果;

基于字段分类结果映射得到目标字段所对应数据的数据级别。

一种数据分级装置,所述装置包括:

特征因子确定模块,用于基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

特征因子组合模块,用于按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

字段初步分类模块,用于按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

分类结果融合模块,用于根据初步分类结果进行融合,获得目标字段的字段分类结果;

数据级别确定模块,用于基于字段分类结果映射得到目标字段所对应数据的数据级别。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

根据初步分类结果进行融合,获得目标字段的字段分类结果;

基于字段分类结果映射得到目标字段所对应数据的数据级别。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

根据初步分类结果进行融合,获得目标字段的字段分类结果;

基于字段分类结果映射得到目标字段所对应数据的数据级别。

一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

根据初步分类结果进行融合,获得目标字段的字段分类结果;

基于字段分类结果映射得到目标字段所对应数据的数据级别。

上述数据分级方法、装置、计算机设备、存储介质和计算机程序产品,基于业务系统中目标字段的属性信息和字段数据确定多于一个的字段特征因子,按照至少两种分类方式各自对应的特征组合条件将字段特征因子进行组合,并按照每种分类方式,根据相应分类方式所对应的字段特征对目标字段进行分类,根据每种分类方式各自对应的初步分类结果进行融合,得到目标字段的字段分类结果,基于字段分类结果映射得到目标字段所对应数据的数据级别。在数据分级过程中,通过融合多种分类方式对目标字段进行分类的初步分类结果来对目标字段进行分类,以根据目标字段的字段分类结果映射得到对应数据的数据级别,可以覆盖各种分类方式的适用场景,避免对分级结果进行反复确认,提高了数据分级的处理效率。

附图说明

图1为一个实施例中数据分级方法的应用环境图;

图2为一个实施例中数据分级方法的流程示意图;

图3为一个实施例中对目标字段的字段分类结果进行纠正的流程示意图;

图4为另一个实施例中数据分级方法的流程示意图;

图5为一个实施例中创建字段的界面示意图;

图6为一个实施例中显示推荐字段分类的界面示意图;

图7为一个实施例中对目标字段进行分类的流程示意图;

图8为一个实施例中字段血缘关系的示意图;

图9为一个实施例中对数据表进行分级处理的界面示意图;

图10为一个实施例中数据分级装置的结构框图;

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的数据分级方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以登录业务系统的客户端,在客户端中通过业务处理产生业务系统中需要进行分级的数据,如各种业务数据表,终端将业务数据表发送至服务器104,以由服务器104从业务数据表中提取业务系统中的目标字段,基于目标字段的属性信息和字段数据确定多于一个的字段特征因子,按照至少两种分类方式各自对应的特征组合条件将字段特征因子进行组合,并按照每种分类方式,根据相应分类方式所对应的字段特征对目标字段进行分类,根据每种分类方式各自对应的初步分类结果进行融合,得到目标字段的字段分类结果,基于字段分类结果映射得到目标字段所对应数据的数据级别,从而实现对业务数据表中各数据的分级处理。此外,在服务器104已经获得各种业务数据,将业务数据存储至数据存储系统中时,服务器104也可以直接从数据存储系统中确定需要分级处理的数据,并根据数据相应所属的目标字段,基于目标字段实现对数据的分级处理,从而不需要终端102的直接参与。

其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种数据分级方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤202,基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子。

其中,业务系统指提供业务服务类的系统,如金融业务系统、网络购物业务系统、视频业务系统、社交业务系统等各种系统。在业务系统提供相应业务服务的过程中,会产生各种业务数据,如交易流水数据、社交关系数据、视频浏览记录数据等等。业务系统需要对各种业务系统进行管理,如可以通过业务数据表的形式,对各业务用户对应的数据进行管理,或对各种业务服务对应的数据进行管理。字段是指业务系统中相同类型的数据所共有的属性,如业务系统中各个用户的姓名数据,则数据可以为各用户具体的姓氏和名字,而该类数据对应所属的字段为“姓名”字段,即“姓名”字段对应于各用户的姓名数据。目标字段为需要进行数据分级处理的数据对应所属的字段。例如,对于一业务数据表中第N行的数据进行分类,则可以确定业务数据表中第N行数据对应所属的字段,将第N行数据对应所属的字段确定为目标字段。

在各种业务系统中,往往会通过字段对相同类型的数据进行统一管理,如姓名、联系方式、民族、住址、收入状况、不动产状况等各类型的数据。属性信息为与目标字段的属性相关的信息,如目标字段的名称、描述、权限、有效期限、创建时间、注销时间等各种属性。字段数据为目标字段对应的各数据,即字段对应的具体数据。例如,目标字段为收入状况时,字段数据可以为各用户的收入信息,具体可以为各用户具体对应的月收入数值或年收入等数据。在一具体应用中,目标字段为车牌号,则目标字段的属性信息可以包括目标字段的名称“车牌号”,以及目标字段的描述“用户名下的车辆的车牌号,包括机动车和机动车等具有车牌号的车辆”,目标字段的字段数据则可以为各用户具体对应的车牌号数据,如张三的为“粤AXXXXX”,李四的为“粤BXXXXX”,赵五的为“粤BXRRRRX”等。即目标字段的属性信息与目标字段本身相关,可以不涉及用户具体的数据,其描述的是目标字段本身;而字段数据则为属于目标字段的各种具体数据,包括各业务用户在业务系统中所产生的属于目标字段的数据。

字段特征因子根据目标字段的属性信息和字段数据确定得到,具体可以根据属性信息和字段数据确定目标字段对应的特征因子,并综合各特征因子得到目标字段对应的字段特征因子。字段特征因子为构建目标字段的字段特征的元素,具体可以从字段特征因子中提取特征因子进行组合,构成目标字段的字段特征,从而可以基于目标字段的字段特征对该目标字段进行分类处理。在具体实现时,属性信息和字段数据可以分别构建对应的特征因子,并根据构建得到的特征因子得到目标字段的特征因子。例如,对于字段数据,可以直接将字段数据作为数据特征因子,根据数据特征因子得到字段特征因子;也可以对字段数据进行进一步数据划分,形成字段子数据,并根据各字段子数据分别构建对应的数据特征因子,根据各字段子数据对应的数据特征因子得到字段特征因子。字段特征因子的数量多于一个,从而可以对各字段特征因子按照需要进行组合,以构建表达力不同的字段特征,从而可以通过不同的分类方式基于相应的字段特征对目标字段进行准确分类处理。

具体地,在对数据进行分级数据时,服务器确定待分类数据对应所属目标字段的属性信息和字段数据,并基于目标字段的属性信息和字段数据确定目标字段所对应的多于一个的字段特征因子。具体实现时,如服务器对业务系统中一数据表中的数据进行分级处理时,服务器确定待分级的数据对应所属的目标字段,并获取业务系统中该目标字段的属性信息和字段数据,服务器基于获得的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子,字段特征因子作为字段特征的构建元素,用于构建目标字段对应的字段特征。

步骤204,按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征。

其中,分类方式指对目标字段进行分类处理的方式,不同的分类方式可以基于目标字段不同的特征进行处理,在通过不同的分类方式对目标字段进行分类处理时,需要构建对应分类方式所需的字段特征,以便通过相应的分类方式对目标字段的字段特征进行分类处理,实现对目标字段的分类。对目标字段进行分类,具体可以为将目标字段分类至标准字段,标准字段可以为数据分级中预先设定的对各字段的标准命名。通过将目标字段进行分类,以将目标字段匹配到相应的标准字段,从而根据标准字段对应的级别映射关系实现对目标字段对应数据的分级处理。例如,对于目标字段“名字”,其对应的数据为用户的姓名,则可以通过对目标字段进行分类,以将目标字段“名字”分类至标准字段“姓名”,从而根据标准字段“姓名”的级别映射关系,对目标字段“名字”对应的数据进行分级处理。

分类方式至少包括两种,从而可以通过多种分类方式分别对目标字段进行分类处理。特征组合条件为基于目标字段所对应的字段特征因子,构建分类方式在进行分类时所需要目标字段的字段特征的条件。各分类方式在对目标字段进行分类时,可以利用目标字段不同的字段特征,字段特征基于目标字段对应的字段特征因子,则可以通过分类方式对应的特征组合条件,将字段特征因子进行组合以形成适用于对应分类方式进行分类处理的字段特征。在具体实现时,各分类方式对应的特征组合条件可以基于历史分类数据确定。例如,对于分类方式A,基于字段特征α可以实现对相应字段进行准确分类,而字段特征α由字段特征因子1和字段特征因子2组合得到,则分类方式A对应的特征组合条件可以设置为由字段特征因子1和字段特征因子2组合形成字段特征α;又如分类方式B,基于字段特征β可以实现对相应字段进行准确分类,而字段特征β由字段特征因子1和字段特征因子4组合得到,则分类方式B对应的特征组合条件可以设置为由字段特征因子1和字段特征因子4组合形成字段特征β。一般地,不同的字段适用于不同的分类方式,即不同的分类方式对各种字段分类的效果不同,在字段未知的情况下,通过多种分类方式分别对字段进行分类处理,可以综合各种分类方式的分类结果实现对字段的分类,以确保字段分类处理的准确性。

具体地,在得到目标字段所对应的多于一个的字段特征因子后,服务器确定至少两种分类方式,并获取各分类方式分别对应的特征组合条件,特征组合条件基于相应的分类方式预先设置,特征组合条件限定了在通过相应的分类方式对目标字段进行分类时,该分类方式所需要的目标字段的字段特征。服务器按照每种分类方式对应的特征组合条件,将字段特征因子进行组合,具体可以由服务器根据特征组合条件从字段特征因子中提取目标特征因子,并基于目标特征因子生成得到该分类方式所对应的字段特征,该分类方式可以基于该字段特征对目标字段进行分类处理。在具体应用中,根据特征组合条件将字段特征因子进行组合得到相应的字段特征时,特征组合条件所限定的字段特征因子的数量可以为一个,也可以多于一个。例如,特征组合条件1可以为从各字段特征因子中提取字段特征因子X作为目标特征因子,并基于字段特征因子X得到字段特征;特征组合条件2可以为从各字段特征因子中提取字段特征因子X、字段特征因子Y和字段特征Z作为目标特征因子,并基于字段特征因子X、字段特征因子Y和字段特征Z得到字段特征。

步骤206,按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果。

其中,初步分类结果为按照各分类方式,根据各分类方式对应的字段特征对目标字段进行分类后得到的分类结果。通过至少两种分类方式对目标字段,基于每种分类方式对应的分类特征进行分类,可以获得至少两种初步分类结果。获得的初步分类结果是基于不同的分类方式对不同的字段特征进行分类得到的,各初步分类结果可以相同也可以不同。具体地,初步分类结果可以包括将目标字段分类到标准字段的分类结果,如对于分类方式1将目标字段分类至标准字段1,分类方式2将目标字段分类至标准字段3。

具体地,在获得每种分类方式所对应的字段特征后,服务器按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,从而得到每种分类方式各自对应的初步分类结果。例如,至少两种分类方式包括字段数据匹配方式、字段文本分类方式和神经网络模型分类方式等三种分类方式,则可以按照字段数据匹配方式,对字段数据匹配方式对应的第一字段特征进行分类,得到字段数据匹配方式所对应的第一初步分类结果;按照字段文本分类方式,对字段文本分类方式对应的第二字段特征进行分类,得到字段文本分类方式所对应的第二初步分类结果;可以按照神经网络模型分类方式,对神经网络模型分类方式对应的第三字段特征进行分类,得到神经网络模型分类方式所对应的第三初步分类结果,即对目标字段进行分类的初步分类结果包括第一初步分类结果、第二初步分类结果和第三初步分类结果,根据第一初步分类结果、第二初步分类结果和第三初步分类结果可以进一步确定目标字段的字段分类结果。

步骤208,根据初步分类结果进行融合,获得目标字段的字段分类结果。

其中,字段分类结果为对目标字段进行分类处理后获得的分类结果,具体可以包括将目标字段匹配至的标准字段,即确定与目标字段所对应的标准字段。例如,对于目标字段“日期”,对应的字段分类结果可以为标准字段“出生日期”,从而将目标字段分类至标准字段,以根据标准字段“出生日期”对目标字段对应的数据进行分级处理。

具体地,在得到每种分类方式各自对应的初步分类结果后,服务器根据各初步分类结果进行融合,得到目标字段的字段分类结果。对各分类方式对应的初步分类结果的融合处理可以根据实际需要进行灵活设置,如可以根据置信度进行融合,也可以通过加权方式进行融合。例如,服务器可以确定每种分类方式各自对应的初步分类结果对应的置信度,将置信度最高的初步分类结果确定为目标字段的字段分类结果。又如,服务器可以确定每种分类方式对应的分类权重,基于该分类权重对每种分类方式各自对应的初步分类结果进行加权处理,得到加权分类结果,基于该加权分类结果确定目标字段的字段分类结果。

步骤210,基于字段分类结果映射得到目标字段所对应数据的数据级别。

其中,数据级别指目标字段所对应数据的级别,数据级别可以根据业务系统中数据分级的实际需求进行设置,如可以为数据的安全级别、数据的保密级别、数据的权重级别等。

具体地,得到目标字段的字段分类结果后,服务器基于字段分类结果映射得到目标字段所对应数据的数据级别。具体可以由服务器基于目标字段的字段分类结果对该目标字段进行级别映射,从而确定目标字段对应的级别,并根据目标字段对应的级别确定目标字段所对应数据的数据级别,如可以将标字段对应的级别作为目标字段所对应数据的数据级别。在具体应用中,基于字段分类结果映射得到目标字段所对应数据的数据级别之间的级别映射关系可以根据实际需要进行设置。例如,在金融业务系统中,对于标准字段“交易金额”,可以预先设置其安全级别为高敏感,若目标字段的字段分类结果为标准字段“交易金额”,即目标字段对应各数据的共有属性也为标准字段“交易金额”,则目标字段可以认为与标准字段“交易金额”匹配,服务器可以将目标字段的级别映射为标准字段“交易金额”的级别,即将目标字段映射为高敏感级别,进一步确定目标字段所对应数据的数据级别也为高敏感级别,从而实现对目标字段所对应数据的分级处理。

在具体应用中,基于字段分类结果映射得到目标字段所对应数据的数据级别后,若目标字段属于数据表中的字段,则还可以遍历数据表中的各字段,以确定数据表中各字段对应数据的数据级别,并基于数据表中各字段对应数据的数据级别确定该数据表的级别,从而实现对数据表的分级处理。例如,数据表S1中包括3个级为三级的字段,则可以确定数据表S1的表级别为三级;又如,数据表S2中各字段对应数据的数据级别中最高级别为五级,则可以将数据表S2的表级别确定为各字段对应数据的数据级别中的最高级别,即确定数据表S2的表级别为五级。

上述数据分级方法中,基于业务系统中目标字段的属性信息和字段数据确定多于一个的字段特征因子,按照至少两种分类方式各自对应的特征组合条件将字段特征因子进行组合,并按照每种分类方式,根据相应分类方式所对应的字段特征对目标字段进行分类,根据每种分类方式各自对应的初步分类结果进行融合,得到目标字段的字段分类结果,基于字段分类结果映射得到目标字段所对应数据的数据级别。在数据分级过程中,通过融合多种分类方式对目标字段进行分类的初步分类结果来对目标字段进行分类,以根据目标字段的字段分类结果映射得到对应数据的数据级别,可以覆盖各种分类方式的适用场景,避免对分级结果进行反复确认,提高了数据分级的处理效率。

在一个实施例中,按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征,包括:确定至少两种分类方式;根据至少两种分类方式各自对应的特征组合条件,从字段特征因子中确定每种分类方式对应的目标特征因子;基于每种分类方式对应的目标特征因子,得到每种分类方式所对应的字段特征。

其中,分类方式指将目标字段进行分类的处理方式,不同的分类方式需要基于目标字段与分类方式对应的特征进行处理。例如,对于目标字段进行分类时,分类方式1需要根据目标字段的字段特征A进行分类处理,而分类方式需要根据目标字段的字段特征B进行分类处理,则需要分别构建分类方式1对应的字段特征A,以及分类方式2对应的字段特征B,从而通过分类方式1根据字段特征A对目标字段进行分类,通过分类方式2根据字段特征B对目标字段进行分类。目标字段的字段特征基于字段特征因子构建得到,具体可以将字段特征因子按照分类方式对应的需要进行组合,得到目标字段的字段特征。各种分类方式将字段特征因子进行组合得到对应的字段特征的需要可以通过分类方式的特征组合条件进行描述。特征组合条件与分类方式对应设置,即不同的分类方式可以设置不同的特征组合条件,通过特征组合条件可以将字段特征因子进行组合,以得到满足分类方式分类处理需要的字段特征。具体地,若某种分类方式通过神经网络模型实现,则该分类方式对应的特征组合条件可以为根据字段特征因子组合构建作为神经网络模型输入的字段特征的条件,通过特征组合条件可以将字段特征因子进行组合,构建得到对应的字段特征,将字段特征输入神经网络模型中,以由神经网络模型基于输入的字段特征对目标字段进行分类,得到该分类方式对应的初步分类结果。

目标特征因子为根据分类方式对应的特征组合条件,从字段特征因子中确定用于构建字段特征的特征因子。目标特征因子的数量可以为一个或一个以上,当目标特征因子为一个时,表明分类方式对应的特征组合条件确定用于组合得到字段特征的字段特征因子为一个,即仅通过一个字段特征因子构建得到对应的字段特征。

具体地,在得到目标字段所对应的多于一个的字段特征因子后,服务器确定至少两种分类方式,各分类方式可以根据实际需要进行设置,分类方式的种类数大于等于两种,从而可以通过至少两种分类方式对目标字段进行分类处理。每种分类方式在对目标字段进行分类时,可以利用目标字段不同的字段特征,如基于不同维度的字段特征进行分类,具体可以为基于不同字段特征因子构建得到的字段特征进行分类。在具体实现时,服务器还可以根据目标字段所属的业务系统确定至少两种分类方式,服务器可以基于目标字段所属的业务系统,根据业务系统中所涉及数据的数据类型,确定是适用于对业务系统中各类型的数据进行分级处理的分类方式,从而确定得到至少两种分类方式。此外,服务器还可以根据数据分级的处理需求确定至少两种分类方式,例如服务器可以根据数据分级的准确度需求,选择满足准确度需求的至少两种分类方式;又如服务器可以根据数据分级的处理效率需求,选择满足处理效率需求的至少两种分类方式;服务器还可以确定综合满足准确度需求和处理效率需求的至少两种分类方式。

确定至少两种分类方式后,服务器获取各分类方式分别对应的特征组合条件,特征组合条件根据相应的分类方式对应预先配置。在具体应用中,对于不同的分类方式,需要获取字段不同的字段特征,根据各分类方式在对各种字段进行分类时所针对的字段特征,确定各分类方式分别对应的特征组合条件。服务器根据各分类方式分别对应的特征组合条件,从字段特征因子中确定相应分类方式所对应的目标特征因子。具体地,服务器根据分类方式对应的特征组合条件,对字段特征因子中的各特征因子进行筛选,筛选出用于构建适用于该分类方式进行分类处理的字段特征所需的目标特征因子。对于每种分类方式,可以设置有不同的特征组合条件,而特征组合条件所确定的目标特征因子可以不同。确定各分类方式分别对应的目标特征因子后,服务器基于各分类方式分别对应的目标特征因子,构建得到每种分类方式所对应的字段特征。在具体实现时,确定分类方式对应的目标特征因子后,服务器可以基于该分类方式对应的特征组合条件,将目标特征因子进行组合处理,得到该分类方式对应的字段特征。此外,服务器也可以直接基于目标特征因子确定该分类方式对应的字段特征,如可以直接将目标特征因子作为该分类方式对应的字段特征。

本实施例中,服务器根据确定的至少两种分类方式各自对应的特征组合条件,从目标字段所对应的多于一个的字段特征因子中确定目标特征因子,并基于目标特征因子得到相应分类方式对应的字段特征,从而可以根据字段特征因子按照多种分类方式分别对应的特征组合条件,构建相应分类方式需要的字段特征,以按照该分类方式基于相应字段特征对目标字段进行分类,实现通过多种分类方式对目标字段进行分类,有利于覆盖各种分类方式的适用场景,避免对分级结果进行反复确认,从而有利于提高数据分级的处理效率。

在一个实施例中,分类方式包括字段数据匹配方式,目标特征因子包括字段数据因子;基于每种分类方式对应的目标特征因子,得到每种分类方式所对应的字段特征,包括:确定字段数据因子为字段数据匹配方式所对应的第一字段特征。

其中,字段数据匹配方式指根据目标字段对应的字段数据进行文本匹配以实现对目标字段进行分类的方式。字段数据为目标字段对应的各数据,即字段对应的具体数据。字段数据匹配方式是对目标字段对应的数据内容进行文本匹配的分类方式。对字段数据进行文本匹配时,可以基于正则匹配算法对字段数据进行文本匹配,从而实现对目标字段进行分类。正则匹配算法通过正则表达式对字段数据进行文本匹配,正则表达式是一组描述字符串特征的字符,其可以由普通的字符串组成,也可以非常复杂,往往用特殊的字符表示一个范围内的字符、重复出现,或表示上下文,通过将正则表达式与目标字段对应的字段数据进行文本匹配,可以实现对目标字段的分类处理。目标特征因子包括字段数据因子,字段数据因子为基于目标字段的字段数据确定的特征因子。在具体实现时,可以直接根据目标字段的字段数据得到字段数据因子,如直接将目标字段的字段数据作为字段数据因子,还可以对目标字段的字段数据进行预处理,如进行去重、去冗余等预处理后,根据预处理结果得到字段数据因子。第一字段特征为根据字段数据匹配方式对目标字段进行分类时所需的字段特征。

具体地,服务器获取的至少两种分类方式中包括字段数据匹配方式,根据字段数据匹配方式对应的特征组合条件,从字段特征因子中确定的目标特征因子包括字段数据因子。服务器得到字段数据因子后,直接将字段数据因子确定为字段数据匹配方式所对应的第一字段特征,即服务器直接将字段数据因子作为字段数据匹配方式所需的字段特征。

进一步地,按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果,包括:通过字段数据匹配方式,基于第一字段特征对目标字段进行分类,得到字段数据匹配方式对应的初步分类结果。

其中,初步分类结果为按照字段数据匹配方式,根据第一字段特征对目标字段进行分类得到的分类结果。具体地,在获得字段数据匹配方式所对应的第一字段特征后,服务器通过字段数据匹配方式,基于第一字段特征对目标字段进行分类,如可以通过正则匹配算法,基于第一字段特征对目标字段进行分类,得到字段数据匹配方式对应的初步分类结果。在具体应用中,服务器在得到字段数据匹配方式对应的初步分类结果后,服务器还可以对该初步分类结果进行校验处理,在校验通过后,得到字段数据匹配方式对应的初步分类结果。

本实施例中,对于字段数据匹配方式,服务器将字段特征因子中的字段数据因子确定为字段数据匹配方式所对应的第一字段特征,并通过该字段数据匹配方式,基于第一字段特征对目标字段进行分类处理,得到字段数据匹配方式对应的初步分类结果。利用字段数据匹配方式,基于目标字段的字段数据确定的第一字段特征对目标字段进行分类,可以确保字段数据匹配方式能够准确基于目标字段的字段数据对目标字段进行分类,有利于避免对适用于字段数据匹配方式的分级结果进行反复确认,从而有利于提高数据分级的处理效率。

在一个实施例中,通过字段数据匹配方式,基于第一字段特征对目标字段进行分类,得到字段数据匹配方式对应的初步分类结果,包括:获取字段数据匹配方式对应的字段数据匹配条件;将第一字段特征与字段数据匹配条件进行正则匹配,得到正则匹配结果;当正则匹配结果通过匹配校验时,根据正则匹配结果得到字段数据匹配方式对应的初步分类结果。

其中,字段数据匹配条件为对第一字段特征进行文本匹配处理的条件,字段数据匹配条件可以包括各种标准字段及相应匹配条件,通过将第一字段特征与字段数据匹配条件中的各匹配条件进行匹配,根据匹配一致的匹配条件所对应的标准字段,得到目标字段的分类结果,如可以将目标字段分类到匹配一致的标准字段。在具体应用中,字段数据匹配条件可以包括各种标准字段及对应的正则表达式,通过正则表达式可以与第一字段特征进行文本匹配,从而根据正则表达式对应的标准字段得到目标字段的初步分类结果。例如,正则表达式可以包括“^[w-]+(.[w-]+)*@([w-]+.)+(com|cn|net)$”,用于对邮箱字段进行识别分类,具体可以将目标字段对应的字段数据与该正则表达式进行匹配,若匹配成功,则可以确定该目标字段为“邮箱”字段,即目标字段的分类结果为“邮箱”字段。

具体地,在得到字段数据匹配方式所对应的第一字段特征后,服务器获取字段数据匹配方式对应的字段数据匹配条件,字段数据匹配条件根据实际需要预先进行设定,具体可以根据具有明显规则的字段构建正则表达式,并根据构建的正则表达式的字段数据匹配条件。服务器将第一字段特征与字段数据匹配条件进行正则匹配,字段数据匹配条件中可以包括各种标准字段与其相应的正则表达式,通过将第一字段特征与字段数据匹配条件中的正则表达式进行正则匹配,得到正则匹配结果。服务器对获得的正则匹配结果进行匹配校验,以确保正则匹配的准确性,若正则匹配结果通过匹配校验,表明正则匹配结果的可信程度高,服务器基于正则匹配结果得到字段数据匹配方式对应的初步分类结果。具体地,服务器将第一字段特征与字段数据匹配条件中的正则表达式进行正则匹配,若匹配成功,则可以将匹配成功的正则表达式所对应的标准字段确定为字段数据匹配方式对应的初步分类结果,从而实现通过字段数据匹配方式对目标字段进行分类处理。

在具体应用中,对于业务场景中具有明显特征的字段,通过字段数据匹配方式对字段的字段数据进行分类,可以确保字段分类的准确性。例如,对于手机号码,固定为11位,则首位数字为1;对于邮箱地址,其字段数据中包括后缀“@.com/cn/net”;对于车牌号,中文部分为各省市的简称。对于这些具有明显特征的字段,构建相应的正则表达式对字段的字段数据进行正则匹配,可以实现对字段的准确分类。

本实施例中,将第一字段特征与字段数据匹配方式对应的字段数据匹配条件进行正则匹配,并在正则匹配结果通过匹配校验时,根据正则匹配结果得到字段数据匹配方式对应的初步分类结果。基于字段数据匹配条件对第一字段特征进行正则匹配,可以对业务系统中适用于正则匹配的字段进行准确分类。

在一个实施例中,分类方式包括字段文本分类方式,目标特征因子包括字段描述因子和字段名称因子;基于每种分类方式对应的目标特征因子,得到每种分类方式所对应的字段特征,包括:将字段描述因子和字段名称因子进行组合,得到字段文本分类方式所对应的第二字段特征。

其中,确定的至少两种分类方式中包括字段文本分类方式,字段文本分类方式指根据目标字段对应的字段描述和字段名称进行文本分类,以实现对目标字段分类的方式。字段描述是描述字段的内容,如可以为对字段的概念、作用等进行解释说明的文本,字段描述可以在创建相应字段时编辑,也可以在业务系统运行过程中,由用户随时对字段进行编辑添加,以便字段的正常使用。字段名称指字段的名称,具体可以包括各种语音对应的名称,如中文名称、英文名称、法文名称等。字段描述和字段名称均属于字段的属性信息,可以从字段的属性信息中获取得到。字段文本分类方式是基于目标字段对应属性信息中的字段描述和字段名称进行文本分类的分类方式。对字段描述和字段名称进行文本分类时,可以基于文本分类模型对字段描述和字段名称进行文本分类,从而实现对目标字段进行分类。字段对应的字段描述和字段名称的文本长度较短时,字段文本分类方式对应的文本分类模型可以为短文本分类模型,从而基于短文本分类模型对目标字段进行准确分类。例如,短文本分类模型具体可以为FastText快速文本分类模型、TF-IDF(Term Frequency–InverseDocument Frequency,词频-逆向文件频率)+XGB(eXtreme Gradient Boosting,极致梯度提升)文本分类模型等。

目标特征因子包括字段描述因子和字段名称因子,字段描述因子为基于字段的字段描述确定的特征因子,字段名称因子为基于字段的字段名称确定的特征因子。在具体实现时,可以直接根据目标字段的字段描述得到字段描述因子,根据目标字段的字段名称得到字段名称因子,如直接将目标字段的字段描述作为字段描述因子,直接将目标字段的字段名称作为字段名称因子;还可以对目标字段的字段描述和字段名称进行预处理,如进行去重、去冗余等预处理后,根据预处理结果得到字段描述因子和字段名称因子。第二字段特征为根据字段文本分类方式对目标字段进行分类时所采用的字段特征。

具体地,服务器获取的至少两种分类方式中包括字段文本分类方式,根据字段文本分类方式对应的特征组合条件,从字段特征因子中确定的目标特征因子包括字段描述因子和字段名称因子。服务器得到字段描述因子和字段名称因子后,将字段描述因子和字段名称因子进行组合,得到字段数据匹配方式所对应的第二字段特征,即服务器将字段描述因子和字段名称因子进行组合后,获得字段文本分类方式对目标字段进行分类时所需的字段特征。

进一步地,按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果,包括:通过字段文本分类方式对应的文本分类模型,基于第二字段特征对目标字段进行分类,得到字段文本分类方式对应的初步分类结果。

其中,初步分类结果为按照字段文本分类方式,根据第二字段特征对目标字段进行分类得到的分类结果。具体地,在获得字段文本分类方式所对应的第二字段特征后,服务器通过字段文本分类方式,基于第二字段特征对目标字段进行分类,如可以通过字段文本分类方式对应的文本分类模型,基于第二字段特征对目标字段进行分类,得到字段文本分类方式对应的初步分类结果。具体地,在得到字段文本分类方式所对应的第二字段特征后,服务器确定字段文本分类方式对应的文本分类模型,文本分类模型根据实际需要预先基于历史业务数据训练得到,服务器通过查询的文本分类模型,基于第二字段特征对目标字段进行分类,具体可以将第二字段特征作为文本分类模型的输入,即将第二字段特征输入文本分类模型中,由文本分类模型根据第二字段特征对目标字段进行分类,并输出目标字段对应的初步分类结果。

本实施例中,对于字段文本分类方式,服务器将字段特征因子中的字段描述因子和字段名称因子确定目标特征因子,将字段描述因子和字段名称因子进行组合得到字段文本分类方式所对应的第二字段特征,并通过该字段文本分类方式,基于第二字段特征对目标字段进行分类处理,得到字段文本分类方式对应的初步分类结果。利用字段文本分类方式,基于目标字段的字段描述和字段名称确定的第二字段特征对目标字段进行分类,根据目标字段的属性信息对目标字段进行文本分类,有利于避免对适用于字段文本分类方式的分级结果进行反复确认,从而有利于提高数据分级的处理效率。

在一个实施例中,通过字段文本分类方式对应的文本分类模型,基于第二字段特征对目标字段进行分类,得到字段文本分类方式对应的初步分类结果,包括:通过字段文本分类方式对应的文本分类模型,对第二字段特征进行向量转化,得到词向量;通过文本分类模型,基于词向量对目标字段进行线性分类,得到字段文本分类方式对应的初步分类结果。

其中,文本分类模型可以根据业务系统中的历史数据预先训练得到,文本分类模型可以根据输入的目标字段的属性信息,具体输入目标字段的字段描述和字段名称,对目标字段进行分类,并输出目标字段对应的初步分类结果。字段对应的字段描述和字段名称的文本长度较短时,字段文本分类方式对应的文本分类模型可以为短文本分类模型,从而基于短文本分类模型对目标字段进行准确分类。例如,短文本分类模型具体可以为FastText快速文本分类模型、TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)+XGB(eXtreme Gradient Boosting,极致梯度提升)文本分类模型等。词向量为对第二字段特征进行向量转化后得到的转化结果,通过对第二字段特征进行向量转化,可以获得适用于文本分类模型进行分类处理的输入向量。文本分类模型基于向量转化得到的词向量对目标字段进行线性分类,具体可以通过文本分类模型中的线性分类器实现。

具体地,在得到字段文本分类方式所对应的第二字段特征后,服务器查询字段文本分类方式对应的文本分类模型,文本分类模型根据实际需要预先基于业务系统中的历史数据训练得到。服务器将第二字段特征作为文本分类模型的输入,将第二字段特征输入至文本分类模型中,以由文本分类模型对第二字段特征进行向量转化,得到词向量。进一步地,通过文本分类模型基于向量转化得到的词向量对目标字段进行线性分类,具体可以通过文本分类模型中的线性分类器对词向量进行分类处理,得到字段文本分类方式对应的初步分类结果。

在具体应用中,字段文本分类方式对应的文本分类模型的种类可以根据实际需要设定。如文本分类模型可以为一种,如短文本分类模型,则通过短文本分类模型实现对目标字段进行分类。又如,文本分类模型可以为多于一种,则可以通过多于一种的文本分类模型分别对目标字段进行分类,综合各种文本分类模型的分类结果,得到字段文本分类方式对应的初步分类结果。对于字段文本分类方式对应的文本分类模型的选择,可以预先基于业务系统中的历史数据训练多种不同算法构建的文本分类模型,根据各种文本分类模型对字段分类的准确性,确定字段文本分类方式对应的文本分类模型。例如,可以将对字段分类准确性最高的文本分类模型,作为字段文本分类方式所对应的文本分类模型。在具体实现时,也可以将各种算法构建的文本分类模型均作为字段文本分类方式对应的文本分类模型,通过多种文本分类模型对目标字段进行分类,并综合各种文本分类模型的分类结果得到字段文本分类方式对应的初步分类结果。例如,可以设置各种文本分类模型相应的分类权重,基于分类权重对各种文本分类模型的分类结果进行加权融合,得到字段文本分类方式对应的初步分类结果。在具体实现时,若已经获得目标字段对应的初略类型,则可以基于目标字段的初略类型选择相应的文本分类模型,对该目标字段进行字段分类,以确保字段分类结果的准确性。

本实施例中,通过字段数据匹配方式对应的文本分类模型对第二字段特征依次进行向量转化和线性分类,得到字段文本分类方式对应的初步分类结果,基于字段文本分类方式对应的文本分类模型对第二字段特征进行字段分类,可以对业务系统中适用于文本分类模型的字段进行准确分类。

在一个实施例中,分类方式包括神经网络模型分类方式,目标特征因子包括字段数据因子和字段描述因子;基于每种分类方式对应的目标特征因子,得到每种分类方式所对应的字段特征,包括:将字段数据因子和字段描述因子进行组合,得到神经网络模型分类方式所对应的第三字段特征。

其中,确定的至少两种分类方式中包括神经网络模型分类方式,神经网络模型分类方式指通过预先训练的人工神经网络模型根据目标字段对应的字段数据和字段描述进行分类,以实现对目标字段分类的方式。字段数据为目标字段对应的各数据,即字段对应的具体数据。字段描述是描述字段的内容,如可以为对字段的概念、作用等进行解释说明的文本,字段描述可以在创建相应字段时编辑,也可以在业务系统运行过程中,由用户随时对字段进行编辑添加,以便字段的正常使用。字段描述属于字段的属性信息,可以从字段的属性信息中获取得到。神经网络模型分类方式是基于目标字段对应字段数据及属性信息中的字段描述进行分类的分类方式。基于字段数据和字段描述对目标字段进行分类时,可以基于字段分类网络模型对字段数据和字段描述进行分类,从而实现对目标字段进行分类。字段分类网络模型是基于机器学习算法,如人工神经网络算法或深度学习算法基于业务系统中的历史数据预先训练得到的网络模型。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

目标特征因子包括字段数据因子和字段描述因子,字段数据因子为基于目标字段的字段数据确定的特征因子。在具体实现时,可以直接根据目标字段的字段数据得到字段数据因子,如直接将目标字段的字段数据作为字段数据因子;字段描述因子为基于字段的字段描述确定的特征因子。在具体实现时,可以直接根据目标字段的字段描述得到字段描述因子,如直接将目标字段的字段描述作为字段描述因子;还可以对目标字段的字段描述进行预处理,如进行去重、去冗余等预处理后,根据预处理结果得到字段描述因子。第三字段特征为根据神经网络模型分类方式对目标字段进行分类时所采用的字段特征。

具体地,服务器获取的至少两种分类方式中包括神经网络模型分类方式,根据神经网络模型分类方式对应的特征组合条件,从字段特征因子中确定的目标特征因子包括字段数据因子和字段描述因子。服务器得到字段数据因子和字段描述因子后,将字段数据因子和字段描述因子进行组合,得到神经网络模型分类方式所对应的第三字段特征,即服务器将字段数据因子和字段描述因子进行组合后,获得神经网络模型分类方式对目标字段进行分类时所需的字段特征。

进一步地,按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果,包括:通过神经网络模型分类方式对应的字段分类网络模型,基于第三字段特征对目标字段进行分类,得到神经网络模型分类方式对应的初步分类结果。

其中,初步分类结果为按照神经网络模型分类方式,根据第三字段特征对目标字段进行分类得到的分类结果。具体地,在获得神经网络模型分类方式所对应的第三字段特征后,服务器通过神经网络模型分类方式,基于第三字段特征对目标字段进行分类,如可以通过神经网络模型分类方式对应的字段分类网络模型,基于第三字段特征对目标字段进行分类,得到神经网络模型分类方式对应的初步分类结果。字段分类网络模型可以通过机器学习算法预先训练得到,具体如LSTM(Long-Short Term Memory,长短时记忆网络)模型、BiLSTM(Bi-directional Long Short-Term Memory,双向长短时记忆网络)模型、GRU(Gated Recurrent Unit,门控循环单元)模型和TextCNN(Text Convolutional NeuralNetwork文本分类卷积神经网络)模型等。

具体地,在得到神经网络模型分类方式所对应的第三字段特征后,服务器确定神经网络模型分类方式对应的字段分类网络模型,字段分类网络模型根据实际需要预先基于历史业务数据,通过机器学习算法训练得到,服务器通过查询的字段分类网络模型,基于第三字段特征对目标字段进行分类,具体可以将第三字段特征作为字段分类网络模型的输入,即将第三字段特征输入至字段分类网络模型中,由字段分类网络模型根据第三字段特征对目标字段进行分类,并输出目标字段对应的初步分类结果。在具体实现时,若已经获得目标字段对应的初略类型,则可以基于目标字段的初略类型选择相应的字段分类网络模型,对该目标字段进行字段分类,以确保字段分类结果的准确性。

本实施例中,对于神经网络模型分类方式,服务器将字段特征因子中的字段数据因子和字段描述因子确定目标特征因子,将字段数据因子和字段描述因子进行组合得到神经网络模型分类方式所对应的第三字段特征,并通过该神经网络模型分类方式,基于第三字段特征对目标字段进行分类处理,得到神经网络模型分类方式对应的初步分类结果。利用神经网络模型分类方式,基于目标字段的字段数据和字段描述确定的第三字段特征对目标字段进行分类,有利于避免对适用于神经网络模型分类方式的分级结果进行反复确认,从而有利于提高数据分级的处理效率。

在一个实施例中,如图3所示,数据分级方法还包括对目标字段的字段分类结果进行纠正的处理,具体包括:

步骤302,根据目标字段的字段血缘关系,确定目标字段对应的源字段。

其中,数据的血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的联系。常见的有数据表的血缘关系、数据表字段的血缘关系,分别表达某张表是由哪些表计算生成的,某个字段是由哪些表的哪些字段加工而成。字段血缘关系描述了各字段之间的产生、处理、流转及消亡之间的关系。源字段为产生目标字段的字段,即目标字段所属的来源字段。例如,对于目标字段A,其根据字段B和字段C之间求和得到,即对于目标字段A中的数据,根据字段B对应的数据和字段C对应的数据求和得到,则可以确定目标字段A来源于字段B和字段C,即目标字段A对应的源字段为字段B和字段C。

具体地,服务器可以获取目标字段的字段血缘关系,字段血缘关系中记录了目标字段的产生、处理、流转及消亡关系,根据字段血缘关系可以确定目标字段对应的源字段,如可以对目标字段的来源进行追溯,从而确定目标字段对应的源字段。

步骤304,基于源字段对应的源字段分类结果,对字段分类结果进行分类纠正,得到分类纠正后的字段分类结果。

其中,源字段分类结果为源字段对应的字段分类结果,源字段分类结果可以为对源字段进行分类得到的字段分类结果,源字段分类结果还可以在创建源字段时为该源字段对应配置得到。具体地,服务器确定目标字段对应的源字段后,获取源字段对应的源字段分类结果,并基于源字段分类结果对目标字段的字段分类结果进行分类纠正,从而得到分类纠正后的字段分类结果,可以将分类纠正后的字段分类结果作为目标字段最终的字段分类结果。例如,对于目标字段A,其根据字段B和字段C之间求和得到,即目标字段A的源字段为字段B和字段C,若字段B和字段C对应的源字段分类结果均为“收入”,则可以确定目标字段也对应为“收入”字段。若目标字段对应的字段分类结果为不为“收入”字段,则可以对该字段分类结果进行分类纠正,以确保目标字段的字段分类结果的准确性。

进一步地,基于字段分类结果映射得到目标字段所对应数据的数据级别,包括:基于分类纠正后的字段分类结果,映射得到目标字段所对应数据的数据级别。

具体地,在通过源字段对应的源字段分类结果对目标字段的字段分类结果进行分类纠正后,服务器可以基于分类纠正后的字段分类结果确定目标字段对应数据的数据级别。

本实施例中,根据目标字段的字段血缘关系对字段分类结果进行分类纠正,以基于分类纠正后的字段分类结果映射确定目标字段所对应数据的数据级别,可以利用目标字段的字段血缘关系确保字段分类结果的准确性,有利于提高数据分级的准确性。

在一个实施例中,基于字段分类结果映射得到目标字段所对应数据的数据级别,包括:查询业务系统中的字段级别映射关系;基于字段级别映射关系和字段分类结果进行级别映射,得到目标字段对应的字段级别;根据字段级别确定目标字段所对应数据的数据级别。

其中,字段级别映射关系记录了在业务系统中,各种字段对应的字段级别。字段级别映射关系可以根据业务系统对应预先设置,即根据业务系统的不同需求,对应设置不同的字段级别映射关系,从而为业务系统中不同的字段配置不同的字段级别,实现对各字段对应数据的有效分级。例如,在金融业务系统中,可以根据金融场景中的数据分类分级规范,配置金融业务系统中涉及的各种字段对应的字段级别。字段级别指对应字段的级别,具体可以为安全级别、加密级别、存储级别等各种级别。字段级别即为字段对应数据的级别,如对于字段X,其字段级别为五级,则字段X所对应的各数据的数据级别也为五级,即待分级数据的数据级别可以根据对应所属字段的字段级别确定得到,从而可以根据字段的字段级别,统一确定字段所对应各数据的数据级别。

具体地,在得到目标字段的字段分类结果后,服务器基于字段分类结果映射得到目标字段所对应数据的数据级别。具体可以由服务器查询业务系统中的字段级别映射关系,字段级别映射关系中包括业务系统中各种标准字段及其所对应的字段级别之间的映射关系,字段级别映射关系根据业务系统的需要预先设置。得到业务系统中的字段级别映射关系后,服务器基于该字段级别映射关系和字段分类结果对目标字段进行级别映射,确定目标字段对应的字段级别。具体可以由服务器将目标字段对应的字段分类结果分别与字段级别映射关系中的各种标准字段进行匹配,将匹配一致的标准字段所对应的字段级别,确定目标字段对应的字段级别,从而实现对目标字段的级别映射。确定目标字段对应的字段级别后,服务器基于目标字段对应的字段级别确定目标字段所对应数据的数据级别,如服务器可以直接将目标字段对应的字段级别作为目标字段所对应数据的数据级别。

本实施例中,根据业务系统中预先配置的字段级别映射关系和目标字段的字段分类结果进行级别映射,并根据确定的目标字段对应的字段级别得到目标字段所对应数据的数据级别,从而可以基于目标字段的字段分类结果基于不同业务系统的需要进行级别映射,以确定相应数据的数据级别,在业务系统中字段级别映射关系发生变化时,只需根据变化后的字段级别映射关系对字段的字段级别重新确定,不需要重新对各重复字段进行重新分类处理,有利于提高数据分级的处理效率。

在一个实施例中,数据分级方法还包括:当接收到终端发送的字段创建请求时,向终端下发字段编辑模板;当通过字段编辑模板获得待创建字段的属性信息时,根据待创建字段的属性信息进行字段分类,得到待创建字段对应的推荐分类结果;将推荐分类结果发送至终端;推荐分类结果用于指示终端基于推荐分类结果确定待创建字段的字段类别;待创建字段的字段类别,用于确定待创建字段所对应数据的数据级别。

其中,终端与服务器通信连接,可以访问业务系统,在业务服务过程中产生业务数据,还可以为业务系统配置各种字段。字段创建请求用于向服务器请求新建字段。在具体应用中,在业务系统中具有新建字段权限的用户可以通过终端,向服务器发送字段创建请求,以请求新建字段。字段编辑模板为业务系统中新建字段时采用的模板,终端可以对字段编辑模板进行编辑配置,以实现字段的创建处理。属性信息为与目标字段的属性相关的信息,如目标字段的名称、描述、权限、有效期限、创建时间、注销时间等各种属性。推荐分类结果为基于待创建字段的属性信息对待创建字段进行字段分类处理所得到的字段分类结果,具体可以通过多种分类方式利用属性信息对待创建字段进行分类,得到推荐分类结果。推荐分类结果用于为终端推荐待创建字段对应的字段类别,从而可以简化终端的用户对待创建字段的配置操作,有利于提供新建字段的处理效率。

具体地,服务器在接收到终端发送的字段创建请求时,表明终端触发了需要在业务系统中新建字段,则服务器获取字段编辑模板,字段编辑模板可以根据业务系统对应设置,即不同的业务系统可以设置不同的字段编辑模板,服务器将获得的字段编辑模板返回至终端。终端接收到服务器下发的字段编辑模板后,用户可以在终端对字段编辑模板进行编辑,以新建字段。服务器可以监听字段编辑模板中终端的用户所输入的内容,在通过字段编辑模板获得待创建字段的属性信息,如获得待创建字段的字段名称、字段描述等内容时,服务器可以根据获得的属性信息对待创建字段预先进行字段分类,得到待创建字段对应的推荐分类结果,并将推荐分类结果发送至终端,在字段编辑模板的字段分类项中显示推荐分类结果。终端的用户可以在字段编辑模板的字段分类项中,基于推荐分类结果设置待创建字段的字段类别,从而在新建字段的过程中,配置字段对应的字段类别,实现了对待创建字段的分类处理,基于该字段类别可以确定待创建字段所对应数据的数据级别。具体地,服务器可以基于该待创建字段的字段类别映射得到待创建字段所对应数据的数据级别。

本实施例中,服务器可以响应于终端发送的字段创建请求,通过下发字段编辑模板由终端新建字段,在获得待创建字段的属性信息时,服务器可以根据待创建字段的属性信息对待创建字段进行字段分类,并将得到的推荐分类结果下发至终端,以指示终端根据推荐分类结果确定待创建字段的字段类别,待创建字段的字段类别可以用于确定待创建字段所对应数据的数据级别,从而实现了在业务系统中新建字段时,实现预先对待创建字段对应数据进行分级处理,提高了数据分级的处理效率。

在一个实施例中,数据分级方法还包括:响应于在业务系统中触发的字段创建操作,展示针对待创建字段的字段编辑模板;在字段编辑模板中的字段分类项中,显示待创建字段对应的推荐分类结果;推荐分类结果,是根据待创建字段的属性信息进行字段分类得到的,待创建字段的属性信息,是由针对字段编辑模板的编辑操作获得的;响应于对推荐分类结果的编辑操作,在字段分类项中显示待创建字段的字段类别;字段类别用于确定待创建字段所对应数据的数据级别。

本实施例中,用户可以在终端触发新建字段的处理。其中,字段创建操作为在业务系统中触发的新建字段的触发操作,具体可以为具有新建数据字段权限的用户在业务系统中针对字段创建控件,触发字段创建操作,字段编辑模板为业务系统中新建字段时采用的模板,终端可以对字段编辑模板进行编辑配置,以实现字段的创建处理。字段分类项为配置待创建字段的字段类别的操作项。推荐分类结果为基于待创建字段的属性信息对待创建字段进行字段分类处理所得到的字段分类结果,具体可以通过多种分类方式利用属性信息对待创建字段进行分类,得到推荐分类结果。属性信息为与目标字段的属性相关的信息,如目标字段的名称、描述、权限、有效期限、创建时间、注销时间等各种属性。推荐分类结果用于为终端推荐待创建字段对应的字段类别,从而可以简化终端的用户对待创建字段的配置操作,有利于提供新建字段的处理效率。

具体地,终端响应于具有字段新建权限的用户在业务系统中触发的字段创建操作,展示针对待创建字段的字段编辑模板,字段编辑模板可以由服务器下发获得。具体可以由终端向服务器发送字段创建请求,以请求服务器下发字段编辑模板。在字段编辑模板中的字段分类项中,显示待创建字段对应的推荐分类结果,推荐分类结果,是根据待创建字段的属性信息进行字段分类得到的,待创建字段的属性信息,是由针对字段编辑模板的编辑操作获得的。用户在终端对字段编辑模板进行编辑过程中,若输入了待创建字段的属性信息,如待创建字段的字段描述、字段名称等,服务器可以基于待创建字段的属性信息对待创建字段进行字段分类,并将得到的推荐分类结果发送至终端,以在字段编辑模板的字段分类项中进行展示。用户可以对推荐分类结果进行编辑,终端响应于用户对推荐分类结果的编辑操作,在字段分类项中显示待创建字段的字段类别,字段类别用于确定待创建字段所对应数据的数据级别。具体地,服务器可以基于该待创建字段的字段类别映射得到待创建字段所对应数据的数据级别。

本实施例中,用户可以通过终端触发新建字段的处理,在字段编辑模板中的字段分类项中,显示根据待创建字段的属性信息进行字段分类得到的推荐分类结果,以便辅助用户为待创建字段的字段类别进行配置,配置的待创建字段的字段类别可以用于确定待创建字段所对应数据的数据级别,实现了在业务系统中新建字段时,预先对待创建字段对应数据进行分级处理,提高了数据分级的处理效率。

在一个实施例中,数据分级方法还包括:当将待创建字段作为目标字段,根据目标字段确定的段分类结果与待创建字段的字段类别不匹配时,向终端发送针对待创建字段的字段分类异常信息。

其中,字段分类异常信息用于提示待创建字段当前的字段分类结果异常,需要进行修正,从而确保新建的字段对应字段分类结果的准确性。具体地,服务器可以将待创建字段作为目标字段,以对该待创建字段进行分类处理,得到待创建字段对应的字段分类结果。服务器将待创建字段对应的字段分类结果与待创建字段在创建过程中确定的字段类别进行匹配,若二者不匹配,则表明待创建字段在创建过程中确定的字段类别异常,服务器生成针对待创建字段的字段分类异常信息,并将字段分类异常信息发送至终端,以提示终端对待创建字段的字段分类结果及时进行修正,从而确保业务系统中各字段对应字段分类结果的准确性,有利于对字段相应数据进行分级的准确性。

本实施例中,将待创建字段作为目标字段,并对该目标字段进行字段分类,得到待创建字段的字段分类结果,若待创建字段的字段分类结果与待创建字段的字段类别不匹配,表明在创建字段时配置的字段类别可能有误,则服务器通过向终端下发字段分类异常信息以提示对待创建字段的字段分类结果进行修正,确保了业务系统中各字段对应字段分类结果的准确性,有利于对字段相应数据进行分级的准确性。

在一个实施例中,基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子,包括:确定业务系统中的目标字段;获取目标字段的字段描述、字段名称和字段数据;根据字段描述、字段名称和字段数据,得到目标字段所对应的多于一个的字段特征因子。

其中,目标字段为业务系统中需要进行数据分级处理的数据对应所属的字段。字段描述是描述字段的内容,如可以为对字段的概念、作用等进行解释说明的文本,字段描述可以在创建相应字段时编辑,也可以在业务系统运行过程中,由用户随时对字段进行编辑添加,以便字段的正常使用;字段名称指字段的名称,具体可以包括各种语音对应的名称,如中文名称、英文名称、法文名称等;字段数据为目标字段对应的各数据,即字段对应的具体数据。例如,目标字段为收入状况时,字段数据可以为各用户的收入信息,具体可以为各用户具体对应的月收入数值或年收入等数据。

具体地,服务器确定业务系统中的目标字段,具体可以从业务系统中的各字段中提取需要进行数据分级处理的数据对应所属的字段,作为目标字段。例如,可以从业务系统的数据表中,将数据表中的各字段逐一作为目标字段,以对数据表中各字段对应数据进行数据分级处理。确定目标字段后,服务器获取该目标字段对应的字段描述、字段名称和字段数据,并根据获得的字段描述、字段名称和字段数据,得到目标字段所对应的多于一个的字段特征因子。具体地,服务器可以根据字段描述得到字段描述因子,根据字段名称得到字段名称因子,根据字段数据得到字段数据因子,并根据字段描述因子、字段名称因子和字段数据因子得到目标字段所对应的字段特征因子。

本实施例中,根据目标字段的字段描述、字段名称和字段数据,得到目标字段所对应的多于一个的字段特征因子,从而可以根据目标字段的字段描述、字段名称和字段数据,通过多种不同的分类方式利用相应的字段特征对目标字段进行分类,进一步可以通过融合多种分类方式对目标字段进行分类的初步分类结果来对目标字段进行分类,以根据目标字段的字段分类结果映射得到对应数据的数据级别,能够覆盖各种分类方式的适用场景,避免对分级结果进行反复确认,提高了数据分级的处理效率。

本申请还提供一种应用场景,该应用场景应用上述的数据分级方法。具体地,该数据分级方法在该应用场景的应用如下:

随着计算机的不断发展,各种数据的重要性越发体现,数据逐渐成为一种资产。数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。而数据安全已成为国家安全领域的热门话题,国家已经颁布了相关法律为规范数据处理活动、保障数据安全指明了方向。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。要保证数据处理的全过程安全,数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。

针对金融行业,人民银行先后发布了对金融业务系统中数据进行安全分级的各种行业标准,对金融机构的数据安全管理进行规范。保护用户数据安全是金融从业机构非常重大的责任,但是也面对一些困难,如核心数据是哪些?都存储在哪里?数据上报的完整性、合规性如何?数据传输、使用与共享等行为是否合规?等等。数据安全分类是数据生命周期安全能力建设的基础,通过数据安全分类可以精准识别出敏感数据的位置,以便做相关的保护策略。对于数据安全分级,是指通过量化数据表的安全分级结果,识别出绝密、机密、高敏感、中敏感、低敏感数据表的位置,为有针对性的数据保护策略下发做好准备。

传统的数据安全分级处理中,有基于人工整理历史表单,驱动人工选择分类目标的处理方式,但效率较低,对分类标准理解各异,结论准确性不能保证。此外,还有基于规则,对身份证、手机号码、邮箱等具有非常明显特征的字段,使用规则来做识别处理,但覆盖的场景有限,基于对数据有限的认识来做决策,容易漏掉高敏感等级表,导致安全防护范围有限。而基于算法标注一部分表的分级信息,使用分类模型实现数据安全分级的处理,标注部分表的安全分级作为样本,对其它表的安全分级进行预测,其可解释性差,无法对安全分级结果进行有效追溯,并且在安全目标发生变化的场景,不能轻量级完成工作更新和迁移,影响数据分级的处理效率。

基于此,本实施例提供的数据分级方法,如图4所示,对于金融业务系统中的数据表,数据分级处理划分为两步,包括对数据表中的字段进行分类,及对数据表进行分级,即首先完成对数据表中各字段的分类,结合规范要求维护分类和分级的策略,最终完成分级结果的输出。具体地,金融业务系统中的元数据中包括增量数据表和存量数据表,增量数据表为新增的数据表,存量数据表为已经存储的数据表。增量数据表中的增量数据可以由模型辅助完成,存量数据表中的存量数据分类可以由模型主导完成。具体地,如图4所示,对于增量数据表,在创建数据表过程中,针对各字段进行字段分类推荐,并由数据表创建方基于推荐的字段分类确定增量数据表中各字段所对应的字段分类结果,基于字段分类结果对增量数据表进行安全分级。对于存量数据表,通过基于字段数据和字段属性的方式分别进行字段分类,并基于字段血缘关系对字段分类结果进行纠正,基于纠正后的字段分类结果对存量数据表进行安全分级。数据的血缘关系是指数据在产生、处理、流转到消亡过程中,数据之间形成的联系。常见的有数据表的血缘关系、数据表字段的血缘关系,分别表达某张表是由哪些表计算生成的,某个字段是由哪些表的哪些字段加工而成。

进一步地,对于字段的分类处理,需要确定字段的分类目标。字段的分类目标可以结合业务涉及到的数据场景,以及国家规范、行业标准来制定。比如金融场景,可以根据金融业内的规范和标准对处于数据分级决策点上的字段信息优先梳理,确定出字段的分类目标。例如,字段的分类目标可以如下表1所示。

表1

/>

/>

金融场景中的数据可以包括个人基本信息和财务信息,个人基本信息和财务信息又进一步细化出各种不同的字段分类目标,如个人基本信息中包括性别、国籍、手机号码、社交软件账号等各种字段分类目标。对于数据表中的各字段进行分类,以将各字段分类至预先设置的分类目标,从而实现对字段名称的标准化和规范化,基于字段的分类结果可以实现对数据表的安全分级处理。

进一步地,对于增量数据表的分级处理,在数据表创建的过程中,提供字段的安全分类选择入口,从而可以由创建数据表的用户选择具体字段所属的分类信息。同时,可以结合字段的中文名称、英文名称对相应字段的分类进行推荐,从而提高数据分级的处理效率。而且,为了避免存在数据表创建过程中大范围出现分类误选、错选的情况,对部分强规律性字段,可以配置模型后校验能力。例如,数据表创建过程中用户选择为“性别”字段,但是后续数据内容及分布严重不匹配此字段该有的特征,如该字段的数据内容并非男女二值,而是包括数字等各种类型数值,则可以作出告警与异常提醒,以便提示用户基于对该字段的安全分类进行更正。

在一个具体应用中,用户新建数据表时,可以创建包括更新时间、检查时间、注册时间及卡信息等四个字段的数据表,具体可以由用户触发数据表创建操作,终端展示数据表创建界面,在该数据表创建界面中,用户可以对数据表中各字段的属性进行编辑操作,如字段的序号、中文名称、英文名称、概念、是否自增、字段安全分类等。如图5所示,用户在数据表创建界面中创建的数据表包括更新时间、检查时间、注册时间及卡信息等四个字段,并编辑了各字段的中文名称和英文名称。进一步地,如图6所示,在用户编辑了字段的中文名称和英文名称后,在数据表创建界面中可以在字段对应的字段安全分类项中,展示该字段对应的推荐字段分类,如对于更新时间字段,推荐的字段分类包括行为发生渠道、行为发生时间、行为记录、行为标签等。用户可以直接从推荐字段分类中选择目标分类,以实现对字段安全分类的编辑,也可以由用户不采用推荐字段分类,而继续进行自行设置。进一步地,可以针对未采用推荐字段分类的字段进行后校验,以确保各字段安全分类的准确性。此外,还可以针对增量数据表中各字段均进行后校验处理,以保障增量数据表中各字段安全分类的准确性。

对于存量数据表的分级处理,可以通过模型和策略组合来实现字段分类。如图7所示,从存量数据表中确定需要进行分类的目标字段,将目标字段的字段数据进行正则匹配,并进行校验处理,得到目标字段的第一初步分类结果。将目标字段的字段描述和字段名称输入至短文本分类模型中,得到目标字段的第二初步分类结果。将目标字段的字段描述和字段数据输入至预训练的神经网络分类模型中,得到目标字段的第三初步分类结果。融合第一初步分类结果、第二初步分类结果和第三初步分类结果得到目标字段的初步分类结果,如可以将第一初步分类结果、第二初步分类结果和第三初步分类结果中置信度最高的作为目标字段的初步分类结果。结合字段血缘关系对初步分类结果进行纠正,以得到目标字段的字段分类结果,并基于该字段分类结果确定目标字段的级别,从而实现对目标字段所对应数据及存量数据表的分级处理。

其中,将目标字段的字段数据进行正则匹配,并进行校验处理,得到目标字段的第一初步分类结果的处理中,可以预先构建正则表达式,具体如下表2所示。

表2

将目标字段的字段数据与识别规则中的各正则表达式进行匹配,若匹配成功,则可以确定目标字段属于匹配成功的正则表达式所对应的字段,从而基于目标字段的字段数据实现对目标字段的分类处理。但依据目标字段的内容,即字段数据通过正则表达式进行分类时,在字段数据有明显特征的场景下准确率高,但是无法迁移到更多场景使用。例如,字段数据是数字3,仅凭借字段数据无法判断是支付金额、年龄、支付订单数或是其他信息,即通过正则匹配进行字段分类处理的适用场景有限。

将目标字段的字段描述和字段名称输入至短文本分类模型中,得到目标字段的第二初步分类结果的处理中,字段描述和字段名称的文本长度有限,一般小于20长度的字段占比较多,通过短文本分类模型可以基于字段描述和字段名称对目标字段进行有效的分类处理。具体应用中,可以通过FastText文本分类模型基于字段描述和字段名称对目标字段进行分类处理,具体可以字段描述和字段名称作为FastText文本分类模型的输入,由FastText文本分类模型将输入的字段描述和字段名称转换为词向量,取平均处理后,由线性分类器对平均词向量进行线性分类,基于线性分类结果得到目标字段的分类结果。进一步地,还可以将基于统计语言的n-gram模型的输出和h-softmax(Hierarchical softmax,分层softmax)输出作为目标字段的附加特征,联合词向量对目标字段进行分类处理,以进一步提高目标字段分类的准确性。FastText文本分类模型的模型复杂度低,训练速度快,可以确保数据分级的处理效率。

在具体实现时,FastText文本分类模型所对应的输入,可以根据对历史字段进行分类处理的结果分析确定。例如,可以构建字段描述+字段名称+字段数据、字段描述+字段名称以及字段描述共三组输入特征,将历史字段对应的三组输入特征分别输入FastText文本分类模型中进行分类,基于分类结果确定FastText文本分类模型对应输入为三组输入特征中的哪一组。在具体应用中,对于FastText文本分类模型,在输入特征为字段描述+字段名称组成的特征时,对应分类的准确性最高,故确定FastText文本分类模型对应输入特征为字段对应的字段描述+字段名称。一般地,对于企业和个人相关的数据,通过FastText文本分类模型进行字段分类的准确率高,而交易类数据的识别准确率低,即FastText文本分类模型适用于对企业和部分个人相关数据所对应的字段进行分类处理。基于此,在预先确定目标字段对应所属的初略类型,如确定为企业和个人相关数据字段或交易类数据字段等,根据目标字段的初略类型确定是否采用FastText文本分类模型对目标字段进行分类,或者设置FastText文本分类模型的分类权重,以确保字段分类的准确性。

此外,还可以通过TF-IDF+XGB文本分类模型对目标字段进行分类。具体地,在确定TF-IDF+XGB文本分类模型对应的输入时,可以构建字段描述+字段名称+字段数据、字段描述+字段名称以及字段描述共三组输入特征,将历史字段对应的三组输入特征分别输入TF-IDF+XGB文本分类模型中进行分类,基于分类结果确定TF-IDF+XGB文本分类模型对应输入为三组输入特征中的哪一组。在具体应用中,对于TF-IDF+XGB文本分类模型,在输入特征为字段描述时,对应分类的准确性最高,故确定TF-IDF+XGB文本分类模型对应输入特征为字段对应的字段描述。在对目标字段进行分类时,将目标字段的字段描述输入至TF-IDF+XGB文本分类模型中,以由TF-IDF+XGB文本分类模型对字段描述进行分词,并计算TF-IDF矩阵,基于XGB和TF-IDF矩阵实现对目标字段的分类处理。

对于将目标字段的字段描述和字段数据输入至预训练的神经网络分类模型中,得到目标字段的第三初步分类结果的处理中,神经网络分类模型可以根据需要预先训练多种模型,如LSTM模型、BiLSTM模型、GRU模型和TextCNN模型等。在一具体应用中,仅基于字段的字段描述,LSTM模型、BiLSTM模型、GRU模型和TextCNN模型对目标字段进行分类的准确率,如下表3所示。

表3

在基于字段的字段描述对字段进行分类的处理中,LSTM模型的准确率较高。而对于不同类型数据而言,通用数据、交易类型数据对应的字段,通过GRU模型进行分类的准确性较高,对于企业、个人类型数据对应的字段,通过LSTM模型进行分类的准确性较高。在具体实现时,可以根据数据表所属业务系统中涉及的数据种类,确定相应的神经网络分类模型对数据表中的目标字段进行分类处理;也可以根据字段的字段数据或属性信息属于短文本或是长文本、模型复杂程度、长距离依赖缓解能力以及并行性角度,综合确定相应的神经网络分类模型对数据表中的目标字段进行分类处理;还可以直接通过各种神经网络分类模型分别对数据表中的目标字段进行分类处理,并基于各种神经网络分类模型的分类结果综合得到第三初步分类结果。

进一步地,通过字段血缘对字段的分类结果进行纠正的处理中,可以根据目标字段的来源,确定目标字段的源字段,根据源字段的字段分类结果对初步分类结果进行纠正,以确定目标字段的字段分类结果。具体地,如图8所示,表table_c的f_age字段由表table_a和table_b的f_age计算最大值得到,而表table_a和table_b的f_age字段分类结果都是“年龄”,则基于该字段的血缘关系可以确定表table_c的f_age字段对应的分类结果也应该是“年龄”,若对表table_c的f_age字段执行完分类后,该字段的字段分类结果不是“年龄”,则可以对该字段分类结果进行纠正,从而基于字段血缘关系确保字段分类的准确性。

得到数据表中目标字段的字段分类结果后,基于该字段分类结果对数据表进行分级或对数据表中的数据进行分级。例如,在仅需对数据进行分级处理时,可以基于数据表中目标字段的字段分类结果,确定该目标字段对应的级别,从而根据该目标字段对应的级别确定目标字段所对应数据的数据级别。而在需要确定整个数据表的级别时,即需要对数据表进行分级处理时,可以根据目标字段的字段分类结果,映射到数据表对应的级别。具体地,在金融业务系统场景下,从字段分类到表分级的映射关系,可以结合业务系统中预设的分级规范的要求实现,从而落地在分级策略管理平台中。在如果业务系统中预设的分级规范发生变化时,则可以直接修改字段分类到表分级的映射关系,即可实现数据表分级处理的动态扩展,而不需要重新建立模型对数据表中各字段进行分类处理。此外,在完成对数据表的分级处理后,可以进一步由数据表分级节点对分级结果进行确认,以确保数据表分级结果的准确性。

在一具体应用中,如图9所示,在为数据表添加分级时,分级字段包括“出生年月日”、“精确地址信息”和“用户识别码”,参考的标准规范为《金融数据安全分级指南》,内部定级为3级,建议定级为3级,分级状态为有效,在确认添加的该分级后,可以对数据表中的该三个字段设置相应的分级级别,从而可以通过分级级别相应的数据保护方式进行保护,如按照相应的加密方式对该3种字段的数据进行加密处理。进一步地,还可以将该数据表的级别也确定为3级,并按照3级所对应的数据保护方式对该数据表进行加密保护。

本实施例中的数据分级方法,结合业务场景特征和监管要求,体系化并且高效的解决了数据安全分类分级效率问题、准确性问题;而且,数据分级整体方案健壮性和可扩展性高,其中数据对应字段分类是相对稳定的部分,结合分类字段特征采取差异性策略,可以追求高准确率,而表分级的结果可以跟随国家政策和行业规范做迭代,落地形成策略配置能力,方便迭代,有利于提高数据分级处理效率。

本申请还另外提供一种应用场景,该应用场景应用上述的数据分级方法。具体地,该数据分级方法在该应用场景的应用如下:

对于企业业务客户的业务数据表,根据业务数据表中的目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子,按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征,按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果,根据初步分类结果进行融合,获得目标字段的字段分类结果。根据目标字段的字段分类结果确定业务数据表中与目标字段对应的业务数据的数据级别,并按照该业务数据的数据级别对该业务数据进行加密处理。例如,业务数据表中字段1所对应业务数据的级别为1,字段2所对应业务数据的级别为3,字段3所对应业务数据的级别为2,则可以根据级别为1对应的数据加密方式对字段1所对应业务数据进行加密处理,根据级别为3对应的数据加密方式对字段2所对应业务数据进行加密处理,根据级别为2对应的数据加密方式对字段3所对应业务数据进行加密处理,从而在对数据分级后,根据相应的数据级别确保数据安全。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图10所示,提供了一种数据分级装置1000,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:特征因子确定模块1002、特征因子组合模块1004、字段初步分类模块1006、分类结果融合模块1008和数据级别确定模块1010,其中:

特征因子确定模块1002,用于基于业务系统中目标字段的属性信息和字段数据,确定目标字段所对应的多于一个的字段特征因子;

特征因子组合模块1004,用于按照至少两种分类方式各自对应的特征组合条件,将字段特征因子进行组合,得到每种分类方式所对应的字段特征;

字段初步分类模块1006,用于按照每种分类方式,根据相应分类方式所对应的字段特征,对目标字段进行分类,获得每种分类方式各自对应的初步分类结果;

分类结果融合模块1008,用于根据初步分类结果进行融合,获得目标字段的字段分类结果;

数据级别确定模块1010,用于基于字段分类结果映射得到目标字段所对应数据的数据级别。

在一个实施例中,特征因子组合模块1004包括分类方式确定模块、目标特征因子确定模块和字段特征获得模块;其中:分类方式确定模块,用于确定至少两种分类方式;目标特征因子确定模块,用于根据至少两种分类方式各自对应的特征组合条件,从字段特征因子中确定每种分类方式对应的目标特征因子;字段特征获得模块,用于基于每种分类方式对应的目标特征因子,得到每种分类方式所对应的字段特征。

在一个实施例中,分类方式包括字段数据匹配方式,目标特征因子包括字段数据因子;字段特征获得模块,还用于确定字段数据因子为字段数据匹配方式所对应的第一字段特征;字段初步分类模块1006,还用于通过字段数据匹配方式,基于第一字段特征对目标字段进行分类,得到字段数据匹配方式对应的初步分类结果。

在一个实施例中,字段初步分类模块1006,还用于获取字段数据匹配方式对应的字段数据匹配条件;将第一字段特征与字段数据匹配条件进行正则匹配,得到正则匹配结果;当正则匹配结果通过匹配校验时,根据正则匹配结果得到字段数据匹配方式对应的初步分类结果。

在一个实施例中,分类方式包括字段文本分类方式,目标特征因子包括字段描述因子和字段名称因子;字段特征获得模块,还用于将字段描述因子和字段名称因子进行组合,得到字段文本分类方式所对应的第二字段特征;字段初步分类模块1006,还用于通过字段文本分类方式对应的文本分类模型,基于第二字段特征对目标字段进行分类,得到字段文本分类方式对应的初步分类结果。

在一个实施例中,字段初步分类模块1006,还用于通过字段文本分类方式对应的文本分类模型,对第二字段特征进行向量转化,得到词向量;通过文本分类模型,基于词向量对目标字段进行线性分类,得到字段文本分类方式对应的初步分类结果。

在一个实施例中,分类方式包括神经网络模型分类方式,目标特征因子包括字段数据因子和字段描述因子;字段特征获得模块,还用于将字段数据因子和字段描述因子进行组合,得到神经网络模型分类方式所对应的第三字段特征;字段初步分类模块1006,还用于通过神经网络模型分类方式对应的字段分类网络模型,基于第三字段特征对目标字段进行分类,得到神经网络模型分类方式对应的初步分类结果。

在一个实施例中,还包括源字段确定模块和字段分类纠正模块;其中:源字段确定模块,用于根据目标字段的字段血缘关系,确定目标字段对应的源字段;字段分类纠正模块,用于基于源字段对应的源字段分类结果,对字段分类结果进行分类纠正,得到分类纠正后的字段分类结果;数据级别确定模块1010,还用于基于分类纠正后的字段分类结果,映射得到目标字段所对应数据的数据级别。

在一个实施例中,数据级别确定模块1010包括级别映射关系获取模块、级别映射模块和数据分级模块;其中:级别映射关系获取模块,用于查询业务系统中的字段级别映射关系;级别映射模块,用于基于字段级别映射关系和字段分类结果进行级别映射,得到目标字段对应的字段级别;数据分级模块,用于根据字段级别确定目标字段所对应数据的数据级别。

在一个实施例中,还包括字段创建请求响应模块、推荐分类结果获得模块和推荐分类结果下发模块;其中:字段创建请求响应模块,用于当接收到终端发送的字段创建请求时,向终端下发字段编辑模板;推荐分类结果获得模块,用于当通过字段编辑模板获得待创建字段的属性信息时,根据待创建字段的属性信息进行字段分类,得到待创建字段对应的推荐分类结果;推荐分类结果下发模块,用于将推荐分类结果发送至终端;推荐分类结果用于指示终端基于推荐分类结果确定待创建字段的字段类别;待创建字段的字段类别,用于确定待创建字段所对应数据的数据级别。

在一个实施例中,还包括异常提示模块,用于当将待创建字段作为目标字段,根据目标字段确定的字段分类结果与待创建字段的字段类别不匹配时,向终端发送针对待创建字段的字段分类异常信息。

在一个实施例中,特征因子确定模块1002包括目标字段确定模块、字段信息获取模块和字段因子确定模块;其中:目标字段确定模块,用于确定业务系统中的目标字段;字段信息获取模块,用于确定业务系统中的目标字段;字段因子确定模块,用于根据字段描述、字段名称和字段数据,得到目标字段所对应的多于一个的字段特征因子。

关于数据分级装置的具体限定可以参见上文中对于数据分级方法的限定,在此不再赘述。上述数据分级装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储业务系统中的业务数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分级方法。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

技术分类

06120116546769