敏感程度识别方法、装置、电子设备及存储介质

文献发布时间：2024-04-18 19:58:26

技术领域

本申请涉及互联网技术领域，特别是涉及一种敏感程度识别方法、装置、电子设备及存储介质。

背景技术

企业内部的数据资产、商业信息往往具备极强的企业特性、行业特性、专业特性，这些信息包括业务经营信息(如经验战略、财务、营销、人事等信息)、技术信息(如系统、网络、安全、前端、后端等信息)。

目前，通常是采用机器识别的方式(如关键词匹配、正则匹配等)识别网络中的敏感数据，由于企业内部的数据存在多样性、高度定制性、隐含信息和上下文依赖等特性。机器识别的方式难以适应复杂场景的分类定义和敏感分级，导致企业内敏感信息识别的准确度较低，无法有效管控内部商业信息安全。

发明内容

本申请实施例的目的在于提供一种敏感程度识别方法、装置、电子设备及存储介质，以达到。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种敏感程度识别方法，包括：

对监控到的网络数据进行文本特征识别，得到待识别文本；

对所述待识别文本进行向量转换处理，得到所述待识别文本的第一向量表示；

计算所述第一向量表示与向量库中的第二向量表示之间的相似度，所述向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示；

根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示；

根据所述目标向量表示，识别得到所述待识别文本的敏感程度。

可选地，在所述计算所述第一向量表示与向量库中的第二向量表示之间的相似度之前，还包括：

获取不同领域下至少一种业务类型的敏感文本；

对所述敏感文本进行向量转换处理，得到所述敏感文本的第二向量表示；

根据所述敏感文本所属领域和业务类型，将所述第二向量表示分类存储于所述向量库中。

可选地，所述根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示，包括：

获取所述第二向量表示中与所述第一向量表示的相似度大于相似度阈值的第三向量表示；

从所述第三向量表示中筛选出所述目标向量表示。

可选地，所述从所述第三向量表示中筛选出所述目标向量表示，包括：

在所述第三向量表示的数量为1的情况下，将该第三向量表示作为所述目标向量表示；

在所述第三向量表示的数量大于1的情况下，获取所述第三向量表示中与所述第一向量表示的相似度最高的向量表示，并将该相似度最高的向量表示作为所述目标向量表示。

可选地，所述根据所述目标向量表示，识别得到所述待识别文本的敏感程度，包括：

根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型；

根据所述目标领域、所述目标业务类型和所述待识别文本，确定所述待识别文本的分类分级信息；

基于所述分类分级信息，识别得到所述待识别文本的敏感程度。

可选地，所述根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型，包括：

根据所述网络数据，获取所述待识别文本的上下文信息；

根据所述目标向量表示，确定所述待识别文本所属的所述目标领域，及所述待识别文本所属的业务类型；

根据所述上下文信息，从所述业务类型中筛选出所述待识别文本所属的目标业务类型。

可选地，所述第一向量表示的向量转换方式与所述第二向量表示的向量转换方式相同。

在本申请实施的第二方面，提供了一种敏感程度识别装置，包括：

待识别文本获取模块，用于对监控到的网络数据进行文本特征识别，得到待识别文本；

第一向量表示获取模块，用于对所述待识别文本进行向量转换处理，得到所述待识别文本的第一向量表示；

相似度计算模块，用于计算所述第一向量表示与向量库中的第二向量表示之间的相似度，所述向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示；

目标向量表示确定模块，用于根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示；

敏感程度识别模块，用于根据所述目标向量表示，识别得到所述待识别文本的敏感程度。

可选地，所述装置还包括：

敏感文本获取模块，用于获取不同领域下至少一种业务类型的敏感文本；

第二向量表示获取模块，用于对所述敏感文本进行向量转换处理，得到所述敏感文本的第二向量表示；

第二向量表示存储模块，用于根据所述敏感文本所属领域和业务类型，将所述第二向量表示存储于所述向量库中。

可选地，所述目标向量表示确定模块包括：

第三向量表示获取单元，用于获取所述第二向量表示中与所述第一向量表示的相似度大于相似度阈值的第三向量表示；

目标向量表示筛选单元，用于从所述第三向量表示中筛选出所述目标向量表示。

可选地，所述目标向量表示筛选单元包括：

第一向量表示获取子单元，用于在所述第三向量表示的数量为1的情况下，将该第三向量表示作为所述目标向量表示；

第二向量表示获取子单元，用于在所述第三向量表示的数量大于1的情况下，获取所述第三向量表示中与所述第一向量表示的相似度最高的向量表示，并将该相似度最高的向量表示作为所述目标向量表示。

可选地，所述敏感程度识别模块包括：

文本类型确定单元，用于根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型；

分级信息确定单元，用于根据所述目标领域、所述目标业务类型和所述待识别文本，确定所述待识别文本的分类分级信息；

敏感程度识别单元，用于基于所述分类分级信息，识别得到所述待识别文本的敏感程度。

可选地，所述文本类型确定单元包括：

上下文信息获取子单元，用于根据所述网络数据，获取所述待识别文本的上下文信息；

业务类型确定子单元，用于根据所述目标向量表示，确定所述待识别文本所属的所述目标领域，及所述待识别文本所属的业务类型；

目标业务类型筛选子单元，用于根据所述上下文信息，从所述业务类型中筛选出所述待识别文本所属的目标业务类型。

可选地，所述第一向量表示的向量转换方式与所述第二向量表示的向量转换方式相同。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的敏感程度识别方法。

在本申请实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的敏感程度识别方法。

本申请实施例提供的方案，通过对监控到的网络数据进行文本特征识别，得到待识别文本，对待识别文本进行向量转换处理，得到待识别文本的第一向量表示，计算第一向量表示与向量库中的第二向量表示之间的相似度，向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示，根据相似度，确定第二向量表示中与第一向量表示匹配的目标向量表示，根据目标向量表示，识别得到待识别文本的敏感程度。本申请实施例通过预先建立存储不同领域下至少一种业务类型的敏感文本的第二向量表示的向量库，通过向量相似度识别的方式能够识别出不同领域下的敏感文本，能够处理复杂的商业环境中多领域数据，并准确判断字段的类型和敏感性，提高了多领域敏感性文本的识别准确度，同时，可以提高敏感性文本的识别效率，从而可以有效管控企业内部商业信息安全。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种敏感程度识别方法的步骤流程图；

图2为本申请实施例提供的一种向量表示存储方法的步骤流程图；

图3为本申请实施例提供的一种目标向量表示筛选方法的步骤流程图；

图4为本申请实施例提供的一种目标向量表示获取方法的步骤流程图；

图5为本申请实施例提供的另一种敏感程度识别方法的步骤流程图；

图6为本申请实施例提供的一种目标业务类型筛选方法的步骤流程图；

图7为本申请实施例提供的一种敏感信息识别流程的示意图；

图8为本申请实施例提供的一种系统框架的示意图；

图9为本申请实施例提供的一种敏感程度识别装置的结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1为本申请实施例提供的一种敏感程度识别方法的步骤流程图，如图1所示，该敏感程度识别方法可以包括：步骤101、步骤102、步骤103、步骤104和步骤105。

步骤101：对监控到的网络数据进行文本特征识别，得到待识别文本。

本申请实施例可以基于预先建立的存储有不同领域下至少一种业务类型的敏感文本的向量表示的向量库，对待识别文本进行敏感程度识别的场景中。

网络数据可以为企业发布的网络咨询等数据，如企业的业务数据、经营数据等。在具体实现中，可以通过网络监听、数据包解析等方式监控网络数据，也可以通过扫描引擎扫描得到网络数据等。

待识别文本是指需要进行敏感程度识别的文本。

在本示例中，可以实时监控企业发布的网络数据，并对监控到的网络数据进行文本特征识别，以得到待识别文本。在具体实现中，可以预先设置不同领域的敏感关键词，在监控到网络数据之后，可以采用LLM(Large Language Model，大语言模型)对网络数据进行文本识别，并将识别到的文本与敏感关键词进行匹配，若匹配成功，则可以将匹配的文本作为待识别文本等。

在实际应用中，在监控到网络数据之后，还可以对网络数据进行预处理，具体地，可以对网络数据进行数据清洗(即清洗掉网络数据中无效数据(如标点符号等))、标准化处理(即对网络数据的格式进行调整，以统一网络数据的格式)等。在进行数据预处理之后，再进行待识别文本的识别流程。

在对监控到的网络数据进行文本特征识别得到待识别文本之后，执行步骤102。

步骤102：对所述待识别文本进行向量转换处理，得到所述待识别文本的第一向量表示。

在获取到待识别文本之后，则可以对待识别文本进行向量转换处理，以得到待识别文本的第一向量表示。在本示例中，可以采用词嵌入模型(如Word2Vec、GloVe、BERT等)和LLM大语言模型(如Generative Pre-trained Transformer、LaMDA等)将待识别文本转换为向量表示，即得到第一向量表示。

在对待识别文本进行向量转换处理得到待识别文本的第一向量表示之后，执行步骤103。

步骤103：计算所述第一向量表示与向量库中的第二向量表示之间的相似度，所述向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示。

向量库是指预先建立的存储有不同领域下至少一种业务类型的敏感文本的第二向量表示的数据库。在本示例中，向量库可以为MySQL、MariaDB等类型的数据库中的任一种，具体地，对于向量库的类型可以根据业务需求而定，本实施例对此不加以限制。

对于向量库的建立过程可以结合图2进行详细描述。

参照图2，示出了本申请实施例提供的一种向量表示存储方法的步骤流程图。如图2所示，该向量表示存储方法可以包括：步骤201、步骤202和步骤203。

步骤201：获取不同领域下至少一种业务类型的敏感文本。

在本实施例中，在构建向量库时，可以获取不同领域下的至少一种业务类型的敏感文本。具体地，可以对不同领域的企业的企业网站内发布的数据、和/或企业内的数据库中存储的数据进行扫描，以得到不同业务类型的网络数据，然后对这些网络数据进行文本识别，以得到其中包含的敏感文本。在本示例中，业务类型可以包括但不限于：财务类型、经营战略类型、技术类型等。

在获取到不同领域下至少一种业务类型的敏感文本之后，执行步骤202。

步骤202：对所述敏感文本进行向量转换处理，得到所述敏感文本的第二向量表示。

在获取到不同领域下至少一种业务类型的敏感文本之后，可以对获取的敏感文本进行向量转换处理，以得到敏感文本的第二向量表示。

在本实施例中，第一向量表示的向量转换方式与第二向量表示的向量转换方式相同。例如，在向量库中存储的第二向量表示为采用向量转换模型转换得到的向量表示时，则第一向量表示即为通过该向量转换模型转换得到的向量表示等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在对敏感文本进行向量转换处理得到敏感文本的第二向量表示之后，执行步骤203。

步骤203：根据所述敏感文本所属领域和业务类型，将所述第二向量表示分类存储于所述向量库中。

在对敏感文本进行向量转换处理得到敏感文本的第二向量表示之后，可以根据敏感文本所属领域和业务类型，将第二向量表示存储于向量库中。具体地，可以将敏感文本所属领域、业务类型和敏感文本分别作为数据字段存储于数据库中，即每条数据就包含了敏感文本所属领域的字段、所属业务类型和字段和敏感文本的向量表示字段。

在向量库中即存储有不同领域下不同业务类型的敏感文本的向量表示，在具体实现中，还可以将不同领域下的敏感文本的向量表示分不同的数据表存储，例如，A领域下的敏感文本的向量表示存储于数据表1，B领域下的敏感文本的向量表示存储于数据表2等，以实现敏感信息的分类存储。

本申请实施例通过将不同领域的企业内的敏感信息以向量表示的形式存储于向量库中，从而可以便于后续快速检索匹配，能够帮助企业识别数据跨场、跨境等流转中敏感数据，从而完成多维度信息的分类并匹配企业自身数据安全分类分级规范。

在对待识别文本进行向量转换处理得到待识别文本的第一向量表示之后，可以计算第一向量表示与第二向量表示之间的相似度。在本示例中，该相似度可以为余弦相似度、欧式距离等等，具体地，对于相似度的具体类型可以根据业务需求而定，本实施例对此不加以限制。

在计算得到第一向量表示与向量库中的第二向量表示之间的相似度之后，执行步骤104。

步骤104：根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示。

目标向量表示是指向量库内第二向量表示中与第一向量表示比较相似的向量表示。

在计算得到第一向量表示与向量库中的第二向量表示之间的相似度之后，可以根据相似度，确定出第二向量表示中与第一向量表示匹配的目标向量表示。具体地，可以预先设置相似度阈值，通过比较第一向量表示与第二向量表示之间的相似度与相似度阈值之间的大小关系，以筛选出目标向量表示。对于该实现过程可以结合图3进行如下详细描述。

参照图3，示出了本申请实施例提供的一种目标向量表示筛选方法的步骤流程图。如图3所示，该目标向量表示筛选方法可以包括：步骤301和步骤302。

步骤301：获取所述第二向量表示中与所述第一向量表示的相似度大于相似度阈值的第三向量表示。

在本实施例中，相似度阈值是指预先设置的用于筛选相似的向量表示的相似度阈值。在本示例中，针对不同领域下的不同业务类型可以设置相应的相似度阈值。即不同领域的相同业务类型的相似度阈值可以是相同的，也可以是不相同的。同样，相同领域下不同业务类型的相似度阈值可以是相同的，也可以是不相同的。

在获取到第二向量表示与第一向量表示之间的相似度之后，可以获取第二第二向量表示中与第一向量表示的相似度大于相似度阈值的向量表示，即第三向量表示。

在获取到第二向量表示中与第一向量表示的相似度大于相似度阈值的第三向量表示之后，执行步骤302。

步骤302：从所述第三向量表示中筛选出所述目标向量表示。

在获取到第二向量表示中与第一向量表示的相似度大于相似度阈值的第三向量表示之后，可以从第三向量表示中筛选出目标向量表示。对于目标向量表示的筛选过程可以结合图4进行如下详细描述。

参照图4，示出了本申请实施例提供的一种目标向量表示获取方法的步骤流程图。如图4所示，该目标向量表示获取方法可以包括：步骤401和步骤402。

步骤401：在所述第三向量表示的数量为1的情况下，将该第三向量表示作为所述目标向量表示。

步骤402：在所述第三向量表示的数量大于1的情况下，获取所述第三向量表示中与所述第一向量表示的相似度最高的向量表示，并将该相似度最高的向量表示作为所述目标向量表示。

在本实施例中，在第三向量表示的数量为1的情况下，则可以将该第三向量表示作为目标向量表示。

在第三向量表示的数量大于1的情况下，获取第三向量表示中与第一向量表示的相似度最高的向量表示，并将该相似度最高的向量表示作为目标向量表示。

本申请实施例通过筛选出相似度最高的向量表示作为第一向量表示匹配的向量表示，能够提高敏感信息分类分级的精准度。

在根据相似度确定出第二向量表示中与第一向量表示匹配的目标向量表示之后，执行步骤105。

步骤105：根据所述目标向量表示，识别得到所述待识别文本的敏感程度。

敏感程度可以用于指示文本造成企业私密信息泄露的风险等级，即敏感程度越高，则造成企业私密信息泄露的风险越高，反之，敏感程度越低，则造成企业私密信息泄露的风险越低。

在根据相似度确定出第二向量表示中与第一向量表示匹配的目标向量表示之后，可以根据目标向量表示识别得到待识别文本的敏感程度。具体地，可以根据目标向量表示确定待识别文本所属领域和业务类型，以实现分类分级，并根据分类分级信息确定其对应的敏感程度。对于该实现过程可以结合图5进行如下详细描述。

参照图5，示出了本申请实施例提供的另一种敏感程度识别方法的步骤流程图。如图5所示，该敏感程度识别方法可以包括：步骤501、步骤502和步骤503。

步骤501：根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型。

在本实施例中，在获取到目标向量表示之后，可以获取目标向量表示在向量库中的分类信息。然后，可以根据目标向量表示的分类信息确定出待识别文本所属的目标领域和目标业务类型。即根据目标向量表示的分类信息确定出目标向量表示所属领域和业务类型之后，将目标向量表示所属领域和业务类型分别作为待识别文本所属的目标领域和目标业务类型。在本示例中，通过目标向量表示可以确定待识别文本所属的目标领域，以及待识别文本所属的至少一种的业务类型，进而，可以根据待识别文本的上下文信息辅助识别，以从至少一种业务类型筛选出待识别文本所属的目标业务类型。对于该实现过程可以结合图6进行如下详细描述。

参照图6，示出了本申请实施例提供的一种目标业务类型筛选方法的步骤流程图。如图6所示，该目标业务类型筛选方法可以包括：步骤601、步骤602和步骤603。

步骤601：根据所述网络数据，获取所述待识别文本的上下文信息。

在本申请实施例中，待识别文本为从网络数据中识别出来的，网络数据通常是由一些文本字段形成的，在从网络数据中识别待识别文本时，可以获取待识别文本的上下文信息，例如，网络数据中包含六个文本，按照从前到后的顺序依次为：文本1、文本2、文本3、...、文本6，其中，文本4为待识别文本，此时，可以将文本2、文本3、文本5和文本6作为待识别文本的上下文信息。或者，将文本1、文本2、文本3、文本5和文本6作为待识别文本的上下文信息等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在监控到网络数据并识别出网络数据中的待识别文本的同时，可以根据网络数据获取待识别文本的上下文信息。

步骤602：根据所述目标向量表示，确定所述待识别文本所属的所述目标领域，及所述待识别文本所属的业务类型。

在获取到待识别文本匹配的目标向量表示之后，可以根据目标向量表示，确定待识别文本所属的目标领域，及待识别文本所属的业务类型。基于上述图2实施例部分的描述可知，在向量库中，敏感文本的向量表示与敏感文本所属的领域和业务类型关联存储的，在得到目标向量表示时，通过数据库中存储的关联关系即可以得到待识别文本所属的目标领域和业务类型。

步骤603：根据所述上下文信息，从所述业务类型中筛选出所述待识别文本所属的目标业务类型。

可以理解地，在向量库中，每个敏感文本所属的业务类型可能不止一种，例如，某个敏感文本所属类型可以是财务类型、经营战略类型、技术类型等类型中的至少一种，也可以为财务类型、经营战略类型、技术类型等类型中的至少两种等。

为了准确识别待识别文本所属的目标业务类型，可以结合待识别文本的上下文信息辅助识别待识别文本所属的目标业务类型。

在具体实现中，在通过目标向量表示确定出待识别文本的业务类型仅为一种业务类型的情况下，则可以直接将该业务类型作为目标业务类型。

而在通过目标向量表示确定出待识别文本的业务类型为多种业务类型的情况下，可以根据上下文信息从业务类型中筛选出待识别文本所属的目标业务类型。即通过对上下文信息的语义分析，以识别出上下文信息中与业务类型关联的关键词，并根据识别到的业务类型的关键词，确定出待识别文本所属的目标业务类型。例如，通过目标向量表示识别到的待识别文本所属的业务类型为：财务类型和经营战略类型，待识别文本的上下文信息中包含“财务状况分析”等关键词时，则可以确定待识别文本的目标业务类型为：财务类型。而在待识别文本的上下文信息中包含“降低财务支出”等关键词时，则可以确定待识别文本的目标业务类型为：经营战略类型等。

可以理解地，上述示例仅是为了更好地理解本申请实施例提供的技术方案而列举的示例，不作为对本实施例的唯一限制。

在根据目标向量表示在向量库中的分类信息确定出待识别文本所属目标领域和目标业务类型之后，执行步骤502。

步骤502：根据所述目标领域、所述目标业务类型和所述待识别文本，确定所述待识别文本的分类分级信息。

在根据目标向量表示在向量库中的分类信息确定出待识别文本所属目标领域和目标业务类型之后，可以根据目标领域、目标业务类型和待识别文本，确定出待识别文本的分类分级信息。其中，分类可以指示待识别文本所属领域下的具体业务类型。分级可以用于在具体业务类型下的敏感级别。即根据待识别文本所属的目标领域和目标业务类型即可以确定待识别文本的分类信息，而通过待识别文本即可以确定待识别文本的分级信息。

在具体实现中，针对不同业务类型下的敏感文本可以预先设置对应的分级规则，该分级规则可以指示在不同业务类型下的敏感文本的敏感等级，敏感等级越高，则表示敏感文本泄露企业私密信息的风险越高，反之，敏感等级越低，则表示敏感文本泄露企业私密信息的风险越低。在实际应用中，不同业务类型下分级规则可以是不相同的，例如，在财务类型下可以包含三个敏感等级，而在经营战略类型下可以包含两个敏感等级等。

在进行分级信息的识别时，可以将待识别文本与目标业务类型下的分级规则进行匹配，根据匹配结果可以确定出待识别文本的分级信息。例如，目标业务类型以经营战略类型为例，在经营战略类型下的分级规则可以包括两个等级，在文本中包含“下半年企业计划详细内容为：xxxx”，此时，可以认定该文本的分级信息为高敏感等级。而在文本中包含“本月计划营收比上月增涨10％，具体业务计划暂不向外披露”，此时，可以认定该文本的分级信息为低敏感等级等。

可以理解地，上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例，不作为对本实施例的唯一限制。

在根据目标领域、目标业务类型和待识别文本确定出待识别文本的分类分级信息之后，执行步骤503。

步骤503：基于所述分类分级信息，识别得到所述待识别文本的敏感程度。

在根据目标领域、目标业务类型和待识别文本确定出待识别文本的分类分级信息之后，可以基于分类分级信息识别得到待识别文本的敏感程度。具体地，针对不同分类下的敏感等级可以预先设置相应的敏感分值，例如，财务类型下的敏感等级包括三个等级，分别为A等级、B等级和C等级，其中，A等级对应的分值大于8，B等级对应的分值为5～8，C等级对应的分值小于5等，通过待识别文本的分类分级信息可以确定出待识别文本对应的敏感等级分值，敏感等级分值越大，则表示待识别文本的敏感程度越高，反之，敏感等级分值越小，则表示待识别文本的敏感程度越低等。

本申请实施例通过预先建立存储不同领域下至少一种业务类型的敏感文本的第二向量表示的向量库，通过向量相似度识别的方式能够识别出不同领域下的敏感文本，能够处理复杂的商业环境中多领域数据，并准确判断字段的类型和敏感性，提高了多领域敏感性文本的识别准确度。

对于向量库建立过程和敏感文本识别过程可以结合图7进行如下完整描述。

参照图7，示出了本申请实施例提供的一种敏感信息识别流程的示意图。如图7所示，通过根据企业内财务特征、战略特征、技术特征和分类分级TAG库等信息，将企业内相应的敏感文本转换为向量表示(embedding)，并存入数据库中，以形成敏感向量库。

在进行敏感程度识别时，可以通过API(ApplicationProgram Interface，应用程序编程接口)信息、MSG(Windows程序中的结构体)、扫描检测日志等方式监控网络数据，并通过LLM模型对监控到的网络数据进行文本特征识别，以提取出网络数据中的待识别信息(即待识别文本)。可以理解地，在监控到网络数据之后，还可以对网络数据进行预处理(如数据清洗、标准化等)，然后再对预处理后的网络数据进行文本特征的识别操作。

进而，可以将该待识别信息转换为向量表示(embedding)，与向量库内的embedding进行相似度计算。以得到高度相关性结果，该高度相关性结果即为向量库内的embedding中与待识别信息的embedding高度相似的目标向量表示。

最后，可以根据高度相关性结果和从网络数据中识别的待识别信息的上下文信息通过LLM模型进行分类分级，并根据分类分级信息确定待识别信息的敏感程度。具体地，可以根据高度相关性结果，确定待识别信息所属的目标领域，及待识别信息所属的业务类型。然后，根据上下文信息从类型中筛选出待识别信息所属的目标业务类型。最后，可以根据目标领域、目标业务类型和待识别文本，确定待识别信息的分类分级信息，并根据分类分级信息确定出待识别信息的敏感程度。其中，LLM模型可以用于解析上下文信息，以确定待识别信息的目标业务类型。

本申请实施例提出的敏感识别方案，能够根据不同组织的需求，快速梳理组织中数据特征并对数据进行分类。数据敏感识别可以进一步促进对企业内部信息的分类分级、敏感定义和敏感保护，从而有效防止敏感数据的泄露和滥用，提升数据的安全性。对于一些行业，如金融、医疗等，合规性要求非常严格。集成多领域敏感性识别方法和装置可以帮助企业自动识别敏感数据，并根据合规要求进行分类和处理，减少人为错误和违规操作的风险，降低合规方面的法律和经济风险。同时，扩大了识别数据资产范围，质量能够达到甚至超越人工标注，提升数据处理效率：传统的人工敏感数据识别和分类需要大量的人力投入和时间成本。

在本实施例中，对于实现上述方案的系统框架可以结合图8进行如下详细描述。

如图8所示，该系统可以包括：数据源模块、数据预处理和特征提取模块、多领域敏感性分类模型和结果输出模块。

其中，数据源模块：该模块用于获取企业内部的数据，包括业务数据、经营数据等。具体地，可以通过对不同领域的企业的企业网站内发布的数据、和/或企业内的数据库中存储的数据进行扫描，以得到不同业务类型的网络数据，网络数据即包含业务数据、经营数据等。

数据预处理和特征提取模块：该模块可以对获取的数据进行预处理，如数据清洗、标准化等等。然后，可以对预处理后的数据进行文本特征识别，以识别出不同业务类型下的敏感文本，并构建敏感文本的特征向量表示。

多领域敏感性分类模块：该模块为核心模块，主要用于：1、根据上述数据预处理和特征提取模块构建的敏感文本的特征向量表示，构建敏感向量库(如图8所示vectordatabase)。2、在进行敏感程度识别时，可以向多领域敏感性分类模块输入待识别文本(如图8所示text1、text2、textn等)(待识别文本可以是通过爬取关键页面、数据库、知识库等方式得到的)，进而可以将待识别文本转换为向量表示，以与敏感向量库中的向量表示进行匹配，得到待识别文本对应的目标向量表示，进而，可以根据目标向量表示确定待识别文本的分类分级信息。

可以理解地，在进行敏感程度识别时，还可以结合待识别文本的上下文信息辅助识别业务类型，以提高业务类型识别准确度。

结果输出模块：该模块用于输出分类结果，将敏感数据和非敏感数据进行区分并提供相应的输出。例如，在识别出待识别文本的敏感程度较高时，则表示该待识别文本泄漏企业私密信息的风险较大，此时，可以通过标签、评分、警告信息等形式输出告警信息，以提示业务人员进行处理等。同时，该模块还可以提供解释性反馈界面，能够帮助用户进一步理解分类分级信息。

本申请实施例提供的敏感程度识别方法，通过对监控到的网络数据进行文本特征识别，得到待识别文本，对待识别文本进行向量转换处理，得到待识别文本的第一向量表示，计算第一向量表示与向量库中的第二向量表示之间的相似度，向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示，根据相似度，确定第二向量表示中与第一向量表示匹配的目标向量表示，根据目标向量表示，识别得到待识别文本的敏感程度。本申请实施例通过预先建立存储不同领域下至少一种业务类型的敏感文本的第二向量表示的向量库，通过向量相似度识别的方式能够识别出不同领域下的敏感文本，能够处理复杂的商业环境中多领域数据，并准确判断字段的类型和敏感性，提高了多领域敏感性文本的识别准确度，同时，可以提高敏感性文本的识别效率，从而可以有效管控企业内部商业信息安全。

参照图9，示出了本申请实施例提供的一种敏感程度识别装置的结构示意图，如图9所示，该敏感程度识别装置900可以包括以下模块：

待识别文本获取模块910，用于对监控到的网络数据进行文本特征识别，得到待识别文本；

第一向量表示获取模块920，用于对所述待识别文本进行向量转换处理，得到所述待识别文本的第一向量表示；

相似度计算模块930，用于计算所述第一向量表示与向量库中的第二向量表示之间的相似度，所述向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示；

目标向量表示确定模块940，用于根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示；

敏感程度识别模块950，用于根据所述目标向量表示，识别得到所述待识别文本的敏感程度。

可选地，所述装置还包括：

敏感文本获取模块，用于获取不同领域下至少一种业务类型的敏感文本；

第二向量表示获取模块，用于对所述敏感文本进行向量转换处理，得到所述敏感文本的第二向量表示；

第二向量表示存储模块，用于根据所述敏感文本所属领域和业务类型，将所述第二向量表示分类存储于所述向量库中。

可选地，所述目标向量表示确定模块包括：

第三向量表示获取单元，用于获取所述第二向量表示中与所述第一向量表示的相似度大于相似度阈值的第三向量表示；

目标向量表示筛选单元，用于从所述第三向量表示中筛选出所述目标向量表示。

可选地，所述目标向量表示筛选单元包括：

第一向量表示获取子单元，用于在所述第三向量表示的数量为1的情况下，将该第三向量表示作为所述目标向量表示；

可选地，所述敏感程度识别模块包括：

文本类型确定单元，用于根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型；

分级信息确定单元，用于根据所述目标领域、所述目标业务类型和所述待识别文本，确定所述待识别文本的分类分级信息；

敏感程度识别单元，用于基于所述分类分级信息，识别得到所述待识别文本的敏感程度。

可选地，所述根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型，包括：

根据所述网络数据，获取所述待识别文本的上下文信息；

根据所述目标向量表示，确定所述待识别文本所属的所述目标领域，及所述待识别文本所属的业务类型；

根据所述上下文信息，从所述业务类型中筛选出所述待识别文本所属的目标业务类型。

可选地，所述第一向量表示的向量转换方式与所述第二向量表示的向量转换方式相同。

本申请实施例提供的敏感程度识别装置，通过对监控到的网络数据进行文本特征识别，得到待识别文本，对待识别文本进行向量转换处理，得到待识别文本的第一向量表示，计算第一向量表示与向量库中的第二向量表示之间的相似度，向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示，根据相似度，确定第二向量表示中与第一向量表示匹配的目标向量表示，根据目标向量表示，识别得到待识别文本的敏感程度。本申请实施例通过预先建立存储不同领域下至少一种业务类型的敏感文本的第二向量表示的向量库，通过向量相似度识别的方式能够识别出不同领域下的敏感文本，能够处理复杂的商业环境中多领域数据，并准确判断字段的类型和敏感性，提高了多领域敏感性文本的识别准确度，同时，可以提高敏感性文本的识别效率，从而可以有效管控企业内部商业信息安全。

本申请实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

对监控到的网络数据进行文本特征识别，得到待识别文本；

对所述待识别文本进行向量转换处理，得到所述待识别文本的第一向量表示；

计算所述第一向量表示与向量库中的第二向量表示之间的相似度，所述向量库中存储有不同领域下至少一种业务类型的敏感文本的第二向量表示；

根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示；

根据所述目标向量表示，识别得到所述待识别文本的敏感程度。

可选地，在所述计算所述第一向量表示与向量库中的第二向量表示之间的相似度之前，还包括：

获取不同领域下至少一种业务类型的敏感文本；

对所述敏感文本进行向量转换处理，得到所述敏感文本的第二向量表示；

根据所述敏感文本所属领域和业务类型，将所述第二向量表示分类存储于所述向量库中。

可选地，所述根据所述相似度，确定所述第二向量表示中与所述第一向量表示匹配的目标向量表示，包括：

获取所述第二向量表示中与所述第一向量表示的相似度大于相似度阈值的第三向量表示；

从所述第三向量表示中筛选出所述目标向量表示。

可选地，所述从所述第三向量表示中筛选出所述目标向量表示，包括：

在所述第三向量表示的数量为1的情况下，将该第三向量表示作为所述目标向量表示；

可选地，所述根据所述目标向量表示，识别得到所述待识别文本的敏感程度，包括：

根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型；

根据所述目标领域、所述目标业务类型和所述待识别文本，确定所述待识别文本的分类分级信息；

基于所述分类分级信息，识别得到所述待识别文本的敏感程度。

可选地，所述根据所述目标向量表示在所述向量库中的分类信息，确定所述待识别文本所属目标领域和目标业务类型，包括：

根据所述网络数据，获取所述待识别文本的上下文信息；

根据所述目标向量表示，确定所述待识别文本所属的所述目标领域，及所述待识别文本所属的业务类型；

根据所述上下文信息，从所述业务类型中筛选出所述待识别文本所属的目标业务类型。

可选地，所述第一向量表示的向量转换方式与所述第二向量表示的向量转换方式相同。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(RandomAccess Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的敏感程度识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的敏感程度识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京奇艺世纪科技有限公司;

上一篇：一种识别电池热失控的方法
下一篇：学习装置、推理装置、程序、学习方法和推理方法