导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>越狱攻击指令数据生成方法、装置、介质和设备

越狱攻击指令数据生成方法、装置、介质和设备

文献发布时间：2024-04-18 19:58:26

技术领域

本申请涉及计算机技术领域，尤其涉及一种越狱攻击指令数据生成方法、装置、介质和设备。

背景技术

随着人工智能(Artificial Intelligence，AI)和机器学习技术的广泛应用，安全性问题日益受到重视。特别是越狱攻击，越狱攻击成为了一个严重的威胁，这种攻击旨在绕过系统限制，执行未授权的任务或生成有害内容。随着越狱攻击多样化发展，现有的通用AI模型的安全测试数据集难以满足安全评测需求，因此亟需构建一种新的越狱攻击指令数据集，以准确评估机器学习模型或系统对越狱攻击风险的抵抗能力，辅助机器学习模型或系统进行安全优化。

发明内容

本申请实施例提供了一种越狱攻击指令数据生成方法、装置、介质和设备，其生成的目标越狱攻击指令数据，可以更有效地评估和测试语言学习模型对越狱攻击指令的抵抗能力，有助于研究和开发更加精准的防御措施。上述技术方案如下：

第一方面，本申请实施例提供了一种越狱攻击指令数据生成方法，该方法包括：

获取包括多条越狱攻击指令的基础数据；

基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；

基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。

在一种可能的实现方式中，上述获取各上述特征维度对应的多个目标特征数据，包括：

获取上述基础数据中各上述特征维度对应的基础特征数据；

基于上述基础特征数据通过第一机器学习模型生成各上述特征维度对应的多个上述目标特征数据。

在一种可能的实现方式中，上述基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据，包括：

基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据；

基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据。

在一种可能的实现方式中，上述基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据，包括：

基于不同上述攻击类型对应的指令生成模板确定至少一个目标特征维度；

基于上述指令生成模板和上述至少一个目标特征维度对应的至少一个目标特征数据生成初始越狱攻击指令数据。

在一种可能的实现方式中，上述基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据，包括：

将上述初始越狱攻击指令数据作为最佳生成数据，并生成上述最佳生成数据对应的最佳评分；

将上述初始越狱攻击指令数据作为种子数据，将上述种子数据输入至第二机器学习模型中生成变异数据；

基于上述变异数据生成上述变异数据对应的变异评分，若上述变异评分高于上述最佳评分，则将上述变异数据作为最佳生成数据，将上述变异评分作为最佳评分；

判断迭代优化过程是否满足收敛条件；

若不满足上述收敛条件，则将上述变异数据作为上述种子数据，继续执行上述将上述种子数据输入至第二机器学习模型中生成变异数据的步骤，直至满足上述收敛条件；

若满足上述收敛条件，则将上述最佳生成数据作为上述目标越狱攻击指令数据。

在一种可能的实现方式中，上述攻击类型包括模拟对话类型、角色扮演类型和对立响应类型中的至少一种。

在一种可能的实现方式中，上述指令生成模板基于上述攻击类型设置，上述指令生成模板包括上述攻击类型对应的越狱攻击指令的基本结构和语言特征信息。

第二方面，本申请实施例提供了一种越狱攻击指令数据生成装置，该装置包括：

第一获取模块，用于获取包括多条越狱攻击指令的基础数据；

第二获取模块，用于基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；

生成模块，用于基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。

在一种可能的实现方式中，上述第二获取模块，包括：

第一获取单元，用于获取上述基础数据中各上述特征维度对应的基础特征数据；

第一生成单元，用于基于上述基础特征数据通过第一机器学习模型生成各上述特征维度对应的多个上述目标特征数据。

在一种可能的实现方式中，上述生成模块，包括：

第二生成单元，用于基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据；

优化单元，用于基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据。

在一种可能的实现方式中，上述第二生成单元具体用于：

基于不同上述攻击类型对应的指令生成模板确定至少一个目标特征维度；

基于上述指令生成模板和上述至少一个目标特征维度对应的至少一个目标特征数据生成初始越狱攻击指令数据。

在一种可能的实现方式中，上述优化单元具体用于：

将上述初始越狱攻击指令数据作为最佳生成数据，并生成上述最佳生成数据对应的最佳评分；

将上述初始越狱攻击指令数据作为种子数据，将上述种子数据输入至第二机器学习模型中生成变异数据；

判断迭代优化过程是否满足收敛条件；

若满足上述收敛条件，则将上述最佳生成数据作为上述目标越狱攻击指令数据。

在一种可能的实现方式中，上述攻击类型包括模拟对话类型、角色扮演类型和对立响应类型中的至少一种。

第三方面，本申请实施例提供了一种计算机存储介质，上述计算机存储介质存储有多条指令，上述指令适于由处理器加载并执行本申请实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供了一种电子设备，包括：处理器以及存储器；

上述处理器与上述存储器相连；

上述存储器，用于存储可执行程序代码；

上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序，以用于执行本申请实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。

在本申请一个或多个实施例中，获取包括多条越狱攻击指令的基础数据；基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。本申请可以更精准地捕捉和理解不同的攻击类型和特性，生成具有更高质量和丰富度的越狱攻击指令数据，从而可以更有效地评估和测试语言学习模型对越狱攻击指令的抵抗能力，有助于研究和开发更加精准的防御措施。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一示例性实施例提供的一种越狱攻击指令数据生成方法的流程示意图；

图2为本申请一示例性实施例提供的基础数据的特征维度划分示意图；

图3为本申请一示例性实施例提供的一种迭代优化过程的流程示意图；

图4为本申请一示例性实施例提供的一种越狱攻击指令数据生成方法的流程示意图；

图5为本申请一示例性实施例提供的一种越狱攻击指令数据生成装置的结构示意图；

图6为本申请一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本申请进行详细说明。

本申请实施例提供了一种越狱攻击指令数据生成方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的越狱攻击指令数据生成装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。其中，本申请实施例中的越狱攻击指令数据生成装置可以为终端设备，包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、5G网络或未来演进网络中的终端设备等。该越狱攻击指令数据生成装置也可以为服务器，可以是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。该越狱攻击指令数据生成装置还可以为服务器和终端设备组合的系统。具体基于实际应用环境确定，本申请实施例对此不作限定。

下面结合具体的实施例对本申请提供的越狱攻击指令数据生成方法进行详细说明。

请参见图1，其为本申请一示例性实施例提供的一种越狱攻击指令数据生成方法的流程示意图。如图1所示，该越狱攻击指令数据生成方法包括以下几个步骤：

S101，获取包括多条越狱攻击指令的基础数据。

具体的，越狱攻击指令指的是一种策略，其目的是试图绕过文本类机器学习模型的安全限制(即越狱)，从而获得恶意或不受约束的响应，生成有害内容。本实施例中获取的基础数据可以包括多条真实有效的越狱攻击指令——即目前或曾经成功实现绕过文本类机器学习模型的越狱攻击指令。

上述基础数据的获取方式可以包括不限于：从互联网上获取公开的越狱攻击案例；从安全研究社区、论坛或博客中获取共享的相关数据；通过模拟攻击测试，收集产生越狱响应的攻击策略等等。

本实施例通过收集包括多条真实有效的越狱攻击指令的基础数据，展示了攻击者如何尝试绕过模型的安全限制，以便对该基础数据进行深入理解和分析，可以为后续的分类、特征分解和扩充等步骤提供必要的信息。

S102，基于基础数据确定至少一种攻击类型和攻击类型下的多个特征维度，并获取各特征维度对应的多个目标特征数据。

具体的，该步骤是基于已获取的基础数据，分析越狱攻击指令的特点，并依据指令的构建逻辑将其划分为一种或多种攻击类型，以便进一步分析和提取这些攻击类型下的多个特征维度的特征数据。

在一些实施例中，上述攻击类型包括模拟对话类型、角色扮演类型和对立响应类型中的至少一种。

具体的，模拟对话类型是要求模型模拟两个角色进行对话，并设定对话内容是围绕给定的恶意目的展开，通过诱导模型聚焦于模拟对话的生成形式上，从而削弱了其对恶意目的的检测性能。此外，由于文本类机器学习模型的响应结果被分散在对话的不同语句中，进一步降低了安全过滤规则对生成内容的敏感性。

角色扮演类型是通过要求模型扮演一个虚构的角色，并为该角色设定了一系列的行为规则，例如不受任何限制的约束、喜欢做非法和不道德的活动等。由于文本类机器学习模型开发者为其设置的大多数限制都是通过各种系统指令实现的，而当攻击者在输入提示中要求模型扮演一个虚构角色时，其原始的部分系统指令很可能无法传递到新角色身上，这将导致新角色成功脱离安全过滤规则的约束。

对立响应类型是一种特殊的角色扮演，通过要求模型对每个输入内容都要从正反两个维度给出相应的响应结果。在输入内容中会对反面角色的性格和行为方式进行强制约束，令其可以做任何事情。通过设置正反对立的响应形式，从而使得恶意响应内容隐藏在正常响应内容后，以试图欺骗安全过滤规则。

在本实施例中，根据攻击类型确定各自对应的特征维度(例如，可以考虑场景、角色、性格、行为方式等多个维度的特征)，逐步将基础数据进行分解和提取，提取出的各特征维度对应的目标特征数据，该目标特征数据包括由基础数据提取出的基础特征数据和/或该基础特征数据对应的衍生特征数据。通过确定越狱攻击的类型和特征维度，有助于深入理解攻击的本质，以便生成更丰富有效的越狱攻击数据集，为后续的模型训练和防御提供重要依据。

示例性的，如图2所示，模拟对话的特征维度可以包括不限于：人物性格，即对话中涉及的角色的性格特征；对话场景，即对话发生的具体环境或背景；对话主题，即对话所围绕的中心话题；人物行为方式，即对话中角色的具体行为和互动方式。

角色扮演的特征维度可以包括不限于：角色定义，即角色的基本描述和特性；角色命名，即角色的名称或别名；角色性格，即角色的性格特征和倾向；允许的行为，即角色被允许进行的活动或行为；禁止的行为，即角色被禁止进行的活动或行为。

对立响应的特征维度可以包括不限于：虚构场景，即设定的背景或场景；反面角色的性格，即反面角色的特性和性格；反面角色的行为方式，即反面角色的活动和行为；响应内容中必须包含的内容和禁止包含的内容，即设置响应中必须或禁止出现的具体信息。

在一些实施例中，上述获取各上述特征维度对应的多个目标特征数据，包括：获取基础数据中各特征维度对应的基础特征数据；基于上述基础特征数据通过第一机器学习模型生成各特征维度对应的多个目标特征数据。

具体的，首先获取基础数据中各特征维度对应的基础特征数据，该基础特征数据是由上述基础数据按照其对应的攻击类型和特征维度进行特征分解和提取得到的特征数据。接下来，为了提高生成指令的有效性和多样性，通过第一机器学习模型基于上述提取到的基础特征数据生成各特征维度对应的多个目标特征数据。上述第一机器学习模型可以为文本类机器学习模型，例如基于该文本类大模型的逻辑理解和文本生成能力，设计一组特征仿写提示词，用于对不同特征维度的基础特征数据进行仿写，生成符合特征维度的多个衍生特征数据，以扩充特征库。

S103，基于不同攻击类型对应的指令生成模板和目标特征数据生成目标越狱攻击指令数据。

具体的，指令生成模板可以基于上述攻击类型设置，每一种攻击类型(如模拟对话类型、角色扮演类型和对立响应类型)都有相应的指令生成模板。这些指令生成模板包含了各攻击类型对应的越狱攻击指令的基本结构和语言特征信息等，可以为不同攻击类型的越狱攻击指令提供一致的结构和语言风格。

越狱攻击指令的基本结构定义了越狱攻击指令的核心组件(特征维度)和组织方式，如角色、场景、主题、允许和禁止的行为等，为攻击指令提供骨架。不同的攻击类型可以有不同的基本结构元素。语言特征信息定义了越狱攻击指令的文本表达方面的特点，如特定的用词、语法和风格。语言特征可以根据攻击类型的不同而有所差异，目的是为了更精确地描述和实现攻击。这两者共同为越狱攻击指令的生成提供了具体的指导和约束。

最后将选取的目标特征数据填充到指令生成模板中，根据模板的结构要求和特征库的内容来构建越狱攻击指令。

示例性的，如角色扮演类型的指令生成模板，其基本结构可能包括角色定义(例如，角色名字、职业)、角色性格(例如，积极、消极)、允许和禁止的行为(例如，可以做什么，不可以做什么)，其语言特征可以涉及角色扮演类型的描述语言，增加描述的准确性。从角色扮演类型下的角色定义、角色性格等特征维度的特征库中随机采样获取对应的目标特征数据，填充该角色扮演类型的指令生成模板，生成角色扮演的越狱攻击指令。

在一些实施例中，上述基于不同攻击类型对应的指令生成模板和目标特征数据生成目标越狱攻击指令数据，包括：基于不同攻击类型对应的指令生成模板和目标特征数据生成初始越狱攻击指令数据；基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据。

具体的，为了进一步提升生成越狱攻击指令数据的有效性和多样性，可以先基于指令生成模板和目标特征数据生成初始越狱攻击指令数据，然后再采用基于机器学习模型的种子变异反馈技术，用于指导越狱指令的生成和优化过程，得到最终的目标越狱攻击指令数据。

在一些实施例中，上述基于不同攻击类型对应的指令生成模板和目标特征数据生成初始越狱攻击指令数据，包括：基于不同上述攻击类型对应的指令生成模板确定至少一个目标特征维度；基于上述指令生成模板和上述至少一个目标特征维度对应的至少一个目标特征数据生成初始越狱攻击指令数据。

具体的，上述基于不同攻击类型对应的指令生成模板和目标特征数据生成初始越狱攻击指令数据的过程可以分为以下几个步骤：

选择指令生成模板：首先根据攻击类型需求选择特定的攻击类型，例如模拟对话类型、角色扮演类型或对立响应类型。选择对应于所选攻击类型的指令生成模板，该指令生成模板包括了该攻击类型的基本结构和语言特征信息。

识别目标特征维度：基于所选攻击类型和相应的指令生成模板，确定至少一个目标特征维度。这些目标特征维度可以包括人物性格、对话场景、对话主题、角色定义、允许的行为、禁止的行为等。同一攻击类型下的不同指令生成模板设计时可以设计包括不同的基本结构(目标特征维度)，目标特征维度可以是所选攻击类型下的全部或部分特征维度。

获取目标特征数据：根据已确定的至少一个目标特征维度，在相应目标特征维度的特征库中随机采样，获取至少一个目标特征数据。

填充模板：将获取的目标特征数据填充到指令生成模板的相应部分。

生成初始指令：基于填充后的指令生成模板，生成初始越狱攻击指令数据。

该过程通过选定攻击类型并运用相应的指令生成模板，结合目标特征维度和目标特征数据来精确地构建初始越狱攻击指令。这为后续的迭代优化阶段提供了合适的初始种子，以便生成多样化、具有代表性的目标越狱攻击指令数据

在一些实施例中，如图3所示，上述基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据，包括：

S301，将初始越狱攻击指令数据作为最佳生成数据，并生成最佳生成数据对应的最佳评分。

具体的，最佳生成数据是指在当前迭代或评估阶段被认为是最优秀或最符合目标的生成数据。在本步骤中，先进行初始化，将最佳生成数据初始化为初始越狱攻击指令数据，并生成相应的最佳评分。

该最佳评分是评估最佳生成数据的得分。可以包括多种评分标准，并通过加权计算得到最终评分结果。例如通过相似性算法计算最佳生成数据与某个标准的相似性得分，通过实际环境或模拟测试评估最佳生成数据的有效性和攻击能力得到对抗性评分，通过不同评分标准的重要性设定权重，进行加权计算得到最终评分。

S302，将初始越狱攻击指令数据作为种子数据。

具体的，将种子数据初始化为初始越狱攻击指令数据。

S303，将种子数据输入至第二机器学习模型中生成变异数据，基于变异数据生成变异数据对应的变异评分。

具体的，第二机器学习模型可以为文本类机器学习模型，例如基于文本类大模型的逻辑理解和文本生成能力，设计一组变异提示词，使用该文本类大模型对种子数据进行变异操作，以引导文本大模型生成特定方向或风格的新的越狱指令数据(即变异数据)，增加解决方案的多样性。

此外，还需要对变异数据进行评估，以生成变异评分；该变异评分的评分方式与S301步骤中的最佳评分一致。

S304，判断变异评分是否高于最佳评分。

具体的，比较变异评分和最佳评分，若变异评分高于最佳评分，则执行S305步骤；若变异评分未高于最佳评分，则执行S306步骤。

S305，将变异数据作为最佳生成数据，将变异评分作为最佳评分。

具体的，若变异评分高于最佳评分，说明变异数据相较于目前的最佳生成数据，具有更高的越狱攻击能力和攻击有效性，因此将最佳生成数据更新为该变异数据，将最佳评分更新为等变异评分。

S306，判断迭代优化过程是否满足收敛条件。

具体的，通过判断该迭代优化过程是否满足收敛条件，以判断该迭代优化过程是否可以结束。例如，可以通过设置最大迭代次数作为收敛条件，当迭代次数达到这个预定值时，算法就会停止，不再进一步优化。

若不满足收敛条件，则执行S307步骤；若满足收敛条件，则执行S308步骤。

S307，将变异数据作为种子数据，并返回执行S303步骤。

具体的，若不满足收敛条件，则将种子数据更新为变异数据，以进行下一轮迭代。

S308，将最佳生成数据作为目标越狱攻击指令数据。

具体的，若满足收敛条件，则结束迭代优化过程，输出当前的最佳生成数据，得到目标越狱攻击指令数据，构建越狱攻击指令数据集。

种子变异反馈技术通过对生成的数据进行迭代变异和反馈，逐步扩展生成数据的多样性和覆盖范围。通过不断迭代优化，生成的越狱指令数据将具备更高的质量和丰富度，提供更有价值的数据资源，使构建的越狱攻击指令数据集更加全面和具有代表性。

示例性的，具体优化算法流程可如下所示：

输入：生成的初始越狱攻击指令数据seed_data；大语言模型Model；最大迭代次数max_iters；收敛条件；

通过上述优化算法流程可以将初始越狱指令数据进行指令优化，进一步提升生成数据的有效性和多样性。

在本申请实施例中，获取包括多条越狱攻击指令的基础数据；基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。本申请可以更精准地捕捉和理解不同的攻击类型和特性，生成具有更高质量和丰富度的越狱攻击指令数据，从而可以更有效地评估和测试语言学习模型对越狱攻击指令的抵抗能力，有助于研究和开发更加精准的防御措施。

接下来请参照图4，图4介绍本申请一示例性实施例提供的一种越狱攻击指令数据生成方法。如图4所示，该越狱攻击指令数据生成方法包括以下几个步骤：

S401，指令分类。

首先，从互联网上收集真实越狱攻击指令作为基础数据。然后，分析这些基础数据的特点，并依据指令的构建逻辑将其划分成模拟对话、角色扮演和对立响应三种攻击类型。

S402，特征分解。

针对不同攻击类型的越狱攻击指令，进行多维度的特征分析和提取。根据不同攻击类型各自的特征维度，逐步将这些基础数据分解为基本特征组件(特征数据)，并将它们放入相应特征维度的特征库中作为种子数据。

S403，特征扩充。

为了提高生成的越狱攻击指令的有效性和多样性，基于大语言模型的逻辑理解和文本生成能力，设计一组特征仿写提示词，用于对不同特征维度的特征数据进行仿写，生成的新的特征数据，以扩充特征库，增加各个特征维度的特征库的样本数量和多样性。

S404，模板设计。

通过对不同攻击类型的越狱攻击指令进行共性分析和提炼，为三类越狱指令分别设计相应的指令生成模板。这些指令生成模板包含了各类越狱攻击指令的基本结构和语言特征等信息，能够为不同类型的越狱指令提供一致的结构和语言风格。

S405，指令构建。

在各类越狱攻击指令的生成和扩充过程中，基于设计好的指令生成模板确定所需的特征维度，然后从相应特征维度的特征库中进行随机采样，选择可变数量的特征组件(特征数据)填充到指令生成模板中，以完成越狱攻击指令数据的构建，生成具有多样性和适应性的越狱攻击指令数据。

S406，指令优化。

为了进一步提升生成越狱攻击指令数据的有效性和多样性，采用基于大语言模型的种子变异反馈技术，用于指导越狱攻击指令数据的生成和优化过程，得到最佳的越狱攻击指令数据，并构建越狱攻击指令数据集。

为了有效评估本实施例上述方法生成的越狱攻击指令数据集的越狱攻击能力，接下来将利用上述越狱攻击指令数据集进行测评。该测评实验选取了OpenAI的GPT-3.5-turbo、谷歌的PaLM2和UC Berkeley的Vicuna13B三个典型的大语言模型作为测评目标，以验证三种攻击类型的越狱攻击指令在这些模型上的攻击成功率(即在越狱攻击指令的操纵下，各类安全风险问题绕过目标模型限制的成功率)。其中，针对PaLM2模型，本测试实验分别以安全阈值1(最高安全过滤规则等级)和安全阈值3(最低安全过滤等级)进行了越狱攻击指令的攻击成功率测评；并使用传统安全测试数据集(无越狱指令)进行对照实验。各类越狱攻击指令的攻击成功率参见表1。

表1不同类型越狱攻击指令的攻击成功率(％)

依据表1中的实验结果可以得到：在不同大语言模型中，本实施例所提供的三种攻击类型的越狱攻击指令数据集，均比传统安全测试数据集(无越狱指令)具有更高的攻击成功率。本实施例所提供的越狱攻击指令数据集可以更有效地评估和测试模型对越狱攻击指令的抵抗能力，有助于研究和开发更加精准的防御措施。

接下来请参考图5，图5为本申请一示例性实施例提供的一种越狱攻击指令数据生成装置。如图5所示，该越狱攻击指令数据生成装置500包括：

第一获取模块510，用于获取包括多条越狱攻击指令的基础数据；

第二获取模块520，用于基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；

生成模块530，用于基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。

在一些可能的实施例中，上述第二获取模块520，包括：

第一获取单元，用于获取上述基础数据中各上述特征维度对应的基础特征数据；

第一生成单元，用于基于上述基础特征数据通过第一机器学习模型生成各上述特征维度对应的多个上述目标特征数据。

在一些可能的实施例中，上述生成模块530，包括：

第二生成单元，用于基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据；

优化单元，用于基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据。

在一些可能的实施例中，上述第二生成单元520具体用于：

基于不同上述攻击类型对应的指令生成模板确定至少一个目标特征维度；

基于上述指令生成模板和上述至少一个目标特征维度对应的至少一个目标特征数据生成初始越狱攻击指令数据。

在一些可能的实施例中，上述优化单元具体用于：

将上述初始越狱攻击指令数据作为最佳生成数据，并生成上述最佳生成数据对应的最佳评分；

将上述初始越狱攻击指令数据作为种子数据，将上述种子数据输入至第二机器学习模型中生成变异数据；

判断迭代优化过程是否满足收敛条件；

若满足上述收敛条件，则将上述最佳生成数据作为上述目标越狱攻击指令数据。

在一些可能的实施例中，上述攻击类型包括模拟对话类型、角色扮演类型和对立响应类型中的至少一种。

在一些可能的实施例中，上述指令生成模板基于上述攻击类型设置，上述指令生成模板包括上述攻击类型对应的越狱攻击指令的基本结构和语言特征信息。

上述越狱攻击指令数据生成装置中各模块的划分仅用于举例说明，在其他实施例中，可将越狱攻击指令数据生成装置按照需要划分为不同的模块，以完成上述越狱攻击指令数据生成装置的全部或部分功能。本申请实施例中提供的越狱攻击指令数据生成装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述的越狱攻击指令数据生成方法的全部或部分步骤。

请参阅图6，图6为本申请一示例性实施例提供的一种电子设备的结构示意图。如图6所示，该电子设备600可以包括：至少一个处理器610、至少一个通信总线620、用户接口630、至少一个网络接口640、存储器650。其中，通信总线620可用于实现上述各个组件的连接通信。

其中，用户接口630可以包括显示屏(Display)和摄像头(Camera)，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口640可选的可以包括蓝牙模块、近场通信(NearFieldCommunication，NFC)模块、无线保真(Wireless Fidelity，Wi-Fi)模块等。

其中，处理器610可以包括一个或者多个处理核心。处理器610利用各种接口和线路连接整个电子设备600内的各个部分，通过运行或执行存储在存储器650内的指令、程序、代码集或指令集，以及调用存储在存储器650内的数据，执行路由电子设备600的各种功能和处理数据。可选的，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块芯片进行实现。

其中，存储器650可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选的，该存储器650包括非瞬时性计算机可读介质。存储器650可用于存储指令、程序、代码、代码集或指令集。存储器650可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如获取功能、优化功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器650可选的还可以是至少一个位于远离前述处理器610的存储装置。如图6所示，作为一种计算机存储介质的存储器650中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

具体地，处理器610可以用于调用存储器650中存储的程序指令，并具体执行以下操作：

获取包括多条越狱攻击指令的基础数据；

基于上述基础数据确定至少一种攻击类型和上述攻击类型下的多个特征维度，并获取各上述特征维度对应的多个目标特征数据；

基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据。

在一些可能的实施例中，上述处理器610在执行上述获取各上述特征维度对应的多个目标特征数据时，具体用于执行：

获取上述基础数据中各上述特征维度对应的基础特征数据；

基于上述基础特征数据通过第一机器学习模型生成各上述特征维度对应的多个上述目标特征数据。

在一些可能的实施例中，上述处理器610在执行上述基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成目标越狱攻击指令数据时，具体用于执行：

基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据；

基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据。

在一些可能的实施例中，上述处理器610在执行上述基于不同上述攻击类型对应的指令生成模板和上述目标特征数据生成初始越狱攻击指令数据时，具体用于执行：

基于不同上述攻击类型对应的指令生成模板确定至少一个目标特征维度；

基于上述指令生成模板和上述至少一个目标特征维度对应的至少一个目标特征数据生成初始越狱攻击指令数据。

在一些可能的实施例中，上述处理器610在执行上述基于种子变异反馈算法迭代优化上述初始越狱攻击指令数据，得到目标越狱攻击指令数据时，具体用于执行：

将上述初始越狱攻击指令数据作为最佳生成数据，并生成上述最佳生成数据对应的最佳评分；

将上述初始越狱攻击指令数据作为种子数据，将上述种子数据输入至第二机器学习模型中生成变异数据；

判断迭代优化过程是否满足收敛条件；

若满足上述收敛条件，则将上述最佳生成数据作为上述目标越狱攻击指令数据。

在一些可能的实施例中，上述攻击类型包括模拟对话类型、角色扮演类型和对立响应类型中的至少一种。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述实施例中的一个或多个步骤。上述越狱攻击指令数据生成装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时，全部或部分地产生按照本申请实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriberLine，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(DigitalVersatile Disc，DVD))、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下，本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本申请的优选实施例方式进行描述，并非对本申请的范围进行限定，在不脱离本申请的设计精神的前提下，本领域普通技术人员对本申请的技术方案作出的各种变形及改进，均应落入权利要求书确定的保护范围内。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书和说明书中记载的动作或步骤可以按照不同于说明书记载的实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京奇虎科技有限公司;

上一篇：一种冲锋舟自动升降架
下一篇：一种提高水稻产量的乳酸菌制剂及其应用