掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度强化学习的工业物联网安全调度方法

文献发布时间:2024-04-18 20:01:23


一种基于深度强化学习的工业物联网安全调度方法

技术领域

本发明属于工业物联网技术领域,特别是一种基于深度强化学习的工业物联网安全调度方法。

背景技术

工业物联网(Industrial Internet ofThings,IIoT)是指将传感器、设备和计算机等技术应用于工业生产与运营环境中,以实现设备互联和数据交换的网络。它利用物联网技术和云计算平台,使得传统工业系统中的各种设备、传感器和工艺流程能够相互连接、通信和协作。

边缘计算(Edge Computing)是一种将计算和数据处理能力推向靠近数据源的边缘设备的计算模型。传统的计算模型通常将数据发送到中心服务器或云端进行处理,而边缘计算则将部分计算任务放置在离数据源更近的边缘设备上进行处理。

现有的研究方法,在工业物联网的边缘计算中不常考虑传输安全性,经常忽视机器设备将计算任务卸载到边缘计算设备时的数据安全;或者在追求保密安全性能最大化的同时,不常关注在此过程中的能耗。

发明内容

本发明的目的在于针对上述现有技术存在的问题,提供一种基于深度强化学习的工业物联网安全调度方法。

实现本发明目的的技术解决方案为:一种基于深度强化学习的工业物联网安全调度方法,所述方法包括以下步骤:

步骤1,创建环境信息,包括所有机器设备的信息、边缘计算设备的信息和周围窃听设备的信息;

步骤2,当某个机器设备产生新的计算需求时,机器设备将计算所需输入参数的数据量、计算量和返回数据的数据量共三个数据一并发送给边缘计算设备;

步骤3,边缘计算设备将上述三个数据值作为当前状态输入神经网络的actor网络,actor网络输出动作的概率分布函数;

步骤4,边缘计算设备根据概率分布函数进行随机动作采样;

步骤5,判断动作是否合法,即是否被分配到信道资源和计算资源,如果非法则返回步骤4重新采样,否则执行步骤7;

步骤6,判断该动作的能耗是否超过预设上限,如果超过,则返回步骤4重新采样;

步骤7,将动作指令发送给原机器设备;

步骤8,机器设备根据动作指令,执行相应的卸载操作,选择将计算任务在本地执行、卸载至边缘计算设备执行或是卸载至云服务器执行;

步骤9,根据实际执行时间,计算奖励,并将奖励、状态、动作储存进经验池;

步骤10,随机抽取经验池中的样本,进行神经网络中actor网络和critic网络更新。

进一步地,步骤1中创建环境信息,具体为建立安全通信模型,包括:

机器设备用μ

边缘计算设备用

进一步地,工业物联网环境中的服务需求表示为s

进一步地,所述机器设备和边缘计算设备以无线方式连接,每个子信道的带宽为ω,则机器设备μ

式中,

进一步地,步骤6中该动作的能耗即边缘计算设备产生的能耗,包括边缘计算设备发射电磁波干扰窃听设备产生的干扰能耗、边缘计算设备接收机器设备卸载数据过程中产生的通信能耗,以及边缘计算设备执行卸载任务产生的计算能耗;

所述边缘计算设备发射电磁波干扰窃听设备产生的干扰能耗

式中,p

所述边缘计算设备接收机器设备卸载数据过程中产生的通信能耗,表示为:

式中,

所述边缘计算设备执行卸载任务产生的计算能耗

式中,p

则边缘计算设备处理服务需求s

式中,变量α

进一步地,步骤9中计算奖励时考虑三种情况下的时延:本地执行产生的时延、卸载到边缘服务器时产生的时延、卸载到云服务器时产生的时延;

(1)本地执行产生的时延

当机器设备μ

(2)卸载到边缘服务器时产生的时延

机器设备μ

式中,

(3)卸载到云服务器时产生的时延T

式中,T

则服务需求s

则系统中所有的机器设备在τ时间段内,总服务时延T(τ)为:

本发明与现有技术相比,其显著优点为:

(1)考虑了边缘卸载时无线传输时的数据安全问题,在保障数据传输安全的前提下,进行资源调度。

(2)基于深度强化学习算法进行调度算法的设计,加快了调度方案的决策速度。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中基于深度强化学习的工业物联网安全调度方法的流程图。

图2为一个实施例中工业物联网环境中的安全通信模型示意图。

图3为一个实施例中工业物联网边缘计算环境中的安全调度方案的卸载模型示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

在一个实施例中,本实施例方案场景为短程IIoT系统,工业物联网环境中的安全通信模型如图2所示,该系统由机器设备层、边缘层和云服务层组成。

1.1设备层

由机器设备组成,每一台机器设备配备了有限的计算资源,可以满足一定量的本地计算需求。

1.2边缘层

边缘层包括分散在工作环境内的边缘计算设备,每个边缘计算设备可以收集一定覆盖范围内的机器设备的信息,该范围将工业区分为多个小区,机器设备层中的所有机器设备也因此被分在各自的小区中。每一个小区中的机器设备可以通过无线信道连接到相应的边缘计算设备上。每个边缘计算设备配备有边缘服务器,可以满足卸载到边缘服务器上的计算需求。同时,机器设备的计算任务还可卸载到云端执行,边缘计算设备会将计算任务通过基站转发到云服务器进行计算。

在工业区等环境中,存在着窃听设备的潜在威胁。为了应对这种情况,边缘计算设备被设计成具有感知周围窃听设备的能力。一旦边缘计算设备检测到周围存在窃听设备,它可以采取干扰措施,发射电磁波来干扰附近的窃听者。然而这种干扰行为不仅会对窃听设备产生干扰,还会对自身造成自干扰。因为边缘计算设备在发射电磁波时,也会受到其自身发射的电磁波的影响。这种自干扰信号会对边缘计算设备的正常操作和性能产生一定的影响。

1.3云服务层

云服务层中有云服务器,能够充分满足机器设备的计算需求。

为了便于计算,在该系统中时间被划分为不同的离散时间段。在每个时间段开始时,边缘计算设备会收集所属小区的环境信息,包括设备信息、任务运行状况、窃听设备信息等。

每台边缘服务器都可用于决策,基于收集到的环境信息和设备资源状态,利用预先配置的卸载决策模型进行计算和决策。

一旦边缘服务器完成卸载决策,它将会保存卸载决策结果,并将计算任务根据决策结果卸载到指定的设备上。同时还会将卸载结果进行汇总,并且进行卸载参数优化。

边缘计算设备通过汇总和分析接收到的卸载结果,可以对卸载策略进行优化。通过对汇总数据和优化参数的分析,不断反馈改进后的参数,进行更新,以实现卸载策略的不断优化。

通过以上的设计,系统能够有效地利用边缘计算设备的计算资源,提升系统整体性能。同时,由于边缘服务器具备对资源使用情况的了解和卸载决策能力,在不同的时间段内可以灵活地调整卸载策略,适应环境变化和任务需求的动态变化。

本发明工业物联网的场景下,在保障数据传输安全的前提下,针对工业物联网场景的计算资源调度问题,基于深度强化学习,提出了一种旨在最小化计算任务平均执行时间的调度优化方案,算法框架如图3所示。

本实施例中提供了一种基于深度强化学习的工业物联网安全调度方法,结合图1,方法包括以下步骤:

步骤1,创建环境信息,包括所有机器设备的信息、边缘计算设备的信息和周围窃听设备的信息;

机器设备用μ

边缘计算设备用

这里,本系统中机器设备和边缘计算设备以无线方式连接,每个子信道的带宽为ω,则机器设备μ

式中,

边缘计算设备可以通过摄像头或合成孔径雷达(SAR,synthetic apertureradar)等设备来识别周围是否存在窃听设备,并且获取窃听设备的位置信息。

工业物联网环境中的服务需求可以表示为s

步骤2,当某个机器设备产生新的计算需求时,机器设备将计算所需输入参数的数据量、计算量和返回数据的数据量共三个数据一并发送给边缘计算设备。

步骤3,边缘计算设备将上述三个数据值作为当前状态输入神经网络的actor网络,actor网络输出动作的概率分布函数。

步骤4,边缘计算设备根据概率分布函数进行随机动作采样。

步骤5,判断动作是否合法,即是否被分配到信道资源和计算资源,如果非法则返回步骤4重新采样,否则执行步骤7。

步骤6,判断该动作的能耗是否超过预设上限,如果超过,则返回步骤4重新采样。

这里,步骤6中该动作的能耗即边缘计算设备产生的能耗,包括边缘计算设备发射电磁波干扰窃听设备产生的干扰能耗、边缘计算设备接收机器设备卸载数据过程中产生的通信能耗,以及边缘计算设备执行卸载任务产生的计算能耗;

所述边缘计算设备发射电磁波干扰窃听设备产生的干扰能耗

式中,p

所述边缘计算设备接收机器设备卸载数据过程中产生的通信能耗,表示为:

式中,

所述边缘计算设备执行卸载任务产生的计算能耗

式中,p

则边缘计算设备处理服务需求s

式中,变量α

步骤7,将动作指令发送给原机器设备。

步骤8,机器设备根据动作指令,执行相应的卸载操作,选择将计算任务在本地执行、卸载至边缘计算设备执行或是卸载至云服务器执行。

步骤9,根据实际执行时间,计算奖励,并将奖励、状态、动作储存进经验池。

这里,步骤9中计算奖励时考虑三种情况下的时延:本地执行产生的时延、卸载到边缘服务器时产生的时延、卸载到云服务器时产生的时延;

(1)本地执行产生的时延

当机器设备μ

(2)卸载到边缘服务器时产生的时延

机器设备μ

式中,

(3)卸载到云服务器时产生的时延T

式中,T

则服务需求s

则系统中所有的机器设备在τ时间段内,总服务时延T(τ)为:

步骤10,随机抽取经验池中的样本,进行神经网络中actor网络和critic网络更新。

在一个实施例中,本发明提供了基于深度强化学习的工业物联网安全调度系统,所述系统包括:

第一模块,用于实现创建环境信息,包括所有机器设备的信息、边缘计算设备的信息和周围窃听设备的信息;

第二模块,用于实现当某个机器设备产生新的计算需求时,机器设备将计算所需输入参数的数据量、计算量和返回数据的数据量共三个数据一并发送给边缘计算设备;

第三模块,用于实现边缘计算设备将上述三个数据值作为当前状态输入神经网络的actor网络,actor网络输出动作的概率分布函数;

第四模块,用于实现边缘计算设备根据概率分布函数进行随机动作采样;

第五模块,用于实现判断动作是否合法,即是否被分配到信道资源和计算资源,如果非法则返回第四模块重新采样,否则执行第七模块;

第六模块,用于实现判断该动作的能耗是否超过预设上限,如果超过,则返回第四模块重新采样;

第七模块,用于实现将动作指令发送给原机器设备;

第八模块,用于实现机器设备根据动作指令,执行相应的卸载操作,选择将计算任务在本地执行、卸载至边缘计算设备执行或是卸载至云服务器执行;

第九模块,用于实现根据实际执行时间,计算奖励,并将奖励、状态、动作储存进经验池;

第十模块,用于实现随机抽取经验池中的样本,进行神经网络中actor网络和critic网络更新。

关于基于深度强化学习的工业物联网安全调度系统的具体限定可以参见上文中对于基于深度强化学习的工业物联网安全调度方法的限定,在此不再赘述。上述基于深度强化学习的工业物联网安全调度系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现:

步骤1,创建环境信息,包括所有机器设备的信息、边缘计算设备的信息和周围窃听设备的信息;

步骤2,当某个机器设备产生新的计算需求时,机器设备将计算所需输入参数的数据量、计算量和返回数据的数据量共三个数据一并发送给边缘计算设备;

步骤3,边缘计算设备将上述三个数据值作为当前状态输入神经网络的actor网络,actor网络输出动作的概率分布函数;

步骤4,边缘计算设备根据概率分布函数进行随机动作采样;

步骤5,判断动作是否合法,即是否被分配到信道资源和计算资源,如果非法则返回步骤4重新采样,否则执行步骤7;

步骤6,判断该动作的能耗是否超过预设上限,如果超过,则返回步骤4重新采样;

步骤7,将动作指令发送给原机器设备;

步骤8,机器设备根据动作指令,执行相应的卸载操作,选择将计算任务在本地执行、卸载至边缘计算设备执行或是卸载至云服务器执行;

步骤9,根据实际执行时间,计算奖励,并将奖励、状态、动作储存进经验池;

步骤10,随机抽取经验池中的样本,进行神经网络中actor网络和critic网络更新。

关于每一步的具体限定可以参见上文中对于基于深度强化学习的工业物联网安全调度方法的限定,在此不再赘述。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现:

步骤1,创建环境信息,包括所有机器设备的信息、边缘计算设备的信息和周围窃听设备的信息;

步骤2,当某个机器设备产生新的计算需求时,机器设备将计算所需输入参数的数据量、计算量和返回数据的数据量共三个数据一并发送给边缘计算设备;

步骤3,边缘计算设备将上述三个数据值作为当前状态输入神经网络的actor网络,actor网络输出动作的概率分布函数;

步骤4,边缘计算设备根据概率分布函数进行随机动作采样;

步骤5,判断动作是否合法,即是否被分配到信道资源和计算资源,如果非法则返回步骤4重新采样,否则执行步骤7;

步骤6,判断该动作的能耗是否超过预设上限,如果超过,则返回步骤4重新采样;

步骤7,将动作指令发送给原机器设备;

步骤8,机器设备根据动作指令,执行相应的卸载操作,选择将计算任务在本地执行、卸载至边缘计算设备执行或是卸载至云服务器执行;

步骤9,根据实际执行时间,计算奖励,并将奖励、状态、动作储存进经验池;

步骤10,随机抽取经验池中的样本,进行神经网络中actor网络和critic网络更新。

关于每一步的具体限定可以参见上文中对于基于深度强化学习的工业物联网安全调度方法的限定,在此不再赘述。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种冻干保护剂、用其制备普洱茶用直投式冻干菌剂的方法与应用
  • 一种冻干保护剂、用其制备普洱茶用直投式冻干菌剂的方法与应用
  • 一种新鲜三七冻干破壁超微粉的制备方法
  • 一种核酸扩增试剂所需的冻干保护体系及其制备方法
  • 一种五指毛桃冻干果实黄酮提取液及其制备方法
  • 一种LAMP冻干微球的冻干保护剂、LAMP冻干微球及其制备方法
技术分类

06120116546224