导航：首页> 基本上无切削的金属机械加工；金属冲压>一种工业软件组件服务功能链装配集成方法

一种工业软件组件服务功能链装配集成方法

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及工业软件组件技术领域，尤其涉及一种工业软件组件服务功能链装配集成方法。

背景技术

工业软件组件是指在工业生产和制造过程中使用的各种软件模块或功能单元。它们包括数据采集模块、数据处理模块、控制算法模块等。这些组件具有特定的功能和接口，可以按需组合和集成以实现特定的业务需求。

传统的工业软件组件装配集成方法通常采用静态的规则或者模板来定义设备之间的关系和数据传输。如在一个工厂的生产线上有多个设备，包括传感器、执行器和控制器。传统的装配集成方法可能会定义一组静态规则，指定各个设备之间的关系和数据传输方式。基于这些规则，工业软件组件装配集成方法可以静态地配置设备之间的连接和数据传输通道。每个设备按照预先定义的规则执行任务，并按照规定的方式传输数据。

传统的工业软件组件服务功能链装配集成方法存在以下一些缺点：

1、静态：传统方法通常采用静态规则或手工编码来定义设备之间的关系和数据传输方式，缺乏灵活性和自适应性。一旦规则或编码确定，难以适应系统变化和需求的动态变化。

2、人工工作量大：传统方法需要工程师手动定义规则、编写代码或配置中间件来实现组件集成。这需要深入了解各个组件的接口和通信协议，并且对于复杂的系统和大规模集成来说，人工工作量会很大。

3、复杂性限制和维护性差：传统方法对于复杂的系统和大规模集成可能无法有效处理。当系统规模庞大、组件众多时，手工定义规则或编写代码变得困难，容易引入错误和冲突。它们无法适应复杂的环境变化和灵活的需求。当工厂的生产线发生变化或新的设备引入时，需要手动修改规则和模板，增加了维护和调整的工作量。

4、缺乏智能化和自动化：传统方法通常缺乏智能化和自动化的特性。它们无法根据实时数据和环境变化进行自适应调整和优化，无法实现智能的资源分配和任务调度。

这些缺点限制了传统的工业软件组件服务功能链装配集成方法在复杂和动态的工业环境中的应用。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种自主性高、灵活性高的工业软件组件服务功能链装配集成方法。

一方面，本发明实施例提供了一种工业软件组件服务功能链装配集成方法，包括：

构建系统模型；其中，所述系统模型包括设备、通信传输速率和服务功能链请求；

根据所述系统模型构建成本模型，用于计算虚拟网络功能的部署成本和服务功能链的嵌入成本；

确定优化目标，根据所述成本模型构建优化模型；

根据系统状态、系统动作和奖励函数，结合所述成本模型构建马尔可夫决策模型，用于计算每个时隙的累积奖励；

结合行动者-批评家算法和双网络结构DQN算法，构建行动者-批评家网络；

结合所述系统模型、所述成本模型、所述优化模型和所述马尔可夫决策模型，通过所述行动者-批评家网络确定优化的服务功能链装配集成策略。

可选地，所述构建系统模型，包括：

根据设备的计算能力和部署状态构建设备表达式；

根据不同设备之间的信道带宽、信号功率和噪声功率，构建数据传输速率表达式；

根据服务功能链请求的数据大小、所需计算资源和所需带宽构建服务功能链请求表达式。

可选地，所述根据所述系统模型构建成本模型，包括：

对于一个时隙，确定虚拟网络功能的部署成本；

在设备上嵌入服务功能链请求的第一决策变量；在信道上嵌入服务功能链请求的第二决策变量；

根据子信道传输数据的每秒单位成本、数据大小和数据传输速率，结合嵌入服务功能链请求的决策变量，确定服务请求链通信成本；

根据所述虚拟网络功能的运行成本确定服务请求链执行成本；

根据所述服务请求链通信成本和所述服务请求链执行成本确定服务请求链的嵌入成本；

根据所述虚拟网络功能的部署成本和所述服务请求链的嵌入成本构建成本模型。

可选地，所述根据系统状态、系统动作和奖励函数，结合所述成本模型构建马尔可夫决策模型的步骤中：

所述系统状态的表达式为：

其中，t表示时隙；s

所述系统动作的表达式为：

其中，a

所述奖励函数的表达式为：

其中，r

可选地，所述结合行动者-批评家算法和双网络结构DQN算法，构建行动者-批评家网络，包括：

构建行动者训练网络，用于生成当前状态的装配集成策略；

构建行动者目标网络，用于生成下一个状态的装配集成策略；

构建批评家训练网络，用于计算装配集成策略梯度并更新到行动者；

构建批评家目标网络，用于确定目标动作值。

可选地，所述结合所述系统模型、所述成本模型、所述优化模型和所述马尔可夫决策模型，通过所述行动者-批评家网络确定优化的服务功能链装配集成策略，包括：

确定当前系统状态，根据所述当前系统状态确定执行动作；

在执行所述执行动作后，计算即时奖励；

根据所述系统状态的变化、所述执行动作和所述即时奖励进行代理训练；

通过时间差计算损失函数，并采用所述损失函数训练批评家；

批评家计算梯度并根据所述梯度更新行动者目标网络，得到优化的服务功能链装配集成策略。

可选地，所述根据所述系统状态的变化、所述执行动作和所述即时奖励进行代理训练，包括：

根据所述系统状态的变化、所述执行动作和所述即时奖励生成状态转换记录；

所述状态转换记录存储在经验池中；

当所述经验池中的所述状态转换记录的样本足够时，从所述经验池中选择一个小批量的状态转换记录进行代理训练。

可选地，所述系统模型的所述设备的表达式为：

其中，E

所述系统模型的所述通信传输速率的表达式为：

其中，

所述系统模型的所述服务功能链请求的表达式为：

其中，S

可选地，所述损失函数的表达式为：

其中，θ

可选地，所述批评家计算梯度并根据所述梯度更新行动者目标网络的表达式为：

其中，

本发明实施例具有如下有益效果：本发明实施例通过构建系统模型、成本模型、优化模型和马尔可夫决策模型，构建基于行动者-批评家算法和DQN算法的行动者-批评家网络，进而确定优化的服务功能链装配集成策略的整体步骤，能够学习工业软件组件环境的状态和行为，自助决策、优化服务功能链编排，通过奖励机制优化和改进编排方案，可以避免传统方法中需要人工设计的规则和算法，具有更高的自主性和灵活性。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的工业软件组件服务功能链装配集成方法的步骤流程图；

图2是本发明实施例提供的工业软件组件服务功能链装配集成方法的工作流程图；

图3是本发明实施例提供的步骤S600的步骤结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一/S100”、“第二/S200”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

要对工业软件组件服务功能链装配集成进行优化，首先先对工业软件组件服务场景先进行系统模型的建模，利用马尔科夫决策模型对系统状态、系统动作、奖励函数进行建模。然后组合行动者-批评家算法和双网络结构DQN算法的SFC装配集成算法来解决优化问题。两种不同类型的神经网络(即行动者网络和批评家网络)，它们分别用于学习策略和q值。

对于传统的DQN算法，行动者网络还使用确定性策略输出特定的动作而不是动作的概率，这可以更好地实现连续动作空间中的学习。在每个时隙，代理首先观察工业软件组件服务场景的服务请求。然后，根据当前状态，代理可以顺序方式采取用于VNF部署和SFC嵌入的动作。最后，代理接收即时奖励并随后转移到另一个状态。学习代理通过训练过程可以找到将SFC嵌入所选VNF链中的最优策略。

对于工业软件组件服务应用的每个服务功能链(SFC)，本发明实施例在核心服务器上链接VNF，并且在流量到达目的地之前引导流量流按顺序通过VNF，使得相应的IT资源(例如，计算资源和通信资源)将被分配给每个SFC。本发明实施例的方法应用于当一批工业软件组件SFC以循环方式操作，并且VNF以逻辑顺序嵌入，并且，工业软件组件服务请求以连续的时间步长到达，且随时间变化。本发明实施例所提出的工业软件组件服务装配集成模型涉及VNF部署、SFC嵌入，以实现高效的物理资源分配和灵活的请求调度。

参照图1，图1为本发明实施例提供的工业软件组件服务功能链装配集成方法，该方法包括以下步骤：

S100、构建系统模型；其中，系统模型包括设备、通信传输速率和服务功能链请求。

具体地，系统场景包括一系列设备和SDN控制器。具有一系列设备的物理网络可以表示为无向图G＝(E,β)，E表示一系列设备，即E＝{1,2,...,E}。β表示设备之间的可通信关系的集合，即β＝{e|i,j∈β∧i≠j}。

构建系统模型的具体步骤包括：

a)根据设备的计算能力和部署状态构建设备表达式。

执行设备E

其中，

b)根据不同设备之间的信道带宽、信号功率和噪声功率，构建数据传输速率表达式。

两个不同设备E

其中，S为信号功率，N为噪声功率。

c)根据服务功能链请求的数据大小、所需计算资源和所需带宽构建服务功能链请求表达式。

在时隙t中，SFC请求的集合可以表示为S

其中，S

S200、根据系统模型构建成本模型，用于计算虚拟网络功能的部署成本和服务功能链的嵌入成本。

步骤S200包括以下步骤a～f：

a)对于一个时隙，确定虚拟网络功能的部署成本；

具体地，

其中，

b)在设备上嵌入服务功能链请求的第一决策变量；在信道上嵌入服务功能链请求的第二决策变量。

c)根据子信道传输数据的每秒单位成本、数据大小和数据传输速率，结合嵌入服务功能链请求的决策变量，确定服务请求链通信成本。

d)根据虚拟网络功能的运行成本确定服务请求链执行成本；

e)根据服务请求链通信成本和服务请求链执行成本确定服务请求链的嵌入成本；

具体地，步骤a～e是计算服务请求链嵌入成本的步骤。在一些实施例中，在设备i上嵌入SFC请求的第一决策变量，该第一决策变量表示为S

对于每个SFC实例，嵌入在多个设备上产生在设备之间传输转换数据的通信成本c

其中，设备i和j之间的信道的所需带宽不能超过总带宽容量，SFC的所需资源不能超过设备的可用计算的阈值：

f)根据虚拟网络功能的部署成本和服务请求链的嵌入成本构建成本模型。

S300、确定优化目标，根据成本模型构建优化模型。

本发明实施例的目标就是优化成本，因此使用冗余成本δc来表示优化目标，即在满足计算和通信约束的同时，最大化目标优化。当冗余成本最小的时候，就是最优的情况。优化目标可以用公式表示为：

P：min δc(8)

该公式(8)表示最小化冗余成本，因为部署的VNF在所有时隙上运行，而SFC请求不会在总时隙上完全利用所有的VNF，因此会产生冗余成本δc。当δc＝0时表示SFC请求的冗余成本是最好的情况，指没有资源被浪费。

S400、根据系统状态、系统动作和奖励函数，结合成本模型构建马尔可夫决策模型，用于计算每个时隙的累积奖励。

由于在所构造的系统模型中存在多个服务设备，本发明实施例构建了一个三元组来描述系统的状态。这里，三元组中的s表示系统状态、a表示系统动作、r表示奖励函数，下面对该三元组的元素进行解释：

1、系统状态s

其中，在时隙t时，

2、系统动作：SFC请求嵌入所选VNF链v中为嵌入动作，系统动作的表达式为：

其中，S为SFC请求集合，

3、奖励函数：DRL代理的目的是最大化的累积奖励。为了提高资源利用率，本发明实施例使用冗余成本作为累积奖励的度量，即时奖励函数的表达式为：

其中，即时奖励函数r

在每一个时期t生成的累积奖励R

式(12)中，γ为折扣因子。

S500、结合行动者-批评家算法和双网络结构DQN算法，构建行动者-批评家网络。

具体地，本发明实施例通过引入行动者网络μ以学习确定性策略梯度，引入批评家网络Q以学习动作价值函数，从而形成行动者-批评家网络。

更为具体地，构建行动者训练网络，用于生成当前状态的装配集成策略；构建行动者目标网络，用于生成下一个状态的装配集成策略；构建批评家训练网络，用于计算装配集成策略梯度并更新到行动者；构建批评家目标网络，用于确定目标动作值。

S600、结合系统模型、成本模型、优化模型和马尔可夫决策模型，通过行动者-批评家网络确定优化的服务功能链装配集成策略。

基于步骤S500的行动者-批评家网络，参照图2和图3，步骤S600确定最佳的服务功能装配集成策略包括以下步骤S610～S650：

S610、确定当前系统状态，根据所述当前系统状态确定执行动作。

行动者根据当前时间的系统状态s

S620、在执行所述执行动作后，计算即时奖励。

在执行动作之后，DRL代理将获取系统环境中的即时奖励r

S630、根据所述系统状态的变化、所述执行动作和所述即时奖励进行代理训练。

重复执行确定执行动作和执行该执行动作的相关步骤，可以根据系统状态的变化、执行动作和即时奖励生成状态转换记录E(s

q＝Q(s,a|θ

其中，s为系统状态；a为系统状态下的执行动作；θ

步骤S630包括以下S631～S633。

S631、根据所述系统状态的变化、所述执行动作和所述即时奖励生成状态转换记录。

S632、所述状态转换记录存储在经验池中。

S633、当所述经验池中的所述状态转换记录的样本足够时，从所述经验池中选择一个小批量的状态转换记录进行代理训练。

当DRL代理满足足够的状态转换记录的样本时，可以从经验池中选择一个小批量用于DRL代理的训练。在小批量中，存在E(s

其中，θ

S640、通过时间差计算损失函数，并使用损失函数训练批评家。

S650、批评家计算梯度并根据所述梯度更新行动者目标网络，得到优化的服务功能链装配集成策略。

具体地，对于步骤S640～S650，为了通过批评家的目标网络来确定目标q值，批评家使用一批新状态和来自行动者的预测动作。对于每个训练片段，行动者和批评家都基于损失函数进行更新，直到奖励收敛。通过时间差计算损失函数，并且用损失函数训练批评家。批评家计算梯度并将其更新到行动者。

下一动作值是通过行动者目标网络近似估计得到的。于是可以得到当前状态下批评家网络的目标值：

通过最小化损失值(均方误差损失)来更新批评家网络的参数，批评家网络更新时的损失函数为：

行动者目标网络用于提供下一个状态的策略，行动者训练网络则是提供当前状态的策略，结合批评家训练网络的Q值函数可以得到行动者在参数更新时的策略梯度，采用策略梯度更新行动者策略网络，其表达式为：

其中L是训练样本，γ为折扣因子，J为更新策略时的目标函数；

本发明的实施例具有如下有益效果：

1、对于工业软件组件服务场景，对其进行系统模型的建模。这包括使用马尔科夫决策模型对系统的状态、系统的动作和奖励函数进行建模，以便后续的处理和优化。

2、将行动者-批评家算法和双网络结构的深度Q网络(DQN)算法组合来解决工业软件组件服务功能链(SFC)的装配集成问题。行动者-批评家算法将用于决策系统的动作，而双网络结构DQN算法将用于优化和训练模型。

3、本发明实施例的方法能够在不确定和动态的环境中进行自适应学习和优化，可以处理复杂的工业互联网场景和服务组件调用关系；并且，通过利用深度强化学习算法，该方法能够实现自主决策和优化服务功能的装配集成，减少了对人工设计规则和固定算法的依赖，提供了更高的自主性和灵活性。并且由于减少了对人工设计规则和固定算法的需求，减轻了人工专家的负担，本发明实施例的方法还自动化了服务功能的装配过程，节省了工业软件组件服务开发和部署的时间和精力。

4、性能提升：通过学习、探索和优化的过程，该方法逐步提高装配集成的质量和效率。它充分利用了深度强化学习算法的优势，在工业软件组件服务中提供了更好的性能和用户体验。

5、实时调整：该方法可以根据实时的环境条件和用户需求进行调整和部署。它能够根据不断变化的环境动态适应，提高了性能和响应能力。

下面是本发明实施例的一个应用实例：

构建系统模型；其中，系统模型包括设备、通信传输速率和服务功能链请求；根据系统模型构建成本模型，用于计算虚拟网络功能的部署成本和服务功能链的嵌入成本；确定优化目标，根据成本模型构建优化模型；根据系统状态、系统动作和奖励函数，结合成本模型构建马尔可夫决策模型，用于计算每个时隙的累积奖励；结合行动者-批评家算法和双网络结构DQN算法，构建行动者-批评家网络；结合系统模型、成本模型、优化模型和马尔可夫决策模型，通过行动者-批评家网络确定优化的服务功能链装配集成策略。

其中，结合系统模型、成本模型、优化模型和马尔可夫决策模型，通过行动者-批评家网络确定优化的服务功能链装配集成策略具体包括：

a)初始化批评家网络Q(s,a|θ

b)对于T个时隙中的每个时隙，都执行基于系统状态s来执行动作a，接受即时奖励r，构建新的系统状态s'并生成状态转换记录E(s

c)对于N个状态转换记录样本中的每个样本，都通过公式(16)计算批评家的输出，通过公式(17)和公式(18)更新损失函数和梯度更新函数，通过公式(15)更新目标网络的权重。

d)当所有时隙计算完成，则决策出最佳动作a

在一些实施例中，上述应用实例的结合系统模型、成本模型、优化模型和马尔可夫决策模型，通过行动者-批评家网络确定优化的服务功能链装配集成策略的步骤可以应用以下伪代码实现：

输入：工业软件组件服务请求(Gr)，批评家网络(Q)，行动者网络(μ)；

初始化：初始化批评家网络Q(s,a|θ

Foreach时隙t＝1,…,T：

1、基于系统状态s来执行动作a,接受即时奖励r,构建新的系统状态s'；

2、在经验回放池中存储状态转换记录E(s

3、从经验回放池中采样小批量状态转换记录样本N。

Foreach状态转换记录n＝1,…,N:

1、计算批评家的输出:

2、更新损失函数和梯度更新函数：

3、更新目标网络的权重:

End for

Output：决策出最佳动作a

以下提供本发明实施例的实验方法：

1.实验设置：可以构建30个节点和一个随机通信矩阵的网络拓扑结构。考虑到有限的服务能力和位置的限制，本发明实施例的该实验假定每个节点服务多达10个用户。时隙被设置为1s。通信和计算的单位成本分别配置为0.3和0.2。VNF部署的单位成本设置为0.1。折扣因子设置为0.1。

2.优化目标：找到将SFC嵌入所选VNF链中的最优策略π

3.约束条件：

(1)VNF部署成本

(2)通信成本：

通过每个子信道传输数据的每秒单位成本表示为c

计算成本：

VNF的执行成本为计算成本。SFC请求的执行为VNF执行成本，表示为

4.性能指标：

为了评估算法性能，采用冗余成本δc作为提高资源利用率的度量来评估工业软件组件服务功能链装配集成方法。当冗余成本δc值越低，所获得的即时奖励越高。当经过每个时期t生成的累积奖励越高和收敛速度越快时，表明该算法性能越好。

下面介绍本发明实施例的一个应用实例：

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广东工业大学;广东能哥知识科技有限公司;

上一篇：一种护栏板加工设备
下一篇：多种分布式资源协同的弹性配电网两阶段恢复方法及系统