掌桥专利:专业的专利平台
掌桥专利
首页

一种中央空调多区域舒适度控制方法及系统

文献发布时间:2023-06-19 19:28:50


一种中央空调多区域舒适度控制方法及系统

技术领域

本发明涉及中央空调控制技术领域,特别是涉及一种中央空调多区域舒适度控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

中央空调以其制冷均匀、节省空间、故障率低的优点在大型公共建筑,尤其是商场、办公楼、地铁站等设施中得到大规模应用。然而中央空调运行过程中,多区域调节困难的问题极大影响了使用者的舒适度,导致实际性能不佳。因此,对中央空调不同区域实施针对性控制,以保证各区域内人的舒适度,对提高工作、生活效率,提高生活品质至关重要。

对热舒适度的评判标准一般是基于预测平均评价(PMV)指标判定,影响该指标的因素主要有空气温度、辐射温度、空气湿度、空气流速、人体活动程度等,以上变量均会受到人流量的影响。因此,由不同区域人流量的无规则和分布不均导致的强随机扰动影响大型建筑中央空调的多区域舒适度控制。

其次,由热质传递和流体相变导致的非线性,以及由多控制变量与对象带来的区域耦合性也影响空调系统的控制效果;基于预先制定规则的前馈控制方法无法满足其对不同各区域所需温度的快速响应需求;而由于存在强大的系统非线性,通过反馈进行PID调节很难找到一组合适的参数应对不同区域的各种情况;此外,大型建筑中央空调系统的强非线性与随机扰动对控制模型的建立也带来了困难,而没有精确模型支持的模型预测控制等控制方法也无法发挥其应有的优势。

发明内容

为了解决上述问题,本发明提出了一种中央空调多区域舒适度控制方法及系统,利用智能控制强化学习设计中央空调控制方法,采用Actor-Critic框架,根据人的热舒适度指标设计奖励函数,通过集中训练得到具备分散执行能力的多智能体强化学习控制器,解决大型建筑中央空调多区域控制的非线性及多区域耦合问题。

为了实现上述目的,本发明采用如下技术方案:

第一方面,本发明提供一种中央空调多区域舒适度控制方法,包括:

获取被控区域的人流密度和环境信息;

根据人流密度和环境信息,采用训练后的多智能体强化学习控制器,得到冷冻水泵流量、冷冻水温度及送风流量的目标值,以根据目标值控制中央空调的动作;

所述多智能体强化学习控制器包括动作网络和评价网络,训练过程为:

根据热舒适度指标确定奖励函数;

根据每个区域的历史状态采用动作网络得到各区域对应的第一目标值,获取中央空调动作后的目标状态和奖励函数值,以及根据目标状态得到的第二目标值;

根据历史状态和第一目标值,以及目标状态和第二目标值,采用评价网络分别得到当前动作-状态值和目标动作-状态值,根据当前动作-状态值和目标动作-状态值得到损失函数值;

以奖励函数值最小和损失函数值最小为目标,分别更新动作网络和评价网络。

作为可选择的实施方式,通过区域内设置的视觉传感器采集图像信息,通过图像信息获取人流密度;具体包括:根据图像信息得到区域i内的人数P

作为可选择的实施方式,所述环境信息包括室内温度、室内湿度、冷冻水温度、冷冻水泵流量、冷却水泵流量、送风流量和季节信息。

作为可选择的实施方式,所述损失函数值L

其中,r为奖励函数值,γ为衰减系数,Q

作为可选择的实施方式,所述动作网络包括目标动作网络和当前动作网络,所述评价网络包括目标评价网络和当前评价网络;

所述第一目标值由当前动作网络得到,第二目标值由目标动作网络得到;

根据历史状态和第一目标值采用当前评价网络得到当前动作-状态值,根据目标状态和第二目标值采用目标评价网络得到目标动作-状态值,根据当前动作-状态值和目标动作-状态值得到损失函数值。

作为可选择的实施方式,对当前动作网络和当前评价网络的更新过程包括:

对损失函数值梯度下降,更新第i个智能体的当前评价网络参数

通过梯度下降

作为可选择的实施方式,对目标动作网络和目标评价网络的更新过程包括:

通过软更新θ

通过软更新θ

其中,τ为软更新参数,θ

第二方面,本发明提供一种中央空调多区域舒适度控制系统,包括:

数据获取模块,被配置为获取被控区域的人流密度和环境信息;

控制模块,被配置为根据人流密度和环境信息,采用训练后的多智能体强化学习控制器,得到冷冻水泵流量、冷冻水温度及送风流量的目标值,以根据目标值控制中央空调的动作;

所述多智能体强化学习控制器包括动作网络和评价网络,训练过程为:

根据热舒适度指标确定奖励函数;

根据每个区域的历史状态采用动作网络得到各区域对应的第一目标值,获取中央空调动作后的目标状态和奖励函数值,以及根据目标状态得到的第二目标值;

根据历史状态和第一目标值,以及目标状态和第二目标值,采用评价网络分别得到当前动作-状态值和目标动作-状态值,根据当前动作-状态值和目标动作-状态值得到损失函数值;

以奖励函数值最小和损失函数值最小为目标,分别更新动作网络和评价网络。

第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。

第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。

与现有技术相比,本发明的有益效果为:

针对大型建筑中央空调多区域控制的非线性问题,本发明利用智能控制强化学习方法设计中央空调多区域舒适度控制方法,该方法无需模型,可完成在线训练,在应用灵活的同时兼具强大的处理非线性能力与自适应能力。

针对大型建筑的多区域耦合问题,考虑到区域之间控制器相互影响的关系,本发明采用Actor-Critic框架,根据人的热舒适度指标设计奖励函数,通过集中训练得到具备分散执行能力的多智能体强化学习控制器,实现多区域解耦控制。

针对由人流量带来的随机扰动问题,通过视觉系统实时捕获不同区域人流量信息,将其作为变量引入强化学习智能体状态空间进行训练,解决大型建筑中央空调多区域舒适度控制关键问题。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明实施例1提供的中央空调多区域舒适度控制方法示意图;

图2为本发明实施例1提供的Actor网络结构示意图;

图3为本发明实施例1提供的Critic网络结构示意图;

图4为本发明实施例1提供的多智能体强化学习控制器的训练流程图;

图5为本发明实施例1提供的多智能体强化学习控制器的训练架构图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

实施例1

随着智能控制的发展,无需模型的智能控制在解决强非线性与时变性系统的控制问题上显现出强大的灵活性和潜力。其中,强化学习作为一种典型方法,通过将控制问题模拟为马尔可夫决策过程,与环境进行交互采集数据,并实时训练,避免了对大数据集的依赖,从而使采用强化学习方法对大型中央空调的冷机和冷却水系统进行控制成为可能。采用集中训练,分散执行思想训练的多智能体系统对耦合问题具有天然解耦性,可以解决多区域问题。此外,大型公共建筑大都配备齐全的视觉监控系统,通过对视觉系统采集的数据进行处理,得到实时人流量,并根据此信息进行大型公共建筑中央空调的多区域控制。

由此,本实施例提供一种中央空调多区域舒适度控制方法,如图1所示,包括:

获取被控区域的人流密度和环境信息;

根据人流密度和环境信息,采用训练后的多智能体强化学习控制器,得到冷冻水泵流量、冷冻水温度及送风流量的目标值,以根据目标值控制中央空调的动作;

所述多智能体强化学习控制器包括动作网络和评价网络,训练过程为:

根据热舒适度指标确定奖励函数;

根据每个区域的历史状态采用动作网络得到各区域对应的第一目标值,获取中央空调动作后的目标状态和奖励函数值,以及根据目标状态得到的第二目标值;

根据历史状态和第一目标值,以及目标状态和第二目标值,采用评价网络分别得到当前动作-状态值和目标动作-状态值,根据当前动作-状态值和目标动作-状态值得到损失函数值;

以奖励函数值最小和损失函数值最小为目标,分别更新动作网络和评价网络。

在本实施例中,通过大型建筑中各区域的视觉传感器采集图像信息,通过图像信息获取人流密度;具体包括:

对单个区域内捕获的所有图像进行滤波处理,通过特征点提取及匹配算法实现全景拼接或图像合成;

对拼接后的图像进行目标检测,计算该区域内的人数P

根据该区域内的人数P

在本实施例中,环境信息包括:室内温度

根据区域内的人流密度和环境信息,设计智能体状态空间

在本实施例中,根据热舒适度指标PMV=[0.303e

其中,M为人体新陈代谢产热率,可根据大型建筑类型及活动种类确定,如办公楼选择为坐着活动,商场选择为站着轻度活动,工厂选择为中等活动;具体如表1所示:

表1活动强度与新陈代谢产热率的关系

T

其中,W为人体对外做功,一般取平均30W/m

表2辐射温度与人流密度的关系

在本实施例中,构建多智能体强化学习控制器,包括动作网络Actor和评价网络Critic,智能体的个数为被控区域的个数,每个智能体有2个Actor网络和2个Critic网络,分别为目标网络和当前网络;

Actor网络的输出为冷冻水泵流量、冷冻水温度及送风流量的目标值,Critic网络的输出为动作-状态值函数Q(s,a)=E[r(s,a)],其中,r为采取动作a后,根据奖励函数所获得的奖励函数值。

如图2-图3所示,Actor网络与Critic网络均由输入层、2个隐藏层及输出层的全连接网络组成;

其中,Actor网络的输入层输入的是各区域的状态,隐藏层激活函数为Leakyrelu,输出的是冷冻水泵流量、冷冻水温度及送风流量的目标值,且Actor网络的输出层通过sigmoid归一化到[0,1];

Critic网络的输入层输入的是状态和由状态得到的目标值,隐藏层激活函数为Leakyrelu,输出的是动作-状态值,且Critic网络的输出层不做处理。

在本实施例中,如图4-图5所示,多智能体强化学习控制器的训练过程包括:

S1:初始化记忆回放池,初始化两个权重参数相同的Critic网络及两个权重参数相同的Actor网络,初始化Critic网络与Actor网络的学习率l

S2:将各区域的状态空间s输入至该区域智能体的当前Actor网络,得到对应的第一目标值a;

S3:所有智能体根据对应的第一目标值a进行动作,并等待反应时间T

S4:将每个智能体的[s,a,s',r,a']作为一条记忆存入记忆回放池;具体来说,s表示采取动作前的状态,a表示所采取的动作,s'表示采取动作后的状态,r表示该智能体所获奖励值,a'表示将每个智能体对应的s'输入该智能体的目标Actor网络后得到的动作;

S5:当记忆回放池中的记忆数达到N

S6:从记忆回放池取出M

S7:记所有智能体状态s'的集合为s′

S8:根据历史状态集合s

S9:定义每个智能体的损失函数L

S10:对L

S11:通过梯度下降

S12:通过软更新θ

S13:通过软更新θ

S14:以奖励函数值最小和损失函数值最小为目标,重复步骤S9-S13,更新所有智能体参数;

S15:训练E回合后结束。

实施例2

本实施例提供一种中央空调多区域舒适度控制系统,包括:

数据获取模块,被配置为获取被控区域的人流密度和环境信息;

控制模块,被配置为根据人流密度和环境信息,采用训练后的多智能体强化学习控制器,得到冷冻水泵流量、冷冻水温度及送风流量的目标值,以根据目标值控制中央空调的动作;

所述多智能体强化学习控制器包括动作网络和评价网络,训练过程为:

根据热舒适度指标确定奖励函数;

根据每个区域的历史状态采用动作网络得到各区域对应的第一目标值,获取中央空调动作后的目标状态和奖励函数值,以及根据目标状态得到的第二目标值;

根据历史状态和第一目标值,以及目标状态和第二目标值,采用评价网络分别得到当前动作-状态值和目标动作-状态值,根据当前动作-状态值和目标动作-状态值得到损失函数值;

以奖励函数值最小和损失函数值最小为目标,分别更新动作网络和评价网络。

此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中,还提供:

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。

应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

技术分类

06120115922286