掌桥专利:专业的专利平台
掌桥专利
首页

一种基于无人机-无线充电平台的物联网信息收集方法

文献发布时间:2023-06-19 18:30:43


一种基于无人机-无线充电平台的物联网信息收集方法

技术领域

本发明涉及物联网和无人机通信技术领域,尤其涉及一种基于无人机-无线充电平台的物联网信息收集方法。

背景技术

随着5G、边缘计算和人工智能等技术的发展,无人机已广泛应用于军事、灾情监测、公安监控和电力巡检等领域。此外,无人机具有成本低、机动能力强、环境适应能力强等等特点,能够在工作环境恶劣的情况下取代人工操作员,例如,灾后搜救和城乡山区的电力线巡检等。

近年来,为满足行业和生活中不断增长的需求,物联网(IoT)规模呈指数级增长,尤其是以无线连接为主的无线传感器网络(Wireless Sensor Networks,WSN)已作为一种监控技术广泛部署,用以监测环境,例如农业大棚中的环境温湿度、光照强度和输变电中电力设备的电流、电压、短路等。然而,由于IoT设备分布式部署的方式,使得传统的无线接入点(wireless access points AP)在物联网数据收集方面效率低下,此时蜂窝基站仍可充当信息采集器。但是,部署在城郊山区的农业大棚或输变电设备附近的IoT设备,由于能量和通信范围的限制,阻碍了IoT设备远距离数据采集。在这方面,无人机可以作为移动AP,克服地面APs与IoT设备因距离限制而无线通信的问题,特别是基础设施仍未普及到的偏远地区,无人机可以提供比卫星通信更为经济的IoT数据采集方案。

目前,现有技术中的无人机作为移动AP辅助物联网数据采集方案主要包括IoT设备聚类、数据采集模式选择和无人机联合轨迹规划和资源分配方法等关键技术。例如,有方案通过一种分层数据收集方案对不同层的IoT设备进行自适应聚类,并调度无人机进行高效数据采集,以实现农业监测领域中无人机辅助工业无线传感器网络的数据收集;还有方案提出了一种基于物理层网络编码的资源优化方法,采用了交替凸优化的迭代算法实现了无人机轨迹和最佳系统功率分配的联合优化,降低了无人机与IoT设备间通信中断的可能。还有方案提出了一种基于数据双层压缩的无人机信息采集方法,在保证数据安全性的同时,通过优化无人机数量、高度、部署和需采集收据的IoT设备数量降低系统总能耗;针对局部轨迹规划问题,还有方案考虑了无人机接收到IoT设备的参考信号强度,采用深度Q学习对无人机轨迹进行优化,使其靠近IoT设备与之通信,以提高无人机信息收集的效率。

上述现有技术中的无人机信息采集方法的缺点包括:尽管无人机为IoT数据采集方案提供了更多可能,但由于携带能源的限制,导致无人机在大规模分布式物联网中无法单次完成所有IoT设备的数据采集任。无线充电平台的引入使得无人机的轨迹规划变得更加复杂,无人机的充电需求需考虑无人机所在位置、剩余能量、充电平台位置、未采集数据的IoT设备位置等,当距离充电平台太远或剩余能量过低可能会导致任务失败。

发明内容

本发明的实施例提供了一种基于无人机-无线充电平台的物联网信息收集方法,以实现无人机在物联网信息收集过程中的速度、能耗和无线充电的最优配置。

为了实现上述目的,本发明采取了如下技术方案。

一种基于无人机-无线充电平台的物联网信息收集方法,包括:

在物联网区域内分布式布设多个物联网设备和无人机无线充电平台,利用无人机从各个物联网设备中收集信息,设置无人机的动作空间、状态空间和奖励函数;

基于无人机的动作空间、状态空间和奖励函数构建基于Double DQN的无人机轨迹规划的目标函数;

通过求解所述无人机轨迹规划的目标函数获取无人机的运动轨迹。

优选地,所述设置无人机的动作空间,包括:

设在D

将所述物联网区域D

物联网设备在离散化地图中的水平面投影集合表示如下:

无人机无线充电平台在离散化地图中的水平面投影位置集合可表示为:

其中,w,b表示各自环境特征集

设有飞行动作时,无人机在一个时隙δ

其中,[0,c,0]

优选地,所述设置无人机的状态空间,包括:

在离散化的

设置无人机的状态包括选择接入状态、无线充电状态和电量能级状态;

设无人机在步骤t时的状态为s(t):

其中,位置

选择接入状态

无线充电状态θ

电量能级状态

优选地,所述设置无人机的奖励函数,包括:

将无人机在t步骤完成对所有物联网设备的信息收集工作获得的信息收集奖励函数定义为:

γ

将无人机在t步骤时的能量消耗奖励函数定义为:

γ

将无人机在电池能量耗尽之前前往无线充电平台进行充能的无线充能奖励函数定义为:

其中,γ

将惩罚无人机所在位置超出环境的飞行范围奖励函数定义为:

综合上述因素得到无人机的奖励函数为:

r

r

优选地,所述设置无人机的奖励函数,还包括:

定义动作价值函数Q

其中,γ表示折扣因子,γ越大表示后续奖励对于当前步骤的长期回报的重要性越大,策略π用以简化状态价值函数V(s,a)的计算。

优选地,所述基于无人机的动作空间、状态空间和奖励函数构建基于Double DQN的无人机轨迹规划的目标函数,包括:

通过基于Double DQN的无人机轨迹规划方法来寻找无人机的最优飞行轨迹,采用平方损失函数来更新状态-动作价值函数

其中,

采用

其中,δ表示学习率,影响着算法的收敛速度。

在DQN中,目标函数

其中,目标网络参数

基于无人机的动作空间、状态空间和奖励函数构建基于Double DQN的无人机轨迹规划的目标函数为:

优选地,所述通过求解所述无人机轨迹规划的目标函数获取无人机的运动轨迹,包括:

通过训练算法对目标网络Q

基于训练好的目标网络Q

由上述本发明的实施例提供的技术方案可以看出,本发明方法在引入无线充电平台的物联网中,设计了一种基于马尔可夫决策过程(MDP)的无人机轨迹、信息收集和无线充电的动态解决方案,提出了一种基于Double DQN的UAV轨迹规划方法,可以获取无人机在物联网信息收集过程中的速度、能耗和无线充电的最优配置。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的一种基于无人机-无线充电平台的物联网信息收集方法的处理流程图;

图2为本发明实施例提供的一种磁耦合谐振式无线充电系统(MCR-WPT)的等效电路图;

图3为本发明实施例提供的一种无人机飞行功率与速度的关系图;

图4为本发明实施例提供的一种无人机能耗和速度、飞行距离的三维曲线示意图;

图5为本发明实施例提供的一种固定飞行距离下,无人机能耗和速度的变化曲线图;

图6为本发明实施例提供的一种无线传输效率和次级线圈半径变化曲线图;

图7为本发明实施例提供的一种不同次级线圈半径下无线传输效率与线圈中心偏移量的变化曲线图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出的一种基于无人机-无线充电平台的物联网信息收集方法的处理流程如图1所示,包括如下的处理步骤:

步骤S10、在物联网区域内分布式布设多个物联网设备和无人机无线充电平台,利用无人机从各个物联网设备中收集信息,设置无人机的动作空间、状态空间和奖励函数。

步骤S20、基于无人机的动作空间、状态空间和奖励函数构建基于Double DQN的无人机轨迹规划的目标函数。

步骤S30、通过求解无人机轨迹规划的目标函数获取无人机的运动轨迹。

在引入无线充电平台的物联网中,考虑到无人机数据采集过程中的IoT设备采集顺序和无人机充电活动间的动态和不确定性,本发明实施例提出了一种基于马尔可夫决策过程(Markov Decision Process,MDP)的动态解决方案,以确保无人机完成所有IoT设备的数据采集工作。在该方案中无人机可以在经过多次训练后根据其对当前环境的观察做出决策操作,该决策操作包括飞行、数据采集和充电。为克服Q学习和DQN(Deep Q-learningNetwork,深度强化学习)在针对含有混合动作(如飞行、数据采集和充电等动作)的复杂问题的动作估计时出现过估计的问题,本发明实施例设计了一种基于密集奖励的MDP,并提出了一种基于Double DQN(Double Deep Q-learning Network)的无人机轨迹规划方法,在保证所有IoT设备的数据采集的前提下,最小系统能耗。

本发明实施例考虑一种无人机辅助物联网信息收集系统,派遣一架旋翼无人机从分布式物联网中的IoT设备中收集信息(例如,电力巡检、交通流量监控等),并在系统范围内布置磁耦合谐振式无线充电平台。无人机可在无线充电平台补充能量,延长单次无人机任务时间。假设在D

表1系统模型的相关参数及描述

中小型无人机的携带能源限制了无人机执行任务的时长,在设备数据量较多或各设备间隔较远的物联网系统中,中小型无人机可能无法一次性完成所有IoT设备的信息收集任务,需多次返航充能或更换电池。因此,我们考虑在物联网内部署无线充电平台,以保证无人机可完成长时间的信息收集任务。

本发明实施例提供的一种磁耦合谐振式无线充电系统(MCR-WPT)的等效电路图如图2所示,利用上述磁耦合谐振式无线充电系统为旋翼无人机充电。根据基尔霍夫定律和充电线圈处于谐振时系统谐振频率f,可通过化简求得系统接收功率P

其中,R

由上述公式可知,上述磁耦合谐振式无线充电系统的接收功率P

其中,N

旋翼无人机的能耗主要包括通信相关能耗和推进能耗,其中通信相关能耗与推进能耗相比可以忽略不记。因此,假设通信相关能耗为常数P

为克服无人机信息收集和充能过程中的高度动态化和不确定性问题,我们将无人机信息收集系统中无人机控制问题建模为马尔可夫决策过程(MDP)模型,可以将该MDP模型定义为五元组

首先,为实现强化学习(Reinforcement Learning,RL)方法,本发明实施例将环境进行离散化。将D

IoT设备在离散化地图中的水平面投影集合表示如下:

上述磁耦合谐振式无线充电系统在离散化地图中的水平面投影位置集合可表示为:

其中,w,b表示各自环境特征集

在该网格世界环境中,无人机通过离散时间步骤中执行动作与之交互,即将无人机信息收集任务时间视为离散的、长度为δ

在本发明实施例中,我们的目标是在无人机辅助的含无线充电平台的物联网信息收集系统中,最大限度地提升无人机信息收集效率的同时降低无人机能耗,有一些重要因素需要我们考虑,例如无人机的位置、IoT设备的接入选择、无线充电和电量等。因此,定义无人机在步骤t时的状态为s(t):

其中,位置

选择接入状态

无线充电状态θ

电量能级状态

无人机在执行信息收集任务期间,不仅需要选择飞行和悬停状态,还需决定是否去往无线充电平台充电以及最佳轨迹,以最大限度提高信息收集效率和无人机的能源利用率。由于地图离散化为大小为c的单元格,本发明实施例假设有飞行动作时,无人机在一个时隙δ

其中,[0,c,0]

对于奖励函数,我们有以下几个要求。最首要的是我们需要激励无人机完成对所有IoT设备的信息收集工作,即无人机收集完所有IoT设备的信息后会获得奖励。因此,将无人机在t步骤时的信息收集奖励函数定义为:

其中,γ

第二方面是需要激励无人机最大限度地提高能源使用效率,以及避免无人机出现能量耗尽地情况。因此,将无人机在t步骤时的能量消耗奖励函数定义为:

其中,γ

上式中,

第三方面是需要激励无人机在电池能量耗尽之前前往无线充电平台进行充能。因此,我们设计了如下无线充能奖励函数:

其中,γ

第四方面是需要避免无人机飞出信息收集区域。因此,我们设计奖励γ

综合上述因素,我们设计了如下奖励函数:

r

其中,r

为了更好得描述未来奖励对当前步骤得长期回报,定义动作价值函数Q

其中,γ表示折扣因子,γ越大表示后续奖励对于当前步骤的长期回报的重要性越大。策略π的主要作用是用以简化状态价值函数V(s,a)的计算。

基于上述系统模型的状态空间、动作空间和奖励函数等MDP中的主要因素。本发明实施例提出了一种基于Double DQN的无人机轨迹规划方法来寻找带无线充电平台的IoT信息采集系统中无人机的最优飞行轨迹。

由于Double DQN是在DQN基础上改进的,为便以理解基于Double DQN的无人机轨迹规划方法,简单介绍DQN。DQN网络是利用深度神经网络映射状态-动作组合和Q值之间的方法,来达到参数化状态-动作价值函数

其中,

其中,δ表示学习率,影响着算法的收敛速度。

在DQN中,目标函数

其中,目标网络参数

由于深度神经网络相当于Q值的近似估计,在最大Q值的策略下,过高估计的Q值更容易被选中,这将会导致DQN产生过估计误差。为了减少DQN的过估计问题,在原有DQN的基础上,引入双Q学习思想,以最大化分解动作选择和动作评估,将其称为Double DQN算法。Double DQN算法的网络参数的更新方式与DQN无异,其目标函数则变化为:

在目标函数Y

在训练算法中,首先初始化了Double DQN中的相关参数;其次,在每次迭代训练前初始化环境参数和初始状态;第三,通过ε-贪婪方法选择动作,并观察一下奖励和下一状态;第四,将经验集合存入经验回放池,并取出m个样本,计算各样本的目标函数Y

在基于Double DQN的无人机轨迹规划方法,Double DQN会训练、优化无人机的行动。以解决无人机航迹控制、IoT设备选择和无线充电平台选择的问题,由于无人机的每一个动作都会产生一个新的状态,在传统的强化学习中,单次只学习一个目标函数使得学习过程相当缓慢,因此,我们在训练算法中加入了经验回放池,以减少观察结果的强关联性以及经验的重复使用。在训练算法前期,通常希望无人机能够更多地随机选择动作,在训练后期再更多按照最大Q值策略选择动作,因此,我们还在训练算法中还加入ε-贪婪方法。基于Double DQN的无人机轨迹规划方法的训练算法如算法1所示。

讨论无人机的速度、能耗、步骤时间和无线充电的最优配置,为后续算法的仿真提供支撑。无人机能耗和无线充电的相关参数设置如表2所示。

表2无人机能耗和无线充电的相关参数设置

上文中,为减少MDP过程中的动作空间,限制了无人机的航向和速度。在该离散场景中,为了尽可能地减少无人机飞行过程中地能耗,我们探讨无人机功率、功耗与速度和飞行距离间的关系,来寻找无人机最佳的固定飞行速度。本发明实施例提供的一种无人机飞行功率与速度的关系如图3所示。从图3中可以看到,无人机的瞬时功率随速率增大而降低,在其速度为16m/s时最小,之后随增大而增大。值得注意的是,无人机的能耗除与其速度有关外,还与其航行路程有关。

图4是本发明实施例提供的一种无人机能耗和速度、飞行距离的三维曲线图,一方面,随着无人机飞行距离的不断增加,无人机低速飞行时的能耗增加速率要远高于无人机高速飞行时的能耗增长速率,这种比较在v=10m/s和v=50m/s间有明显体现。这是由于当无人机飞行距离不断增加时,无人机低速飞行时的时间成本远大于其功率成本。另一方面,当无人机的飞行速度固定时,无人机的能耗总是随其飞行距离的增加而先减少后增大。

为了便于观察不同飞行距离下,无人机能耗和速度的变化曲线,比较了5km,8km,10km,15km,20km,30km等固定飞行距离下,无人机能耗与速度的变化,图5为本发明实施例提供的一种固定飞行距离下,无人机能耗和速度的变化曲线图。从图4中可以看出,当无人机的飞行距离为5~30km,无人机的最小功耗相关的速度一般在30~35m/s。因此,综合考虑无人机飞行的时间代价和与速度相关的功率代价,在该离散场景中,无人机飞行速度应取30~35m/s间。

图6为本发明实施例提供的一种无线传输效率和次级线圈半径变化曲线图。通常来说,发射线圈即初级线圈的大小会影响到充电区域的大小,考虑到信息采集系统中常用中小型无人机进行IoT设备的信息采集工作,其底座大小不会很大,因此,我们把初级线圈的内径r

图7为本发明实施例提供的一种不同次级线圈半径下无线传输效率与线圈中心偏移量的变化曲线图。如图7所示。随着次级线圈半径的不断增大,线圈中心偏移量对无线传输效率的影响越低,且当线圈中心偏移量小于等于15mm,线圈中心偏移量对次级线圈半径大于25mm的系统无线传输效率影响很小。由于中小型无人机的载重量有限,在综合考虑次级线圈重量、次级线圈半径和线圈中心偏移量对无线传输效率的影响后,采用25mm的次级线圈半径,线圈中心零偏移量时的系统接收功率P

综上所述,本发明实施例的针对无人机辅助的IoT信息收集方法中无人机单次出勤时间无法满足IoT中所有设备的信息收集工作的问题,通过在IoT中引入无线充电平台,构建了基于马尔可夫决策过程(MDP)的系统模型,设计了一种基于马尔可夫决策过程(MDP)的无人机轨迹、信息收集和无线充电的动态解决方案,提出了一种基于Double DQN的UAV轨迹规划方法,可以获取无人机在物联网信息收集过程中的速度、能耗和无线充电的最优配置。

本发明在离散环境信息(IoT设备位置、各IoT设备需上传信息量和无线充电平台位置等)已知的情况下,在保证所有IoT设备的信息量收集完整性的同时,优化无人机的飞行轨迹、对各IoT设备的选择接入时间和无线充电平台和时间的选择,最大化系统奖励。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种基于物联网的高速公路无人机巡航信息分享装置
  • 一种分布式发电无人机无线充电装置及方法
  • 一种基于物联网的无人机测绘信息采集方法及云采集平台
  • 一种基于物联网的大学生就业信息收集方法及收集系统
技术分类

06120115595142