掌桥专利:专业的专利平台
掌桥专利
首页

基于数字孪生和演化博弈的众包物流方法

文献发布时间:2024-04-18 20:02:18


基于数字孪生和演化博弈的众包物流方法

技术领域

本发明涉及物联网中车辆众包物流技术领域,特别是一种基于数字孪生和演化博弈的众包物流方法。

背景技术

随着计算机应用和互联网技术的飞速发展,每秒都会产生大量的数据,我们已经进入了大数据时代。这些年出现了很多在线数据交易系统。众包数据交易是一种结合移动众感的新型数据交易范式,利用人群收集数据,解决销售数据源的稀缺性。众包是一种结合众包思想和移动设备感知能力的新型数据获取模式,它是物联网的一种形式。物联网通过众包感知系统提供更大、更复杂、更全面的感知服务,影响到灾害监测、交通管理、公共安全、物流管理、社会服务等生活的方方面面。在此背景下,有学者提出众包物流来优化物流管理,众包物流是结合互联网技术和传统物流运营模式的新型行业,外包公司机构得知用户事务要求后,根据用户需求找到最适方案。找到相应的互联网机构之后,外包公司机构将相应的物流工作分配到相应的运营部门,服务于用户以满足需求。

众包物流系统中有三个主要的利益相关者、即任务发布者、平台和众包工人。在现实中,由于他们自私的特性,总是希望最大化自己的利益,如果不进行干预,就会阻碍众包物流系统的健康持续发展。数字孪生(DT)是一种信息镜像模型,是物理实体的数字复制品。它通过连接物理世界和虚拟世界实现数据的无缝传输,从而允许虚拟实体与物理实体同时存在。数字孪生技术强调了两个重要特征。首先,每个定义都强调物理模型与相应的虚拟模型或虚拟对应物之间的联系。其次,通过使用传感器生成实时数据来建立连接。因为DT的实时性,可以帮助众包参与者及时了解众包物流系统的发展结果,使参与者及时发现系统可能发生的风险,有效地引导其选择更改策略,促进众包系统的健康发展。

目前如何使用演化博弈对众包参与方的行为进行分析来优化众包系统已成为研究热点,现有出现了一些相关的研究成果:Yingjie Wang等(The Truthful Evolution andIncentive for Large-Scale Mobile Crowd Sensing Networks,2018,51187-51199)提出了一个演化博弈模型来预测移动众包系统的演化趋势,通过声誉机制解决虚假报告和搭便车问题,并使用k匿名来保护众包工人的信息;Chuanxiu Chi等(Multistrategy RepeatedGame-Based Mobile Crowdsourcing Incentive Mechanism for Mobile Edge Computingin Internet of Things,2019,2294-2307)提出了基于一种多策略重复博弈的激励机制用于引导工人长期参与和提供高质量的数据,并用演化博弈论和Wright-Fisher模型分析参与者策略的演化过程;Zihao Shao等(A Method of User Revenue Selection Based on aPublisher-User Evolutionary Game Model for Mobile Crowdsensing,2019,19(13))提出了一种基于非合作进化博弈论的发布者-用户进化博弈模型和收益选择方法来解决进化稳定均衡问题;Fuxing Li等(Three-Party Evolutionary Game Model of Stakeholdersin Mobile Crowdsourcing,2021,974-985)在任务发布者,平台和众包工人之间构建了一个三方演化博弈模型,用复制动力学方法分析演化博弈策略的稳定性,并给出策略避免搭便车和虚假报告问题。

但现有的方法大多仅使用了演化博弈进行理论分析,并没有对如何将演化博弈结果效率地引导作用于现实做出解决方案;因此,结合数字孪生的特点,设计出能够将演化博弈结果效率及时地引导众包参与方正确地对决策做出调整亟待解决的技术问题。

发明内容

为解决现有技术中存在的问题,本发明的目的是提供一种基于数字孪生和演化博弈的众包物流方法,本发明能够促进众包物流系统的健康发展。

为实现上述目的,本发明采用的技术方案是:一种基于数字孪生和演化博弈的众包物流方法,其特征在于,包括以下步骤:

S1、构建众包物流系统利益相关者之间的多方演化博弈模型,将现实世界中各个众包参与者映射为数字孪生虚拟空间里参与演化博弈的玩家,分析演化稳定策略;

S2、将演化博弈的玩家映射为多智能体强化学习的代理人,并在数字孪生虚拟空间中使用多智能体强化学习预测当前众包物流系统参与者策略的演化趋势;

S3、将预测的结果反馈给现实空间,并提供建议,参与者凭此及时做出策略调整。

作为本发明的进一步改进,在步骤S1中,所述多方演化博弈模型包括四个玩家:临时工人,合同工人,基于区块链的平台和任务发布者。

作为本发明的进一步改进,所述步骤S1具体包括以下步骤:

S10、定义玩家的博弈策略,每个玩家包括诚实和不诚实两个策略,众包物流系统各个参与方之间的博弈策略共有十六种,其具体如下:

a)临时工人,合同工人,平台和任务发布者都采取诚实策略,用u代表临时工人的报酬比例,v代表临时工人的奖惩比例,λ代表众包工人的报酬比例,t代表众包工人的奖惩比例,P

b)合同工人选择不诚实策略,其他三方选择诚实策略,用C

c)发布者选择不诚实策略,其他三方选择诚实策略,用S

d)合同工人和发布者选择不诚实策略,而临时工人和平台选择诚实策略,此时四方的收益表示为

e)临时工人选择不诚实策略,其他参与方选择诚实策略,此时四方的收益表示为

f)所有众包工人都选择不诚实策略,平台和发布者选择诚实策略,此时四方的收益表示为(-C

g)合同工人和平台选择诚实策略,临时工人和发布者选择不诚实策略,此时四方的收益表示为

h)平台选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为(-C

i)平台选择不诚实策略,其他三方都选择诚实策略,此时四方的收益表示为

j)平台和合同工人选择不诚实策略,临时工人和发布者选择诚实策略,用B

k)平台和发布者选择不诚实策略,众包工人都选择诚实策略,此时四方的收益表示为

l)临时工人选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

m)临时工人和平台都选择不诚实策略,合同工人和发布者选择诚实策略,此时四方的收益表示为

n)发布者选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

o)合同工人选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

p)所有众包参与方都选择不诚实策略,此时四方的收益表示为

其中,众包工人的诚实策略表示按要求配送货物,不诚实策略表示没有按要求配送,平台的诚实策略为监管工人配送过程,并拒绝与工人合谋骗取发布者的支付,不诚实策略为平台不进行监管,并与工人合谋,发布者的诚实策略表示给众包和工人真实的报酬,不诚实策略为不提供真实的报酬甚至不支付报酬;

S11、根据公式(1)得出临时工人策略的复制动态方程:

F(x)=dx/dt=x(1-x)(U

其中,U

S12、根据公式(2)得出合同工人策略的复制动态方程:

F(y)=dy/dt=y(1-y)(U

其中,U

S13、根据公式(3)得出平台策略的复制动态方程:

F(z)=dz/dt=z(1-z)(U

其中,U

S14、根据公式(4)得出发布者策略的复制动态方程:

F(r)=dr/dt=r(1-r)(U

其中,U

S15、根据各博弈主体的复制动态方程,得到复制动态系统的雅可比矩阵:

S16、令公式(1),公式(2),公式(3),公式(4)同时等于0,得到有利于众包物流系统健康发展的均衡点(1,1,1,1),(1,1,0,1),(0,1,1,1),并讨论其稳定性。

作为本发明的进一步改进,所述步骤S11还包括:

所述临时工人在选择诚实策略和不诚实策略时期望收益的计算如下:

作为本发明的进一步改进,所述步骤S12还包括:

所述合同工人在选择诚实策略和不诚实策略时期望收益的计算如下:

作为本发明的进一步改进,所述步骤S13还包括:

所述平台在选择诚实策略和不诚实策略时期望收益的计算如下:

作为本发明的进一步改进,所述步骤S14还包括:

所述发布者在选择诚实策略和不诚实策略时期望收益的计算如下:

作为本发明的进一步改进,所述步骤S16具体如下:

当系统满足C

当系统满足C

当系统满足uλP

作为本发明的进一步改进,所述步骤S2具体包括以下步骤:

S20、初始化t=0,Q

S21、通过矩阵博弈(Q

S22、计算博弈(Q

S23、转回步骤S21,设置t=t+1,重复直到所有状态已被搜索。

作为本发明的进一步改进,所述步骤S20还包括:

所述代理人i在t轮的Q值的计算如下:

Q

其中t为重复博弈次数,γ为Q-learning的折扣因子,a

所述代理人i在t+1轮的Q值计算如下:

Q

其中α

本发明的有益效果是:

1、本发明通过构建临时工人,合同工人,基于区块链的平台和任务请求者之间的四方演化博弈模型,将各个现实世界众包参与者映射为DT虚拟空间里参与演化博弈的玩家,并将系统数据通过服务器实时传入DT中,然后在DT虚拟空间中使用多智能体强化学习方法预测当前众包物流系统参与者策略的演化趋势,然后将预测的结果反馈给现实空间,并给出建议,为避免造成损失,各个参与方可以凭此及时做出策略调整,也可以维护众包物流系统的持续健康发展,有助于更好的理解现实中众包物流系统中各个参与方的行为;

2、从行为预测分析:本发明应用于物联网背景下的众包物流领域,在众包物流过程中,由于作为众包系统的利益相关者都是有限理性的个体,都具有自私的特征,可能会使众包物流系统的效率降低,阻碍众包物流系统的可持续发展,因此,本发明使用演化博弈方法对众包物流系统参与方进行建模,建立临时工人,合同工人,基于区块链的平台和任务发布者四方演化博弈模型,将各个参与方映射为演化博弈模型中的玩家,以便有效地分析其策略发展趋势。

3、从系统性能分析:本发明中所使用的系统,将博弈玩家映射为虚拟空间中多智能体强化学习的智能体,能够及时预测出策略发展趋势反馈给现实空间,可保持一个较好的系统性能。

附图说明

图1为本发明实施例的整体流程图;

图2为本发明实施例的框架示意图;

图3为本发明实施例的具体流程图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例1

如图1至图3所示,一种基于移动群智感知技术的隐私保护方法,包括步骤:

S1、构建众包物流系统利益相关者之间的四方演化博弈模型,将现实世界中各个众包物流参与者作为参与演化博弈的玩家,并对演化稳定策略进行分析;

S2、将演化博弈玩家映射为多智能体强化学习的代理人,并在数字孪生虚拟空间中使用多智能体强化学习预测当前众包物流系统参与者策略的演化趋势,并验证所分析的演化稳定策略;

S3、将预测的结果反馈给现实空间,并提供建议,参与者可以凭此及时做出策略调整以免造成损失,也可以维护众包物流系统的持续健康发展。

由上述描述可知,本发明的有益效果在于:通过构建临时工人,合同工人,基于区块链的平台和任务请求者之间的四方演化博弈模型,将各个现实世界众包参与者映射为数字孪生虚拟空间里参与演化博弈的玩家,并将系统数据通过服务器实时传入数字孪生系统中,然后在数字孪生虚拟空间中使用多智能体强化学习方法预测当前众包物流系统参与者策略的演化趋势,然后将预测的结果反馈给现实空间,并给出建议,为避免造成损失,各个参与方可以凭此及时做出策略调整,也可以维护众包物流系统的持续健康发展,有助于更好的理解现实中众包物流系统中各个参与方的行为。

所述演化博弈模型有四个玩家:临时工人,合同工人,任务发布者和基于区块链的众包平台;

所述步骤S1中的对众包物流系统中各个参与方构建四方演化博弈模型具体包括以下步骤:

S10、定义玩家的博弈策略,每个玩家都有诚实和不诚实两个策略,众包工人的诚实策略表示按要求配送货物,不诚实策略表示没有按要求配送,平台的诚实策略为监管工人配送过程,并拒绝与工人合谋骗取发布者的支付,不诚实策略为平台不进行监管,并与工人合谋,发布者的诚实策略表示给众包和工人真实的报酬,不诚实策略为不提供真实的报酬甚至不支付报酬,定义博弈收益矩阵,如表1所示,众包物流系统各个参与方之间的博弈策略共有十六种。当临时工人,合同工人,平台和任务发布者都采取诚实策略时,用u代表临时工人的报酬比例,v代表临时工人的奖惩比例,λ代表众包工人的报酬比例,t代表众包工人的奖惩比例,P

当临时工人和平台都选择不诚实策略,合同工人和发布者选择诚实策略时,四方收益表示为

表1博弈收益矩阵

S11、根据公式(1)得出临时工人策略的复制动态方程:

F(x)=dx/dt=x(1-x)(U

其中,U

S12、根据公式(2)得出合同工人策略的复制动态方程为

F(y)=dy/dt=y(1-y)(U

其中,U

S13、根据公式(3)得出平台策略的复制动态方程为

F(z)=dz/dt=z(1-z)(U

其中,U

S14、根据公式(4)得出发布者策略的复制动态方程为

F(r)=dr/dt=r(1-r)(U

其中,U

S15、根据各博弈主体的复制动态方程,得到复制动态系统的雅可比矩阵为

S16、令公式(1),(2),(3),(4)同时等于0,得到有利于众包物流系统健康发展的均衡点(1,1,1,1),(1,1,0,1),(0,1,1,1),并讨论其稳定性;

所述步骤S11还包括:

所述临时工人在选择诚实策略和不诚实策略时期望收益的计算如下:

所述步骤S12还包括:

所述合同工人在选择诚实策略和不诚实策略时期望收益的计算如下:

所述步骤S13还包括:

所述平台在选择诚实策略和不诚实策略时期望收益的计算如下:

所述步骤S14还包括:

所述发布者在选择诚实策略和不诚实策略时期望收益的计算如下:

所述步骤S16还包括:

当系统满足C

当系统满足C

当系统满足uλP

由上述描述可知,通过构建临时工人,合同工人,平台和发布者之间的四方演化博弈模型,成功将众包参与者映射到数字孪生虚拟空间里的玩家,并可以对其演化稳定性进行分析。

所述步骤S2中还包括:

将四个博弈玩家映射为数字孪生虚拟空间中的多智能体强化学习模型中的代理人。

由上述描述可知,将博弈玩家映射为强化学习模型的代理人,可以通过多智能体强化学习方法研究玩家策略选择的收敛趋势。

所述步骤S2中的多智能体强化学习模型的策略迭代算法包括以下步骤:

S20、初始化t=0,Q

S21、通过矩阵博弈(Q

S22、计算博弈(Q

S23、转回步骤S21,设置t=t+1,重复直到所有状态已被搜索。

所述步骤S20还包括:

所述代理人i在t轮的Q值的计算如下:

Q

其中t为重复博弈次数,γ为Q-learning的折扣因子,a

所述步骤S22还包括:

所述代理人i在t+1轮的Q值计算如下:

Q

其中α

由上述可知,通过多智能体强化学习方法,可以预测代理人的策略收敛方向,进而预测各个博弈玩家策略的演化结果,并验证所提出均衡点的稳定性;

所述步骤S3中还包括:

所述数字孪生为信息镜像模型,是物理实体的数字复制品,通过连接物理世界和虚拟世界实现数据的无缝传输,从而允许虚拟实体与物理实体同时存在。

由上述描述可知,通过数字孪生,现实世界中各个众包参与方可以很及时地获取当前众包物流系统发展结果,从而及时地对策略进行调整。

所述步骤S3具体为:

当智能体选择策略时,如果环境给出了正反馈,下一轮智能体选择相同策略的概率会增加,否则会降低。因此,决策代理将获取知识,从获取的知识和环境给出的反馈中学习,并选择策略,这样现实空间参与者的策略选择趋势就可以在虚拟空间得到体现。

由上述描述可知,通过数字孪生将预测的结果反馈给现实空间,并提供建议,参与者可以凭此及时做出策略调整以免造成损失,也可以维护众包系统的持续健康发展。

实施例2

一种基于数字孪生和演化博弈的众包物流方法,本实施例为基于众包物流背景下,构建四方演化博弈模型,将各个现实世界众包参与者映射为数字孪生虚拟空间里参与演化博弈的玩家,并将系统数据通过服务器实时传入数字孪生中,然后在数字孪生虚拟空间中使用多智能体强化学习方法预测当前众包物流系统参与者策略的演化趋势,然后将预测的结果反馈给现实空间,各个参与方可以凭此及时做出策略调整,维护众包物流系统的持续健康发展,有助于更好的理解现实中众包物流系统中各个参与方的行为。

如图1所示,本实施例的一种基于数字孪生和演化博弈的众包物流方法,包括步骤:

S1、构建众包物流系统利益相关者之间的四方演化博弈模型,将现实世界中各个众包参与者映射为DT虚拟空间里参与演化博弈的玩家,分析演化稳定策略。

S2、将演化博弈玩家映射为多智能体强化学习的代理人,并在DT虚拟空间中使用多智能体强化学习预测当前众包物流系统参与者策略的演化趋势。

S3、数字孪生将预测的结果反馈给现实空间各个众包物流参与方。

即在本实施例中,通过构建临时工人,合同工人,平台和发布者之间的四方演化博弈模型,成功将众包参与者映射到数字孪生虚拟空间里的玩家,将博弈玩家映射为强化学习模型的代理人,通过多智能体强化学习方法研究玩家策略选择的收敛趋势,通过数字孪生,现实世界中各个众包参与方可以很及时地获取当前众包物流系统发展结果,从而及时地对策略进行调整。

请参照图1至图3,本发明的实施例二为:

在上述实施例一的基础上,本实施例的一种基于数字孪生和演化博弈的众包物流方法中,演化博弈模型有四个玩家:临时工人,合同工人,基于区块链的平台和任务发布者。

其中,为了寻找演化稳定点,在上述实施例一的步骤S1中的对众包物流系统中各个参与方构建四方演化博弈模型具体包括以下步骤:

S10、定义玩家的博弈策略,每个玩家都有诚实和不诚实两个策略,众包物流系统各个参与方之间的博弈策略共有十六种,其具体如下:

a)临时工人,合同工人,平台和任务发布者都采取诚实策略,用u代表临时工人的报酬比例,v代表临时工人的奖惩比例,λ代表众包工人的报酬比例,t代表众包工人的奖惩比例,P

b)合同工人选择不诚实策略,其他三方选择诚实策略,用C

c)发布者选择不诚实策略,其他三方选择诚实策略,用S

d)合同工人和发布者选择不诚实策略,而临时工人和平台选择诚实策略,此时四方的收益表示为

e)临时工人选择不诚实策略,其他参与方选择诚实策略,此时四方的收益表示为

f)所有众包工人都选择不诚实策略,平台和发布者选择诚实策略,此时四方的收益表示为(-C

g)合同工人和平台选择诚实策略,临时工人和发布者选择不诚实策略,此时四方的收益表示为

h)平台选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为(-C

i)平台选择不诚实策略,其他三方都选择诚实策略,此时四方的收益表示为

j)平台和合同工人选择不诚实策略,临时工人和发布者选择诚实策略,用B

k)平台和发布者选择不诚实策略,众包工人都选择诚实策略,此时四方的收益表示为

l)临时工人选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

m)临时工人和平台都选择不诚实策略,合同工人和发布者选择诚实策略,此时四方的收益表示为

n)发布者选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

o)合同工人选择诚实策略,其他三方都选择不诚实策略,此时四方的收益表示为

p)所有众包参与方都选择不诚实策略,此时四方的收益表示为

其中,众包工人的诚实策略表示按要求配送货物,不诚实策略表示没有按要求配送,平台的诚实策略为监管工人配送过程,并拒绝与工人合谋骗取发布者的支付,不诚实策略为平台不进行监管,并与工人合谋,发布者的诚实策略表示给众包和工人真实的报酬,不诚实策略为不提供真实的报酬甚至不支付报酬;

S11、根据公式(1)得出临时工人策略的复制动态方程:

F(x)=dx/dt=x(1-x)(U

其中,U

S12、根据公式(2)得出合同工人策略的复制动态方程为

F(y)=dy/dt=y(1-y)(U

其中,U

S13、根据公式(3)得出平台策略的复制动态方程为

F(z)=dz/dt=z(1-z)(U

其中,U

S14、根据公式(4)得出发布者策略的复制动态方程为

F(r)=dr/dt=r(1-r)(U

其中,U

S15、根据各博弈主体的复制动态方程,得到复制动态系统的雅可比矩阵为

S16、令公式(1),(2),(3),(4)同时等于0,得到有利于众包物流系统健康发展的均衡点(1,1,1,1),(1,1,0,1),(0,1,1,1),并讨论其稳定性;

在本实施例中,临时工人在选择诚实策略和不诚实策略时期望收益的计算如下:

在本实施例中,合同工人在选择诚实策略和不诚实策略时期望收益的计算如下:

在本实施例中,平台在选择诚实策略和不诚实策略时期望收益的计算如下:

在本实施例中,发布者在选择诚实策略和不诚实策略时期望收益的计算如下:

在本实施例中,均衡点的稳定性条件如下:

当系统满足C

当系统满足C

当系统满足uλP

即在本实施例中,通过构建临时工人,合同工人,平台和发布者之间的四方演化博弈模型,成功将众包参与者映射到数字孪生虚拟空间里的玩家,并可以对其演化稳定性进行分析。

所述步骤S2中的多智能体强化学习模型的策略迭代算法包括以下步骤:

S20、初始化t=0,Q

在本实施例中,所述代理人i在t轮的Q值的计算如下:

Q

其中t为重复博弈次数,γ为Q-learning的折扣因子,a

S21、通过矩阵博弈(Q

S22、计算博弈(Q

在本实施例中,所述代理人i在t+1轮的Q值计算如下:

Q

其中α

S23、转回步骤S21,设置t=t+1,重复直到所有状态已被搜索。

即在本实施例中,通过多智能体强化学习方法,可以预测代理人的策略收敛方向,进而预测各个博弈玩家策略的演化结果。

其中,步骤S3中还包括:

所述数字孪生为信息镜像模型,是物理实体的数字复制品,通过连接物理世界和虚拟世界实现数据的无缝传输,从而允许虚拟实体与物理实体同时存在。

步骤S3具体为:

当智能体选择策略时,如果环境给出了正反馈,下一轮智能体选择相同策略的概率会增加,否则会降低。因此,决策代理将获取知识,从获取的知识和环境给出的反馈中学习,并选择策略,这样现实空间参与者的策略选择趋势就可以在虚拟空间得到体现。

即在本实施例中,通过数字孪生将预测的结果反馈给现实空间,并提供建议,参与者可以凭此及时做出策略调整以免造成损失,也可以维护众包系统的持续健康发展。

以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术分类

06120116576823