导航：首页> 染料；涂料；抛光剂；天然树脂；黏合剂；其他类目不包含的组合物；其他类目不包含的材料的应用>一种基于深度价值网络的家电维修派单方法

一种基于深度价值网络的家电维修派单方法

文献发布时间：2023-06-19 19:30:30

技术领域

本发明属于维修任务调度领域，具体涉及一种基于深度价值网络的家电维修派单方法。

背景技术

近年来随着移动互联网的发展，市面上出现了一类家政服务平台，用户在该类平台上下单，平台派遣维修师上门进行服务。平台的出现可更加有效的配置维修师的资源，通过优化维修师的调度策略，可在有限的维修师库存下匹配更多的订单。

目前家庭维修场景下的订单匹配方法主要是基于规则实现的派单方法，常见的如基于位置选择距离订单最近的维修师的贪心方法。现有的派单方法只是提出某种具体的派单策略，而在具体的派单策略中没有直接对维修师未来接单潜力进行量化评估，因此得到的派单结果是短视的，没用从全局优化的角度充分利用维修师的派单潜力。

现有派单解决方案主要有以下两个缺陷：

1、由于家庭上门维修场景为预约模式，用户需要在较短时间内获得匹配结果。短时间收集到的订单数量是有限的，而从有限的订单进行组合优化无法得到全局最优的结果，因此现有的解决方案无法从长远收益的角度得到全局最优的结果。

2、现有的派单策略没有对维修师的接单潜力进行量化，而对维修师未来接单潜力的量化可从总体上有效提高调度策略的接单效率。

发明内容

本发明旨在解决家庭维修场景下的维修师与订单之间的匹配问题，用户在线上下单并预约服务时间，维修师在用户的预约的时间点上门为用户服务。由于采用预约模式，需要在较短的时间(如半小时)内得到匹配结果，因此如果在较短时间做到维修工程师库存的高效利用就显得尤为重要，本发明提供一种基于深度价值网络的派单框架，结合维修师的出勤状态等信息从长远收益的角度评估各种派单策略下维修师的接单潜力，并基于维修师未来派单潜力提出一种派单框架。此方法有助于制定更有效的派单策略，提高维修师的日均单量。

本发明的一种基于深度价值网络的家电维修派单方法，所述方法包括：

获取家电维修师的信息和家电维修订单的信息；所述家电维修师的信息包括出勤状态表和出勤日期，所述家电维修订单的信息包括下单时间，预约时间和预计维修时间；

对家电维修师和家电维修订单进行模拟派单，若不出现时间冲突，则将家电维修师的出勤状态表进行变更，并给予家电维修师一个即时奖励，此时匹配可能成功；若出现时间冲突，则无法得到奖励，同时家电维修师的出勤状态表不会变更，此时匹配失败，流程终止；

将匹配可能成功的家电维修师变更后的出勤状态表和出勤日期输入到深度价值网络中，得到家电维修师接受家电维修订单后的潜在奖励；

根据家电维修师与家电维修订单匹配产生的即时奖励，以及家电维修师接受家电维修订单后的潜在奖励，计算出家电维修师与家电维修订单的匹配权重；

根据匹配权重对家电维修师和家电维修订单进行派单，若家电维修师和家电维修订单匹配成功，则将家电维修师和家电维修订单匹配过程的信息存储到经验池供所述深度价值网络进行训练与修正；若家电维修师与家电维修订单匹配失败，流程终止。

本发明的有益效果：

1、本发明所述派单框架中引入了长远角度下量化了维修师接单潜力这一关键派单指标，并结合待匹配的维修师与订单计算出基于未来接单潜力的匹配权重。后续派单策略通过该匹配权重得到的派单结果是经全局优化的结果。

2、本发明引入维修师未来接单潜力的评估手段。本发明基于DVN计算特定状态下的接单潜力值。由于训练DVN数据是由真实派单过程中维修状态转移轨迹得到，并且存储状态转移轨迹的经验池是在不断更新的，因此本发明所述DVN网络在训练过程中会根据真实的派单结果进行参数的调整，学习订单分布以及派单策略等中的隐含信息，可自适应调整DVN参数。

3、本发明提出一种家电维修通用派单框架，该框架将具体的派单策略分离，因此本框架可适应多种不同的派单策略。

附图说明

图1是本发明实施例的基于深度价值网络派单框架构图；

图2是本发明实施例的基于深度价值网络的家电维修派单方法流程图；

图3是本发明实施例的维修师出勤状态效果图；

图4是本发明实施例的深度价值网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于深度价值网络(DVN)的家庭维修派单方法，该方法基于半马尔可夫模型构建深度价值网络，通过深度价值网络估算维修工程师在某一订单匹配策略下的接单潜力值。

图1是本发明实施例的基于深度价值网络派单框架构图；该框架引入维修师未来接单潜力这一派单指标，并提出一种基于深度价值网络的维修师派单潜力量化手段。通过该框架估算维修师未来派单潜力，从长远的角度优化派单策略，提高派单效率。如图1所示，图中包含本框架的两条工作流程，分别为实线箭头所示在线匹配流程以及虚线箭头所示的离线训练流程。

图2是本发明实施例的基于深度价值网络的家电维修派单方法流程图，如图2所示，所述方法包括：

101、获取家电维修师的信息和家电维修订单的信息；所述家电维修师的信息包括出勤状态表和出勤日期，所述家电维修订单的信息包括下单时间，预约时间和预计维修时间；

在本发明实施例中，在订单与维修师匹配阶段需要收集维修师r

102、对家电维修师和家电维修订单进行模拟派单，若不出现时间冲突，则将家电维修师的出勤状态表进行变更，并给予家电维修师一个即时奖励，此时匹配可能成功；若出现时间冲突，则无法得到奖励，同时家电维修师的出勤状态表不会变更，此时匹配失败，流程终止；

在本发明实施例中，所述步骤102将对家电维修师r

将初始时刻到下单时间的前一时刻对应的时间间隔设置为不可匹配时间段；在初始时刻1到t

将预约时间到预约时间与预计维修时间对应的时间间隔设置为不可匹配时间段；t

103、将匹配可能成功的家电维修师变更后的出勤状态表和出勤日期输入到深度价值网络中，得到家电维修师接受家电维修订单后的潜在奖励；

在本发明实施例中，此步骤为步骤103匹配成功后的后续流程，此时家电维修师r

104、根据家电维修师与家电维修订单匹配产生的即时奖励，以及家电维修师接受家电维修订单后的潜在奖励，计算出家电维修师与家电维修订单的匹配权重；

根据式(1)计算r

其中，ρ

考虑到深度价值网络在训练过程的收敛时间以及预测出的派单效果的平衡，本实施例的潜在奖励的权重系数的计算方式分为两种情况，若当前家电维修订单数量超过阈值时，则根据实际情况采用合适的数值，这样可以提高派单效果，若当前家电维修订单数量没有超过阈值时，则将深度价值网络的折扣因子作为权重系数，这样可以与深度价值网络的训练保持一致，更有利于训练过程中深度价值网络的收敛。

基于上述分析，在本发明优选实施例中，潜在奖励的权重系数的计算方式包括：

其中，γ表示折扣因子，w

其中，

本发明优选实施例中通过结合当前家电维修订单数量以及家电维修平均订单数量，来优化权重系数能够提高派单效果，使得派单结果与订单量属性更相关，更符合实际的家电维修派单场景；同时，本发明还采用折扣因子来优化权重系数能够提高派单效率，能够加快深度价值网络的收敛，提高模型的预测效率。

105、根据匹配权重对家电维修师和家电维修订单进行派单，若家电维修师和家电维修订单匹配成功，则将家电维修师和家电维修订单匹配过程的信息存储到经验池供所述深度价值网络进行训练与修正；若家电维修师与家电维修订单匹配失败，流程终止。

在本发明实施例中，派单策略根据ρ

在本发明实施例中，所述将家电维修师和家电维修订单匹配过程的信息存储到经验池供所述深度价值网络进行训练与修正包括采用家电维修师的历史信息和家电维修订单的历史信息对所述深度价值网络进行离线训练；通过家电维修师的在线信息和家电维修订单的在线信息，计算出通过离线训练后的深度价值网络的价值损失，通过反向传播对所述深度价值网络进行在线训练，对所述神经价值网络进行修正。

在本发明实施例中，所述深度价值网络训练过程采用的损失函数表示为：

loss(V(s),r+γV(s′))＝(V(s)-(r+ γV(s′)))

其中，loss表示损失函数，V(s)表示家电维修师处于状态s的价值函数，γ表示折扣因子，V(s′)表示家电维修师处于状态s′的价值函数；r表示家电维修师r

本发明通过半马尔可夫模型构建DVN，将每个维修工程师定义为一个智能体，相同服务分类的维修工程师共享同一个DVN的参数。这样划分的依据是因为不用服务分类的订单有不同的分布，而维修师预订单之间的匹配是不能跨品类服务的。另外这样划分还有个好处是有新的维修品类加入到系统中时可新建智能体训练DVN，不会影响到其他品类智能体。在马尔可夫决策过程中智能体在某个离散周期内t∈T∶＝{0,1,2,...,T}不断与环境进行交互，直到到达终点T。在每个时间步长中，智能体将感知环境的状态，每个时间步长t的状态被描述为一个特征向量s

下文将描述本发明中智能体的状态，动作，奖励以及奖励更新策略。

状态：智能体的状态s主要由维修师的出勤日期d和当天的出勤状态v

动作：智能体执行动作体现在维修师接受了某一订单后或者随着时间流逝导致自身状态发生了改变，具体上为状态中出勤时间表发生了变化。

奖励：强化学习中奖励在本发明中体现为维修师的接单潜力。奖励越大则维修师的接单潜力越大。当前状态的奖励主要由即时奖励r和下一个状态的未来长期奖励

策略：在订单匹配过程中，订单系统会遵循某种派单策略π将维修师匹配给订单，从强化学习的角度可解释为智能体执行了某个动作(匹配过程)从而使得智能体的状态发生了转移，并且在转移过程中得到了即时的奖励。状态价值函数

式(5)为本发明中贝尔曼方程所采用的等式。

接下来将描述本发明所述派单框架中另一条工作流程，DVN的离线训练流程，如图1中实线箭头所示部分。DVN训练所需数据在于派单策略π下智能体状态转移的历史轨迹所构成，并于在线匹配阶段的步骤105中所述存储于经验池中。通过深度价值网络前后计算出的价值loss(V(s),r+γV(s′))构建loss，通过反向传播进行深度价值网络的训练。本发明所述深度价值网络结构图如图4所示，有四层神经元结构，其中输入层神经元为29个，中间两层隐含层神经元个数均为128个，输出层神经元为1个，激活函数都采用Relu函数。

通过上述分析，家电维修师接受家电维修订单后的潜在奖励由深度价值网络计算得到，通过逐层传递信息，在最初一层神经元输入家电维修师的出勤状态表和出勤日期，在最后一层神经元输出预测的潜在奖励；其逐层传递信息的计算公式表示为：

其中，a

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：雷建军;胡阳民;
专利申请人：重庆邮电大学;

上一篇：薄板烘丝工序生产过程稳定性的评价系统
下一篇：一种基于离子-偶极作用的轮胎自修复涂层的制备方法