基于深度强化学习的时空众包任务兴趣匹配方法研究

彭占魁¹

扫码查看

作者信息

1. 杭州电子科技大学
折叠

摘要

随着智能设备和无线网络等基础设施的普及，时空众包任务越来越多的出现在平时的生活中（例如，滴滴、美团以及优步等）。时空众包任务的研究也越来越得到学术界的重视。其中，时空众包任务的任务分配成为了研究的重点。传统研究方法通过匹配的方式进行任务的分配，大多缺少考虑到动态的环境。此外，大多数的推荐方法是针对职业性的时空众包任务工作者，注重考虑时空众包任务分配的效率和利益收入，较少考虑到工作者本身的兴趣与爱好。然而，近年来研究表明兴趣偏好能在很大程度上影响时空众包任务完成的质量。针对上述问题，本文研究通过深度强化学习算法解决时空众包任务的兴趣匹配问题。首先，本文研究了为处于不同时空众包场景下的工作者和发起者寻找符合自身兴趣爱好的任务。当前的时空众包任务类型丰富多样，不同类型的时空众包任务数据的密集程度具有较大的区别。数据密集型的时空众包任务短时间会有大量的任务和工作者到来。然而，数据稀疏型的时空众包任务可能较长时间没有工作者和任务到来。因此，本文提出在通用分配方法中采用工作者到来后进行响应的分配方法，立即完成任务分配，以此来达到适应各种场景下时空众包任务，以保证分配方案具有通用性。本文在为工作者以及请求者解决寻找符合自身兴趣爱好的众包任务问题时，将时空众包任务的分配过程建模成两个马尔可夫决策过程，体现工作者和任务发起者不同的优化目标，分别进行优化，然后组合起来进行任务分配决策，建立了一个通用的解决方案（DeepAdaptiveInterestNetworkforTaskAssignmentinSpatialCrowdsourcing，DAIN）。在DAIN中，本文提出了使用DeepQ-Network（DQN）算法来自适应地处理工作者以及请求者对时空众包任务的偏好，以实现当前的最佳分配。第一个工作讨论了支持数据密集型和数据稀疏型场景下的通用方案。然而，对于短时间会到来大量任务的密集型场景（例如，滴滴、美团等），DAIN计算出的结果为局部最优，无法达到全局最优。因此，本文第二个工作研究了短时间范围内的工作者整体兴趣匹配问题，设计了基于深度确定性策略梯度算法（DeepDeterministicPolicyGradient，DDPG）与匈牙利算法结合的全局解决方案。由于该解决方案中需要计算的是连续值，DQN算法不适合用于连续控制的情况。因此，该解决方案中使用DDPG算法。在该解决方案中，请求者发布时空众包任务到众包平台中，工作者到来后添加自身信息到众包平台中，等待分配任务（在一个时间片段内计算）。众包平台通过DDPG算法动态的计算每个众包任务与工作者的兴趣度。工作者对计算出的结果进行反馈评价，任务分配系统将此过程记录存储。任务分配系统中学习函数不断从存储中的提取记录，用于神经网络训练学习，不断更新神经网络。最后，将众包任务和工作者建模成二分图，上述众包任务与工作者的兴趣度作为两种之间的键值对，通过匈牙利算法计算出最佳的整体匹配方案。在本文实验部分，数据集选择了滴滴出行盖亚计划提供的时空众包任务数据。本文第一个工作DAIN对比其他竞争方法在各项评价指标上更为优越，评价指标总体提升在6%左右。本文第二个工作对比其他竞争方法在整体指标上更具有优越性，在不同时间范围里整体指标平均值分别提升了52分、32分和16分。

关键词

时空众包任务/任务分配/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

殷昱煜

学位年度

2022

学位授予单位

杭州电子科技大学

语种

中文

中图分类号

段落导航