摘要
随着穿戴型设备以及车载智能设备的普及,移动物联网中的数据量呈现指数级增长,服务提供商对数据数量、质量和时效性的需求也在不断增加,因此移动群智感知(Mobilecrowdsensing,MCS)作为将众包思想与移动设备感知能力相结合的新型数据获取模式受到了物联网领域的重视。用户以自身的移动智能设备收集数据并通过边缘节点上传给服务器,服务提供商收集和处理数据后向移动用户提供智能服务。在与深度强化学习技术(Deepreinforcementlearning,DRL)结合后,移动群智感知系统能更快地与环境交互并进行感知策略分析,提高感知决策的速度和合理性,因此越来越多的研究致力于将深度强化学习引入到移动群智感知中。 激励机制是移动群智感知系统中的重要部分,因为没有移动用户愿意无私地上传自己的数据给服务提供商,服务提供商需要激励用户加入到感知任务中。激励机制目前的挑战主要是:一方面,服务提供商和用户都想使自身的收益最大化,另一方面系统需要保证感知任务数据的质量和保护用户的隐私。本文试图设计基于强化学习的移动群智感知激励方案,在保证数据质量的同时最大化参与方的收益,并且保护用户的隐私。本文主要研究工作内容如下: (1)本文的第一个工作提出了一个基于用户声誉的强化学习移动群智感知激励机制,为了找到服务提供商和移动用户之间的效益平衡点,将移动群智感知系统建模为一个两阶段的Stackelberg博弈,并证明了该博弈中纳什均衡的存在唯一性。本文提出了两种声誉评价方法:一种是考虑到用户之间的社交网络效应会影响用户参与任务的意愿,根据数据质量和用户参与意愿综合设计声誉反馈机制;另一种是由数据筛选、用户投票和参与意愿组合评价的声誉约束机制。与传统的纳什均衡推导方法不同,本文提出了基于深度强化学习的PPO-DSIM算法,在保护用户隐私信息的前提下,推导纳什均衡和最优感知策略,并通过数值仿真实验证明了方案的收敛性和高效性。 (2)本文的第二个工作提出了基于LSTM(Long-ShortTermMemory)和DDPG(DeepDeterministicPolicyGradient)的可信移动群智感知激励机制。为了保证数据的可信度,避免恶意用户上传数据,该工作利用切比雪夫距离设计了感知数据质量的计算方式,并与投票分数相结合提出了新的用户数据筛选方法。通过数学处理证明了该激励机制的Stackelberg博弈里纳什均衡的存在性和唯一性,求解出服务商和用户双方效益的最大化平衡点。为了提高基于强化学习的最优感知策略推导速度,降低训练的不稳定性,本文对DDPG算法进行了改进,提出了LSTM-TDPG算法。该算法加入了LSTM机制使系统能够更快地处理时序性任务,引入DoubleQ-leanring方法和Dueling网络机制,使DDPG算法可以处理连续动作空间的任务,并在保证收敛速度的情况下避免过估计问题。通过数值仿真实验证明了方案的收敛性,以及对恶意用户的敏感性。