稀疏移动感知(Sparse Mobile crowdsensing)要求参与者从部分感知区域中收集数据,然后智能地推断剩余区域的数据。在不同区域收集数据会影响推断的数据的质量,因此区域选择是稀疏移动感知中的一个关键问题。目前,最有效的区域选择算法是基于强化学习实现的。但是这些算法却忽略了环境时变的问题。城市环境通常与时间相关,区域选择模型需要不断更新以适应时变的环境。而稀疏移动感知应用要求参与者只在少数部分区域中收集数据,这使得我们很难持续地获得适合模型学习的训练数据。为了解决这一问题,我们在收集到的稀疏数据中建立时空相关性模型,并在此基础上设计多种更新训练数据的方法。这些方法充分利用了数据在时间和空间上的渐变性,在不同时刻对稀疏数据进行合理的变换和拼接。最后,更新后的训练数据被用于训练区域选择模型。在现实世界数据集上进行的实验表明,本文提出的方法能够有效地更新训练数据进而训练区域选择模型。
简介:
为了获得全面、高质量的数据,传统的移动群智感知(MCS)方法(如众包)通常需要花费高成本招募多名参与者。为了解决该问题,L. Wang等研究者于2016年首次提出稀疏群智感知。稀疏群智感知要求参与者从部分区域中收集数据,然后推断剩余区域的数据。然而,数据间的复杂时空相关性使得数据收集细胞单元对推断结果有重要影响的数据。因此,稀疏群智感知中的一个关键问题是区域选择问题,即需要选择哪些区域来收集稀疏数据。目前,关于区域选择的方法是有两种:基于训练的方法(如强化学习算法)和非训练的方法(例如利用区域推断的不确定性)。区域选择算法的目的是顺序选择可能的最佳区域组合,然后招募参与者收集所选区域中的数据,最后使用推理算法推断剩余区域的数据,如图1所示。图1示出了在特定时刻包含16个离散区域(图中的数字表示离散区域编号)的区域选择过程。基于选择策略一个接一个地选择区域,直到区域选择的结果满足要求,然后招募参与者收集所选区域中的数据,最后利用收集的数据推断剩余区域的数据。
关于区域选择的最先进的工作是基于强化学习。基于强化学习的区域选择算法可以从历史数据中挖掘出时空相关性,进而很好的指导区域选择过程。然而,现有方法却略了一个问题:使用固定的数据集来训练区域选择模型,这将使模型保持不变,如图2(a)所示。相反,城市环境通常是随时间变化的,区域选择模型需要保持最新以适应时变的环境。因此,本文研究了如何在稀疏群智感知中持续训练区域选择模型以适应时变环境。本文方法在收集的稀疏数据中挖掘时空相关性,并不断更新训练数据以训练新的区域选择模型,如图2(b)所示。
方法设计:
针对上述问题,本文作者基于时空渐变性提出了训练数据更新方法。首先我们分析城市数据中的时空相关性,总结出城市数据中的时空渐变性,并分解为三个方面:数据的相似性、数据值的变化性和数据分布模式的变化性。然后我们分别基于时空时空渐变性的三个方面有针对性的设计数据更新方法:RLCellUdRp(考虑数据的相似性)、RLCellUdPan(兼顾数据的相似性和数据值的变化性)和RLCellUdZoom(兼顾数据的相似性、数据值的变化性和数据分布模式的变化性)
由于城市环境复杂,大多数城市数据(如空气质量数据、交通流量数据)都受到许多因素的影响。这些数据很难与单个因素建立对应关系。图7显示了不同环境条件下PM2.5浓度的空间高斯分布。图7(a)和图7(c)反映了城市作息时间对PM2.5浓度的影响,其在凌晨3:00和9:00的分布有显著差异。图7(a)和图7(d)反映了天气条件对PM2.5浓度的影响。分布也有明显的差异。此外,其他因素也可能影响PM2.5浓度的分布,如季节变化、交通状况等。但单个因素很难与城市中的数据建立对应关系,而是在时间和空间上有一些渐变。一般来说,一个城市的整体运行状态不会突然发生改变,其会随着时间的推移缓慢变化。例如,图7(a)和图7(b)显示在两个相邻的循环中,PM2.5浓度的分布是相似的。
本文比较了时刻k和k之前最近48个小时之间的数据的时空分布相关系数。通常,时间越接近,数据分布越相似,如图8所示。本文称这种现象为时空渐变性。时空渐变表现在三个方面:数据的相似性、数据值的变化性、数据分布模式的变化性。
(1)替换对应单元格中的训练数据矩阵(RLCellUdRp):在这种方法中,本文关注了数据的相似性。该方法使用稀疏矩阵来替换训练数据矩阵,并且替换单元根据单元选择矩阵来确定,如图9所示。
(2)在替换训练数据之前,基于平移提取分布模式(RLCellUdPan):该方法考虑了数据的相似性和数据值的变化性。为了消除数据值的变化对更新后的训练数据的真实分布的影响,该方法需要准确地提取数据的分布模式。提取模式需要估计维度值,它可以代表数据的整体情况。该方法将数据的平均值计算为维度值。然后,根据不同的维度值对不同周期的数据进行平移,使它们的平均值相同。最后,该方法模仿RLCellUdRp的更新机制来替换训练数据,如图10所示。
(3)在替换训练数据之前,基于缩放提取分布模式(RLCellUdZoom):在这种方法中,本文考虑了数据的相似性、数据值的变化性和数据分布模式的变化性。为了同时兼顾数据的相似性、数据值的变化性和数据分布模式的变化性,该方法对不同周期的数据分布模式进行合理的演化。缩放可以在统一维度值的同时,对数据分布进行合理的演化。因此,该方法基于不同的维度值缩放训练数据,使得训练数据和当前稀疏真实数据的平均值相同。接着,模仿RLCellUdRp的更新机制来替换训练数据。
图13为Random、RLDellFixed、RLDellUdNoise、RLCellUdRp、RLCellUdPan、RLCellUdZoom六种方法对四种传感任务(CO/NO2/O3/PM2.5)的测试结果,代表五种区域选择限制(N umLimit = 3/4/5/6/7)下的推断误差。实验结果表明,在80%的情况下,RLCellUdRp、RLCellUdPan和RLCellUdZoom明显优于基线方法,这是因为基于缩放的方式可以很好地兼顾数据的相似性、数据值的变化性和数据分布模式的变化性三个方面,也进一步验证了基于城市数据的时空渐变性更新训练数据进而更新区域选择模型是可行的。
总结:
为了使稀疏群智感知中的区域选择模型适应时变环境,本文利用稀疏数据中的时空相关性更新训练数据。首先,本文对收集到的稀疏数据中的时空相关性进行建模,以挖掘时空渐变性。然后,根据渐变性设计更新训练数据的方法。最后,基于空气中的四种感知任务(CO/NO2/O3/PM2.5)进行了实验评估。实验结果表明,本文提出的更新训练数据的方法在持续训练区域选择模型方面的有效性。
该成果由韩磊(西北工业大学在读博士生)、於志勇(福州大学教授)、王亮(西北工业大学副教授)、於志文(西北工业大学教授)、郭斌(西北工业大学教授)合作完成,“Keeping Cell Selection Model Up-to-Date to Adapt to Time-Dependent Environment in Sparse Mobile Crowdsensing”发表在IEEE Internet of Things Journal(中科院一区TOP期刊)
原文链接:
https://www.researchgate.net/publication/350365201_Keeping_Cell_Selection_Model_Up-to-Date_to_Adapt_to_Time-Dependent_Environment_in_Sparse_Mobile_Crowdsensing