摘要
随着海上卫星导航定位技术快速发展,船舶轨迹数据挖掘获得了越来越多的关注,已经成为研究轨迹数据挖掘领域的热门课题之一,从船舶轨迹中挖掘出来的知识在海上目标检测追踪、应急救援、国防安全、海洋生态环境保护等方面起到很大帮助。轨迹相似度计算是轨迹聚类、离群点检测等轨迹数据处理的基础。轨迹分类是分析轨迹数据的一种有效方法,已被应用于模式识别、数据分析等领域,而识别船舶数据中出现的交通模式,能为船只在海上安全航行提供重要的保障。轨迹数据的有效表示,是贯穿于轨迹分类、轨迹相似度计算等轨迹数据挖掘技术中的一项重要任务。本文将着重研究船舶轨迹数据挖掘技术中的轨迹相似度计算与轨迹分类,主要工作及创新点如下: 第一是针对现有的轨迹相似度度量算法存在的问题提出了一种基于轨迹向量的相似度计算算法ts2vec。现有的计算轨迹相似度的方法通常是基于轨迹点匹配的,并使用动态编程来识别最佳对准,但这些方法对有着采样率低、采样率不均匀、有噪声等问题的轨迹数据是非鲁棒的,对原始数据的质量和长度有着较高的要求并且时间复杂度相对较大,用学习得到的轨迹向量的欧氏距离来测量轨迹相似度,不仅具有鲁棒性,时间复杂度也由O(n2)变为线性时间O(n+|v|)(|v|是向量v的长度)。 第二是提出了一种基于深度学习的轨迹表示学习方法。为了将轨迹序列嵌入到向量中,并使得到的轨迹向量能够最大概率代表轨迹真实路径。针对轨迹数据采样率低、采样不均匀、存在噪音等问题,使用了一种深度学习模型Seq2Seq(SequencetoSequence)让低质量轨迹数据通过学习能够生成高质量轨迹向量,同时提出了融合空间和船舶速度信息的单元预训练方法,学习时间窗口内上下文轨迹共现信息,得到包含这两种语义信息的嵌入向量作为模型的输入数据,最后提出了一种考虑空间和速度信息的损失函数,将轨迹空间性和速度信息结合到深度学习模型中,引导模型学习由相同路线生成的轨迹表示的一致性。 第三是提出了一个基于轨迹向量和特征工程的轨迹分类模型,对AIS轨迹数据进行数据清洗和预处理,对学习得到的轨迹向量和其它特征进行特征工程,对特征进行处理和选择,然后再进行超参数优化,用随机森林、GBDT(Gradient-boostingdecisiontree)、XGBoost(ExtremeGradientBoosting)三种主流分类器作为对照,有较高的性能和正确率,证明了所提出的模型挖掘出的信息特征是有效的,可有效运用于实际轨迹的分类中。 第四是提出并实现了船舶轨迹数据挖掘系统,把本系统集成的相似度分析算法和轨迹分类效果可视化,辅助系统使用者更加直观的查看并分析结果,并且使得原始数据之间的联系更具可解释性。