摘要
农业智能机器人作为“十四五”规划的重点之一,是解决人口老龄化和农业劳动力不足的关键。然而,农业环境为室外非结构化场景,存在特征变化多和遮挡稠密问题,给机器人采摘的目标检测和多目标跟踪任务带来诸多挑战。本文旨在利用计算机视觉、深度学习和领域自适应方法,对机器人采摘中的目标检测和多目标跟踪方法进行研究。 1.农业场景特征变化多,如光照变化和农作物的生长变化。这往往导致基于深度学习的目标检测模型,其训练集样本特征分布和测试场景特征分布不一致,导致检测性能退化。因此,本文利用迁移学习中的领域自适应方法,提升目标检测的跨域鲁棒性。另一方面,由于此前的跨域果蔬目标检测工作中,均使用基于图像风格转换的方法,然而在农业场景下,该方法的生成图像无法控制生成物体的语义特征,导致负迁移。因此,本文利用基于对抗学习的跨域目标检测范式,提出了基于像素-语义特征的图像级自适应模块,以及视觉相似度引导的实例级特征自适应模块。在苹果跨季节检测任务和名优茶全天候检测任务上展开大量测试,检测器的平均精度分别提升55.9%和13.5%,并且性能超过多个跨域目标检测的SOTA方法。 2.农业环境下遮挡密集的特点使得多目标跟踪极易产生大量轨迹切换,导致跟踪准确度大幅降低以及采摘失败。因此,本文结合目标检测、卡尔曼滤波、NWD距离、VLAD图像检索算法,提出了基于多特征级联匹配的多目标跟踪,旨在提升多目标跟踪算法在农业多遮挡场景下的性能。本文在大目标和小目标的场景进行果实跟踪以评估算法性能。在稠密场景下果实产量估计为310颗,真实数据为292;稀疏场景下,本文估计值为44,真实数据为38。在两个场景下,相比于SORT方法,轨迹切换大量减少,跟踪准确度得到提升。 3.根据目标检测和目标跟踪研究内容,本文结合关键帧检测和多视差3-D定位,提出基于eye-in-hand单目相机的实时视觉感知框架,获取多个采摘目标的3-D位置和尺寸,用于机器人采摘。同时,本文搭建机器人采摘的硬件系统,利用JAKA机械臂和三指灵巧手作为采摘执行器,完成果实采摘实验。经过实时性分析,该框架的计算帧率大约为25FPS,具有较高实时性。同时,该框架的果实中心定位误差大约为26mm,直径误差为9mm。将该视觉框架用于苹果采摘,20次实验下其成功率为70%。 综上所述,本文对机器人采摘任务下的跨域目标检测和多目标跟踪方法进行深入研究,旨在解决农业场景下特征变化多和遮挡密特点给不同视觉任务带来的性能退化问题,并在多个场景下进行测试,均得到较高的性能提升。并结合视觉研究内容完成机器人果实采摘。同时,本文以苹果为主要实验对象,贯穿跨域检测、跟踪和采摘任务。