首页|面向灾难性遗忘的小样本增量学习方法研究

面向灾难性遗忘的小样本增量学习方法研究

李歌

面向灾难性遗忘的小样本增量学习方法研究

李歌1
扫码查看

作者信息

  • 1. 中国矿业大学(江苏)
  • 折叠

摘要

得益于深度学习的快速发展,神经网络在自然语言处理、图像分类、目标跟踪等领域得到了广泛应用,而灾难性遗忘一直是神经网络研究领域面临的重要问题之一。小样本增量学习伴随着深度学习发展而来,同样也会面临灾难性遗忘问题。本文从卷积神经网络分类器和训练过程中隐含的时间序列关系两个方面入手,针对性地处理灾难性遗忘问题。首先,引入了多跳图注意力模块,提出了基于多跳图注意力的小样本增量学习算法。然后,利用长短期记忆网络(LongShortTermMemory,LSTM)来建模增量学习过程中的时间序列关系,显式挖掘局部上下文信息,提出了基于LSTM特征记忆的小样本增量学习算法。本文的主要工作如下: 1,针对单跳图注意力网络只能挖掘相邻节点信息的问题,提出了基于多跳图注意力的小样本增量学习算法去显式地探索全局上下文信息。从注意力聚合的角度改进了注意力得分的计算方式,从而使得注意力网络能够充分挖掘和利用上下文信息。然后,在此基础上提出了使用多跳图注意力的小样本增量学习算法,将特征信息映射到拓扑空间中进行节点创建、更新,并使用此算法来更新原始网络中的分类器。在CIFAR100和CUB200数据集上进行了5-way5-shot等场景的验证实验,结果表明所提算法充分考虑了多跳结构来建模全局上下文信息的关键性作用,获得了较高的准确率和较低的遗忘率。 2,为了增强局部上下文特征的关联,提出了基于LSTM的特征记忆算法。LSTM引入的“门”机制,能够通过利用于上一会话状态与当前会话状态之间的局部特征信息,显式地挖掘局部上下文信息。将上一会话状态中的特征信息和当前会话状态中的特征信息送入LSTM,获得状态叠加后的新的特征信息。接着,使用粗标记信息强化增量过程中LSTM记忆的特征。在CIFAR100和CUB200数据集上进行了5-way5-shot等场景的实验验证,结果表明所提算法有效地利用了局部上下文信息,获得了较好的分类效果和较低的遗忘率。

关键词

小样本增量学习/灾难性遗忘/多跳图/长短期记忆网络/粗标记

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

许新征

学位年度

2023

学位授予单位

中国矿业大学(江苏)

语种

中文

中图分类号

TP
段落导航相关论文