首页|基于注意力机制的序列建模与轻量化研究

基于注意力机制的序列建模与轻量化研究

谢镇域

基于注意力机制的序列建模与轻量化研究

谢镇域1
扫码查看

作者信息

  • 1. 华北电力大学(保定)
  • 折叠

摘要

随着大数据时代的到来,人工对数据进行逐条分析难以实现,这使得人们迫切地需要对信息进行智能分析、归类。序列数据(如文字、时序数据等)作为大数据中举足轻重的一员,其智能化分析、归类的建模研究意义重大。随着深度神经网络的发展,序列问题的模型精准度得到了显著地提升,但超长序列的长距离依赖问题仍得不到完美的解决。近年来,基于注意力机制的神经网络通过重点关注序列中的部分特征、减少无用特征带来的噪声有效地解决了长距离依赖问题。然而在解决长距离依赖问题和追求高精准度模型的同时,神经网络模型的参数规模急剧膨胀。参数总量上亿的神经网络模型比比皆是,这对模型的商业化应用带来了很大压力。 本文针对序列任务中的多对一模型进行研究。首先设计了一种基于起始标记的全局注意力分类器(GAC),通过在序列中插入起始标记,利用起始标记计算不同的分类的注意力表示,可以有效捕捉长距离的依赖,使模型获得更好的收敛效果。其次,利用GAC改进了双向长短期记忆网络(Bi-LSTM)和仅编码器Transformer(OE-Transformer)模型,并设计了两种不同难度的情感分析任务,用来对比无注意力机制的分类模型和添加了注意力的分类模型之间的性能差异。实验表明添加了注意力机制的模型在困难的任务上明显具有更好的性能,其中融合了GAC的OE-Transformer表现最佳。最后,本文还对知识蒸馏流程进行了优化,分别将融合了GAC的Bi-LSTM和OE-Transformer作为学生网络和教师网络。利用训练好的教师网络对数据集进行重新标记、打包,使得蒸馏训练的过程只需要学生网络的参与,大大减少了硬件压力。实验证明,合理地利用知识蒸馏技术,可以在有效地解决长距离依赖及提升模型精准度的同时,使模型参数规模保持在较低的水平。

关键词

大数据/序列建模/轻量化/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

王德文/翟清剑

学位年度

2021

学位授予单位

华北电力大学(保定)

语种

中文

中图分类号

TP
段落导航相关论文