摘要
随着社交媒体和电子商务的发展,互联网上产生了大量的非结构化文本数据,因此,需要开发一个智能模型对其进行处理并从中提取有用的信息。文本分类在许多自然语言处理(NLP)应用中扮演着重要的角色,如情感分析、web搜索、垃圾邮件过滤和信息检索,在这些应用中,需要为一个文本序列指定一个或多个预定义的类别。 对于文本分类问题,传统的分类方法如基于统计和基于规则的方法需要人工设计特征和或标记词性,非常耗费时间和人工。在神经网络语言模型中,由于梯度消失问题,学习具有梯度下降的长期依赖关系是困难的。为了克服现有技术的局限性,近年来研究者开始增加网络的深度。然而,增加网络的深度意味着增加网络参数的数量,这使得网络的计算代价高昂。近年来,卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型被应用于语言建模,取得了比较显著的效果,但也存在各自网络的缺点和不足。本文提出了一个结合CNN,RNN与注意力机制的模型,以克服现有深度学习模型中存在的问题。使用一个无监督的神经语言模型word2vec来训练初始单词嵌入,然后由本文提出的深度学习网络进一步训练,使用卷积层提取文本的局部特征后输入双向长短期记忆层(BiLSTM)学习的文本的长期相关性即全局特征,最后经过注意力层为不同的特征分配权重以获得更重要的文本信息。实验结果表明,本文提出的方法在IMDB电影评论数据集和中文酒店评论数据集上与其他几种分类方法相比具有更好的效果。