基于深度学习的新闻文本分类方法研究

葛庆霞¹

扫码查看

作者信息

1. 郑州轻工业大学
折叠

摘要

当今社会，信息量不断增长，新闻信息也越来越复杂多样，对于新闻文本分类任务而言，正确分类的意义非常重大。高效准确的对新闻进行分类可以帮助用户更好地了解事件的真实情况和背景，同时也可以帮助用户更快速地获取自己感兴趣的信息。本文利用深度学习技术对新闻文本进行分类，相比传统的机器学习算法，深度学习在文本分类任务中具有明显优势，它能够更好地处理文本数据中的非线性关系，并且可以自动地学习到更复杂的特征表示。因此，本文将深度学习应用于新闻文本分类领域，提高了分类准确性，主要工作内容如下：（1）对现有深度学习文本分类方法进行综述和分析，设计并实现新的文本分类算法。卷积神经网络（ConvolutionalNeuralNetwork，CNN）可以提取文本的局部特征但是不能捕获文本的结构信息以及句子的语义关系，且单一的CNN模型分类准确率较低，而GRU可以有效提取文本的语义信息和全局结构关系。针对这个问题，本文结合卷积神经网络（CNN）和门控循环单元网络（GatedRecurrentUnitNetwork，GRU）的优点，提出一种基于GRU_CNN混合神经网络模型的文本分类方法。并通过实验证明，相比于单个的CNN、LSTM和GRU等模型，本文提出的GRU_CNN混合模型的分类效果更好，准确率更高。（2）针对卷积神经网络中使用Softmax来进行回归分析时导致的准确度不高的问题，在GRU_CNN模型的基础上提出一种融合XGBoost分类器的GRU_CNN分类模型。通过实验证明，该模型进一步提高了分类精度，可以达到更好的分类效果，为新闻文本分类领域提供了一定的应用价值。在实验过程中，进行多组对比实验来验证模型的有效性，为了验证引入XGBoost分类器进行分类的有效性，选择了多个模型来做对比实验，例如：CNN-SVM、CNN-NB等模型。为了避免模型训练过程中出现过拟合、梯度消失和梯度爆炸等问题，在模型中设计了有效的Adam优化算法，并引入dropout层以减轻过拟合现象。本文设计的GRU_CNN模型在Cnews新闻数据集上的分类准确率为97.86%，进一步改进的GRU_CNN_XGBoost模型的分类准确率达到了98.92%。

关键词

文本分类/深度学习/卷积神经网络/XGBoost分类器

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

邓璐娟

学位年度

2023

学位授予单位

郑州轻工业大学

语种

中文

中图分类号

段落导航