基于语义拼写理解和门控注意力机制的不良言论检测
OFFENSIVE LANGUAGE DETECTION BASED ON SEMANTIC SPELLING COMPREHENSION AND GATED ATTENTION MECHANISM
周险兵 1樊小超 2杨勇 1刁宇峰 3任鸽1
作者信息
- 1. 新疆师范大学计算机科学技术学院 新疆乌鲁木齐 830054
- 2. 新疆师范大学计算机科学技术学院 新疆乌鲁木齐 830054;大连理工大学计算机科学与技术学院 辽宁大连 116024
- 3. 内蒙古民族大学计算机科学与技术学院 内蒙古通辽 028000
- 折叠
摘要
如何自动检测网络传播的不良言论信息是自然语言处理研究领域的热门研究内容之一.针对不良言论中语义表达和拼写习惯的特点,提出一种基于语义拼写理解和门控注意力机制的不良言论检测方法.该方法采用 自注意力机制获取文本的语义特征,采用卷积神经网络提取文本的拼写特征,采用前期特征融合和门控注意力机制相结合的方式融合语义和拼写特征.在两个公共数据集上的实验结果表明,提出的模型能够有效地提取不良言论的语义特征,提高不良言论检测的性能.
Abstract
How to automatically detect offensive language information spread on the Internet is one of the hot research contents in the field of natural language processing.Aiming at the characteristics of semantic expression and spelling habits in offensive language,this paper proposes a offensive language detection method based on semantic spelling understanding and gating attention mechanism.This method used a self-attention mechanism to obtain the semantic features of the text,used a convolutional neural network to extract the spelling features of the text,and used a combination of early feature fusion and gated attention mechanism to fuse semantic and spelling features.Experimental results on two public data sets show that the proposed model can effectively extract the semantic features of offensive language and improve the performance of offensive language detection.
关键词
不良言论检测/语义拼写理解/自注意力机制/早期融合/门控注意力机制Key words
Offensive language detection/Semantic spelling comprehension/Self-Attention mechanism/Early fusion/Gated attention mechanism引用本文复制引用
基金项目
国家自然科学基金项目(62066044)
国家自然科学基金青年科学基金项目(62006130)
新疆师范大学博士科研启动基金项目(XJNUBS1609)
新疆维吾尔自治区高等学校科研计划项目(XJEDU2016S066)
出版年
2024