基于BERT和提示学习的网络暴力言论识别研究

李清¹

扫码查看

作者信息

1. 重庆师范大学
折叠

摘要

近年来，伴随着诸如微博、抖音等社交媒体的快速崛起，网络社交已经深深融入人们日常生活之中。这些社交平台不仅极大地丰富了人们的生活内容，也拓宽了人们的社交圈子。然而，网络暴力等问题也日益凸显。一些用户在平台上散布恶意言论，侵犯他人权益，给受害者带来了巨大的心理压力，甚至引发极端自杀事件，严重威胁社会公共安全。因此，治理网络暴力已经成为社会各界共同关注的焦点。为了有效预防和治理网络暴力，中央网信办发布了《关于切实加强网络暴力治理的通知》，最高人民检察院也出台了相关法律法规，共同致力于营造一个健康、安全的网络环境。早期，社交媒体平台普遍采用简单的词汇过滤和屏蔽策略来应对网络暴力言论问题。然而，由于用户评论数量庞大且内容多样，这种方法成本高昂，且效果有限。随着深度学习方法的不断进步，越来越多的学者开始探索利用这一方法来自动化识别网络暴力言论，从而提高监测效率。目前的研究主要基于传统的文本分类模型，这些模型往往仅依靠关键词匹配或特征提取，忽略了文本的隐含情感和语境信息，同时也对数据集规模存在较强的依赖性。此外，现有的网络暴力言论识别研究主要聚焦于英文数据集，针对中文数据集的研究相对不足。基于此，本文提出了一种基于BERT和提示学习机制的网络暴力言论识别模型，旨在有效提升中文网络暴力言论检测的准确性，为网络暴力的预防和治理提供更加有效的技术支持。本文的研究工作包括：（1）构建中文网络暴力言论数据集。本文选择了抖音和微博平台上的三个备受关注的社会事件，利用八爪鱼爬虫软件爬取微博热搜话题下一级评论和抖音热搜话题下一级和二级评论，并经过数据清洗和标注，构建了中文网络暴力言论数据集，其中包含1190条网络暴力言论和1180条非网络暴力言论，共计2370条。（2）构建基于BERT和提示学习机制的网络暴力言论识别模型。该模型将离散型模板与连续型模板相结合，形成了集成提示模板，通过实例引导的提示学习机制，模型能够动态地强化特定情境与提示之间的关联，从而在有限标注样本的情况下实现高效学习，极大地降低了对大型标注数据集的依赖。此外，模型利用BERT的强大上下文理解能力与掩码预测机制，进一步提升了模型在复杂多变的语境中识别网络暴力言论的精确度。本文所提出的模型在识别网络暴力言论方面取得了有效成果，其F1分数达到了91.97%，准确率达到了92.45%。相较于常用的传统机器学习方法、深度学习方法以及结合预训练语言模型的深度学习方法，该模型在分类性能上实现了一定程度的提升，验证了所提模型在有限标注样本上的有效性。本研究不仅为提高网络暴力言论识别的准确度提供了新的思路，也为自然语言处理领域的其他任务提供了有价值的参考和借鉴，对于促进网络空间的健康发展具有重要意义。

关键词

网络暴力/言论识别/BERT模型/提示学习

引用本文复制引用

授予学位

硕士

学科专业

图书情报

导师

曾江峰

学位年度

2024

学位授予单位

华中师范大学

语种

中文

中图分类号

段落导航