基于RoBerta-BiLstm-Attention模型的机器生成新闻检测

扫码查看

原文链接

NETL
NSTL
万方数据
维普

中文摘要：随着文本生成算法的快速发展,生成语句通顺、逻辑性强的新闻已经成为可能.但是人类检测机器生成新闻的能力是有限的,因此本文提出了RoBerta-BiLstm-Attention的检测框架,以实现机器生成新闻的自动检测.首先使用RoBerta的词嵌入表示新闻文本,RoBerta能很好的捕捉新闻的语义信息,提高词嵌入关联上下文的质量.然后将新闻的嵌入表示输入到BiLstm-Attention神经网络中.通过微调GPT2构建的机器生成新闻数据集进行了实验测试.实验表明本文提出的方法在检测解码策略是核采样和序列长度为125的机器生成新闻时,相比于目前最好的方法F1值和准确率都提升了近2％,召回率提升了5.56％.在检测解码策略是topK和序列长度为125的机器生成新闻时,无论是准确率和F1值都比目前最好的方法提高了4％左右.

外文标题：Machine-generated News Detection Based on RoBerta-BiLstm-Attention Model

作者：

徐宇、杨频

展开 >

作者单位：

四川大学网络空间安全学院,成都 610065

关键词：

文本生成机器生成假新闻检测框架

出版年：

2022

DOI：

10.3969/j.issn.1007-1423.2022.03.006