协同注意力机制和门控机制的自动事实核查方法研究

丛眸¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

自动事实核查方法的提出，是为了应对假新闻的广泛传播，帮助广大用户更准确地评估信息的真实性，其主要包含两个连续的任务：索赔检测任务和索赔验证任务。然而，由于假新闻数据迭代速度过快，导致现有的自动事实核查方法中待分析的数据质量参差不齐，存在着受限于长度的输入数据、数据不平衡、噪声干扰等问题，以至于过度依赖于经典的注意力机制模型架构很难对不同数据进行针对性的分析。本文针对上述问题展开研究，通过协同整合注意力机制和门控机制，提出了一个自动事实核查方法，涉及索赔检测任务和索赔验证任务，具体工作如下：（1）针对索赔检测任务，本文提出了基于BART和门控交互的生成式摘要方法 GURT，旨在从文本中辨识出具备事实性的索赔。现有的生成式摘要任务在预训练阶段，对过长的输入数据往往采取简单的截断操作，为了防止模型丢失数据中有价值的信息，本文在预训练阶段根据回复时间和情感词典的得分排序选择相对有影响力的数据，并利用序列到序列的模型 BART 进行训练。最后，本文对BART输出的两个不同的训练集设计了基于门控机制的语义交互模块GSIM，聚合不同索引序列之间存在的冲突和相似的语义表示。此外，在索赔检测任务中，存在着较难提取隐式情感语句中情感特征信息的问题，为了帮助模型更准确地检测索赔范围，本文引入了由人工事实核查人员设计的识别索赔指南。本文在 Snopes、Mocheg、MultiFC和PolitiFact数据集上将GURT与基于注意力机制模型和主流的集成模型进行了对比实验以及消融实验和可视化分析， GURT 在四个数据集上均有良好的表现，准确率提高了8.2%-10%。（2）针对索赔验证任务，本文提出了基于层级粒度注意力与卷积门控机制的并行可调节方法 DRIVE，旨在对索赔检测任务生成的特定索赔进行真实性的核实。针对现有的索赔验证任务中基于注意力机制模型仅仅注重于捕捉全局依赖关系的现象，本文利用由注意力机制和卷积门控网络组成的双分支架构同时捕获特征序列中的全局依赖关系和局部依赖关系，对各个分支学习到的权重分析注意力机制在不同层中的重要性。此外，针对假新闻数据集存在着正负样本严重失衡和噪声干扰的问题，本文提出了一个可调整的权重重采样策略，并对模型设计了抗噪声干扰实验。为了验证模型的有效性，本文在 Mocheg、Snopes、PolitiFact、MultiFC和Sarcasm Detection数据集上将DRIVE与主流的注意力机制模型进行了对比实验。实验结果表明，DRIVE 的准确率比基于注意力机制的经典模型高出8%-13%，在五个数据集上均能达到先进的结果。

关键词

自动事实核查方法/索赔检测任务/索赔验证任务/注意力机制/门控机制

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

彭涛

学位年度

2024

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航