计算机科学2021,Vol.48Issue(10) :85-90.DOI:10.11896/jsjkx.200800115

基于数据增强的中文隐式篇章关系识别方法

Chinese Implicit Discourse Relation Recognition Based on Data Augmentation

王体爽 李培峰 朱巧明
计算机科学2021,Vol.48Issue(10) :85-90.DOI:10.11896/jsjkx.200800115

基于数据增强的中文隐式篇章关系识别方法

Chinese Implicit Discourse Relation Recognition Based on Data Augmentation

王体爽 1李培峰 2朱巧明
扫码查看

作者信息

  • 1. 苏州大学计算机科学与技术学院 江苏 苏州215006
  • 2. 江苏省计算机信息技术处理重点实验室 江苏 苏州215006
  • 折叠

摘要

由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务.文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声.首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别.在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高.

关键词

篇章分析/隐式篇章关系识别/主动学习/多任务学习

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
参考文献量1
段落导航相关论文