信息技术与信息化2024,Issue(2) :103-108.DOI:10.3969/j.issn.1672-9528.2024.02.022

一种基于预训练模型掩码Aspect术语的数据增强方法

石晓瑞
信息技术与信息化2024,Issue(2) :103-108.DOI:10.3969/j.issn.1672-9528.2024.02.022

一种基于预训练模型掩码Aspect术语的数据增强方法

石晓瑞1
扫码查看

作者信息

  • 1. 北京安融汇达科技有限公司 北京 100872
  • 折叠

摘要

数据增强是解决低资源场景下数据稀缺问题的有效方案.然而,当应用于诸如方面术语提取(ATE)之类的词级别任务时,数据增强方法通常会遭受词标签不对齐的问题,从而导致效果不理想.对此提出了掩码方面语言建模(MALM)作为ATE 的新型数据增强框架.为了缓解标记、标签错位问题,将ATE标签显式注入到句子上下文中,由此经过微调的MALM能够显式地调整标签信息来预测掩码的方面标记.因此,MALM可帮助生成具有新方面的高质量增强数据,提供丰富的层面方面知识.此外,提出了一个两阶段的训练策略来整合这些合成数据.通过实验,证明了MALM在两个ATE 数据集上的有效性,相比基线方法,所提出的MALM有显著的性能改进.

关键词

数据增强/Aspect术语提取/预训练模型/掩码方面语言建模/MALM方法

引用本文复制引用

出版年

2024
信息技术与信息化
山东电子学会

信息技术与信息化

影响因子:0.29
ISSN:1672-9528
参考文献量18
段落导航相关论文