基于伪标注样本融合的领域分词方法

Domain Word Segmentation Method Based on Pseudo-labeled Sample Fusion

胡潇涛 ¹吴浩 ²杨亮 ¹顾小平 ¹宋弘²

扫码查看

作者信息

1. 四川轻化工大学自动化与信息工程学院,四川宜宾644000
2. 四川轻化工大学自动化与信息工程学院,四川宜宾644000;人工智能四川省重点实验室,四川宜宾644000
折叠

摘要

目前常用的神经网络分词模型,均需要大量的标注语料才可得到较好的泛化效果,但在面对领域标注语料稀缺的场景时,不能很好的适应.为解决这一问题,该文提出了一种基于伪标注样本融合的领域分词方法.该方法从领域专业辞典、电商及百科网站等数据源收集相关词汇组成领域词典,并从中随机抽取词汇生成伪标注样本.将伪标注样本与通用语料融合为训练样本,即将领域词典信息融合至模型训练当中.网络模型方面,该方法选用双向门限循环神经网络(Bidirectional Gate Recurrent Unit,BiGRU)作为主网络层,联合一维卷积(One-dimensional convolutional neural network,ConvlD)获取更多局部上下文信息,最终由条件随机场(Conditional random field,CRF)解码输出.通过实验证明,该文的方法可以有效提高模型的领域分词性能,与未使用伪样本的模型相比可提升F1值约6.67％.

关键词

领域词典/伪标注/样本融合/领域分词

引用本文复制引用

基金项目

人工智能四川省重点实验室项目(2019RYY01)

四川理工学院四川省院士(专家)工作站项目(2018YSGZZ04)

四川理工学院人才引进项目(2017RCL53)

企业信息化与物联网测控技术四川省高校重点实验室项目(2019WZY02)

出版年

2021

四川轻化工大学学报(自然科学版)

ISSN：

参考文献量19

段落导航