首页|基于BERT的Base与Large版的领域命名实体识别研究

基于BERT的Base与Large版的领域命名实体识别研究

扫码查看
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛至92.37%和92.78%,但是在自定义的动物、动物疾病以及病虫害三个类别上未训练词的识别方面,Large版的F1值比Base版平均高6.25%,该模型在西藏畜牧业领域命名实体任务中表现出色并且BERT的Large版对长语句中的未训练词识别效果更好.
Research on Domain Named Entity Recognition Based on Base and Large Versions of BERT

孙浩、雒伟群、赵尔平、王伟、崔志远

展开 >

西藏民族大学信息工程学院 咸阳 712082

命名实体识别 BERT模型 BERT-BILSTM-CRF 西藏畜牧业领域

国家自然科学基金西藏自治区自然科学基金西藏自治区科技计划项目

61762082XZ2018ZRG-66XZ202001ZY0055G

2021

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2021.49(12)
  • 1
  • 7