计算机技术与发展2022,Vol.32Issue(2) :154-160.DOI:10.3969/j.issn.1673-629X.2022.02.025

煤矿事故案例命名实体识别方法研究

Combined ALBERT for Named Entity Recognition in Coal Mine Accident Cases

潘理虎 赵彭彭 龚大立 闫慧敏 张英俊
计算机技术与发展2022,Vol.32Issue(2) :154-160.DOI:10.3969/j.issn.1673-629X.2022.02.025

煤矿事故案例命名实体识别方法研究

Combined ALBERT for Named Entity Recognition in Coal Mine Accident Cases

潘理虎 1赵彭彭 1龚大立 2闫慧敏 3张英俊1
扫码查看

作者信息

  • 1. 太原科技大学 计算机科学与技术学院,山西 太原030024
  • 2. 精英数智科技股份有限公司,山西 太原 030006
  • 3. 中国科学院 地理科学与资源研究所,北京 100101
  • 折叠

摘要

命名实体识别是自然语言处理的一项重要技术,也是问答系统、句法分析、机器翻译等下游工作的基本任务.煤矿事故案例命名实体识别是构建煤矿安全生产知识图谱的关键环节,其效率和准确率直接影响后期知识图谱的质量.针对传统命名实体识别方法训练时间长、识别率低的问题及煤矿事故案例的描述特点,以自构的标注语料集CoalMineCorpus为研究对象,基于深度学习算法,该文提出了一种结合ALBERT和迭代扩张卷积的命名实体识别方法.首先引入ALBERT预训练语言模型生成字向量,提升传统字向量的文本表示能力;然后将字向量序列输入改进的卷积神经网络中,其中卷积层采用四个三层结构的迭代扩张卷积模块完成特征抽取,采用RELU激活函数,取消池化层避免特征损失,使用Dropout和自适应矩估计对模型进行优化;最后使用条件随机场对标签序列结果进行合法性约束.实验结果表明,该模型在较大提升准确率、召回率和F值的同时可以有效缩短训练时间,可用于煤矿事故领域的命名实体识别工作.

关键词

煤矿安全生产知识图谱/命名实体识别/ALBERT/迭代扩张卷积/Dropout/自适应矩估计

引用本文复制引用

基金项目

中国科学院战略性先导科技专项(XDA20010000)

山西省自然科学基金面上项目(201901D111258)

出版年

2022
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量9
段落导航相关论文