首页|基于词性标注规则的马铃薯文献信息抽取方法

基于词性标注规则的马铃薯文献信息抽取方法

扫码查看
马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,文献格式为PDF文档,人工整理文献内的种质资源数据费时费力.为了快速、准确地从育种文献中提取种质资源数据,使用基于词性标注规则和预设词的方法抽取文献数据.对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(optical character recognition,OCR)获取文本内容.采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用 自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据.对115篇文献的1 490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97%,召回率为99.72%,F为90.58%,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础.
A Method of Potato Breeding Literature Information Extraction Based on Part of Speech Tagging Rules

potatopart-of-speech tagginginformation extractionnatural language processing

王腾阳、赵小丹、胡林

展开 >

中国农业科学院,农业信息研究所,北京 100081

马铃薯 词性标注 信息抽取 自然语言处理

内蒙古自治区科技重大专项

2021SZD0026

2023

科学技术与工程
中国技术经济学会

科学技术与工程

CSTPCD北大核心
影响因子:0.338
ISSN:1671-1815
年,卷(期):2023.23(27)
  • 1
  • 6