基于词性标注规则的马铃薯文献信息抽取方法

扫码查看

原文链接

万方数据
维普

中文摘要：马铃薯育种领域积累有大量尚未结构化处理的育种文献文本,文献格式为PDF文档,人工整理文献内的种质资源数据费时费力.为了快速、准确地从育种文献中提取种质资源数据,使用基于词性标注规则和预设词的方法抽取文献数据.对于不能直接获取文档文本的情况,使用游程平滑算法和光学字符识别(optical character recognition,OCR)获取文本内容.采用用户可灵活建立的关键词库保存抽取项,通过正则表达式获取关键词所在语句,并利用自然语言处理工具对语句进行分词与词性标注,根据规则抽取目标词,同时采用基于关键词与预设词距离的信息抽取方法,实现将育种文献从自由文本转化为结构化数据.对115篇文献的1 490个抽取项进行信息抽取,实验表明,该方法的准确率为82.97％,召回率为99.72％,F为90.58％,能以较高的准确率和召回率对马铃薯育种文献种质资源进行抽取,可为构建马铃薯遗传育种数据库提供数据基础.

外文标题：A Method of Potato Breeding Literature Information Extraction Based on Part of Speech Tagging Rules

外文关键词：

potatopart-of-speech tagginginformation extractionnatural language processing

作者：

王腾阳、赵小丹、胡林

展开 >

作者单位：

中国农业科学院,农业信息研究所,北京 100081

关键词：

马铃薯词性标注信息抽取自然语言处理

基金：

内蒙古自治区科技重大专项

项目编号：

2021SZD0026

出版年：

2023

科学技术与工程

中国技术经济学会

科学技术与工程

CSTPCD北大核心

影响因子：0.338

ISSN：1671-1815

年,卷(期)：2023.23(27)

被引量1
参考文献量6