摘要
棉花作为我国主要的经济作物之一,在生长发育的过程中往往会遭受到各种病虫害的侵扰,严重影响棉花的产量和品质。目前,棉花病虫害相关知识多存在于纸质书籍以及海量的网络数据中,导致棉花种植人员无法精准有效地获取到有用的信息。针对以上问题,为帮助棉花种植人员高效且准确地获取专业的病虫害防治知识,根据棉花病虫害知识数据的特点,研究棉花病虫害知识图谱的构建方法,并在其基础上搭建知识图谱可视化展示及知识问答系统。本研究在一定程度上有助于推动棉花病虫害防治信息化、智能化的发展。主要研究内容以及成果如下: (1)棉花病虫害知识图谱构建方法研究。针对目前还没有开源的棉花病虫害知识库,并且获取到的数据多为非结构化的文书格式等问题,本研究根据自底向上的知识图谱构建形式,设计了棉花病虫害知识图谱概念模式。通过采集书籍文献中的文本数据以及爬取权威网站中的半结构化数据形成原始语料库,使用BIO标注策略完成数据标注,构建了棉花病虫害命名实体识别数据集CDIPNER。提出了一种基于RoBERTa多特征融合的命名实体识别深度学习模型,将抽取得到的实体数据根据不同标签类别组成三元组数据。使用 Neo4j 图数据库存储,完成知识图谱的构建。通过实验表明, RoBERTa-BiLSTM-IDCNN-MHA-CRF模型在CDIPNER数据集上的精确率为96.60%,召回率为95.76%,F1值为96.18%,能有效地识别棉花病虫害命名实体。 (2)基于知识图谱的棉花病虫害知识问答方法研究。针对传统通过分词进行问句语义识别的自动问答方法结果不准确等问题,本研究设计了一种基于深度学习的棉花病虫害知识问答方法。针对棉花病害问句数据的匮乏以及问句长度短、包含特征少等问题,构建了棉花病虫害问句数据集CQCls,提出了一种基于ERNIE 及改进DPCNN的棉花病虫害问句意图分类模型,完成问句意图类别的获取。对于问句中的实体,使用上述命名实体识别模型完成实体抽取,通过计算余弦相似度得到最终实体。将问题三元组通过使用 Cypher 语句查询知识图谱获得最终问句答案。实验表明,本研究提出的问句意图分类模型在各类别问句的F1值均在95%以上,通过该方法获得的答案平均准确率达到84.67%。 (3)棉花病虫害可视化及知识问答系统的设计与实现。该系统的数据基础为棉花病虫害知识图谱,搭建技术为Django框架、html5等,主要实现知识图谱的检索及可视化展示、知识问答主要功能,知识问答模块使用前文提出的知识问答方法完成。该系统能帮助用户快速精准地获取到棉花病虫害防治信息,促进该领域智能化的发展。