南方农业学报2022,Vol.53Issue(7) :2068-2076.DOI:10.3969/j.issn.2095-1191.2022.07.031

基于BERT字向量和TextCNN的农业问句分类模型分析

Agricultural question classification model based on BERT word vector and TextCNN

鲍彤 罗瑞 郭婷 贵淑婷 任妮
南方农业学报2022,Vol.53Issue(7) :2068-2076.DOI:10.3969/j.issn.2095-1191.2022.07.031

基于BERT字向量和TextCNN的农业问句分类模型分析

Agricultural question classification model based on BERT word vector and TextCNN

鲍彤 1罗瑞 2郭婷 2贵淑婷 2任妮1
扫码查看

作者信息

  • 1. 江苏省农业科学院信息中心,江苏南京 210014;江苏大学科技信息研究所,江苏镇江 212013
  • 2. 江苏省农业科学院信息中心,江苏南京 210014
  • 折叠

摘要

[目的]研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑.[方法]通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库.采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类.[结果]在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32%,相比Word2vec字向量提高2.1%.在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22%和93.32%,均优于其他模型.在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06%、90.56%、95.04%和85.55%,均优于其他深度学习模型.超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00%以上,可满足农业智能问答系统的问句分类需求.[建议]通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式.

关键词

农业问句/智能问答系统/问句分类/预训练语言模型(BERT)/文本卷积神经网络

引用本文复制引用

基金项目

出版年

2022
南方农业学报
广西壮族自治区农业科学院

南方农业学报

CSTPCDCSCD北大核心
影响因子:0.83
ISSN:2095-1191
被引量4
参考文献量23
段落导航相关论文