基于BERT字向量和TextCNN的农业问句分类模型分析

Agricultural question classification model based on BERT word vector and TextCNN

鲍彤 ¹罗瑞 ²郭婷 ²贵淑婷 ²任妮¹

扫码查看

作者信息

1. 江苏省农业科学院信息中心,江苏南京 210014;江苏大学科技信息研究所,江苏镇江 212013
2. 江苏省农业科学院信息中心,江苏南京 210014
折叠

摘要

[目的]研究不同词向量和深度学习模型组合对农业问句分类结果的影响,为构建农业智能问答系统提供技术支撑.[方法]通过爬虫获取农业种植网等网站的问答数据,选择20000条问句进行人工标注,构建农业问句分类语料库.采用BERT对农业问句进行字符编码,利用文本卷积神经网络(TextCNN)提取问句高维度特征对农业问句进行分类.[结果]在词向量对比实验中,BERT字向量与TextCNN结合时农业问句分类F1值达93.32％,相比Word2vec字向量提高2.1％.在深度学习模型的分类精度对比方面,TextCNN与Word2vec和BERT字向量结合的F1值分别达91.22％和93.32％,均优于其他模型.在农业问句的细分试验中,BERT-TextCNN在栽培技术、田间管理、土肥水管理和其他4个类别中分类F1值分别为86.06％、90.56％、95.04％和85.55％,均优于其他深度学习模型.超参数设置方面,BERT-TextCNN农业问句分类模型卷积核大小设为[3,4,5]、学习率设为5e-5、迭代次数设为5时效果最优,该模型在数据样本不均衡的情况下,对于农业问句的平均分类准确率依然能达93.00％以上,可满足农业智能问答系统的问句分类需求.[建议]通过阿里NLP等开源平台提升数据标注质量;在分类过程中补充词频和文档特征,提高模型分类精度;农业相关政府职能部门加强合作,积极探索农业技术数字化推广和服务新模式.

关键词

农业问句/智能问答系统/问句分类/预训练语言模型(BERT)/文本卷积神经网络

引用本文复制引用

基金项目

出版年

2022

南方农业学报

广西壮族自治区农业科学院

南方农业学报

CSTPCDCSCD北大核心

影响因子：0.83

ISSN：2095-1191

被引量4

参考文献量23

段落导航