首页|基于BERT和深度主动学习的农业新闻文本分类方法

基于BERT和深度主动学习的农业新闻文本分类方法

A Classification Method of Agricultural News Text Based on BERT and Deep Active Learning

扫码查看
[目的/意义]当前农业新闻分类研究中的模型训练以被动学习方式居多,普遍存在数据无法即时标注及标注成本过高的问题,对农业新闻分析工作也造成了一定阻碍.为解决该问题,运用主动学习或者深度主动学习技术从未标注数据中选择更有价值和代表性的数据进行人工标注并构建标注数据集,提升农业新闻挖掘工作效率和效果.[方法/过程]将文本分类常用的机器学习模型结合主动学习方法分析提升效果,以及使用BERT模型结合3种采样策略进行深度主动学习训练,在共19847条样本的新闻爬虫语料上以筛选出农业相关新闻为目标,通过每轮增加30个样本标注的迭代实验进行测试.[结果/结论]实验结果表明:主动学习方法的应用对各个模型的训练过程均有明显提升.其中BERT模型配合判别性主动学习采样函数,具有最优的新闻文本分类效果和最低的标注数据需求.

石运来、崔运鹏、杜志钢

展开 >

中国农业科学院农业信息研究所,北京 100081

淄博市数字农业农村发展中心,淄博 255000

深度学习 农业新闻 文本分类 BERT模型 主动学习

国家科技图书文献中心(NSTL)文献专项

2021XM45

2022

农业图书情报学报
中国农业科学院农业信息研究所

农业图书情报学报

影响因子:0.48
ISSN:1002-1248
年,卷(期):2022.34(8)
  • 1
  • 7