首页|基于深度随机森林的商品类超短文本分类研究

基于深度随机森林的商品类超短文本分类研究

扫码查看
近年来,随着移动通信和信息技术的发展,网络上和实际应用场景中需要处理越来越多的长度不超过20字并且不带有辅助标签信息的超短文本数据.超短文本因其固有的词义多义性、文本特征极度稀疏、上下文明显缺失以及明辨语义困难等特点,如何对其进行有效地分类成为文本分类领域亟需解决的新问题.本文针对传统的短文本分类方法KNN和决策树在商品类超短文本上存在的由于特征稀少而导致分类器性能不佳的问题,提出了一种基于深度随机森林的商品类超短文本分类方法.该方法采用"分流"策略,利用外部知识库进行辅助,对知识库中存在明确类别的商品名直接确定其分类,对无法直接抽取类别的商品名,采用Word2vec对其在外部知识库中的描述进行向量化,并利用深度随机森林对向量进行分类,同时不断优化分类器直到训练集大小达到设定的阈值.实验结果表明,与传统的分类方法KNN和决策树相比,本文提出的分类方法在平均准确率上分别提高了22.78%和17.22%,平均召回率上分别提高了22.85%和15.23%.
Research on Classification of Commodity Ultra-Short Text Based on Deep Random Forest

牛振东、石鹏飞、朱一凡、张思凡

展开 >

北京理工大学计算机学院,北京 100081

超短文本分类 商品名称 深度随机森林

国家自然科学基金教育部-中国移动研究基金国家"九七三"计划

613701372016/2-72012CB720700

2021

北京理工大学学报
北京理工大学

北京理工大学学报

CSTPCDCSCD北大核心
影响因子:0.609
ISSN:1001-0645
年,卷(期):2021.41(12)
  • 3
  • 3