面向铁路文本分类的字符级特征提取方法

Character-level Feature Extraction Method for Railway Text Classification

鲁博仁 ¹胡世哲 ¹娄铮铮 ¹叶阳东¹

扫码查看

作者信息

1. 郑州大学信息工程学院郑州 450001
折叠

摘要

铁路文本分类对于我国铁路事业的发展具有重要的实用意义.现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不高,导致铁路文本的特征提取存在语义理解不充分、特征获取不全面等局限性.针对以上问题,提出了一种字符级特征提取方法CLW2V(Character Level-Word2Vec),有效地解决了铁路文本中专业词汇丰富且复杂度高所导致的问题.与基于词汇特征的TF-IDF和Word2Vec方法相比,基于字符特征的CLW2V方法能够提取更为精细的文本特征,解决了传统方法依赖事先分词而导致的特征提取效果不佳的问题.在铁路安监发牌数据集上进行的实验验证表明,面向铁路文本分类的CLW2V特征提取方法优于传统的依赖分词的TF-IDF和Word2Vec方法.

关键词

铁路短文本/字符级数据/特征提取方法/文本分类

引用本文复制引用

基金项目

国家重点研发计划课题基金(2018YFB1201403)

国家自然科学青年基金(61502434)

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

被引量2

参考文献量6

段落导航