计算机科学2021,Vol.48Issue(3) :220-226.DOI:10.11896/jsjkx.200200061

面向铁路文本分类的字符级特征提取方法

Character-level Feature Extraction Method for Railway Text Classification

鲁博仁 胡世哲 娄铮铮 叶阳东
计算机科学2021,Vol.48Issue(3) :220-226.DOI:10.11896/jsjkx.200200061

面向铁路文本分类的字符级特征提取方法

Character-level Feature Extraction Method for Railway Text Classification

鲁博仁 1胡世哲 1娄铮铮 1叶阳东1
扫码查看

作者信息

  • 1. 郑州大学信息工程学院 郑州 450001
  • 折叠

摘要

铁路文本分类对于我国铁路事业的发展具有重要的实用意义.现有的中文文本特征提取方法依赖于事先对文本的分词处理,然而面向铁路文本数据进行分词的准确率不高,导致铁路文本的特征提取存在语义理解不充分、特征获取不全面等局限性.针对以上问题,提出了一种字符级特征提取方法CLW2V(Character Level-Word2Vec),有效地解决了铁路文本中专业词汇丰富且复杂度高所导致的问题.与基于词汇特征的TF-IDF和Word2Vec方法相比,基于字符特征的CLW2V方法能够提取更为精细的文本特征,解决了传统方法依赖事先分词而导致的特征提取效果不佳的问题.在铁路安监发牌数据集上进行的实验验证表明,面向铁路文本分类的CLW2V特征提取方法优于传统的依赖分词的TF-IDF和Word2Vec方法.

关键词

铁路短文本/字符级数据/特征提取方法/文本分类

引用本文复制引用

基金项目

国家重点研发计划课题基金(2018YFB1201403)

国家自然科学青年基金(61502434)

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量2
参考文献量6
段落导航相关论文