首页|基于ESVM的科技政策文本标签分类研究

基于ESVM的科技政策文本标签分类研究

扫码查看
文本标签作为一种文本关键词,能够简化科技政策中有效信息的挖掘.本文从科技政策类别角度,将标签类别分为科技投入、知识产权、农村科技和税收四类,针对传统SVM 算法的缺点和标签数据不平衡的缺点,结合欧式距离思想,提出一种带有惩罚因子的ESVM 科技政策文本标签分类方法.最后,对比SVM 和ESVM 两种分类方法,验证了本文方法在处理科技政策文本标签数据上的有效性.
Research on text label classification of science and technology policy based on ESVM
Text label is a kind of text keywords,can simplify extraction of effective information from science and technology policy.For science and technology policy,this paper divides text label into four kinds,such as science and technology investment,intellectual property rights, rural science and technology,tax.Aimed at the shortcoming of the traditional SVM algorithm's label data unbalance,this paper provides a text label classification method of sci-ence and technology policy,w hich combines the Euclidean distance algorithm and ESVM algo-rithm with penalty factor.Finally,with comparing SVM and ESVM,the validity of the pro-pose method on science and technology policy text label is verified.

Text label classificationScience and technology policySVMUnbalanced data

吴峰、李银生、聂永川、范通让、赵文彬、张博

展开 >

河北省科学技术情报研究院,河北省科技信息处理实验室,河北石家庄 050021

石家庄铁道大学信息科学与技术学院,河北石家庄 050043

文本标签分类 科技政策 SVM 不平衡数据

国家自然科学基金河北省科技厅科技支撑计划项目河北省科技厅科技支撑计划项目

6137316017210113D179676334D

2018

河北省科学院学报
河北省科学院

河北省科学院学报

影响因子:0.176
ISSN:1001-9383
年,卷(期):2018.35(1)
  • 1
  • 4