首页|基于互信息特征提取的食品安全信息新词识别

基于互信息特征提取的食品安全信息新词识别

New Words Recognition of Food Safety Information Based on Mutual Information Feature Extraction

扫码查看
新词识别是食品安全信息处理中的一个难点,新词是造成分词错误的重要原因.利用互信息提取新词特征并采用BP神经网络过滤垃圾词串以识别新词,以提高食品安全文本分词准确率.首先在互信息新词识别基础上,得到候选新词的多个统计量特征.然后对候选字串是否成词进行人工标记.最后将统计量特征和人工标记的新词作为训练样本,建立BP神经网络新词识别模型.在食品安全信息文本数据上进行实验,该方法可以取得新词识别准确率(0.806).结果表明基于互信息特征提取的BP神经网络新词识别模型可以很好地识别新词,降低词语误判,对于食品安全信息文本新词的识别和领域词典构建具有很好的应用价值.

马强、路阳、李菲

展开 >

黑龙江八一农垦大学电气与信息学院,大庆 163319

互信息 食品安全信息 新词识别 BP神经网络

中国博士后科学基金面上项目黑龙江省政府博士后资助经费黑龙江省博士后科研启动金资助项目黑龙江省自然科学基金重点项目黑龙江八一农垦大学校内培育重点课题黑龙江省自然科学基金联合引导项目

2016M591560LBH-Z15185LBH-Q17134ZD2019F001XA2016-05LH2020F042

2021

黑龙江八一农垦大学学报
黑龙江八一农垦大学

黑龙江八一农垦大学学报

影响因子:0.888
ISSN:1002-2090
年,卷(期):2021.33(2)
  • 1
  • 15