面向中朝跨语言文本分类的双语主题词嵌入模型的研究

Wang Qi ¹王琪 ¹TIAN Mingjie ¹田明杰 CUI Rongyi 崔荣一

扫码查看

作者信息

1. 延边大学计算机科学与技术学科智能信息处理研究室,吉林延吉 133002
折叠

摘要

日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单词的双语主题词嵌入表示;最后,将双语单词的双语主题词嵌入表示输入至传统文本分类器与深度学习文本分类器,进行模型的训练与分类预测.实验结果表明,在中朝跨语言文本分类任务中Accuracy达到了91.76％,达到了实际应用水平,并且根据双语单词间的相似度进行排序,该文提出的模型可以对一词多义单词的多个词义有很好的表示.

关键词

跨语言文本分类/双语词嵌入模型/主题模型

引用本文复制引用

主办单位

中国中文信息学会

会议名称

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

会议时间

2019-10-18

会议地点

昆明

会议母体文献

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集

页码

1-9

出版时间

2019

段落导航