首页|Bi-LSTM和CRF结合的藏文分词方法研究

Bi-LSTM和CRF结合的藏文分词方法研究

扫码查看
本研究旨在探索基于双向长短时记忆网络(Bi-LSTM)和条件随机场(CRF)的藏语分词方法.研究评估了 Bi-LSTM和Bi-LSTM结合CRF模型在藏文分词任务中的性能,针对未登录音节词进行了模型优化.研究还将分词系统应用到CCMT2023藏汉机器翻译任务中,并进行了评估.实验结果表明,本文提出的分词系统在藏语分词任务中具有良好的性能,并且在藏汉机器翻译任务上有效提升了性能.
Research on Tibetan Word Segmentation Method Combining Bi-LSTM and CRF
The goal of this study is to explore a Tibetan word segmentation method based on Bi-di-rectional Long-Short-Term Memory network(Bi-LSTM)and Conditional Random Field(CRF).Firstly,the performance of word segmentation efficiency of Bi-LSTM and Bi-LSTM fusion CRF model is evaluated,and then the model is optimized for out-of-vocabulary syllables.Then,the word seg-mentation system is applied to CCMT2023 Tibetan-Chinese machine translation task and evaluated its translation performance.Experimental results show that the proposed the word segmentation sys-tem performs well in Tibetan word segmentation task,and can effectively improve the performance of Tibetan-Chinese machine translation task.

Tibetan segmentationLSTMCRFundocumented syllable characters

格桑加措、阿卜杜热西提·热合曼、尼玛扎西、面加、肖桐、朱靖波

展开 >

西藏大学藏文信息技术教育部工程研究中心,西藏拉萨 850000

东北大学自然语言处理实验室,辽宁沈阳 110000

西藏藏医药大学,西藏拉萨 850000

藏语分词 LSTM CRF 未登录音节字

新一代人工智能国家科技重大专项国家自然科学基金辽宁省自然科学基金云南省科技厅科技计划项目中央高校基本科研业务费项目中央高校基本科研业务费项目中央高校基本科研业务费项目111引智基地

2022ZD0116101622760562022-KF-16-01202103AA080015N2216016N2216001N2216002B16009

2024

中央民族大学学报(自然科学版)
中央民族大学

中央民族大学学报(自然科学版)

影响因子:0.462
ISSN:1005-8036
年,卷(期):2024.33(3)