首页|基于深层语言模型的古汉语知识表示及自动断句研究

基于深层语言模型的古汉语知识表示及自动断句研究

扫码查看
古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求.该文提出了一种基于深层语言模型(BERT)古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型.在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上.在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法提升幅度达到12%以上.实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码.在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果.

Renfen Hu、胡韧奋、Shen Li、李绅、Yuchen Zhu、诸雨辰

展开 >

北京师范大学中文信息处理研究所,北京市 100875

深度好奇,北京市 100083

北京师范大学文学院,北京市 100875

古汉语 知识表示 自动断句 深层语言模型 条件随机场 卷积神经网络

中国中文信息学会

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会

2019-10-18

昆明

第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集

1-8

2019