摘要
近年来,随着信息技术的发展,使用深度神经网络识别中文修辞手法成为可能,比喻句作为语文教学阶段最常见的修辞手法,利用深度学习的方法进行中文比喻句的识别研究对于语言理解、对话系统、文学研究和在线教育等领域都具有重要的意义。本文以比喻修辞手法中的明喻类型为主要研究对象,针对明喻句的识别和明喻句本体喻体的抽取展开分析和研究,设计并完成中文明喻数据库系统,主要工作如下: (1)针对现有明喻识别研究中,由于存在一词多义问题,模型不能获得正确的文本语义表征向量,影响明喻识别任务的性能,提出了一种基于对比学习的明喻修辞识别算法,在不进行繁琐的特征工程和耗费额外的人工标注成本的情况下,通过使用BERT预训练模型作为特征提取器,结合对比学习的预训练方式提升明喻句识别性能。实验结果表明,在公开的中文明喻数据集CSR上,所提方法的性能优于现有的明喻识别SOTA,在精确率上提高了2.38%。 (2)为了抽取出已识别的明喻句中的本体和喻体,本文通过对CSR数据集中的词语词性进行分析,本文提出了一种基于BERT的明喻成分抽取算法,结合词语的词性信息,在输入端丰富数据特征,帮助模型提高明喻句的本体和喻体抽取性能。该方法在中文明喻数据集CSR上进行实验,F1值达到了78.52%。 (3)结合本文算法,设计并实现了中文明喻数据库系统,进行明喻修辞识别,并通过系统对用户推荐丰富的明喻句,拓展用户的比喻知识积累,激发用户的语言创造力,同时系统会使用IOBES序列标注法,对新入库的明喻句进行自动标注,极大地节省人工标注成本,所标记数据用于明喻识别任务和明喻成分抽取任务的进一步研究,一定程度上为中文明喻数据集的建立做出贡献,最后,对该系统功能进行测试评价,结果表明系统功能满足设计需求。