摘要
中华典籍是中国的历史文化宝库,也是重要的文化知识载体。承载着中国的古老智慧。在漫长的历史发展进程中不断丰富发展,最终形成了具有中华民族特色的文化宝藏。“惟殷先人,有册有典”,是中国数千年文明的见证。中华典籍种类繁多,数量庞大。全方位记录了中国古代的人文历史、社会生活、风俗习惯,以及不同时期的思想政治风貌并对今天的中国有着持久而深远的影响。 许多中华典籍例如《红楼梦》、《三国演义》等包含了丰富的人物关系,人物关系作为作品的核心内容之一,在作品中扮演重要的角色。如何从这些中华典籍中快速准确的获取人物关系成为问题的关键。以往,往往依赖人工阅读查找,费时费力,随着自然语言处理技术的发展,为解决这些问题提供了技术支撑,然而自然语言处理应用大都集中应用于英语或现代汉语上,但在古汉语的应用上还比较匮乏。现有的人物关系抽取方法对中华典籍类语料的关系抽取精度较低。其次,人物关系不仅仅是个体之间,还包括不同的人物团体,然而目前人物关系抽取方法对人物关系的研究过于单一。仅能发现个体之间的关系,不能全面的对人物关系进行研究。为了解决这些问题,本文的主要的工作内容如下: 1.针对现有的人物关系抽取方法对中华典籍类语料的关系抽取精度较低,本文提出了基于深度学习的中华典籍人物关系抽取方法。相较于现有的人物关系抽取方法,该方法充分利用人物实体的有效信息并通过RBERT关系抽取模型和BiLSTM模型融合获得更好的语义特征。通过实验验证,该模型在人物关系抽取的F1值达到了0.92。充分说明模型的有效性。 2.针对现有的人物关系抽取方法对人物关系研究过于单一,仅能抽取人物个人之间的关系,而不能发现人物之间的团体关系。本文通过使用基于模块度的社团发现算法,发现中华典籍中潜在的不同人物社团。结合人物关系抽取的结果,利用图数据库Neo4j将人物关系可视化的展现出来。