摘要
随着生活水平与生活压力的同步上升,公众的健康意识日益加强。近年来,一种传统养生方式——中药代茶饮在年轻群体中焕发新生,仅需选用适宜的中草药代茶冲泡饮用,便可调理身心从而改善体质,符合年轻人追求简单高效的保健方式,因此愈发受到人们的青睐,激发了人们获取相关资料的需求。然而代茶饮相关数据在互联网中分布零散,查询不便的现状导致知识利用率低下,针对这一问题,本文搭建了中药代茶饮知识问答系统,以便用户能快捷地获取代茶饮知识。本文研究内容如下: (1)针对代茶饮知识分散不成体系的问题,构建中药代茶饮知识图谱。本文通过爬虫脚本程序采集相关数据并加以清洗,使用相似度计算法将多源异构的数据融合为三元组数据,导入至Neo4j图数据库中完成知识图谱的构建。 (2)针对基线命名实体识别模型对中医实体识别表现不佳的问题,本文通过引入外部词典以在字符嵌入阶段融合词向量信息,并使用注意力机制动态调整词集权重来提高中医实体的识别效果。最终实验表明,较主流实体识别模型BERT-BiLSTM-CRF在自制的中医医案数据集上的F1值提升了3.89%,并通过消融实验证明了在小规模数据集中使用注意力机制调整词集权重的有效性。 (3)针对基于检索知识图谱的问答方法难处理复杂问题与大语言模型在中医领域的幻觉问题,本文提出一种知识图谱增强大语言模型的中药代茶饮知识问答方法,通过识别出用户问题中的实体提及,检索出知识图谱中相关实体与关系,并作为背景知识输入到大语言模型中以增强其在代茶饮方面的问答能力。通过对比问答结果证明了该方法的可行性。 (4)为便于用户获取与学习代茶饮知识,本文使用PyQt5框架设计了一个可视化的中药代茶饮知识问答系统。