首页|面向医疗知识图谱的对话系统关键技术研究

面向医疗知识图谱的对话系统关键技术研究

龚建全

面向医疗知识图谱的对话系统关键技术研究

龚建全1
扫码查看

作者信息

  • 1. 中南民族大学
  • 折叠

摘要

随着医疗数据的快速增长和不断积累,如何高效准确的获取和利用这些信息成为医疗领域面临的重要挑战之一。传统的搜索引擎检索方式存在答案不准确、信息冗余等问题,无法满足医务人员和患者快速获取医疗知识的需求。面向知识图谱的对话系统可以直接对用户问题进行解析,并通过检索知识图谱返回准确答案。然而,医疗领域的意图问句易混淆,准确率不高;采用实体关系抽取技术构建医疗知识图谱时普遍存在头实体重叠问题,严重影响了抽取的效果。 为普及医疗信息化、建设“智慧医疗”体系,本文通过研究面向医疗知识图谱的对话系统的关键技术,搭建医疗知识在线咨询平台,主要工作包含: (1)提出基于样本构造和孪生胶囊网络的意图识别算法。算法针对医疗领域意图类别粒度细、相似意图问句不易区分的问题,将传统的意图识别问题转换为问句与意图的相似度问题,生成问句对相似度样本和问句-意图对相似度样本。同时,提出融合孪生BERT模型和胶囊网络的孪生胶囊网络,通过将两类相似度样本分批训练,计算样本之间的余弦相似度,最后通过打分模块选取最高分作为意图识别结果,使模型充分学习到问句与意图之间的映射关系,从而提高了意图识别的准确率。 (2)提出结合主语类别特征的级联标注实体关系抽取算法。算法针对非结构化医疗文本中普遍存在的头实体重叠问题,采用先抽取头实体、后抽取关系和尾实体的策略,并根据医疗文本的特征,在标注主语位置信息的同时标注出主语的类别信息,然后采用条件层归一化模块融合主语信息和输入的医疗文本信息,分别输出到不同的Bi-LSTM网络进行宾语和关系解码,最终得到结构化三元组。算法通过优先抽取头实体的策略以及主语特征的引入,有效缓解了头实体重叠问题,提升了实体关系抽取的精准率、召回率以及F1值。 (3)结合研究的两项关键技术,设计并实现面向医疗知识图谱的对话系统。系统从医疗知识图谱构建和对话系统实现两个方面展开,医疗知识图谱构建首先利用爬虫技术在医疗网站上获取数据,再采用实体关系抽取算法得到结构化三元组,最后通过图数据库技术实现医疗知识的持久化存储。在医疗知识图谱基础上,设计并实现对话系统,具体流程包含:自然语言理解、对话管理、知识计算以及自然语言生成。最终,系统向管理员提供医疗知识图谱可视化、对话系统后台管理服务,向用户提供医疗知识在线咨询服务。

关键词

知识图谱/对话系统/意图识别/实体关系抽取

引用本文复制引用

授予学位

硕士

学科专业

计算机应用技术

导师

王德军

学位年度

2023

学位授予单位

中南民族大学

语种

中文

中图分类号

TP
段落导航相关论文