摘要
健康中国建设是当前重要的战略方向,我国在“十四五”规划纲要中提出全面推进健康中国建设,健全科技支撑体系,推广远程医疗。在互联网的高速发展下,线上医疗所产生的数据量呈爆发式增长,世界各国都在大力推进医疗信息化,医疗数据的分析和应用不仅可以缓解部分就医压力,提高医疗效率和效果,还可以提高疾病的早期诊断,从而提升治疗水平,培养居民的保健护理意识。本文构建了医疗领域知识图谱,并依次从问句意图识别和问句命名实体识别两个方面进行探索研究,构建了医疗领域的智能问答系统。 首先爬取在线社区医疗网站“寻医问药”中疾病百科的文本数据,通过数据清洗、知识表示和可视化的操作,构建医疗知识图谱。在智能问答系统模块,首先通过需求分析对问句意图进行预定义,探究了BERT(BidirectionalEncoderRepresentationsfromTransformers)和TextCNN模型在问句意图识别任务上的有效性,通过对比BERT、BERT+TextCNN(不使用CLS分类特征)、BERT+TextCNN(使用CLS分类特征)三个模型的效果,最后选取效果较好的BERT+TextCNN(不使用CLS分类特征)模型作为医疗智能问答的意图识别模型。在问句命名实体识别模块,Bi-LSTM+CRF是常用的命名实体识别的模型,在此基础上引入Attention机制,它能够帮助神经网络输出标签作进一步有序化的调整,通过实验对比发现引入Attention机制后对用户输入的医疗问句的实体识别的准确率有了一定的提升,因此选择Bi-LSTM+Attention+CRF模型作为医疗智能问答的问句命名实体识别模型。本文通过识别出的问句意图和医疗实体构造知识库查询语句,初步建设了基于医疗知识图谱的智能问答系统。 本文以智慧医疗为导向,利用大数据信息,探索中文医疗领域智能问答系统的关键技术,以期提高问答系统的准确率,为人们提供较好的知识问答服务。希望对中文医疗领域智能问答系统关键技术的探索和基于医疗知识图谱的智能问答系统的设计提供一些想法,从而对线上医疗的发展起到有益的作用。