基于文本序列生成的医疗对话系统研究

严国俊¹

扫码查看

作者信息

1. 山东大学
折叠

摘要

随着社会科技的进步，人们的生活水平有了较大的改善，医疗技术同样取得了巨大的进步。越来越多的人更加注重健康问题，然而医疗资源的分布不均衡依然是现存的严重问题，时间成本和经济成本依然阻碍着很多人的医疗需求。近年来对话系统可以辅助人们完成越来越多的工作，如订票、订餐、闲聊等，结合对话系统来帮助病人更及时地完成医疗服务成为可行的方向。医疗对话系统的目标是协助医生和病人完成诊断、治疗和咨询三种医疗服务。其一般被分解为三个子任务:自然语言理解、对话策略学习、自然语言生成。然而目前医疗对话系统的发展由于医疗资源的匮乏和不全面受到了较大的阻碍。其主要存在如下问题:其一体现在数据集方面，现有的数据集覆盖的医疗服务不够全面,包含的科室种类较少,标注的信息不够全面，提供的疾病种类和医疗实体较少。这些信息的缺失使得医疗对话所能提供的服务受到了极大的限制，服务人群范围难以扩大，服务质量不高;其二体现在任务方面，目前的医疗对话系统大多只关注了其中的一个子任务，没有建立完整的对话流程，导致对话系统功能缺失或者缺乏足够的可解释性;其三体现在对数据的利用方式上，人工标注需要巨大的成本，因此大规模的人工标注数据很难获得。现有的医疗对话系统没有充分利用有限的数据资源，对医疗数据语义信息挖掘不够充分。针对以上的不足之处，本文的贡献如下:1）本文发布了一个关于中文医疗对话的多服务多科室医疗对话数据集ReMeDi。ReMeDi数据集包含了 96,965条医生和病人之间的真实对话。其中有1,557条对话包含细粒度的人工标签。此数据集跨越了 40种医疗科室，涵盖了 843种疾病，5,228种医疗实体和3种特定的医疗服务。2）本文构建了对话系统的三个子任务，建立了完整的对话系统流程，并基于此提出了统一医疗对话框架，采用序列化生成的方法统一了对话系统的多个子任务，能够更方便高效地构建完整的对话系统。3）本文提出了一种多阶段医疗对话学习策略。为了充分利用有限的数据资源，本策略第一阶段设计了伪标注算法来利用大量的未标注数据，第二阶段设计了三种自然扰动的方法扩充了人工标注数据。为了挖掘更精确的语义信息，本策略第三阶段结合医疗数据特点构造了正负样例，使不相关的医疗实体在语义表示中具备更大的区分度。本文展示了所构建数据集的各项特征，与之前的相关数据集做了对比，表明了本文所发布数据集能提供更丰富的信息。本文通过实验表明统一的医疗对话框架在三个子任务上均有不错的效果，亦表明了所提出的多阶段医疗对话学习策略在三个子任务上均能进一步提升模型的效果。

关键词

医疗对话系统/文本序列生成/自然语言理解/对话策略学习/自然语言生成

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

陈竹敏；任鹏杰

学位年度

2023

学位授予单位

山东大学

语种

中文

中图分类号

段落导航