摘要
随着互联网在人们日常生活中的日益渗透,各类在线医疗健康社区已经成为公众检索、获取和分享医疗健康知识的重要渠道之一。近些年,在线医疗健康社区吸引了大量的用户参与其中,积累了海量的在线医疗数据,潜藏着宝贵的医疗健康知识,已经成为患者需求分析、流行病监测、药物不良反应检测以及疾病预测的重要数据源。 医疗实体识别是医疗领域信息处理的基础,并且已经成为在线医疗健康信息抽取和知识发现中重要的研究方向。与英文相比,面向中文领域的医疗实体识别主要聚焦于电子病历、医学文献等数据,而对在线医疗健康社区的关注度还远远不够。已有的中文医疗实体识别研究大多采用传统的机器学习方法,未能考虑深层语义信息。 在深度学习模型BiLSTM-CRF基础上,提出融合外部语义特征和引入Self-Attention机制的Self-Att-Med模型,该模型能够捕捉更多潜在的信息以提升中文在线问答社区中医疗实体识别效果。首先,在已有研究基础上,将医疗实体定义为疾病、症状、身体部位、检查和治疗五类,采用{B,I,O}标注体系,借助YEDDA标注工具进行实体标注;其次,利用word2vec将未标记的开放领域语料和医疗领域语料分别生成具有语义特征的字符级向量;接着,将两字符级向量作为特征嵌入BiLSTM-CRF生成LSTM-Wiki和LSTM-Med模型,并进行对比实验;最后,在效果最优模型上引入Self-Attention机制。通过十折交叉验证实验表明,嵌入医疗领域语料生成字符级向量的LSTM-Med模型表现最优;本文提出的Self-Att-Med模型F值较BiLSTM-CRF提升了0.72%;另外,实验发现Self-Attention机制对不同语料的F值提升幅度有差异。本文还对各类实体识别效果和错误结果进行了分析。