面向生物医学的文本分类与事件检测研究

李孟颖¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

随着人们对健康医疗的重视，生物医学领域一直快速发展，生物医学电子文献作为最重要的资源之一备受关注，数据量又在成指数级增长，从海量信息中挖掘潜在知识信息，并将这些知识充分用于辅助医疗技术研究，对生物医学健康领域有重要意义。现存的数据大多为不规则零散的非结构化数据，如何高效地将大量非结构化数据转换成结构化数据，成为信息知识挖掘领域研究的重点内容。本文旨在利用文本分类技术和事件检测技术完成对生物医学领域的信息抽取，进而可以辅助医学，实现精准医疗。生物医学文本分类任务主要是从粗粒度角度挖掘生物医学文本信息，是自然语言处理任务的基本任务之一，是文本信息挖掘流程的第一步，能够有效协助医疗工作者从大量文献中快速获取有价值的信息。本文分别研究了英文长文本和中文短文本的分类任务。针对英文长文存在的长距离依赖等问题，提出HACN（hierarchicalattention-basedcapsulenetwork）模型。利用胶囊网络有效获取生物医学文本局部特征，提高了该任务的准确率，利用层级注意力机制准确获取长文本的全局特征，提高了该任务的召回率，将其两者有效结合提高了文本分类系统的整体性能。该模型方法在BioCreative评测任务的三个相关语料集上进行了实验验证，实验结果均有很大的提升。针对中文短文本存在的信息量较少等问题，本文采用集成学习的方法进行分类。首先通过目标领域的数据集对BERT模型微调得到语义增强模型，再将其与深度学习的模型进行融合，集成得到最终的短文本分类器。该模型方法在第五届中国健康信息处理大会评测任务之临床试验医学标准短文本分类语料集上进行了实验验证，取得了该任务目前最高的F1值。对于生物医学领域的事件检测任务，属于细粒度生物医学文本信息抽取，目的是检测句子中的触发词，并将其分类为预定义的事件类型，这将有利于许多应用，如文本摘要和阅读理解等。针对触发词识别存在的长尾问题，本文提出采用BIndGAC（bidirectionalindependentGRU-Attention-CRF）模型，并结合BIO标签进行触发词识别，该任务中训练的词向量是融合了生物医学知识的语言模型BioBERT得到的表示。该方法有效地挖掘了深层的文本信息，提高了触发词识别器的性能。该模型方法在MLEE数据集上进行了相关实验验证，验证了本文提出方法的有效性。

关键词

自然语言处理/生物医学信息抽取/文本分类/事件检测/触发词识别

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

王健

学位年度

2021

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航