摘要
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.
基金项目
国家自然科学基金通用联合基金重点项目(U1836205)
国家自然科学基金重大研究计划项目(91746116)
国家自然科学基金(62066007)
国家自然科学基金(62066008)
贵州省科技重大专项计划项目(黔科合重大专项字[2017]3002)
贵州省科学技术基金重点项目(黔科合基础[2020]1Z055)