首页|基于文本词特征加权LDA的疾病表征提取方法

基于文本词特征加权LDA的疾病表征提取方法

扫码查看
从结构复杂多样的电子病历文本中提取出疾病表征词,是电子病历文本研究与应用的关键环节.LDA模型可以实现对文本信息的有效提取,但标准LDA(latent Dirichlet allocation)及其相关改进模型在提取疾病表证词时针对性较弱、精确率较低.该文提出了FW-LDA(feature weighting LDA)模型,针对中文电子病历文本的数据特征,降低非任务相关词的共现频率,在标准LDA模型的基础上引入了词特征加权,以实现对疾病表证词的针对性提取.通过分析心血管疾病数据的特点,形成了相适应的词性、词长和词义特征加权计算公式,构建了对应的任务侧重和非任务侧重的外部语义词库,并通过实验验证了词特征加权对疾病表征词提取任务的影响程度.与LDA模型相比,在主题数值小于30时,FW-LDA模型的主题一致性有显著提升;在主题数值范围[5,65]上,FW-LDA模型的疾病表征词提取平均精确率提升了48.5%.
Disease Characterization Extraction Method Based on Text Word Feature Weighting LDA

余肖生、沈胜、陈鹏

展开 >

三峡大学 计算机与信息学院,湖北 宜昌 443002

电子病历 疾病表征 词特征 加权 LDA模型

国家重点研究发展计划

2016YFC0802500

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(5)
  • 12