摘要
旨在研究肿瘤电子病历数据挖掘技术,重点探究数据抽取及挖掘分析实验.数据抽取是对文本信息进行针对性抽取,以结构化的形式将结果储存起来,从而为分类算法的研究奠定数据基础.重点研究了肿瘤电子病历的中文分词及分类挖掘算法的选取,对于中文分词的研究,提出了改进后的逆向最大匹配算法,提高了分词准确度和分词效率.对于分类挖掘算法的研究,采用分类效果较好的C4.5算法和BP神经网络算法分别进行分类挖掘实验,通过对分类算法的性能对比,在研究肿瘤电子病历的分类挖掘上,C4.5算法更有利于辅助医生进行肿瘤疾病诊断,提高疾病诊断的精确率及效率进而提高肿瘤患者的治愈率.