中华国际医学杂志2004,Vol.4Issue(6) :351-353.

基因表达谱数据缺失值的估计方法

Estimation methods of missing values in gene expression data

吴骋 王志勇 贺佳
中华国际医学杂志2004,Vol.4Issue(6) :351-353.

基因表达谱数据缺失值的估计方法

Estimation methods of missing values in gene expression data

吴骋 1王志勇 2贺佳1
扫码查看

作者信息

  • 1. 第二军医大学卫勤系卫生统计学教研室,中国,上海,200433
  • 2. 上海长海医院信息科
  • 折叠

摘要

目的探讨常用的基因表达谱数据缺失值填充方法对于提高目前流行的基因表达谱数据分类器--支持向量机性能的影响.方法采用公开发表的酵母菌基因表达谱数据,及Ribo功能类作为类属性构成训练集.分别利用KNN法和类均值法对其缺失值进行填充后,基于完整的表达谱数据对SVMs模型进行训练.采用k折交叉验证法避免训练中的过拟合问题,绘制CV准确率等高线图监控模型参数的迭代.采用检验对所得模型的性能进行评价.结果KNN法填充下,SVMs模型的CV准确率维持在99.554%;类均值法填充下,SVMs模型的CV准确率从99.554%上升至99.635%.对于模型性能的统计学检验显示,两者差异无统计学意义.结论根据模型性能的统计学检验结果,两种填充方法对于SVMs模型性能改善的差别没有统计学意义.研究者可以根据实验条件和基因表达谱数据的特点任意选取两种填充方法进行处理.

关键词

基因表达谱数据/缺失值/估计

引用本文复制引用

基金项目

国家自然科学基金(30471502)

上海市自然科学基金(O4ZR14049)

出版年

2004
中华国际医学杂志
中华国际医学杂志社

中华国际医学杂志

ISSN:1606-7983
参考文献量4
段落导航相关论文