摘要
支持向量机是机器学习与数据挖掘中强大的计算工具,在20世纪90年代它由Vapnik和其他学者提出,它起源于统计学习理论中如何调节结构复杂性和经验风险之间的平衡研究.近年来它在算法方面取得了突飞猛进的发展,引起了国内外许多学者的兴趣,并对它进行深入地研究.支持向量机已成功应用于各种现实问题,例如文本分类、信息安全、人脸识别、生物信息和遥感图像分析等.它的核心思想是在正负样本之间找到最优的分划超平面.与最先进的方法比较,支持向量机在模式识别中表现出良好的性能.标准支持向量机在两个平行超平面间应用最大间隔原则,求解一个较大规模的凸二次规划问题的对偶问题,从而找到一个决策超平面实现分类的目的.而双子支持向量机旨在生成两个非平行超平面,求解两个较小规模的凸二次规划问题的对偶问题,从而找到两个决策超平面实现了分类的目的.与支持向量机比较,双子支持向量机推广性更好. 在飞速发展的大数据时代,数据的类型多种多样,它的规模也越来越大.为了更好地分类数据,数据的模型构建得到进一步推广.本文从分类的准确度和泛化性能方面进行讨论,对支持向量机进行推广,建立了基于优化问题的平行双支持向量机、v-稀疏非平行支持向量和v-改进的稀疏非平行支持向量机三种新模型,然后通过数值实验说明模型的可行性和有效性.本文内容安排如下: 第一章详细介绍了本文研究的主要背景及其意义、研究现状和本文的主要工作. 第二章提出了基于优化问题的平行双支持向量机.主要考虑使得每类超平面到各自数据点的距离最小化,且每类数据点远离另一类超平面,同时最大化两平行超平面间的距离.针对此优化问题,构建了数据的分类模型,并提出了有效地解决二分类问题的算法,在公开的基准数据集上的数值实验表明了该方法的可行性和有效性. 第三章提出了v-稀疏非平行支持向量机.主要考虑引入容易取值的参数v来代替选取困难的惩罚参数C,使得正类点和负类点尽可能在相应的ε-带内,同时一类点尽可能远离另一类超平面,从而构建了此优化模型,该算法具有较好的优点,能较好地处理二分类优化问题.在公开的基准数据集上的实验结果表明了该方法的有效性. 第四章提出v-改进的稀疏非平行支持向量机,希望正负类点尽可能在ε-带内,并使得所在的带尽可能小,一类点到另一类超平面的距离尽可能地远.v具有一定的数值意义,与训练误差和支持向量的个数密切相关.该算法避免了参数选择的困难,适应于不平衡的大规模数据,实验结果表明了该算法对分类问题具有良好的可行性和有效性. 第五章对本文做了总结,并考虑未来要研究的内容.