基于糖尿病性视网膜病变数据集的支持向量机优化算法比较
超平面,适应度,1资料与方法,2结果,3讨论
张 颖,窦一峰(天津市宝坻区人民医院泌尿外科1,网络信息中心2,天津 301800)
糖尿病性视网膜病变的计算机辅助判别问题是医学信息学上的重点课题,作为机器学习中有监督学习的代表,支持向量机算法在小样本、低维空间和线性模式下对分类问题的预测性能表现较好,而支持向量机中的惩罚参数c 以及径向基核函数中的参数g 的选择则决定了该而分类算法的分类精度和预测性能。目前主要有5 种对上述两个重要参数的寻优方法,即经验选择法、网格选择法[1]、遗传优化算法[2]、粒子群优化算法[3]、遗传或粒子群与模拟退火法[4]相结合的算法。既往基于支持向量机的改进算法在糖尿病性视网膜病变数据集上的性能研究较少,基于此,本研究选取支持向量机算法作为基础模型,利用参数优化的思想对不同改进算法在糖尿病性视网膜病变数据集上的分类效果进行比较研究,以期为机器学习算法在辅助临床诊断决策方面提供一定的参考依据,现报道如下。
1 资料与方法
1.1 数据来源 采用由匈牙利德布勒森大学的学者Balint Anta 博士提供糖尿病性视网膜病变数据集[5]进行实验研究。糖尿病性视网膜病变数据集包含1151 个实例共20 个属性,均是从Messidor 图像集中提取的特征,来预测图像是否包含糖尿病性视网膜病变的体征,具体信息见表1。
1.2 支持向量机算法原理 支持向量机算法(support vector machine,SVM)是由Vapnik VN[6]在1995 年提出的,算法的基本思想是通过非线性变换将输入数据映射到一个高维空间中并建立最优线性分类面,将两种样本类别进行正确的分类。支持向量机模型基于结构风险最小化原则,通过计算最优超平面(optimal separating hyperplane,OSH)[7]来进行分类的统计方法,最优超平面之间的间隔越大证明建立的支持向量机模型的推广能力越强。假定大小为l 的训练样本集{(xi,yi),i=1,2,...,l},其数据样本仅可以被分成2 类,假设xi?RN属于第1 类样本,记为正值(yi=1),否则属于第2 类,记为负值(yi=-1),此时需要构造一个判别函数,使得该函数能够尽可能正确的对测试数据样本进行分类。
......
您现在查看是摘要页,全文长 9463 字符。