代价敏感分类在肿瘤基因数据集的应用
精确度,类别,1引言,2数据集与方法,3讨论
边 婧,孔令珠,张 海(1.山西职工医学院,山西 太原 030012;2.中国农业银行山西省分行,山西 太原 030024)
·教学与管理·
代价敏感分类在肿瘤基因数据集的应用
边 婧1,孔令珠1,张 海2
(1.山西职工医学院,山西 太原 030012;2.中国农业银行山西省分行,山西 太原 030024)
本文对代价敏感分类算法及传统分类算法进行了比较研究,并应用于小儿白血病肿瘤数据集。针对现实生活中肿瘤基因表达数据高维、不平衡等特点,引入误分类代价因子,改进代价敏感分类算法MetaCost。通过实验手段分析代价敏感算法的行为及较之传统分类算法的优势所在,提高了肿瘤基因数据中肿瘤类别数据的识别率及精确度。
代价敏感分类;肿瘤基因表达数据;误分类代价
1 引言
科技进步给科技工作者带来问题与挑战的同时,也带来了希望和曙光。随着基因微阵列技术的发展,为肿瘤专家带来了更为客观的肿瘤数据分析方法及诊断依据,亦为广大肿瘤患者带来了福音。然而,肿瘤基因表达数据往往具有高维、高噪声、小样本及分布不平衡等等特点,影响了肿瘤分类的准确性并增加了算法复杂性[1]。因此,机器学习和数据挖掘各类方法仍在探索如何改善算法性能,提高算法效率。
通常情况下,训练数据集并不是完全平衡的,亦即两种类别数目不完全相等,总是一种多于另一种。传统分类器关注的是数据集中平均分类精确度,由于多数类数目多包含充分的信息,所以分类器精确度偏向于多数类。而现实生活中往往并非如此,关注的某种类很可能是少数类。同时,分类时训练数据集中信息的冗余、缺失、错误则往往导致误分类,如误诊,癌症患者被误诊为其他疾病或没病的情况和其他疾病或没病被误诊为癌症患者的情况 ......
您现在查看是摘要页,全文长 6794 字符。