基于预处理的决策树在化学数据挖掘中的应用
数据挖掘,,数据挖掘,决策树,离散化,特征选择,化学模式分类
基于预处理的决策树在化学数据挖掘中的应用李 琳 陈德钊
3
束志恒 叶子青
(浙江大学化工系仿真中心,杭州310027)
摘 要 化学数据挖掘可从海量数据中提取蕴含的知识,决策树方法是一种重要的挖掘工具。鉴于决策树在
处理连续数据上的局限性,本研究提出先进行预处理,将连续属性离散化,通过特征选择删除其冗余量,以此
为基础构建决策树。该方法可防止决策树模型“过细”,使之具有良好的预报性能。将此方法应用于两个化
学样品分类实例,效果良好。与贝叶斯分析和单一的决策树方法相比,其预报正确率有显著提高,且表达形式
直观明确,易于理解和分析,适用于化学分类知识模式的挖掘。
关键词 数据挖掘,决策树,离散化,特征选择,化学模式分类
2004207209收稿; 2005201231接受
本文系国家自然科学基金项目(No. 20276063) 、浙江省重点科技项目(No. 2004C21054)资助课题
1 引 言
数据挖掘可从海量的、存在噪声的,可从冗余和缺损的数据中提取蕴藏其中的有用知识[ 1 ] ,挖掘化
学分类知识模式常用的方法有现代统计和神经网络两类[ 2, 3 ] ,现代统计方法要求样本数据遵从一定的
概率分布,神经网络的训练时间长,不确定性大,可解释性较差。
决策树[ 4 ]是基于机器学习的数据挖掘技术,它形式简单,分类速度快,无需先验知识,对样本分布
也无要求。而且由决策树表达的规则直观清晰,便于专业人员分析。本研究拟用C4. 5算法[ 5 ]生成决
策树,针对其处理连续数据的局限性,先进行离散化和特征选择。经葡萄酒和玻璃两个连续数据集的验
证,表明该方法效果良好,适用于化学分类数据挖掘。
2 决策树的基本概念和方法
决策树为树结构分类器,由内部节点(包括根节点)和叶节点构成,每个内部节点表示一个属性测
试,测试的每个可能结果将输出一个分枝或子树,最后生成的叶节点表示一个类。
2. 1 决策树的生成和应用
决策树的生长是通过对训练样本不断分组长出分枝。当一组数据的分组不再有意义时,相应的分
枝就停止生长。当所有数据的分组都无意义时,决策树的构建就完成了。为防止决策树“过于精确”影
响推广性,可采用预修剪的方式提前终止分枝与树的生长。决策树生成后,从其根节点到叶节点的每条
路径可构建为分类规则 ......
您现在查看是摘要页,全文长 13263 字符。