当前位置: 首页 > 期刊 > 《分析化学》 > 2005年第8期
编号:10794876
基于预处理的决策树在化学数据挖掘中的应用
http://www.100md.com 《分析化学》 2005年第8期
数据挖掘,,数据挖掘,决策树,离散化,特征选择,化学模式分类
     基于预处理的决策树在化学数据挖掘中的应用

    李 琳 陈德钊

    3

    束志恒 叶子青

    (浙江大学化工系仿真中心,杭州310027)

    摘 要 化学数据挖掘可从海量数据中提取蕴含的知识,决策树方法是一种重要的挖掘工具。鉴于决策树在

    处理连续数据上的局限性,本研究提出先进行预处理,将连续属性离散化,通过特征选择删除其冗余量,以此

    为基础构建决策树。该方法可防止决策树模型“过细”,使之具有良好的预报性能。将此方法应用于两个化

    学样品分类实例,效果良好。与贝叶斯分析和单一的决策树方法相比,其预报正确率有显著提高,且表达形式

    直观明确,易于理解和分析,适用于化学分类知识模式的挖掘。

    关键词 数据挖掘,决策树,离散化,特征选择,化学模式分类

    2004207209收稿; 2005201231接受

    本文系国家自然科学基金项目(No. 20276063) 、浙江省重点科技项目(No. 2004C21054)资助课题

    1 引 言

    数据挖掘可从海量的、存在噪声的,可从冗余和缺损的数据中提取蕴藏其中的有用知识[ 1 ] ,挖掘化

    学分类知识模式常用的方法有现代统计和神经网络两类[ 2, 3 ] ,现代统计方法要求样本数据遵从一定的

    概率分布,神经网络的训练时间长,不确定性大,可解释性较差。

    决策树[ 4 ]是基于机器学习的数据挖掘技术,它形式简单,分类速度快,无需先验知识,对样本分布

    也无要求。而且由决策树表达的规则直观清晰,便于专业人员分析。本研究拟用C4. 5算法[ 5 ]生成决

    策树,针对其处理连续数据的局限性,先进行离散化和特征选择。经葡萄酒和玻璃两个连续数据集的验

    证,表明该方法效果良好,适用于化学分类数据挖掘。

    2 决策树的基本概念和方法

    决策树为树结构分类器,由内部节点(包括根节点)和叶节点构成,每个内部节点表示一个属性测

    试,测试的每个可能结果将输出一个分枝或子树,最后生成的叶节点表示一个类。

    2. 1 决策树的生成和应用

    决策树的生长是通过对训练样本不断分组长出分枝。当一组数据的分组不再有意义时,相应的分

    枝就停止生长。当所有数据的分组都无意义时,决策树的构建就完成了。为防止决策树“过于精确”影

    响推广性,可采用预修剪的方式提前终止分枝与树的生长。决策树生成后,从其根节点到叶节点的每条

    路径可构建为分类规则 ......

您现在查看是摘要页,全文长 13263 字符