基于数据挖掘技术的冠心病诊断预测模型
决策树,规则,1资料与方法,2决策树算法构建冠心病诊断预测模型,3Apriori算法得到冠心病诊断的强关联规则,4通过MultilayerPerceptron算法获取影响冠心病诊断的主要因素,5讨论
李雨洁,郑锐龙,杨旭明(上海中医药大学针灸推拿学院,上海 201203)
随着社会发展水平的提升,人民生活水平的不断提升以及人口老龄化使得我国心血管疾病患病率处于持续上升的阶段。2016 年我国心血管疾病的死亡率率居首位,高于肿瘤等疾病。与此同时,2009~2016 年的数据显示,农村心血管疾病死亡率远高于城市水平[1]。在各种心脏疾病当中,冠心病是一种较为常见且对人体危害较大的心血管疾病。冠心病一般指冠状动脉粥样硬化性心脏病,目前该病的检查手段的“金标准”为冠状动脉造影及血管内成像技术,其成本相对昂贵[2]。基于此,本文对冠心病的诊断所涉及的因素做出讨论,试图通过数据挖掘的方法探究不同生理状态及检测结果对冠心病诊断的影响,建立一个冠心病早期预测模型,从而降低检查成本,帮助医护人员对患者病情做出准确判断。
1 资料与方法
1.1 数据采集及预处理 冠心病的诊断数据来源自UCI 数据库,是由匈牙利冠心病研究所的医学博士Andras Janosi、瑞士苏黎世大学医院的医学博士William Steinbrunn、瑞士巴塞尔大学医学医院的医学博士Matthias Pfisterer、长滩和克利夫兰诊所VA医疗中心的医学博士Robert Detrano 共同创建的。共收集272 个数据实例,剔除残缺数据之后将剩余的270 个实例导入到Excel.CSV 当中,再将数据导入到WEKA 当中。通过WEKA 中的数据处理工具将数据进行离散化,对部分噪声数据进行处理,再使用WEKA 平台的数据挖掘算法对数据进行挖掘。
1.2 属性的选择 本数据集共259 个实例(处理噪声数据后),分为两类、13 个属性。其中类别分为患有冠心病和未患冠心病,本文选择的属性共12 个,分别为年龄、性别、胸痛类型、静息血压、血清胆固醇、空腹血糖是否大于120 mg/dl、静息心电图结果、最大心率、运动诱发的心绞痛、运动相对于休息引起的ST 压抑、运动时ST 段峰值的斜率、心脏缺陷种类。
1.3 算法选择 决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的算法有很多,如ID3、C4.5[3]等。其中WEKA 中的J48 决策树挖掘工具则是是基于C4.5 实现的决策树算法。关联规则挖掘是数据挖掘中重要的一种挖掘方法,其中Apriori 算法是一种非常经典的关联规则挖掘算法。该算法利用层次顺序搜索的循环方法来完成频繁项集的挖掘工作[4] ......
您现在查看是摘要页,全文长 9665 字符。