基于WEKA 的医学数据分类及糖尿病早期预测
机器,样本,1资料与方法,2结果,3讨论
张 颖,窦一峰(天津市宝坻区人民医院泌尿外科1,网络信息中心2,天津 301800)
近年来,随着交叉学科的不断发展,作为疾病预测模型中的重要组成部分,越来越多的机器学习和人工智能算法应用于医学数据集上,在疾病预测与辅助诊断、药物选择与应用、医保欺诈与检测等医学相关领域展示出优良性能。已有研究[1,2]采用随机森林算法对电子病历数据进行分析,从而预测患者是否患有糖尿病。另有研究[3-6]分别采用K 最近邻、决策树、支持向量机、神经网络等模型对糖尿病数据进行分析预测,用于辅助临床决策。但目前大多研究只采用单一的进行算法疾病预测,或仅与极少常用的算法进行比较。基于此,本研究基于WEKA 平台,将机器学习领域常见的各种算法应用于糖尿病早期诊断预测中,探索机器学习算法对于医学分类数据的可操作性和可移植性,现总结如下。
1 资料与方法
1.1 数据来源 本研究实验数据集是来源于UCI 机器学习数据库中美国国家糖尿病消化肾脏疾病研究所提供的皮马印第安人糖尿病数据集,共计768 条数据。该数据集主要以美国亚利桑那州的普通居民为研究对象,因当地人口中糖尿病发病率较高,为了更好的基于数据集中包含的某些诊断指标来预测患者是否患有糖尿病,该研究所对这个地区的人口进行持续性的调查研究。数据集构成见表1。

表1 皮马印第安人糖尿病数据集
1.2 分类算法 选取算法涵盖了基于贝叶斯定理的算法、集成学习模型、基于规则的算法和基于树思想的算法等6 大类 ......
您现在查看是摘要页,全文长 5485 字符。