当前位置: 首页 > 期刊 > 《中国全科医学》 > 2020年第12期
编号:899164
基于支持向量机与XGboost 的成年人群肿瘤患病风险预测研究
http://www.100md.com 2020年4月11日 中国全科医学 2020年第12期
正确率,1资料与方法,2结果,3讨论
     马倩倩,孙东旭,石金铭,何贤英,翟运开,3*

    本文价值及局限性:

    (1)肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大。随着海量医疗健康大数据的产生,传统的统计学方法已无法满足数据分析需求,部分学者开始尝试将支持向量机等机器学习算法进行数据挖掘。但尚未见支持向量机、XGboost 等算法应用于预测个体肿瘤发生风险。

    (2)本文创新性地将支持向量机、XGboost 等算法应用在肿瘤风险预测领域,搭建的肿瘤患病风险预测模型表现出较高的预测正确率及稳健性,可以提前给予肿瘤风险预警,从而可根据风险指标开展精准健康干预,为肿瘤预防提供一定的临床指导和帮助。

    (3)本研究有一定局限性,例如进入模型的特征依然不够全面,未包含生化指标、环境指标、饮食摄入情况等因素;支持向量机模型中核函数的选择中,仅采用了常用的径向基核函数,未考虑多项式核函数等其他不同核函数向量分类器并进行对比,可进一步深入研究。

    肿瘤是危害人类健康的重要问题之一,2015 年中国恶性肿瘤发病率约285.83/10 万,死亡率约为 170.05/10 万,恶性肿瘤发病率、死亡率近十几年来分别保持3.9%、2.5%的增幅[1],疾病负担呈持续上升趋势。肿瘤的防控对于节约医疗资源、降低医疗开支、提高人群健康水平意义重大。肿瘤受生活方式、环境、基因等多种因素的影响,对于其患病风险的精准预测涉及庞大的数据量和数据特征,尤其随着海量医疗健康大数据的产生,传统的统计学方法已无法满足数据分析需求,部分学者开始尝试采用支持向量机等机器学习算法进行数据挖掘[2-4]。目前尚未见支持向量机、XGboost 等算法应用在肿瘤风险预测领域中的研究。因此,本文旨在探索支持向量机和XGboost 于肿瘤风险预测的应用价值。

    1 资料与方法

    1.1 一般资料 本研究时间为2011—2015 年,数据来源于中国健康与营养调查(CHNS)[5],其是北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)的卡罗来纳州人口中心(Carolina Population Center)与中国疾病防控中心的国家营养与食品安全研究所共同开展的国际合作项目。该调查是一个持续开放的队列,采用多阶段分层整群随机抽样法,共得到约4 400 个家庭住户、26 000 个个人样本,覆盖了在地理位置、经济发展、公共资源和卫生指标均存在巨大差异的黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆12 个地区 ......

您现在查看是摘要页,全文长 11191 字符