当前位置: 首页 > 期刊 > 《医学新知》 > 2022年第5期
编号:449784
广义估计方程与混合线性模型在Python中的实现
http://www.100md.com 2022年10月31日 医学新知 2022年第5期
因变量,参数估计,1资料与方法,1资料来源,2模型构建,3模型验证,2结果,1GEE建模及参数估计结果,2MLM建模及参数估计结果,3讨论
     焦奎壮,马煦晰,马小茜,刘朝屹,张 青,马 露

    武汉大学公共卫生学院(武汉 430071)

    纵向数据是流行病学研究中最常见的资料类型之一,常见于队列研究、定群研究等研究设计中。这些研究设计中暴露因素或健康结局指标均具有随时间变化而变化的特点,为探索暴露因素与健康结局间的关系,往往需对研究对象进行随访或重复测量。针对同一研究对象的多次测量,研究结果间通常存在相关关系,若不满足独立性的条件,不适用一般线性模型或广义线性模型,且当观测值存在缺失时,重复测量方差分析也不适用。因此,广义估计方程(generalized estimating equations,GEE)和混合线性模型(mixed linear model,MLM)被广泛应用于纵向数据的统计分析。目前,主流的统计分析软件如SAS、SPSS和R等均能实现GEE和MLM的建模分析[1-3]。Python作为一款开源免费软件,因其强大的大数据处理第三方库(Pandas、Numpy、Scipy等)、内存优化系统和丰富的应用场景(爬虫等),可方便快速地实现数据的获取、清洗、管理和分析,显著缩短数据分析时间[4-5],近年来越来越受到国内科研工作者的欢迎。随着我国医疗系统信息化建设的快速推进,医疗大数据的智能化统计分析是必然的发展趋势[6]。运用Python软件实现流行病学研究中的统计分析,目前尚不多见。本研究以Python 3.8.5中的statsmodels库为例,通过研究实例介绍GEE和MLM在Python软件中的实现方法。同时,采用R 4.0.5软件中的geepack包和lmerTest包构建GEE与MLM模型[7],作为本次Python结果的对照,验证Python输出结果是否正确。

    1 资料与方法

    1.1 资料来源

    为研究某地区大气颗粒物PM2.5对肺功能的影响,收集该地区连续十日的日均PM2.5浓度、温湿度和研究对象的肺功能数据 ......

您现在查看是摘要页,全文长 7413 字符