医学多变量追踪数据的生长曲线模型
http://www.100md.com
第四军医大学学报 2000年第21卷第6期
陈长生 徐勇勇 吴冰 尚磊
摘 要: 目的 研究医学追踪观测数据的多变量生长曲线模型. 方法 对两种药物治疗120例患者后的舒张压和收缩压追踪观测数据用多元方差分析方法进行生长曲线模型检验,对模型系数作极大似然估计并进行组间比较,分析方法用SAS/IML软件编程得以实现. 结果 用药后患者的舒张压和收缩压随时间的变化而变化,且两个药物组曲线的变化趋势是不相同的,第1组的变化相对平缓,而第2组起伏波动较大,用药后第1组的舒张压和收缩压相对来说均较第2组为高. 结论 多变量生长曲线模型可有效地进行多变量追踪观测数据的动态变化趋势分析以及组间比较分析.
关键词:追踪数据;生长曲线;模型,统计学
0 引言
医学研究中常会遇到纵向追踪数据分析的问题,例如定时追踪观测患者的某项生理指标,如患者服药后血药浓度的定时检测;高血压患者治疗前、治疗后2,4,6,8 wk的心率测量结果等;研究儿童体格发育情况而定期追踪观察不同喂养方式的婴儿体格发育指标,如身长、坐高、体质量等. 这类研究对个体的观察指标进行多次反复测量,其观测结果体现的是整个追踪观测埸合中个体指标发展变化趋势以及相关因素的影响. 由于追踪观测数据间存在自相关性且随机误差至少可分为两个层次[1-3],因而增加了传统统计方法用于该类数据分析的难度以及不同程度的分析结果偏性. 另外,在实际工作中为了了解多个变量间的关系以及变化规律,常常需要在不同的时间点同时观测个体的多个反应变量,如收缩压和舒张压,身高和体质量等,此时,需要进行多变量分析. 为了充分利用该类数据所包含的信息以及更好地动态了解个体多个反应变量的变化规律,我们在SAS软件的基础上,对医学多变量追踪观测数据进行了生长曲线模型组间差异比较研究.
, http://www.100md.com
1 资料和方法
1.1 资料 取自西安市药物依赖治疗中心提供的数据,治疗中心为了比较消瘾扶正胶囊和可乐宁两种药物的治疗效果,对120名药物依赖患者随机分为两组,Ⅰ组用消瘾扶正胶囊治疗,Ⅱ组用可乐宁治疗,对其舒张压和收缩压进行测量,用药后前5 d的观测结果见Tab 1.
表 1 治疗后患者的舒张压和收缩压
Tab 1 Diastolic and systolic blood pressures of patients after treatment (n=60,X±s,kPa)
t(after
Diastolic blood pressure
Systolic blood pressure
, http://www.100md.com
treatment)/d
Group 1
Group 2
Group 1
Group 2
1
8.1±0.9
6.9±0.8
12.1±1.1
11.3±0.8
2
7.6±0.8
, http://www.100md.com
6.6±0.5
11.8±0.8
10.7±0.7
3
7.5±0.8
6.6±0.6
11.5±0.9
10.9±0.6
4
7.4±0.8
7.0±0.6
11.6±0.8
, 百拇医药
11.3±0.6
5
7.5±0.8
7.3±0.6
11.7±1.2
11.7±0.4
1 kPa=7.5 mm Hg. 1.2 方法 假设在追踪观测设计研究中,有r个处理组,第j组(j=1,2,…,r)的观察个体数为nj, 每一个体追踪观测p次,相应的观察点(如时间)为t1, t2, …,tp,若在这p个不同时间点同时观测m个反应变量,则有多变量生长曲线模型[4] (1) (2)
, http://www.100md.com
其中Y的列对应N个个体,N=n1+n2+…+nr,第k列的前m个元素为t1处的m个变量的观察值,接着为t2处的观察值,如此反复直到tp处的最后一个观察值,即Y为pm×N阶观察值矩阵. 同理, ζ为mq×r阶生长曲线未知系数矩阵, ζ的第j列对应第j组,并且前m个元素为m个变量t0的系数(即截距),接着的m个元素为t1的系数,如此反复直到tq-1的m个系数.
mp阶方阵Σ为Y的任何一列元素的方差-协方差阵,Y的N个列向量间相互独立. 另外,式(1)中的B和A分别为轮廓设计阵和处理设计阵. 记Eab表示元素全为1的a×b阶矩阵,则
, http://www.100md.com
若N>mp-q+r,则多变量生长曲线模型的分析过程与文献[5]中的单变量生长曲线模型的分析过程相同,但是单变量分析中的p需要mp来代替,B需要BIm来替换,符号“AB”表示矩阵A与矩阵B的Kronecker积,即A=(aij),B=(bij),AB=(aijB).
2 结果
2.1 生长曲线模型检验 在多变量生长曲线模型(1)中,m=2,p=5,处理设计阵A为
A=diag(E1,60, E1,60)
, http://www.100md.com
为了衡量所拟合的模型是否合适,可用SAS/IML计算程序进行假设检验[6]. 首先拟合q=3的生长曲线模型,即检验假设为H01:q=3. 可求得检验统计量Wilks'Λ的值,即Λ=0.8019,相对应的概率为P=0.0310,故拒绝q=3. 进一步检验q=4的假设,得Λ=0.9459,P=0.8932,故不拒绝q=4. 这时轮廓设计阵B为
2.2 生长曲线系数估计 q=4时的生长曲线系数极大似然估计见Tab 2.
表 2 生长曲线模型系数的估计值
Tab 2 The estimates of growth curve model coefficients (q=4)
, 百拇医药
Treatment
Response
ξ0
ξ1
ξ2
ξ3
Group 1
Diastolic
6.9367
0.8074
-0.3093
, http://www.100md.com
0.0338
Systolic
12.8193
-0.8060
0.1532
-0.0069
Group 2
Diastolic
8.7051
-2.2883
0.7208
-0.0643
, 百拇医药
Systolic
12.6344
-1.9076
0.5835
-0.0483
模型系数的协方差阵的第一分块为
Var(ξ)=38.52-0.70-38.84-0.9011.850.47-0.12-0.03
19.01 0.95-20.75-0.326.81 0.03-0.68
40.97 1.38-12.84-0.71 1.23 0.06
24.56-0.48-8.36 0.05 0.85
, 百拇医药
4.11 0.26-0.40-0.02
2.93-0.03 0.30
0.04 0.00
0.03×10-2
2.3 生长曲线图 见Fig 1,2.
图 1 两组患者舒张压的生长曲线
Fig 1 Diastolic blood pressure growth curves of two groups of patients
, 百拇医药
图 2 两组患者收缩压的生长曲线
Fig 2 Systolic blood pressure growth curves of two groups of patients
3 讨论
由Fig 1,2可见两组生长曲线不同,即两组生长曲线系数向量不等. 这个结论也可通过假设检验得到验证,检验假设为H02: ζ1=ζ2, 即两组系数相等. 经SAS程序计算,可得到检验统计量Wilks'Λ=0.5256,P≈0.0000,故拒绝H02,可认为两组生长曲线不同. 这与从图中直观分析所得结果相同. 以上分析表明,用药后患者的平均舒张压和收缩压随时间的变化而变化,且两个药物组曲线的变化趋势是不相同的,消瘾扶正胶囊组的舒张压和收缩压变化相对平缓,而可乐宁组的舒张压和收缩压起伏波动较大,且在用药后第2日达到最低点,随后舒张压和收缩压缓慢回升. 两种药物均有降低舒张压和收缩压的效果,且在用药后第1日时已明显降低(用药前药物依赖患者平均舒张压和收缩压分别为9.11 kPa和13.89 kPa),用药后消瘾扶正胶囊组的舒张压和收缩压相对来说均较可乐宁组为高,可认为两种药物在降低血压方面存在不同的影响.
, 百拇医药
对于医学追踪观测资料还可以进行生长曲线系数的条件方差—协方差阵估计,以便反映不同组间各次系数的协方差. 另外,针对不同的实际需要可灵活选择线性假设中的矩阵结构,而且均可通过SAS软件容易实现有关的假设检验计算.
基金项目:国家自然科学基金资助项目 (39370637,39770677)
作者简介:陈长生(1966-),男(汉族), 江西省高安市人. 博士,讲师. Tel.(029)3374853 Email.ccsbr@21cn.com
陈长生(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
徐勇勇(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
吴冰(第四军医大学秦都口腔医学院修复科)
, 百拇医药
尚磊(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
参考文献:
[1] 徐勇勇, 曹秀堂, 李文潮. 重复观测数据(等距)团体比较的正交回归模型[J]. 中华预防医学杂志, 1991;25(5): 306-308.
[2] 陈长生, 徐勇勇,曹秀堂. 不等距重复观测数据组间比较的正交回归模型[J]. 中国卫生统计, 1996;13(3): 1-5.
[3] 陈长生, 徐勇勇,曹秀堂. 医学研究中重复观测数据的统计分析方法[J]. 中国卫生统计, 1996; 13(6):55-58.
[4] Kshirsagar AM, Smith WB. Growth Curves[M]. New York: Marcel Dekker, Inc, 1995: 32-115.
[5] 陈长生, 徐勇勇,张 音 et al. 医学重复观测数据组间比较的生长曲线模型[J]. 中华预防医学杂志, 1998; 32(4):245-247.
[6] SAS Institute Inc. SAS/IML Software [M]. Version 6. 2nd edition. Cary, NC, USA: SAS Institute Inc, 1993: 1-382., 百拇医药
摘 要: 目的 研究医学追踪观测数据的多变量生长曲线模型. 方法 对两种药物治疗120例患者后的舒张压和收缩压追踪观测数据用多元方差分析方法进行生长曲线模型检验,对模型系数作极大似然估计并进行组间比较,分析方法用SAS/IML软件编程得以实现. 结果 用药后患者的舒张压和收缩压随时间的变化而变化,且两个药物组曲线的变化趋势是不相同的,第1组的变化相对平缓,而第2组起伏波动较大,用药后第1组的舒张压和收缩压相对来说均较第2组为高. 结论 多变量生长曲线模型可有效地进行多变量追踪观测数据的动态变化趋势分析以及组间比较分析.
关键词:追踪数据;生长曲线;模型,统计学
0 引言
医学研究中常会遇到纵向追踪数据分析的问题,例如定时追踪观测患者的某项生理指标,如患者服药后血药浓度的定时检测;高血压患者治疗前、治疗后2,4,6,8 wk的心率测量结果等;研究儿童体格发育情况而定期追踪观察不同喂养方式的婴儿体格发育指标,如身长、坐高、体质量等. 这类研究对个体的观察指标进行多次反复测量,其观测结果体现的是整个追踪观测埸合中个体指标发展变化趋势以及相关因素的影响. 由于追踪观测数据间存在自相关性且随机误差至少可分为两个层次[1-3],因而增加了传统统计方法用于该类数据分析的难度以及不同程度的分析结果偏性. 另外,在实际工作中为了了解多个变量间的关系以及变化规律,常常需要在不同的时间点同时观测个体的多个反应变量,如收缩压和舒张压,身高和体质量等,此时,需要进行多变量分析. 为了充分利用该类数据所包含的信息以及更好地动态了解个体多个反应变量的变化规律,我们在SAS软件的基础上,对医学多变量追踪观测数据进行了生长曲线模型组间差异比较研究.
, http://www.100md.com
1 资料和方法
1.1 资料 取自西安市药物依赖治疗中心提供的数据,治疗中心为了比较消瘾扶正胶囊和可乐宁两种药物的治疗效果,对120名药物依赖患者随机分为两组,Ⅰ组用消瘾扶正胶囊治疗,Ⅱ组用可乐宁治疗,对其舒张压和收缩压进行测量,用药后前5 d的观测结果见Tab 1.
表 1 治疗后患者的舒张压和收缩压
Tab 1 Diastolic and systolic blood pressures of patients after treatment (n=60,X±s,kPa)
t(after
Diastolic blood pressure
Systolic blood pressure
, http://www.100md.com
treatment)/d
Group 1
Group 2
Group 1
Group 2
1
8.1±0.9
6.9±0.8
12.1±1.1
11.3±0.8
2
7.6±0.8
, http://www.100md.com
6.6±0.5
11.8±0.8
10.7±0.7
3
7.5±0.8
6.6±0.6
11.5±0.9
10.9±0.6
4
7.4±0.8
7.0±0.6
11.6±0.8
, 百拇医药
11.3±0.6
5
7.5±0.8
7.3±0.6
11.7±1.2
11.7±0.4
1 kPa=7.5 mm Hg. 1.2 方法 假设在追踪观测设计研究中,有r个处理组,第j组(j=1,2,…,r)的观察个体数为nj, 每一个体追踪观测p次,相应的观察点(如时间)为t1, t2, …,tp,若在这p个不同时间点同时观测m个反应变量,则有多变量生长曲线模型[4] (1) (2)
, http://www.100md.com
其中Y的列对应N个个体,N=n1+n2+…+nr,第k列的前m个元素为t1处的m个变量的观察值,接着为t2处的观察值,如此反复直到tp处的最后一个观察值,即Y为pm×N阶观察值矩阵. 同理, ζ为mq×r阶生长曲线未知系数矩阵, ζ的第j列对应第j组,并且前m个元素为m个变量t0的系数(即截距),接着的m个元素为t1的系数,如此反复直到tq-1的m个系数.
mp阶方阵Σ为Y的任何一列元素的方差-协方差阵,Y的N个列向量间相互独立. 另外,式(1)中的B和A分别为轮廓设计阵和处理设计阵. 记Eab表示元素全为1的a×b阶矩阵,则
, http://www.100md.com
若N>mp-q+r,则多变量生长曲线模型的分析过程与文献[5]中的单变量生长曲线模型的分析过程相同,但是单变量分析中的p需要mp来代替,B需要BIm来替换,符号“AB”表示矩阵A与矩阵B的Kronecker积,即A=(aij),B=(bij),AB=(aijB).
2 结果
2.1 生长曲线模型检验 在多变量生长曲线模型(1)中,m=2,p=5,处理设计阵A为
A=diag(E1,60, E1,60)
, http://www.100md.com
为了衡量所拟合的模型是否合适,可用SAS/IML计算程序进行假设检验[6]. 首先拟合q=3的生长曲线模型,即检验假设为H01:q=3. 可求得检验统计量Wilks'Λ的值,即Λ=0.8019,相对应的概率为P=0.0310,故拒绝q=3. 进一步检验q=4的假设,得Λ=0.9459,P=0.8932,故不拒绝q=4. 这时轮廓设计阵B为
2.2 生长曲线系数估计 q=4时的生长曲线系数极大似然估计见Tab 2.
表 2 生长曲线模型系数的估计值
Tab 2 The estimates of growth curve model coefficients (q=4)
, 百拇医药
Treatment
Response
ξ0
ξ1
ξ2
ξ3
Group 1
Diastolic
6.9367
0.8074
-0.3093
, http://www.100md.com
0.0338
Systolic
12.8193
-0.8060
0.1532
-0.0069
Group 2
Diastolic
8.7051
-2.2883
0.7208
-0.0643
, 百拇医药
Systolic
12.6344
-1.9076
0.5835
-0.0483
模型系数的协方差阵的第一分块为
Var(ξ)=38.52-0.70-38.84-0.9011.850.47-0.12-0.03
19.01 0.95-20.75-0.326.81 0.03-0.68
40.97 1.38-12.84-0.71 1.23 0.06
24.56-0.48-8.36 0.05 0.85
, 百拇医药
4.11 0.26-0.40-0.02
2.93-0.03 0.30
0.04 0.00
0.03×10-2
2.3 生长曲线图 见Fig 1,2.
图 1 两组患者舒张压的生长曲线
Fig 1 Diastolic blood pressure growth curves of two groups of patients
, 百拇医药
图 2 两组患者收缩压的生长曲线
Fig 2 Systolic blood pressure growth curves of two groups of patients
3 讨论
由Fig 1,2可见两组生长曲线不同,即两组生长曲线系数向量不等. 这个结论也可通过假设检验得到验证,检验假设为H02: ζ1=ζ2, 即两组系数相等. 经SAS程序计算,可得到检验统计量Wilks'Λ=0.5256,P≈0.0000,故拒绝H02,可认为两组生长曲线不同. 这与从图中直观分析所得结果相同. 以上分析表明,用药后患者的平均舒张压和收缩压随时间的变化而变化,且两个药物组曲线的变化趋势是不相同的,消瘾扶正胶囊组的舒张压和收缩压变化相对平缓,而可乐宁组的舒张压和收缩压起伏波动较大,且在用药后第2日达到最低点,随后舒张压和收缩压缓慢回升. 两种药物均有降低舒张压和收缩压的效果,且在用药后第1日时已明显降低(用药前药物依赖患者平均舒张压和收缩压分别为9.11 kPa和13.89 kPa),用药后消瘾扶正胶囊组的舒张压和收缩压相对来说均较可乐宁组为高,可认为两种药物在降低血压方面存在不同的影响.
, 百拇医药
对于医学追踪观测资料还可以进行生长曲线系数的条件方差—协方差阵估计,以便反映不同组间各次系数的协方差. 另外,针对不同的实际需要可灵活选择线性假设中的矩阵结构,而且均可通过SAS软件容易实现有关的假设检验计算.
基金项目:国家自然科学基金资助项目 (39370637,39770677)
作者简介:陈长生(1966-),男(汉族), 江西省高安市人. 博士,讲师. Tel.(029)3374853 Email.ccsbr@21cn.com
陈长生(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
徐勇勇(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
吴冰(第四军医大学秦都口腔医学院修复科)
, 百拇医药
尚磊(第四军医大学预防医学系卫生统计学教研室,陕西 西安 710033)
参考文献:
[1] 徐勇勇, 曹秀堂, 李文潮. 重复观测数据(等距)团体比较的正交回归模型[J]. 中华预防医学杂志, 1991;25(5): 306-308.
[2] 陈长生, 徐勇勇,曹秀堂. 不等距重复观测数据组间比较的正交回归模型[J]. 中国卫生统计, 1996;13(3): 1-5.
[3] 陈长生, 徐勇勇,曹秀堂. 医学研究中重复观测数据的统计分析方法[J]. 中国卫生统计, 1996; 13(6):55-58.
[4] Kshirsagar AM, Smith WB. Growth Curves[M]. New York: Marcel Dekker, Inc, 1995: 32-115.
[5] 陈长生, 徐勇勇,张 音 et al. 医学重复观测数据组间比较的生长曲线模型[J]. 中华预防医学杂志, 1998; 32(4):245-247.
[6] SAS Institute Inc. SAS/IML Software [M]. Version 6. 2nd edition. Cary, NC, USA: SAS Institute Inc, 1993: 1-382., 百拇医药