当前位置: 首页 > 期刊 > 《中国卫生统计》 > 1999年第3期
编号:10260036
肿瘤危险因素的筛选与多重共线性的诊断和处理
http://www.100md.com 《中国卫生统计》 1999年第3期
     作者:李玲 饶克勤 王启俊

    单位:李玲 王启俊 北京市肿瘤防治研究所流行病室(100034); 饶克勤 卫生部卫生统计信息中心

    关键词:多重共线性;多元回归分析;主成分分析;因子分析

    中国卫生统计990303 【提 要】 目的 结合肺癌危险因素研究中变量的筛选过程,探讨在涉及较多自变量的大型多元回归分析中,变量间多重共线性的诊断和处理方法。方法 首先将经单因素分析筛选的变量进行相关分析,得出相关系数矩阵R的特征值,用主成分分析法判定自变量间是否存在多重共线性以及存在几个多重共线性关系。然后将这些自变量进行正交旋转,取得旋转后公因子所对应的自变量及其多重共线性关系,结合专业知识和以往研究的经验加以去除。结果 将去除多重共线性的自变量引入多元回归模型,即可取得比较满意的结果。结论 在大型多元回归分析中用上述方法进行多重共线性的诊断和处理是可行的。
, http://www.100md.com
    Discovery and Handling of Collinearity in the Screening Of Cancer Risk Factors

    Li Ling,Rao keqin,Wang Qijun.

    Beijing Institute for Cancer Research(100034),Beijing,【Abstract】 Objective It is very difficult to discover and handle the collinearity in multiple regression.We try to find a way to deal with it in the case-control study of risk factors in lung cancer.Methods First,correlative analysis is conducted to form the correlative coefficient matrix R of the explanation variables.Then the eigenvalues in the matrix are used to determine if there are collinear relationships among the variables by principal companent analysis.If so,using factor analysis,promax rotation is done to find the factors and the corresponding collinear variables.Results Collinear variables are excluded according to the above-mentioned result and academic experience.Conclusion the combination of principal component analysis and factor analysis can cotribute successfully to the discovery and handling of collinearity.
, 百拇医药
    【Key words】 Collinearity Multiple regressin Principal component analysis Factor analysis

    恶性肿瘤的发生是一个多因素、多阶段的复杂生物学过程,它的病因涉及遗传、免疫、生活方式和行为、营养、环境等诸多方面。因此,现代肿瘤流行病学研究中,要揭示暴露与恶性肿瘤之间的关系,常常引入多变量分析技术,以便在有效地控制外部变量的混杂和效应修正作用的基础上,定量地研究不同危险因素与恶性肿瘤之间的关系,确定危险因素的暴露量及其危害(保护)程度,并进行不同暴露水平下个体患病可能性的估计,为恶性肿瘤的预防和干预提供科学依据。但是,在恶性肿瘤相关因素的研究中,由于研究的解释变量间存在着多重共线性,往往使分析的结果受到不同程度的影响(如回归系数估计值的方差增大,显著性检验的t值变小,估计值极不稳定,对观察值的变化非常敏感,估计值的大小和符号与预期的不一致等)〔1〕。因而,在肿瘤危险因素的研究中,特别是大规模的现场流行病学调查中,多重共线性的诊断和处理显得尤为重要。现结合北京市肺癌危险因素的病例对照研究的实例,探讨肿瘤危险因素流行病学研究中多重共线性的诊断和处理方法。
, http://www.100md.com
    常用多重共线性的诊断和处理方法

    多重共线性一词最早由R.弗里希于1934年提出,它指的是回归模型中某些或所有自变量间存在完全或近似完全的线性关系〔4〕。多重共线性诊断需要解决自变量间是否存在多重共线性关系,存在多少个多重共线性关系以及每个多重共线性关系由哪些自变量构成等问题。目前常用的多重共线性诊断方法有:

    1.自变量的相关系数矩阵R诊断法:研究变量的两两相关分析,如果自变量间的二元相关系数值很大,则认为存在多重共线性。但无确定的标准判断相关系数的大小与共线性的关系。有时,相关系数值不大,也不能排除多重共线性的可能〔2〕

    2.方差膨胀因子(the variance inflation factor,VIF)诊断法:方差膨胀因子表达式为:VIFi=1/(1-R2i)。其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性〔5〕。该诊断方法也存在临界值不易确定的问题,在应用时须慎重。
, 百拇医药
    3.容忍值(Tolerance,简记为Tol)法:容忍值实际上是VIF的倒数,即Tol=1/VIF。其取值在0~1之间,Tol越接近1,说明自变量间的共线性越弱。在应用时一般先预先指定一个Tol值,容忍值小于指定值的变量不能进入方程,从而保证进入方程的变量的相关系数矩阵为非奇异阵,计算结果具有稳定性。但是,有的自变量即使通过了容忍性检验进入方程,仍可导致结果的不稳定〔3〕

    4.多元决定系数值诊断法:假定多元回归模型p个自变量,其多元决定系数为R2y(X1,X2,…,Xp)。分别构成不含其中某个自变量(Xi,i=1,2,…,p)的p个回归模型,并应用最小二乘法准则拟合回归方程,求出它们各自的决定系数R2i(i=1,2,…,p)。如果其中最大的一个R2k与R2Y很接近,就表明该自变量在模型中对多元决定系数的影响不大,说明该变量对Y总变异的解释能力可由其他自变量代替。它很有可能是其他自变量的线性组合。因此,该自变量进入模型后就有可能引起多重共线性问题〔2〕。该方法也存在临界值和主观判断问题。
, http://www.100md.com
    5.条件数与特征分析法:在自变量的观测值构成的设计矩阵X中,求出变量相关系数R的特征值,如果某个特征值很小(如小于0.05 ),或所有特征值的倒数之和为自变量数目的5倍以上,表明自变量间存在多重共线性关系。利用主成分分析,如果X′X的特征值RK小于0.05时,RK所对应的主成分FK可近似为零,表明自变量间存在K个多重共线性关系〔5〕

    除了上述方法外,还有回归系数方差分解法(RCVD法)以及Greene提出的matriods原理及诊断方法等,但这些方法比较复杂,在此不一一叙述〔2〕

    对诊断有多重共线性的自变量,常用的处理方法有:增加新变量,剔除不重要变量,主成分分析,一阶差分法,回归校正法,变量分解法等。但这些方法在应用条件和结果解释方面存在一定的局限性,要根据不同的研究目的加以选用。

    肿瘤危险因素研究中多重共线性的诊断和处理
, 百拇医药
    本文利用国家“九五”攻关项目“常见恶性肿瘤发病、死亡及其危险因素监测方法研究”北京现场调查的资料。该调查随机抽取1995~1997年肺癌新发病例350例,按1∶1配对设计的原则,选择与病例同性别,同年龄组(±2.5岁),且是病例邻居的健康人作对照,进行北京市肺癌危险因素的病例对照研究。该研究调查内容主要涉及6个方面:(1)一般情况:包括性别、年龄、教育程度、职业、收入、身高、体重等指标;(2)生活居住环境:包括10年前及调查时住房面积及建筑材料、取暖方式、燃料、室内油烟等指标;(3)饮食因素:包括10年前及调查时各类食物、水果、蔬菜、饮食习惯等指标。(4)生活方式:吸烟、环境烟雾、饮茶、饮酒、体育锻炼、心理状况等指标;(5)既往疾病史及家族癌史:既往呼吸系统疾病史,亲属癌史等指标;(6)女性因素:月经周期、避孕药使用、生殖系统手术史等近300个指标。我们在进行危险因素回归分析时,往往发现:(1)当一个自变量被引入或剔除时,其余变量的回归系数有较大的变化;(2)当新数据追加或去掉一些数据进行计算时,回归系数变化较大;(3)回归系数的数值与方向与其他研究和经验不一致。因此,肺癌主要危险因素的筛选和检测处理数据复共线性是本次研究的重点。为了保证筛选变量的准确,我们采用了以下技术路线:
, http://www.100md.com
    1.单因素条件logistic回归:每一个调查指标与肺癌进行单因素条件logistic回归分析,界定显著性检验水平(P<0.1),从约300个调查指标中筛选出44个预选变量。个别不满足检验水平,但有研究报道的变量给予保留。

    2.预选自变量的相关分析:对预选变量进行复相关与两两相关分析,根据两两相关系数的大小,一方面判断预选变量与肺癌的关联程度,另一方面判断预变量间的关联程度。

    3.多重共线性的诊断:我们对44个预选变量进行主成分分析,主成分分析的特征向量和特征值见表1。44个预选变量的主成分分析结果可以发现,从总体上来看各预选变量之间的关联性不大:前20个主成分特征值得分的累计比例仅占这个资料信息量不足76%,各预选变量彼此间独立性较强,该组资料多重共线性不强;另一方面,在43个特征值中,特征值小于0.10的主成分有4个,小于0.05的有3个。因此,可以确定该组资料多重共线性有3至4组。
, http://www.100md.com
    表1 预选变量主成分分析-相关系数

    矩阵的特征值以及累计比例 主成分

    特征值

    累计比例

    主成分

    特征值

    累计比例

    1

    5.406

    0.123

    23

    0.791

, 百拇医药     0.823

    2

    3.227

    0.196

    24

    0.770

    0.841

    3

    2.647

    0.256

    25

    0.736

    0.858
, http://www.100md.com
    4

    2.259

    0.308

    26

    0.714

    0.874

    5

    1.909

    0.351

    27

    0.667

    0.889

    6
, 百拇医药
    1.733

    0.391

    28

    0.624

    0.903

    7

    1.571

    0.426

    29

    0.584

    0.917

    8

    1.530
, 百拇医药
    0.461

    30

    0.536

    0.929

    9

    1.431

    0.493

    31

    0.493

    0.940

    10

    1.315

    0.523
, 百拇医药
    32

    0.462

    0.950

    11

    1.291

    0.553

    33

    0.422

    0.960

    12

    1.247

    0.581

    34
, 百拇医药
    0.386

    0.969

    13

    1.168

    0.608

    35

    0.324

    0.976

    14

    1.090

    0.623

    36

    0.270
, 百拇医药
    0.982

    15

    1.054

    0.656

    37

    0.233

    0.988

    16

    1.038

    0.680

    38

    0.174

    0.992
, http://www.100md.com
    17

    1.022

    0.703

    39

    0.150

    0.995

    18

    0.956

    0.725

    40

    0.106

    0.997

    19
, http://www.100md.com
    0.935

    0.746

    41

    0.073

    0.999

    20

    0.928

    0.767

    42

    0.031

    1.000

    21

    0.855
, 百拇医药
    0.787

    43

    0.016

    1.000

    22

    0.828

    0.805

    44

    0.000

    1.000

    4.多重共线性的处理:主成分分析确定了该组资料有3~4组多重共线性,但不能确定这些多重共线性分别是由哪些研究变量所形成。我们采用因子分析,对主成分分析中的初始因子进行正交旋转(最大方差旋转),取得旋转后公因子所对应的预选变量及其相互关系。表2显示了前六个公因子所对应的有显著性意义的预选变量(由于篇幅问题,其他省略)。可见第1公因子所对应的均为与吸烟有关的变量,即病前是否吸烟、吸烟年数长短、吸烟量和吸烟年龄早晚。实际上公因子1就是吸烟因子,故它所对应的选变量必然存在多重共线性关系。同样,第2公因子对应与生活燃料有关变量,即生活燃料用煤、月用煤量和生活燃料用柴草;第3公因子对应与饮食中杂粮有关变量,即目前杂粮每月摄入量,10年前杂粮每月摄入量;第4公因子对应变量为精神创伤和精神压抑;第5公因子对应变量为被动吸烟量和是否被动吸烟;第6公因子对应变量为目前玉米每月摄入量和10年前玉米每月摄入量。根据公因子与预选变量关系的密切程度,结合专业知识和以往研究经验,从每个公因子所对应变量中选择一个变量做为研究变量,如公因子1,我们选择病前是否吸烟作为研究变量;这样就从前6个公因于所对应的15个预选变量中,减少了9个变量。表2 北京肺癌病例-对照:因子分析——前六个公因子所对应显著性变量的因子模型 变量
, 百拇医药
    公因子1

    公因子2

    公因子3

    公因子4

    公因子5

    公因子6

    吸烟年数长短

    0.93698

    0.00637

    -0.01910

    -0.00200

    -0.21240

, 百拇医药     0.04492

    病前是否吸烟

    0.93510

    0.00082

    -0.02312

    -0.01663

    -0.23532

    0.02540

    每日吸烟量

    0.85913

    0.00319

    -0.00178
, 百拇医药
    0.00844

    -0.15339

    -0.03425

    吸烟年龄的早晚

    0.69879

    -0.05494

    0.03043

    0.05894

    -0.12974

    0.03935

    目前生活燃料用煤

    -0.00668
, 百拇医药
    -0.99520

    -0.00921

    -0.01612

    -0.00459

    0.02078

    目前每月用煤量

    0.00075

    0.99127

    0.01590

    -0.00959

    -0.00342

    0.01664
, 百拇医药
    目前生活燃料用柴草

    0.00668

    0.99520

    0.00921

    0.01612

    0.00459

    -0.02078

    目前杂粮每月摄入量

    -0.01927

    0.02213

    0.95085

    -0.02133
, 百拇医药
    -0.01446

    0.13825

    10年前杂粮每月摄入量

    -0.00959

    0.01478

    0.94554

    -0.01787

    -0.00300

    0.17349

    有无精神创伤

    -0.02182

    -0.02807
, 百拇医药
    -0.01048

    0.95412

    0.01157

    -0.02776

    有无精神压抑

    0.03145

    -0.01711

    -0.02879

    0.94503

    0.01647

    -0.01024

    被动吸烟程度
, http://www.100md.com
    -0.31558

    -0.01010

    -0.01514

    0.01117

    0.92461

    -0.02702

    是否被动吸烟

    -0.36431

    -0.00527

    -0.00519

    0.02062

    0.89708
, http://www.100md.com
    -0.01781

    目前玉米每月摄入量

    0.03109

    0.01417

    0.16313

    -0.01604

    -0.01562

    0.91704

    10年前玉米每月摄入量

    0.02440

    0.05733

    0.18983
, 百拇医药
    -0.02761

    -0.03048

    0.90461

    小 结

    以往的流行病学研究比较重视混杂因素对研究结果的影响,而在正确诊断和处理研究变量间多重共线性关系上感到十分繁琐或束手无策,尤其是在涉及较多变量的大规模现场流行病学调查研究中,由于研究变量间或多或少地存在多重共线性关系,从而影响分析的结果。目前对多重共线性的诊断和处理方法较多,但在应用条件和结果解释上存在一定的局限性。本研究用主成分分析对变量间的多重共线性关系进行诊断,并结合因子分析对预选变量进行筛选处理,根据研究目的去除多重共线性影响,建立肺癌和解释变量的关系模型,取得了比较满意的结果。

    参考文献

    1.刘韵源.状态风险分析及其在生物医学中的应用——定常协变量问题.北京:科学出版社,1990.
, 百拇医药
    2.范立新,金水高.多重共线性的变量分解处理法初探.中国卫生统计1997,14(4):4.

    3.范立新,金水高.回归分析中多重共线性诊断方法.国外医学(卫生学分册),1994,21(1):34.

    4.柳丽,魏庆等.回归分析中多重共线性的诊断与处理.中国卫生统计,1994,11(1):5.

    5.李严洁.多元回归中的多重共线性及其存在的后果.中国卫生统计,1992,9(1):24.

    6.SAS公司.SAS系统——SAS/STAT软件使用手册.中国统计出版社,1997.

    7.Yohanan Wax:Collinearity diagnosis for a relative risk regression ana1ysis:an application to assessment of diet-cancer relationship in epidemiological studies. Statistics in medicine,1992,11:1273., http://www.100md.com