当前位置: 首页 > 期刊 > 《数理医药学杂志》 > 1999年第2期
编号:10261269
模糊最小二乘法应用于部分取代芳烃的QSAR研究
http://www.100md.com 《数理医药学杂志》 1999年第2期
     作者:段琼虹 鲁生业 曹玉广

    单位:同济医科大学流行病学教研室 武汉430030

    关键词:模糊最小二乘法;取代芳烃;QSAR

    数理医药学杂志990204

    摘要 在模糊最小二乘法基础上,提出了一个参数MMG来判断判别方程优劣,并将模糊最小二乘法用于进行部分取代芳烃的QSAR研究,用所建立的模型进行毒性预报,并与传统的Bayes法相比较,结果表明前者的模拟和预报能力均优于后者,且模糊最小二乘法具有判别分类的主观性小及判别方程只有一个等优点。因而,模糊最小二乘法能代替Bayes在QSAR中作为判别分析的工具。

    1 前言

    随着QSAR研究进展,很多新的模式识别方法被应用于QSAR研究中,模糊最小二乘法(Fuzzy Adaptive Least Square, FALS)是其中的一种。FALS是一种非参数分类法,它是在适应性最二乘法(Adaptive Least Square,ALS)[1]的基础上发展而来,于1989年由Ikuo Moriguchi[2]等提出,FALS提出后,在国内未见报道。
, 百拇医药
    本文在FALS基础上,提出一个简单的参数MMG来判断判别方程优劣,并将FALS用于研究一类重要环境污染物取代芳烃的定量构效关系,建立了较为理想的模型。

    2 FALS模型原理的结构

    2.1 原理

    同ALS一样,FALS用一个判别函数将化合物的活性级别区分开。

    z=w0+w1x1+w2x2+…+wpxp (1)

    式中xk为k个(k=1,2,…p)结构参数,wk+1为权重系数,z为每个化合物的判别得分。对于一组含有n个化合物的数据,(1)式可写为:
, 百拇医药
    Z=XW (2)

    其中,

    2.2 具体步骤

    2.2.1 初始得分aj(j=1,2,…m)和每一类的界限bj(1,2,…m-1)由(3)、(4)两式算出。

    aj=(4j-2)/m-2 (3)

    bj=(aj+aj+1)/2 (4)

    式中,m为类别个数。

    2.2.2 设定一个隶属函数M(Z)来表示每个化合物所属类别的隶属度。M(Z)的值从0变化到1。式中,FlJ-1是第j-1类和第j类之间界限的模糊水平参数,F1j是第j类和第j+1类之间界限的模糊水平参数。
, 百拇医药
    2.2.3 设定初始得分因子si(1)

    Si(1)=aj (6)

    2.2.4 初始权重可由下式求出:

    W(1)=(XTX)-1XTS(1) (7)

    式中,S(1)=(S1(1),S2(1),…,Sn(1))T

    2.2.5 求出Z(1)
, 百拇医药
    Z(1)=XW(1) (8)

    2.2.6 在第二次以及以后的循环中,初始因子用一个校正项来改变,如下式所示:

    Si(t+1)=Zi(t)+Ci(t) (9)

    其中,Ci(t)为校正项,由(10)式求出。(10)

    权重W由下式求出:

    W(t+1)=(XTX)-1XTS(t+1) (11)
, 百拇医药
    2.2.7 模糊最小二乘计算反复进行,直到∑(Si-Zi)2或者∑C2i达到最小,此时所有模式的MG1(membership grade,MG)达到最大,所有模式的分类达到最好。此法判别效果的优劣可用参数MMG来标志。 (12)

    MMG的取值范围在0到1之间,MMG越大,判别效果越好。

    3 取代芳烃的结构和生物毒性数据

    初选的取代芳烃结构参数有14种,分别为π、F、R、1Xv2Xv4Xv、IC、SIC、CIC、PIC、RIC、RSIC、RCIC、RPIC。其中,化合物的π参数、诱导效应常数F、共扼效应常数R根据文献[3]计算;分子连接指数0Xv1Xv2Xv根据文献[4]计算;分子信息理论指数IC等根据文献[5]计算。表2和表3中的取代芳烃对发光菌的毒性-IgEC50取自文献[6]和[7]。由于有机化合物对发光菌的毒性没有统一的分类标准,本文按生物活性效应水平的频数分布进行分类。根据表1中33种化合物的-IgEC50频数直方图,兼顾各类间间隔相等,最终分为三类,其分类界值为-lgEC50=4.00,5.00。
, 百拇医药
    本文用逐步判别法筛选出三种参数:π、1Xv、SIC,其数据见表1。

    表1 33种取代芳烃的结构数据及两种模型判别分类结果 化合物名称

    π

    1xv

    SIC

    classa

    classb

    MGc

    classd
, 百拇医药
    硝基苯

    -0.28

    2.4488

    0.5269

    1

    1

    1.0000

    2*

    邻硝基氯苯

    0.43

    3.0176

    0.6623

    1
, 百拇医药
    1

    0.8664

    2*

    对硝基氯苯

    0.43

    3.0116

    0.6623

    1

    1

    0.9270

    1

    邻硝基苯胺

    -1.51
, 百拇医药
    2.7050

    0.6563

    1

    1

    1.0000

    1

    对硝基苯胺

    -1.51

    2.6990

    0.6563

    1

    1

    1.0000
, 百拇医药
    1

    2,4-二硝基苯胺

    -1.79

    3.1035

    0.6501

    1

    2*

    0.1223

    3*

    邻硝基苯酚

    -0.95

    2.6400
, http://www.100md.com
    0.6623

    1

    1

    1.0000

    1

    对硝基苯酚

    -0.95

    2.6340

    0.6623

    1

    1

    1.0000

    1
, http://www.100md.com
    甲苯

    0.56

    2.4107

    0.3920

    1

    1

    1.0000

    1

    苯胺

    -1.23

    2.1994

    0.5270

    1
, 百拇医药
    1

    1.0000

    1

    对氯苯胺

    -0.52

    2.6762

    0.6620

    1

    1

    1.0000

    1

    间二甲苯

    1.12
, http://www.100md.com
    2.3214

    0.3980

    1

    1

    1.0000

    1

    溴苯

    0.86

    2.8913

    0.4600

    1

    2*

    0.4811
, 百拇医药
    1

    氯苯

    0.71

    2.4768

    0.4600

    1

    1

    1.0000

    1

    对氯甲苯

    1.27

    2.8875

    0.5280
, 百拇医药
    1

    1

    0.9948

    1

    间二硝基苯

    -0.56

    2.9990

    0.5625

    2

    2

    0.9116

    2

    间硝基甲苯
, http://www.100md.com
    0.28

    2.8588

    0.5730

    2

    2

    0.0024

    1*

    2,4-二硝基甲苯

    0.00

    3.4160

    0.6868

    2

    2
, 百拇医药
    1.0000

    1*

    2,5-二氯硝基苯

    1.14

    3.5310

    0.7090

    2

    2

    1.0000

    2

    3,4-二氯硝基苯

    1.14

    3.5310
, http://www.100md.com
    0.7090

    2

    2

    1.0000

    2

    2,4-二氯苯胺

    0.19

    3.1590

    0.7090

    2

    2

    1.0000

    2
, 百拇医药
    2,6-二氯苯胺

    0.19

    3.1650

    0.7090

    2

    2

    1.0000

    2

    1,3-二氯苯

    1.42

    2.9536

    0.5350

    2
, http://www.100md.com
    2

    0.9522

    2

    2,5-二氯甲苯

    1.98

    3.3703

    0.5860

    2

    2

    1.0000

    2

    对氯溴苯

    1.57
, 百拇医药
    3.3681

    0.6280

    2

    2

    1.0000

    2

    1,2,4-三氯苯

    2.13

    3.4364

    0.5580

    2

    2

    1.0000
, 百拇医药
    2

    1,2,3-三氯苯

    2.13

    3.4424

    0.5580

    2

    2

    1.0000

    2

    2,4,5-三氯甲苯

    2.69

    3.8531

    0.6050
, 百拇医药
    2

    2

    0.9357

    2

    1,3-二溴苯

    1.72

    3.7825

    0.5350

    2

    2

    1.0000

    3*

    邻二硝基苯
, http://www.100md.com
    -0.56

    2.9990

    0.5625

    3

    2*

    0.0001

    1*

    1,2,3,4-四氯苯

    2.84

    3.9252

    0.4580

    3
, http://www.100md.com
    3

    1.0000

    3

    六氯苯

    4.26

    4.8968

    0.2790

    3

    3

    1.0000

    3

    2,4-二硝基氯苯

    0.15
, 百拇医药
    3.4820

    0.6639

    3

    2*

    0.0001

    2*

    注:a为实验毒性类别;b为FALS法判别的毒性类别;c为化合物属于某一类别(其判别所在类)的隶属度;d为Bayes法判别的毒性类别。4 结果与分析

    为评价模型的预测能力,随机抽取11种取代芳烃作为预测集,以另外33种取代芳烃作为训练集,根据训练集得出的判别函数来判别预测集的类别。

    4.1 模糊最小二乘法模型的判别结果
, http://www.100md.com
    模糊最小二乘法经过196次迭代,使MMG=0.8543。其中,模糊水平参数Flj-1=0.05,Flj=0.09,得到如下的判别函数:

    Z=-4.4153+0.0211π+1.45601Xv-1.0387SIC

    根据判别函数,算出每种化合物的得分Z,若Z
    回代分类结果见表1,预测分类结果见表2。

    表2 11种取代芳烃的结构数据及两种模型预测分类结果 化合物名称

    π

    1Xv
, 百拇医药
    SIC

    classa

    classb

    MGc

    classd

    对二硝基苯

    -0.56

    2.9999

    0.5625

    2

    2

    1.0000
, http://www.100md.com
    1*

    对硝基甲苯

    0.28

    2.8588

    0.5730

    1

    1

    1.0000

    1

    间硝基氯苯

    0.43

    3.0120

    0.6623
, 百拇医药
    1

    1

    0.9237

    2*

    间硝基苯胺

    -1.51

    2.6990

    0.6563

    1

    1

    1.0000

    1

    间硝基苯酚
, 百拇医药
    -0.95

    2.6340

    0.6623

    1

    1

    1.0000

    1

    对二甲苯

    1.12

    2.8214

    0.3980

    1

    1
, 百拇医药
    0.8366

    1

    3,4-二氯苯胺

    0.19

    3.1590

    0.7090

    2

    2

    1.0000

    2

    1,4-二氯苯

    1.42

    2.9536
, 百拇医药
    0.5350

    2

    2

    0.9522

    2

    1,4-二溴苯

    1.72

    3.7825

    0.5350

    2

    2

    1.0000

    3*
, 百拇医药
    对硝基溴苯

    0.58

    3.3394

    0.6623

    3

    2*

    1.0000

    2*

    对硝基苯甲醚

    -0.30

    2.9712

    0.6050
, 百拇医药
    3

    1*

    0.9823

    1*

    4.2 Bayes模型判别结果

    Bayes判别建立了以下三个判别函数:

    G1=-46.9903-1.2491π+23.2732 1Xv+55.0709SIC

    G2=-65.8225+0.0734π+26.1140 1Xv+71.1726SIC

    G3=-72.3913-2.6278π+33.8744 1Xv+39.8951SIC
, 百拇医药
    Bayes法对33种取代芳烃的回代分类结果见表1。对11种取代芳烃的预测分类结果见表2。

    4.3 FALS模型和Bayes模型相比较表3 FALS模型和Bayes模型比较 方法

    学习集

    预测集

    判别正

    确个数

    判别正

    确率

    判别正

    确个数

    判别正
, 百拇医药
    确率

    FALS模型

    29

    87.88%

    9

    81.82%

    Bayes判别模型

    25

    75.75%

    6

    54.55%

    由表3可知,在学习集中FALS明显优于Bayes模型。在预报集中,FALS也优于Bayes模型。可见FALS模型的模拟和预测能力均优于Bayes模型。5 讨论
, 百拇医药
    取代芳烃是工业生产中使用较多的有机物,亦是重要的环境污染物。本文应用FALS模型对部分取代芳烃进行QSAR研究,并与传统的Bayes模型相比较,其优点如下:

    5.1 在对化合物的活性等级进行判别时,传统的判别方法(如Bayes法)应用较多。但由于Bayes法达到较好判别效果的条件是数据为线性可分或接近于线性可分,所以当数据为线性不可分或非线性时,效果很差。而FALS既适用于线性可分数据,也适用于线性不可分数据。从表3可以看出,FALS的回代分类效果比Bayes法好,预测分类效果也比Bayes法好。

    5.2 FALS使用一个隶属函数使分类主观性减小,本文提出一个简便的判断判别函数优劣的标准MMG。MMG的计算简便,很容易得到。判断判别函数优劣的条件是:当MMG(0≤MMG≤1)达到最大时,即认为此时的判别方程为最好。本文还根据隶属函数,计算出了每种化合物归属于其判别所在类的隶属度MG,使其归属于各类别的可能性有一个准确的量度,从而使判别结果更具实际意义。此外,还可以计算每种化合物归属其实际所在类的隶属度。
, 百拇医药
    5.3 FALS的判别方程只有一个,而Bayes法的判别方程有三个,可见,FALS模型较Bayes模型简便。另外,FALS具有以下特点:FALS中的常数模糊水平参数Flj和Flj-1要根据试验来确定。其取值范围在0~1之间,不断变换Flj和Flj-1的值,并计算MMG的值,当MMG达到最大时,此时的Flj-1和Flj取值为最优。

    注释:国家自然科学基金项目

    参考文献

    1 Moriguchi I, et al. J Med Chem, 1980,23(1);20~26.

    2 Moriguchi I, et al. Chem Pharm Bull, 1990,38(12):3373~3779.
, 百拇医药
    3 王尔华译.定量药物设计.北京:人民卫生出版社,1983,364~375.

    4 王连生,支正良.分子连接性与分子结构—毒性.北京:中国环境科学出版社,1992,12~25.

    5 Ray S K. et al. Arzneim Forsch/Drug Res, 1982,33(I),Nr 4:322~324.

    6 Zhao Y,Wang L. Chemosphere.1993,26(11):1971~1979.

    7 袁星等,环境科学,1995,16(5):18~21.

    收稿日期:1998-10-26, 百拇医药