神经网络用于46种紫杉烷衍生物的模式识别分类研究△
作者:胡步超 王宏伦* 高广江 李续武*
单位:陕西省医药工业研究所 西安710032
关键词:紫杉烷衍生物;模式识别;神经网络
数理医药学杂志990106
摘 要 运用模式识别部分结合人工神经网络对46种紫杉烷的衍生物进行药理肿瘤生物活性的分类,成功率达100%。研究结果表明,模式识别结合神经网络用于药化活性分类筛选可行。期望在新药设计研究中探索出一套有效的化学计量优先方法。
研究药物的结构和生物活性之间量变关系是药物化学重要内容之一。国内外众多的研究成果说明假定结构相似活性亦相似、结构的微扰也引起活性的微扰,结构和活性间的依赖关系可以用一定的数学模型加以定量表征。不同的结构和相异的生物活性之间能否有趋势可循,能否用模式识别(Pattem Recognition)结合神经网络(Neural Networds, NN),对紫杉烷类结构改造的化合物进行生物活性分类研究,是本文的中心指导思想和目的。我们采用模式识别中描述符生成、模式分类等方法结合人工神经网络反向传播数学模型对46种紫杉烷的衍生物[1]进行生物活性的分类和系统的构效关系研究,建立了对紫杉烷分类活性的计算机智能专家系统[4],有关紫杉烷这一领域的研究工作尚未见报导。
, 百拇医药
1 基本原理
1.1 神经网络(NN)是一个从输入到输出的高维非线性映射,每个节点(nodes)或称神经元(neunns)通过连接权重接收来自其它节点(神经元)的信息,然后通过输入输出转换函数给出输出信息。BP算法的学习过程由正向传播和反向传播两个过程组成。在正向传播过程中,输入信息从输入层(Input Iayer)经隐含层(Hidden Iayer)传向输出层(owtpat Iayer)。如果输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的连接通路返回,修改各层节点间的权重值,如此反复,使得误差信号最小[2]。在本文中,利用一组样本构成训练集,令其学习,依据一定的学习规则调整连接权重值。当训练结束,得到一组固定的连接权重值,并将学习得到的知识总结成规德表达在网络的权重中。利用这组权重分布,根据将全体样本的输入参数进行分类。
1.2 模式识别(pattern Reeogntion)应用[3]
, 百拇医药
1.2.1 结果选加
为提取紫杉烷46个结构类似物的分子特征,我们设计了一个“纯几何母结构图”(见附图),将46个化合物进行与图结构相选加。在10位编码位置上记录下各化合物选加情况,对空缺位置设为O,将I1,I2设置为两类不同取代基的虚潜参数构成46个化合物的分子特征数据矩阵表。
附图 紫杉烷纯几何母结构图
1.2.2 选择判别因子
我们选择了Cr芳碳原子;Ca脂肪碳原子;Co羰基碳原子……等10个基因健、功能基做为判别因子。
, 百拇医药
1.2.3 判别因子标识
参考判别因子描纪述符代码,将选出的因子编码或数值形式,要求它们可以表示和区别基团的特征,利用上述代码算出高维数据矩阵(见表1)。
表1 46×10分子特征数据矩阵
CadeSample
Ⅰ1
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
Ⅵ
, 百拇医药
Ⅶ
Ⅷ
Ⅸ
Ⅹ
Ⅰ2
1
1
0
0
0
0
0.44
0.13
0
, http://www.100md.com
0
0
0
0
2
2
0
0.44
0
0.44
0.44
0.13
0
0
, http://www.100md.com
0
0
0
3
1
0
0
0
0.44
0.44
0.13
0
0
0
, http://www.100md.com
0
0
4
1
0
0
0
0.44
0.44
0.13
0
0
0
0
, 百拇医药
0
5
1
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
, 百拇医药
6
1
0
0
0
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
, http://www.100md.com 7
1
0
0
0
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
8
, http://www.100md.com
1
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
9
1
, 百拇医药
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
10
1
, 百拇医药 0
0
0
0.44
0.44
0.13
0
0
0
0
0
11
0
0
, 百拇医药
0
0
0
0
0
0
0
0
0
0
12
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
13
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
14
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
15
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
16
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
17
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
18
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
19
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
20
1
1.24
1.26
, http://www.100md.com
1.24
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
21
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
22
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
23
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
24
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
25
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
26
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
27
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
28
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
29
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
30
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
31
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
32
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
33
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
34
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
35
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
36
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
37
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.13
0.44
0
0
38
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.30
0.44
0
39
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
40
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
41
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0.97
0.97
I
42
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
43
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.62
0.44
0
44
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
45
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0
0
46
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0
0
0
1.2.4 将上述高维数据矩阵46×10相同数值合亦压缩成10×10矩阵(见表2)进行神经网络计算分类。 表2 10×10矩阵
0.00
, 百拇医药
0.44
0.00
0.00
0.00
0.00
0.00
0.1
0.1
0.9
0.58
0.58
0.58
0.00
, 百拇医药
0.00
0.00
0.00
0.1
0.1
0.9
0.00
0.00
0.00
0.13
0.58
0.58
0.58
, 百拇医药
0.1
0.1
0.9
0.58
0.58
0.58
0.13
0.58
0.58
0.58
0.1
0.9
0.1
, http://www.100md.com
0.58
0.58
0.58
0.13
0.44
0.44
0.44
0.1
0.9
0.1
0.58
0.58
0.58
, http://www.100md.com
0.13
0.44
0.62
0.44
0.1
0.9
0.1
1.24
1.26
1.24
0.13
0.58
0.58
, 百拇医药
0.58
0.9
0.1
0.1
1.24
0.62
1.10
0.13
0.58
0.58
0.58
0.9
0.1
, 百拇医药
0.1
1.24
0.62
1.24
0.13
0.58
0.58
0.58
0.9
0.1
0.1
0.58
0.58
, 百拇医药
0.58
0.13
1.26
0.97
0.97
0.9
0.1
0.1
2 研究方法2.1 神经网络(NN)辅助模式分类程序设计
根据模式识别方法提取紫杉烷衍生物分子特征数据矩阵(10×10),我们编制了“神经网络用于46种紫杉烷衍生物模式分类研究”题目软件。
采用Fortran,C二种语言编写程序,IBMPIC 586上运行。
, http://www.100md.com
2.2 神经网络(NN)辅助模式分类方法设计
为了进行神经网络辅助模式分类,我们将数值转换后分子特征数据矩阵原始数据进行相同的合并压缩成10×10矩阵,从原始文件10×10中提取了7×10矩阵(见表3),将7×10矩阵做为训练网络进行“学习”,以其分子特征矩阵的数据做为输入,将样品的期望输出依次定为:
“0.1,0.1,0.9”……第一类生物活性最差
“0.1,0.9,0.1”……第二类生物活性中等
“0.9,0.1,0.1”……第三类生物活性最好
表3 7×10矩阵
0.58
0.58
, http://www.100md.com
0.58
0.00
0.00
0.00
0.00
0.1
0.1
0.9
0.00
0.00
0.00
0.13
0.58
, http://www.100md.com
0.58
0.58
0.1
0.1
0.9
0.58
0.58
0.58
0.13
0.58
0.58
0.58
0.1
, http://www.100md.com
0.9
0.1
0.58
0.58
0.58
0.13
0.44
0.62
0.44
0.1
0.9
0.1
1.24
, http://www.100md.com
1.26
1.24
0.13
0.58
0.58
0.58
0.9
0.1
0.1
1.24
0.62
1.10
0.13
, http://www.100md.com
0.58
0.58
0.58
0.9
0.1
0.1
0.58
0.58
0.58
0.13
1.26
0.97
0.97
, http://www.100md.com
0.9
0.1
0.1
网络含三层,训练集数(见表4),经过学习,NN能完全正确识别。这些样品进行模式分类,误判率为0。然后将样品全部进行学习分类,显示出化合物与各变量之间取代基之间复杂对应关系。 表4 Artificial Neural Network Specifications and Parameters
Parmeter
Simulated date
Input nodes
7
Hidden nodes
, http://www.100md.com
12
Output nodes
3
Learning rate
0.7
Momentum
0.5
Transfer function
Sigmoid
No.of iterntion
8000
3 结果与讨论3.1 网络参数与学习算法
, 百拇医药
对分级活性指标进行学习采用(7-12-3)NN风络结构,ξ=0.5,y=0.7学习参数,学习训练结果(见表5),错判率为0,正确率100%,说明分类、分级正确率高。
表5 Results of ANN Prediction for the test set
Sample
NO
ANN Output
Recognition
actual
1
0.000181
0.134512
, 百拇医药
0.899855
Ⅲ
Ⅲ
2
0.099512
0.099385
0.887629
Ⅲ
Ⅲ
3
0.000488
0.100683
0.899003
, http://www.100md.com
Ⅲ
Ⅲ
4
0.108449
0.887933
0.108901
Ⅱ
Ⅱ
5
0.093106
0.866007
0.286297
Ⅱ
, http://www.100md.com
Ⅱ
6
0.095401
0.892707
0.090704
Ⅱ
Ⅱ
7
0.893415
0.101752
0.101971
Ⅰ
Ⅰ
, http://www.100md.com
8
0.893703
0.099361
0.100358
Ⅰ
Ⅰ
9
0.896296
0.057458
0.107197
Ⅰ
Ⅰ
10
, 百拇医药
0.884814
0.100164
0.098122
Ⅰ
Ⅰ
3.2 紫杉烷衍生物分类结果
从10×10矩阵样本延伸到46个紫杉烷衍生物样本分类结果,见表6。
表6 46个紫杉烷衍生物分类结果
Sample
Ⅰ
Sample
, 百拇医药
Ⅱ
Sample
Ⅲ
01-11
Ⅰ
12-20
Ⅱ
21
Ⅲ
29 31
Ⅰ
23
Ⅱ
, http://www.100md.com 22
Ⅲ
25
Ⅱ
24
Ⅲ
27-29
Ⅱ
26
Ⅲ
33-41
Ⅱ
42
Ⅲ
, 百拇医药
43-46
Ⅱ
3.3 结论
上述“46种紫杉烷衍生物生物活性模式分类研究”是用NN辅助模式识别分类的初步尝试,实验结果证明此方法与NN结合可行,此软件可望进一步扩展用在药物研究的药理、药分、生药、制剂及临床医学的分级分类上。而在定量构效及药物设计上可将最佳化合物筛选缩小在一个有限的范围内进行新的结构修饰工作,这样提高了新药研究效率,节省了资金和研究开发周期。对于紫杉烷的第三类最佳化合物可在其取代基范围做进一步的开发,试图在更小的设计合成范围找到活性更强,毒副作用更小的有效抗肿瘤药物。
致谢:美国Prof Georg G(Department of Medicinal chemistry univesity of Kansas U.S.A);河北医大学院王淑月老师;中国药科大学图书馆惠赠有关资料。在此一并表示感谢!
, 百拇医药
△陕西省自然科学基金资助项目
*西北工业大学605教研室
参考文献
[1]Gunda I, Geoug: Drugs of the Future 1994,19(6):573~584.
[2]焦有成.神经网络系统理论.西安电子科技大学出版社,1991.
[3]Martin YC: Quantitafive Drug Design a critican, 1978 Translated by wan EH. Bijing: peoples Health press 1981.
[4]胡步超等.神经网络用于紫杉烷衍生物的构效关系研究.专题论文集.未发表.
收稿日期:1998-09-02, http://www.100md.com(胡步超 王宏伦* 高广江 李续武*)
单位:陕西省医药工业研究所 西安710032
关键词:紫杉烷衍生物;模式识别;神经网络
数理医药学杂志990106
摘 要 运用模式识别部分结合人工神经网络对46种紫杉烷的衍生物进行药理肿瘤生物活性的分类,成功率达100%。研究结果表明,模式识别结合神经网络用于药化活性分类筛选可行。期望在新药设计研究中探索出一套有效的化学计量优先方法。
研究药物的结构和生物活性之间量变关系是药物化学重要内容之一。国内外众多的研究成果说明假定结构相似活性亦相似、结构的微扰也引起活性的微扰,结构和活性间的依赖关系可以用一定的数学模型加以定量表征。不同的结构和相异的生物活性之间能否有趋势可循,能否用模式识别(Pattem Recognition)结合神经网络(Neural Networds, NN),对紫杉烷类结构改造的化合物进行生物活性分类研究,是本文的中心指导思想和目的。我们采用模式识别中描述符生成、模式分类等方法结合人工神经网络反向传播数学模型对46种紫杉烷的衍生物[1]进行生物活性的分类和系统的构效关系研究,建立了对紫杉烷分类活性的计算机智能专家系统[4],有关紫杉烷这一领域的研究工作尚未见报导。
, 百拇医药
1 基本原理
1.1 神经网络(NN)是一个从输入到输出的高维非线性映射,每个节点(nodes)或称神经元(neunns)通过连接权重接收来自其它节点(神经元)的信息,然后通过输入输出转换函数给出输出信息。BP算法的学习过程由正向传播和反向传播两个过程组成。在正向传播过程中,输入信息从输入层(Input Iayer)经隐含层(Hidden Iayer)传向输出层(owtpat Iayer)。如果输出层不能得到期望的输出,则转入反向传播,将误差信号沿原来的连接通路返回,修改各层节点间的权重值,如此反复,使得误差信号最小[2]。在本文中,利用一组样本构成训练集,令其学习,依据一定的学习规则调整连接权重值。当训练结束,得到一组固定的连接权重值,并将学习得到的知识总结成规德表达在网络的权重中。利用这组权重分布,根据将全体样本的输入参数进行分类。
1.2 模式识别(pattern Reeogntion)应用[3]
, 百拇医药
1.2.1 结果选加
为提取紫杉烷46个结构类似物的分子特征,我们设计了一个“纯几何母结构图”(见附图),将46个化合物进行与图结构相选加。在10位编码位置上记录下各化合物选加情况,对空缺位置设为O,将I1,I2设置为两类不同取代基的虚潜参数构成46个化合物的分子特征数据矩阵表。
附图 紫杉烷纯几何母结构图
1.2.2 选择判别因子
我们选择了Cr芳碳原子;Ca脂肪碳原子;Co羰基碳原子……等10个基因健、功能基做为判别因子。
, 百拇医药
1.2.3 判别因子标识
参考判别因子描纪述符代码,将选出的因子编码或数值形式,要求它们可以表示和区别基团的特征,利用上述代码算出高维数据矩阵(见表1)。
表1 46×10分子特征数据矩阵
CadeSample
Ⅰ1
Ⅰ
Ⅱ
Ⅲ
Ⅳ
Ⅴ
Ⅵ
, 百拇医药
Ⅶ
Ⅷ
Ⅸ
Ⅹ
Ⅰ2
1
1
0
0
0
0
0.44
0.13
0
, http://www.100md.com
0
0
0
0
2
2
0
0.44
0
0.44
0.44
0.13
0
0
, http://www.100md.com
0
0
0
3
1
0
0
0
0.44
0.44
0.13
0
0
0
, http://www.100md.com
0
0
4
1
0
0
0
0.44
0.44
0.13
0
0
0
0
, 百拇医药
0
5
1
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
, 百拇医药
6
1
0
0
0
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
, http://www.100md.com 7
1
0
0
0
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
8
, http://www.100md.com
1
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
9
1
, 百拇医药
0.58
0.58
0.58
0.44
0.44
0.13
0
0
0
0
0
10
1
, 百拇医药 0
0
0
0.44
0.44
0.13
0
0
0
0
0
11
0
0
, 百拇医药
0
0
0
0
0
0
0
0
0
0
12
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
13
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
14
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
15
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
16
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
17
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
18
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
19
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
20
1
1.24
1.26
, http://www.100md.com
1.24
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
21
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
22
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
23
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
24
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
25
1
1.24
0.62
, http://www.100md.com
1.10
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
26
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
27
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
28
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
29
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
30
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
31
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
1.26
0
0
0
32
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
33
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
34
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
35
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
36
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
37
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.13
0.44
0
0
38
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.30
0.44
0
39
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
40
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.58
0.58
0.58
0
41
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
1.26
0.97
0.97
I
42
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
43
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.44
0.62
0.44
0
44
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0.44
0
45
1
0.58
0.58
, http://www.100md.com
0.58
0.44
0.44
0.13
0.13
0.44
0.44
0
0
46
1
0.58
0.58
, 百拇医药
0.58
0.44
0.44
0.13
0.13
0.58
0
0
0
1.2.4 将上述高维数据矩阵46×10相同数值合亦压缩成10×10矩阵(见表2)进行神经网络计算分类。 表2 10×10矩阵
0.00
, 百拇医药
0.44
0.00
0.00
0.00
0.00
0.00
0.1
0.1
0.9
0.58
0.58
0.58
0.00
, 百拇医药
0.00
0.00
0.00
0.1
0.1
0.9
0.00
0.00
0.00
0.13
0.58
0.58
0.58
, 百拇医药
0.1
0.1
0.9
0.58
0.58
0.58
0.13
0.58
0.58
0.58
0.1
0.9
0.1
, http://www.100md.com
0.58
0.58
0.58
0.13
0.44
0.44
0.44
0.1
0.9
0.1
0.58
0.58
0.58
, http://www.100md.com
0.13
0.44
0.62
0.44
0.1
0.9
0.1
1.24
1.26
1.24
0.13
0.58
0.58
, 百拇医药
0.58
0.9
0.1
0.1
1.24
0.62
1.10
0.13
0.58
0.58
0.58
0.9
0.1
, 百拇医药
0.1
1.24
0.62
1.24
0.13
0.58
0.58
0.58
0.9
0.1
0.1
0.58
0.58
, 百拇医药
0.58
0.13
1.26
0.97
0.97
0.9
0.1
0.1
2 研究方法2.1 神经网络(NN)辅助模式分类程序设计
根据模式识别方法提取紫杉烷衍生物分子特征数据矩阵(10×10),我们编制了“神经网络用于46种紫杉烷衍生物模式分类研究”题目软件。
采用Fortran,C二种语言编写程序,IBMPIC 586上运行。
, http://www.100md.com
2.2 神经网络(NN)辅助模式分类方法设计
为了进行神经网络辅助模式分类,我们将数值转换后分子特征数据矩阵原始数据进行相同的合并压缩成10×10矩阵,从原始文件10×10中提取了7×10矩阵(见表3),将7×10矩阵做为训练网络进行“学习”,以其分子特征矩阵的数据做为输入,将样品的期望输出依次定为:
“0.1,0.1,0.9”……第一类生物活性最差
“0.1,0.9,0.1”……第二类生物活性中等
“0.9,0.1,0.1”……第三类生物活性最好
表3 7×10矩阵
0.58
0.58
, http://www.100md.com
0.58
0.00
0.00
0.00
0.00
0.1
0.1
0.9
0.00
0.00
0.00
0.13
0.58
, http://www.100md.com
0.58
0.58
0.1
0.1
0.9
0.58
0.58
0.58
0.13
0.58
0.58
0.58
0.1
, http://www.100md.com
0.9
0.1
0.58
0.58
0.58
0.13
0.44
0.62
0.44
0.1
0.9
0.1
1.24
, http://www.100md.com
1.26
1.24
0.13
0.58
0.58
0.58
0.9
0.1
0.1
1.24
0.62
1.10
0.13
, http://www.100md.com
0.58
0.58
0.58
0.9
0.1
0.1
0.58
0.58
0.58
0.13
1.26
0.97
0.97
, http://www.100md.com
0.9
0.1
0.1
网络含三层,训练集数(见表4),经过学习,NN能完全正确识别。这些样品进行模式分类,误判率为0。然后将样品全部进行学习分类,显示出化合物与各变量之间取代基之间复杂对应关系。 表4 Artificial Neural Network Specifications and Parameters
Parmeter
Simulated date
Input nodes
7
Hidden nodes
, http://www.100md.com
12
Output nodes
3
Learning rate
0.7
Momentum
0.5
Transfer function
Sigmoid
No.of iterntion
8000
3 结果与讨论3.1 网络参数与学习算法
, 百拇医药
对分级活性指标进行学习采用(7-12-3)NN风络结构,ξ=0.5,y=0.7学习参数,学习训练结果(见表5),错判率为0,正确率100%,说明分类、分级正确率高。
表5 Results of ANN Prediction for the test set
Sample
NO
ANN Output
Recognition
actual
1
0.000181
0.134512
, 百拇医药
0.899855
Ⅲ
Ⅲ
2
0.099512
0.099385
0.887629
Ⅲ
Ⅲ
3
0.000488
0.100683
0.899003
, http://www.100md.com
Ⅲ
Ⅲ
4
0.108449
0.887933
0.108901
Ⅱ
Ⅱ
5
0.093106
0.866007
0.286297
Ⅱ
, http://www.100md.com
Ⅱ
6
0.095401
0.892707
0.090704
Ⅱ
Ⅱ
7
0.893415
0.101752
0.101971
Ⅰ
Ⅰ
, http://www.100md.com
8
0.893703
0.099361
0.100358
Ⅰ
Ⅰ
9
0.896296
0.057458
0.107197
Ⅰ
Ⅰ
10
, 百拇医药
0.884814
0.100164
0.098122
Ⅰ
Ⅰ
3.2 紫杉烷衍生物分类结果
从10×10矩阵样本延伸到46个紫杉烷衍生物样本分类结果,见表6。
表6 46个紫杉烷衍生物分类结果
Sample
Ⅰ
Sample
, 百拇医药
Ⅱ
Sample
Ⅲ
01-11
Ⅰ
12-20
Ⅱ
21
Ⅲ
29 31
Ⅰ
23
Ⅱ
, http://www.100md.com 22
Ⅲ
25
Ⅱ
24
Ⅲ
27-29
Ⅱ
26
Ⅲ
33-41
Ⅱ
42
Ⅲ
, 百拇医药
43-46
Ⅱ
3.3 结论
上述“46种紫杉烷衍生物生物活性模式分类研究”是用NN辅助模式识别分类的初步尝试,实验结果证明此方法与NN结合可行,此软件可望进一步扩展用在药物研究的药理、药分、生药、制剂及临床医学的分级分类上。而在定量构效及药物设计上可将最佳化合物筛选缩小在一个有限的范围内进行新的结构修饰工作,这样提高了新药研究效率,节省了资金和研究开发周期。对于紫杉烷的第三类最佳化合物可在其取代基范围做进一步的开发,试图在更小的设计合成范围找到活性更强,毒副作用更小的有效抗肿瘤药物。
致谢:美国Prof Georg G(Department of Medicinal chemistry univesity of Kansas U.S.A);河北医大学院王淑月老师;中国药科大学图书馆惠赠有关资料。在此一并表示感谢!
, 百拇医药
△陕西省自然科学基金资助项目
*西北工业大学605教研室
参考文献
[1]Gunda I, Geoug: Drugs of the Future 1994,19(6):573~584.
[2]焦有成.神经网络系统理论.西安电子科技大学出版社,1991.
[3]Martin YC: Quantitafive Drug Design a critican, 1978 Translated by wan EH. Bijing: peoples Health press 1981.
[4]胡步超等.神经网络用于紫杉烷衍生物的构效关系研究.专题论文集.未发表.
收稿日期:1998-09-02, http://www.100md.com(胡步超 王宏伦* 高广江 李续武*)