脂肪胺类化合物的~13C核磁共振波谱模拟.PDF
http://www.100md.com
许禄 胡建强
核磁共振波谱模拟,脂肪胺类化合物,变量最优子集回归,多元回归
![]() |
第1页 |
参见附件(139KB,5页)。
脂肪胺类化合物的~13C核磁共振波谱模拟.PDF
脂肪胺类化合物的13
C核磁共振波谱模拟
许 禄3
胡建强
(中国科学院长春应用化学研究所 ,长春130022)
摘 要 对脂肪胺类化合物的13
C核磁共振波谱进行了模拟 ,所用方法为数学模型法。为此 ,提取了共
振碳原子所处化学环境的拓扑特征、几何特征及电子特征。运用变量最优子集回归法对变量进行了选
择 ,用多元回归法构造了数学模型 ,得到了比较满意的预测结果。
关键词 13
C核磁共振波谱模拟 ,脂肪胺类化合物 ,变量最优子集回归 ,多元回归
2000209204收稿;2001201220接受
本文系国家自然科学基金资助项目(No. 29875029)
1 引 言
在我们实验室中,13
C NMR模拟谱主要用于结构解析专家系统中后选化合物的验证及辅助13
C NMR
数据库检索。结构解析专家系统是在实验数据(如MS、 IR及 NMR 谱等)的基础之上得到结构片断 ,然
后由整体结构对接程序(常称为结构产生器)穷举生成结构异构体(常称为后选化合物) 。由于后选化合
物通常不唯一 ,所以需有方法对之进行验证。13
C NMR谱模拟是用于后选化合物验证的比较有效的一
种方法。方法的原理是:计算模拟谱与未知化合物实验谱的相似度 ,并由相似度大小的排序来确证未知
的化合物。
本文应用数学模型法进行13
C2NMR谱模拟。该种方法是由共振碳所处化学环境建立起数学模型并
由此模型去预测未知的化合物。显然 ,由这种方法所建的数学模型和共振碳所处化学环境密切相关 ,即
针对不同类型的碳需要建立起不同的数学模型。本研究进行了脂肪胺类化合物的13
C化学位移的模拟 ,获得了比较满意的结果。
2 实验部分
211 化合物选取
脂肪胺类化合物作为广泛使用的碱类物质 , 在化学领域具有重要的地位。为此 , 选取了15个脂肪
胺类化合物的43个化学位移〔 1〕(图1)以进行本文中谱的模拟。图 1 中 ,右边所列数字为结构图中相应
于所标碳原子的化学位移。
212 参数的计算
谱模拟方法的成败就在于是否能够准确地表征碳原子所处的化学环境 , 因为结构的变化(如碳原
子的连接方式等) 都会使化学位移发生相当大的改变。所以 , 利用计算机来获取详细的结构信息参数
是至关重要的。本研究除了进行了分子拓扑指数的计算之外 , 还计算了分子的电子参数和几何参数 ,其结果示于表1。
2. 3 变量的选择
通过变量的零值测试和偏差测试后 , 应用变量最优子集算法(Leaps2and2Bounds regression法)
〔 3〕对剩
余的变量进行最优组合的选择。Leaps2and2Bounds回归法能够快速、有效地求得 m 个变量中分别含 1 ,2 , . . . , m 个变量的最优子集回归方程。其主要思想为: (1)试图减少每一个子集的运算量 , 如改变矩阵
运算的算法; (2)应用一种不需要计算所有组合的子集而寻找最优子集的方法。该算法采用剩余平方和
(RSS)作为从相同数目的自变量组成的子集集合中 , 识别出最优子集的判据。即相同变量个数子集的
RSS越小 ,则由这些变量回归所得到的数学模型越优。因此 ,此法将寻找(不同变量个数)最优数学模
第29卷
2001年8月 分析化学 (FENXI HUAXUE) 研究简报
Chinese Journal of Analytical Chemistry
第8期
936~940型的问题转化成了寻找(不同变量个数)具有最小剩余平方和子集的问题 , 减少了每一个子集的运算
量。
该算法的核心是回归树 , 即按照一定的算法将测试数据形成树结构 , 树中结点为一变量子集。根
据形成的树型结构 , 产生一定的回归顺序。算法主要依据下式:
RSS(A) ≤RSS(B)
式中 ,A是一任意自变量组成的集合 , B 是A的子集 , 即一个变量的子集的 RSS要大于或等于原变量集
合的 RSS值。据此式 , 在既定的回归顺序中 , 我们寻找变量个数相同而 RSS值最小的子集时 , 可以跳
过一些 RSS值较高的子集 , 不运算它们。例如 , 集合A1 包含3个变量 , 其 RSS为 596 ; 集合A2 包含 4
个变量 , 其 RSS为605 ; 集合B、 C和D是集合A2 的子集 , 它们均包含3个变量 , 因为子集的 RSS大于
或等于原变量集合 ,所以子集B、 C和D必定均大于或等于集合A2 的 RSS , 而集合A2 的 RSS又大于或
等于集合A1 的 RSS , 所以子集B、 C和D必定均大于或等于集合A1 的 RSS , 因此我们在求取 3 个变量
的最优子集时 , 则不必计算B、 C和D的RSS , 即可跳过B、 C和D , 减少了运算量 , 加快了运算速度 , 而
有效地求得含有不同变量个数的最优数学模型。
N C
1
28. 3
N C
C
C
2
47. 5
C
3
N C
4
36. 9 19. 0
N C C
C C
C
5
C
6
58. 2 13. 8
C N
7
C
8
C
9
44. 5 27. 3 11. 2
N
C C C
C C C
C
10
C
11
C
12
57. 1 21. 7 12. 5
C
14
C
13
N C
15
C
16
42. 3 36. 7 20. 4 14. 0
C
18
C
17
N C
19
C
20
C
21
42. 3 34. 0 29. 7 23. 0 14. 3
C
23
C
22
N C C C C C C
24
C
25
C
26
50. 8 30. 7 30. 3 23. 3 14. 6
N
C C C C C C
C
27
C
28
C
29
C
30
C
31
C
32
50. 4 31. 1 27. 8 32. 3 23. 1 14. 5
C
33
N C N 45. 8
C
34
N C
35
C N 39. 5 39. 2
C
36
N C
37
C C N 42. 7 32. 1
C
38
N C
39
C
40
C C N 42. 7 34. 7 24. 9
C
41
N C
42
C
43
C C C N 43. 3 35. 0 28. 0
图1 15个脂肪胺类化合物的化学结构及其化学位移
Fig. 1 Structures of aliphatic amines and their chemical shifts ......
C核磁共振波谱模拟
许 禄3
胡建强
(中国科学院长春应用化学研究所 ,长春130022)
摘 要 对脂肪胺类化合物的13
C核磁共振波谱进行了模拟 ,所用方法为数学模型法。为此 ,提取了共
振碳原子所处化学环境的拓扑特征、几何特征及电子特征。运用变量最优子集回归法对变量进行了选
择 ,用多元回归法构造了数学模型 ,得到了比较满意的预测结果。
关键词 13
C核磁共振波谱模拟 ,脂肪胺类化合物 ,变量最优子集回归 ,多元回归
2000209204收稿;2001201220接受
本文系国家自然科学基金资助项目(No. 29875029)
1 引 言
在我们实验室中,13
C NMR模拟谱主要用于结构解析专家系统中后选化合物的验证及辅助13
C NMR
数据库检索。结构解析专家系统是在实验数据(如MS、 IR及 NMR 谱等)的基础之上得到结构片断 ,然
后由整体结构对接程序(常称为结构产生器)穷举生成结构异构体(常称为后选化合物) 。由于后选化合
物通常不唯一 ,所以需有方法对之进行验证。13
C NMR谱模拟是用于后选化合物验证的比较有效的一
种方法。方法的原理是:计算模拟谱与未知化合物实验谱的相似度 ,并由相似度大小的排序来确证未知
的化合物。
本文应用数学模型法进行13
C2NMR谱模拟。该种方法是由共振碳所处化学环境建立起数学模型并
由此模型去预测未知的化合物。显然 ,由这种方法所建的数学模型和共振碳所处化学环境密切相关 ,即
针对不同类型的碳需要建立起不同的数学模型。本研究进行了脂肪胺类化合物的13
C化学位移的模拟 ,获得了比较满意的结果。
2 实验部分
211 化合物选取
脂肪胺类化合物作为广泛使用的碱类物质 , 在化学领域具有重要的地位。为此 , 选取了15个脂肪
胺类化合物的43个化学位移〔 1〕(图1)以进行本文中谱的模拟。图 1 中 ,右边所列数字为结构图中相应
于所标碳原子的化学位移。
212 参数的计算
谱模拟方法的成败就在于是否能够准确地表征碳原子所处的化学环境 , 因为结构的变化(如碳原
子的连接方式等) 都会使化学位移发生相当大的改变。所以 , 利用计算机来获取详细的结构信息参数
是至关重要的。本研究除了进行了分子拓扑指数的计算之外 , 还计算了分子的电子参数和几何参数 ,其结果示于表1。
2. 3 变量的选择
通过变量的零值测试和偏差测试后 , 应用变量最优子集算法(Leaps2and2Bounds regression法)
〔 3〕对剩
余的变量进行最优组合的选择。Leaps2and2Bounds回归法能够快速、有效地求得 m 个变量中分别含 1 ,2 , . . . , m 个变量的最优子集回归方程。其主要思想为: (1)试图减少每一个子集的运算量 , 如改变矩阵
运算的算法; (2)应用一种不需要计算所有组合的子集而寻找最优子集的方法。该算法采用剩余平方和
(RSS)作为从相同数目的自变量组成的子集集合中 , 识别出最优子集的判据。即相同变量个数子集的
RSS越小 ,则由这些变量回归所得到的数学模型越优。因此 ,此法将寻找(不同变量个数)最优数学模
第29卷
2001年8月 分析化学 (FENXI HUAXUE) 研究简报
Chinese Journal of Analytical Chemistry
第8期
936~940型的问题转化成了寻找(不同变量个数)具有最小剩余平方和子集的问题 , 减少了每一个子集的运算
量。
该算法的核心是回归树 , 即按照一定的算法将测试数据形成树结构 , 树中结点为一变量子集。根
据形成的树型结构 , 产生一定的回归顺序。算法主要依据下式:
RSS(A) ≤RSS(B)
式中 ,A是一任意自变量组成的集合 , B 是A的子集 , 即一个变量的子集的 RSS要大于或等于原变量集
合的 RSS值。据此式 , 在既定的回归顺序中 , 我们寻找变量个数相同而 RSS值最小的子集时 , 可以跳
过一些 RSS值较高的子集 , 不运算它们。例如 , 集合A1 包含3个变量 , 其 RSS为 596 ; 集合A2 包含 4
个变量 , 其 RSS为605 ; 集合B、 C和D是集合A2 的子集 , 它们均包含3个变量 , 因为子集的 RSS大于
或等于原变量集合 ,所以子集B、 C和D必定均大于或等于集合A2 的 RSS , 而集合A2 的 RSS又大于或
等于集合A1 的 RSS , 所以子集B、 C和D必定均大于或等于集合A1 的 RSS , 因此我们在求取 3 个变量
的最优子集时 , 则不必计算B、 C和D的RSS , 即可跳过B、 C和D , 减少了运算量 , 加快了运算速度 , 而
有效地求得含有不同变量个数的最优数学模型。
N C
1
28. 3
N C
C
C
2
47. 5
C
3
N C
4
36. 9 19. 0
N C C
C C
C
5
C
6
58. 2 13. 8
C N
7
C
8
C
9
44. 5 27. 3 11. 2
N
C C C
C C C
C
10
C
11
C
12
57. 1 21. 7 12. 5
C
14
C
13
N C
15
C
16
42. 3 36. 7 20. 4 14. 0
C
18
C
17
N C
19
C
20
C
21
42. 3 34. 0 29. 7 23. 0 14. 3
C
23
C
22
N C C C C C C
24
C
25
C
26
50. 8 30. 7 30. 3 23. 3 14. 6
N
C C C C C C
C
27
C
28
C
29
C
30
C
31
C
32
50. 4 31. 1 27. 8 32. 3 23. 1 14. 5
C
33
N C N 45. 8
C
34
N C
35
C N 39. 5 39. 2
C
36
N C
37
C C N 42. 7 32. 1
C
38
N C
39
C
40
C C N 42. 7 34. 7 24. 9
C
41
N C
42
C
43
C C C N 43. 3 35. 0 28. 0
图1 15个脂肪胺类化合物的化学结构及其化学位移
Fig. 1 Structures of aliphatic amines and their chemical shifts ......
您现在查看是摘要介绍页,详见PDF附件(139KB,5页)。