基于深度学习的化学结构识别研究
解码器,编码器,字符,1相关研究工作,1基于规则的方法,2基于深度学习的方法,2基于指纹预训练的化学结构识别,1数据处理,2模型架构,3指纹预训练,4评价指标,5注意力机制,3结果,1数据集分析,2基线对比实验,3可视化结果,4
蚁佳才,张小琛,刘丹(国防科技大学计算机学院,长沙 410073)科研工作者通常将经过大量实验收集的化学知识转化为文献中的图文描述,这些海量的知识是化合物重新发现及药物发现研究的巨大财富。文献中的化合物结构是药物发现的核心,而这些结构信息在大多数情况下是以图像的形式呈现,这些有价值的信息对于机器来说是非结构化且不可读的。因此,自动化地将化学结构由图像转换成人类或机器可读的格式,对于从大量文献中挖掘知识是非常重要的,该过程被称为化学结构识别(chemical structure recognition,CSR)。
对于机器可读的分子结构,目前采用广泛的包括国际通用技术和统一标准的线性码简化分子线性输入系统(simplified molecular input line entry system,SMILES)以及分子的三维表示,如图、矩阵或连接表等。SMILES可以减少存储空间,提升检索效率,并且可以很方便地编码分子结构、性质信息以及转换成其他三维表示,因此被广泛应用于各种与化合物分子相关的研究中。在CSR中,其目标是将化学结构图像转换为相应的SMILES字符串,即图像到文本的转换。图1展示了阿司匹林(aspirin)的化学结构以及相应的SMILES,从图中可以直观地看出,除了识别出图像中相应的元素以外,还需要根据相应重构算法将这些元素的符号组合成有效的SMILES。

图1 化学结构识别示意图Fig 1 Diagram of chemical structure recognition
本文采用深度学习的方法,基于编码器-解码器架构,融合注意力机制和分子指纹先验知识,构建了一个深度学习模型——基于指纹预训练的化学结构识别(chemical structure recognition based on fingerprint pre-train,CSRFP),现报道如下。
1 相关研究工作
1.1 基于规则的方法
20世纪90年代初,第一个完整的化学结构识别系统Kekulé发布了。Kekulé是一个基于规则的工具,通过将单一化学结构图进行分割、向量化、图像分块、图像腐蚀、图像膨胀以及光学字符识别等一系列步骤,最终将化学结构图转换为新的分子图表示。随后,越来越多的研究人员开始关注这一领域 ......
您现在查看是摘要页,全文长 13793 字符。