Nat. Mach. Intell. | 化学反应预训练和条件分子生成之间的联系

智源社区1年前 (2024)发布智源社区

440 0 0

今天为大家介绍的是来自Bo Huang和Zhenming Liu团队的一篇论文。化学反应是制药和有机化学研究中非常重要的部分，但是目前的一些方法还不够完善，无法充分捕捉和利用化学反应的规律。为了解决这个问题，作者提出了一个全新的计算框架。这个框架的独特之处在于，它不仅可以学习和理解化学反应是如何进行的，还能基于这些理解生成新的分子结构，这对于发现新药物特别有用。

Nat. Mach. Intell. | 化学反应预训练和条件分子生成之间的联系

化学反应是药物设计和有机化学研究的基础。目前数据挖掘的工作使得深度学习模型能够应用于化学反应。基于这些数据，出现了许多深入探索化学反应表示学习的数据驱动研究。表示学习指的是自动从数据中学习有用的特征，然后这些特征可以用于各种下游任务。在早期的工作中，传统的分子指纹直接用于反应表示。受到自然语言处理（NLP）方法的启发，研究者们也在化学反应预训练网络中应用了基于注意力的网络或对比学习技术。然而，这些方法忽略了有机化学的基本理论，这限制了它们的性能。除了反应分类任务之外，基于化学反应的分子生成也是一个重要的应用领域。早期的工作采用逐步的模板基分子生成策略。这些基于模板的方法高度依赖于预定义的构建块和反应，这限制了可访问的化学空间。在反应产物预测领域也发现了类似的趋势，基于模板的方法无法推广到复杂的反应，这个问题通过使用无模板方法得到了解决。在基于反应的分子生成任务中，无模板方法也显示出了比基于模板方法更好的泛化优势。然而，无模板的分子生成方法仅能生成基于预定义反应物库的分子。

在这篇论文中作者介绍了一个针对化学反应的新颖而全面的深度学习框架。框架旨在解决两个基本任务：自监督表示学习和条件生成建模。与现有方法不同，作者提出了一系列专门为化学反应量身定制的自监督任务。这些任务包括活性中心预测等。通过对挑战性反应任务的广泛评估，作者的方法表现极佳，展示了它有效捕捉化学反应领域知识的能力。

化学反应建模方面存挑战

化学反应涉及三个主要成分：反应物、试剂和产物。反应物是提供某些子结构以形成产物的结构，其中与产物原子匹配度最高的被定义为主反应物。其他反应物则被称为副反应物。试剂是不映射到产物结构中任何原子的化学实体，但对提供某种化学环境（如溶剂或酸）是必需的。要共同建模反应物、试剂和产物，主要有三个挑战。首先，复杂的有机化学机制难以建模。作者用一个更简单的命题来概括这些机制：如果我们在一个优化的化学反应中改变副反应物或试剂，很有可能该反应不再是最优化的。这一命题概括了反应数据中的潜在规则，基于此作者使用对比方法对模型进行预训练。其次，反应物和试剂在建模过程中表现出排列不变性是必要的，然而，许多模型忽视了这一关键方面。最后一个挑战是，试剂和反应物在化学反应中扮演不同的角色，这使得建模具有挑战性。

为了应对上述挑战，作者设计了一个新颖的统一框架来建模化学反应。第一个挑战来源于反应复杂的潜在机制，通过对比学习和反应中心预测任务解决。第二个等变挑战通过图1所示的编码中的共享参数和生成过程中的排列不变生成网络解决。最后一个挑战通过应用多模态网络解决，该网络以不同的方式提取反应物和试剂的信息。

预训练框架

图 2

对比学习的关键组成部分是负数据采样的方法。作者的模型（图2）旨在编码化学反应的两个基本方面，而不是采用丢弃或掩盖反应中心以外的原子的策略，这会导致信息损失。模型首先模拟主反应物与副反应物和试剂组合之间（副反应物、试剂称为2元组）的相互作用。众所周知，化学反应的数据集是有偏的。因此，仅在公共数据集上训练的模型将无法捕获任何负数据（即无效反应）的信息。为了解决这个问题，模型在反应物和试剂上应用对比学习损失，其中负样本通过正反应中副反应物和试剂的随机排列生成。模型使用infoNCE损失函数作为训练目标，将主反应物和{副反应物、试剂}的嵌入投影到相同的嵌入空间中。这种方法最大化了嵌入空间中配对的主反应物和{副反应物、试剂}之间的相似性。其次，作者寻求模拟主反应物、副反应物和试剂（主反应物、副反应物、试剂称为3元组）与产物之间的官能团重排和结构转化。为了学习这个转化过程，基于相同的编码器，作者应用另一组投影层来预测{主反应物、副反应物、试剂}和产物的嵌入。执行与第一个对比学习任务相似的训练过程，在嵌入空间中最大化{主反应物、副反应物、试剂}和产物之间的配对相似性。

除了对比学习之外，模型还被训练用来预测化学反应中的反应中心，如图2b所示。在该工作中，如果原子经历了化学状态的改变，作者就将其定义为化学反应中心。这里使用一个基于图的transformer模型作为投影层。这个预训练任务进一步帮助模型理解化学反应中的位置效应，这一点在相关工作中通常被忽视。

反应分类

表 1

在完成了两个预训练任务之后，作者使用编码器为下游任务生成特征表示。大多数先前的工作在TPL 1k数据集上评估了它们的特征表示用于反应分类，并达到了超过90%的准确率。作者的模型在这个数据集上达到了不错的性能。作者还选择了一个更具挑战性的反应分类数据集Schneider。为了使分类更难，作者通过随机抽取同样数量的反应来平衡数据集，在这个平衡的基准数据集上的结果在表1中展示。基于化学反应表示的反应分类头采用了cuML包提供的逻辑回归（LR）分类。作者将其称为Uni-RXN，并将其与三个基线模型进行了比较。当每类反应的数量从128下降到4时，预测正确反应类的准确度显著下降。在测试的数据集大小范围内，作者模型大幅超过了基线模型，特别是在小型训练集上。作者的模型在不对任何预训练参数进行微调的情况下展示了令人印象深刻的结果。

反应检索与注意力图可视化

图 3

作者通过反应检索任务评估了模型区分优化反应和非优化反应的能力。这种评估确保了在生成模型中化学信息表示的有效性，防止生成次优反应。作者使用不同的正数据采样比例进行实验，范围从0.01到0.08。选择这些低采样比例是为了模拟现实世界中只有相对较小比例的反应是优化的情况。如图3a所示，模型在大多数设置中都优于其他基线模型。注意力的可视化揭示了模型如何处理输入图。作者在图3b中展示了注意力权重。注意力图清晰地表明，模型学会了专注于输入的主反应物分子的反应部分。

生成模型部分

图 4

作者的模型不仅在分类任务中表现出色，还为研究药物化学中的结构-活性关系（SAR）提供了有价值的工具。通过利用预训练编码器的力量，模型能够从给定的候选结构生成多个可合成的类似物。基于模板的方法通过将无限空间中的采样限制在预定义的子空间中来简化条件分子生成，从而减少了搜索空间。然而，当可用的子空间变得有限或为空时，直接应用模板的方法会出现限制。为了克服这一挑战，作者开发了一个无模板生成模型，有效地生成化学反应路径。每条路径由一系列反应组成，其中前一个反应的产物是后续反应的主反应物。作者提出一个条件变分编码器网络，称为Uni-RXNGen，通过模拟基于先前反应路径的副反应物和试剂来自回归地生成反应路径，如图4a所示。模型的架构在图4b中展示。模型不是直接生成副反应物和试剂，而是生成这些分子结构的特征表示。两个独立的编码器从反应路径条件和目标反应中提取信息。然后生成器解码特征以生成目标表示。在Uni-RXNGen生成目标表示之后，使用向量检索器在一个大型商业可获取的分子库中搜索反应物和试剂。基于输入的主反应物和检索到的副反应物和试剂，另一个网络预测所提出的新反应的产物。

图 5

表 2

为了评估模型在输入种子分子条件下生成类似分子结构的能力，作者使用Drugbank数据库中的2567个结构来让生成模型推导出大型药物样数据集。为了评估生成结构的质量，作者计算了几个基本的药物样属性，并将它们与真实药物进行了比较，如图5a所示。作者的目标是生成在属性数据分布上与真实药物非常相似的分子。很明显，尽管DINGOS(condition)仅在种子分子上执行了几步反应修改，但它生成的分子具有偏移的化学属性分布。就分子量和QED指标而言，Uni-RXNGen、SynNet和DINGOS（De novo）提供了可比的结果。然而，与作者的模型不同，基线方法生成的分子具有更亲脂性的结构和更多的可旋转键数量。作者还使用合成可及性评分来评估生成分子的可合成性。为此，作者应用了两个不同的指标（SAScore和RA），结果在表2中呈现。在所有方法中，作者的模型、DINGOS(condition)和Lib-INVENT能够直接从输入结构生成分子，其他方法需要更多的反应步骤从零开始生成。作者的模型生成的分子在SAScore和RA指标上得分有利，表明它们比输入种子分子更容易合成。基于模板的de novo方法生成的分子与种子分子的距离较远，并且在SAScore和RA上有明显的分布偏移。结合距离指标，可以观察到DINGOS（De novo）和SynNet分别为了较低的合成可及性评分牺牲了药物相似性和有效性。这表明基于模板的方法倾向于生成过于简单的分子，这在药物发现研究中是不可取的。此外，作者模型提出的反应步骤比通过多个模板反应从头开始执行复杂路径要少。总的来说，作者的方法提供了一种更有效的方式来基于现有药物生成分子，其中（1）需要较少的化学反应步骤，（2）生成的分子在药物相似性和合成可及性之间展示了良好的平衡。

有效性是评估模型性能的一个重要指标，理想的模型应该能够基于种子分子生成类似物和修改有效结构。然而，SynNet和DINGOS（condition）在为输入分子生成类似物方面表现出了局限性，尽管它们能生成可合成的分子。除了有效性之外，作者还评估分子多样性和骨架熵以评估模型。结果表明，Uni-RXNGen生成的分子多样性很好。

编译 | 曾全晨

审稿 | 王建民

参考资料

Qiang, B., Zhou, Y., Ding, Y. et al. Bridging the gap between chemical reaction pretraining and conditional molecule generation with a unified model. Nat Mach Intell 5, 1476–1485 (2023).

https://doi.org/10.1038/s42256-023-00764-9