编译 | 曾全晨
审稿 | 王建民
今天为大家介绍的是来自Lin Li研究团队的一篇关于抗体优化的论文。治疗性抗体是一种重要且迅速增长的药物模式。然而,早期抗体治疗的设计和发现仍然是一项耗时且成本高昂的工作。在这里,作者提出了一种全流程贝叶斯、基于语言模型的方法,用于设计大规模且多样化的高亲和力单链变量片段(scFv)抗体库,然后通过实验进行验证。与定向进化方法进行对比后,作者的方法所生成的最佳scFv与定向进化方法生成的最佳scFv相比,结合能力提高了28.7倍。此外,在最成功的抗体库中,有99%的设计scFv相比最初的候选scFv有所改进。
由于抗体序列的庞大搜索空间使得对整个抗体空间进行详尽评估变得不可行,因此通常从合成产生、动物免疫或人体供体中筛选相对较少的抗体来识别候选抗体。筛选出的抗体库仅代表整体搜索空间的一小部分,导致得到的候选抗体通常结合能力较弱或存在可开发性问题。需要优化这些候选抗体以提高结合能力和其他开发特性。由于序列空间的组合爆炸,常常采用逐步迭代的方法来优化抗体与目标分子的结合,但这样做耗时且需要大量精力来验证无功能的抗体。改进的结合物可能需要进一步修改以改善其他性质,但这样的修改可能会对之前优化的结合能力产生负面影响,导致需要额外的测量和工程周期。确定最终的抗体通常需要约12个月的时间。如果能在开发过程的早期阶段高效地工程化具有良好结合能力和高多样性的抗体,将减少后期常常发现的不利抗体特性对开发过程的影响,提高可开发性潜力并缩短早期药物开发所需的时间。
虽然计算方法可以引导生物相关抗体的搜索,但大多数全新的方法需要已知目标结构或抗体-表位复合物结构。机器学习(ML)方法可以有效地表示生物数据并在计算机模拟中快速探索广阔的设计空间。现有的基于机器学习的抗体优化已经显示出在设计针对特定目标的抗体时,可以提高其结合特性,并且可以仅基于序列数据学习抗体的结合情况,而无需目标的结构。现有的工作都没有允许在实验之前评估设计的抗体库,而这是一个关键的特性,可以加速设计周期。在这项工作中,作者开发了一种全流程的机器学习驱动的单链变量片段(scFv)设计框架,它独特地结合了语言模型、贝叶斯优化和高通量实验(图1)。
图 1
全流程的目标特异性scFv优化过程的开发
作者假设通过将目标特异性结合亲和力与数百万自然蛋白质序列的信息整合在概率机器学习框架中,模型可以迅速设计出比典型定向进化方法产生的强结合物质量显著更高的scFv。为了设计针对目标分子的候选scFv(Fab的可变片段),作者开发了一个包含五个步骤的过程,独特地结合了语言模型、贝叶斯优化和高通量实验,以生成高亲和力的scFv库(图1):1.对候选scFv的随机突变体与目标的高通量结合量化,以创建监督训练数据(图1a)。2.对大量蛋白质序列进行无监督预训练,提取生物相关信息并表示scFv序列(图1b, d)。3.在训练数据上对预训练语言模型进行监督微调,预测结合亲和力并量化不确定性(图1b, d)。4.基于经过训练的序列-亲和力模型构建基于贝叶斯的scFv变化态势,随后通过贝叶斯优化和计算机模拟设计验证scFv(图1b, d)。5.在计算机模拟中预测为与目标具有强结合亲和力的顶级scFv序列进行实验验证(图1c)。
作则会使用改进的酵母交配测定方法生成了监督训练数据。目标肽是冠状病毒蛋白突刺蛋白HR2区域中发现的保守序列,并且之前已经确认了中和抗体对其的结合。作者使用含有天然人类Fabs的噬菌体库进行噬菌体展示,以识别与目标结合较弱的候选scFv序列(Ab-14、Ab-91和Ab-95)。数据中的所有重链和轻链序列均通过在三个候选scFv的重链或轻链CDRs中进行k = 1, 2, 3次随机突变来设计。在这项工作中,作者试图优化Ab-14,因此仅使用了Ab-14的测量数据(26,453个重链,26,223个轻链)作为序列-亲和力预测的监督训练数据。结合亲和力的测量值采用对数尺度表示,较小的值表示更强的结合。
作者预先训练了四个BERT掩码的语言模型,即蛋白质语言模型、抗体重链模型、抗体轻链模型和配对的重链-轻链模型。蛋白质语言模型是在Pfam数据集上进行训练的,而抗体特定的语言模型是在Observed Antibody Space(OAS)数据库的人类天然抗体上进行训练的。为了训练序列-亲和力模型,作者研究了两种方法来预测亲和力并量化不确定性:集成方法和高斯过程。这两种方法都使用了预先训练的语言模型的学习知识,并提供了有意义的序列-亲和力模型,可以用来设计高亲和力的scFv库。作者使用相应的训练数据,分别训练了针对Ab-14-H重链变体和Ab-14-L轻链变体的序列-亲和力模型。作者观察到在测试数据上预测的结合亲和力与实验测得的结合亲和力之间有强烈的正相关关系。
为了生成高亲和力的scFv库,构建了基于贝叶斯的适应性变化态势,将整个scFv序列映射到后验概率,即估计的结合亲和力优于候选scFv Ab-14的概率。这与直接从序列到估计结合亲和力的适应性变化态势不同。为了最大化后验概率进行优化,选择采样算法对于决定库的多样性至关重要。作者使用了三种策略:爬山算法(HC)、遗传算法(GA)和吉布斯采样。
作者应用了采样方法来生成优化Ab-14的重链和轻链变体scFv。还使用基于位置特异性得分矩阵(PSSM)的方法,代表传统的定向进化方法,生成了一个控制序列集。从每种方法生成的序列按照后验概率进行排序,并选择前几个序列。这样,每条链生成了七个scFv库:三个来自于优化集成方法的适应性函数(即En-HC、En-GA和En-Gibbs),三个来自于优化高斯过程的适应性函数(即GP-HC、GP-GA、GP-Gibbs),以及一个PSSM库(。为了验证结果的合理性,作者还从监督训练数据的前10个最强结合体中生成了平均k = 2个随机突变的scFv突变体。所有序列都经过合成并使用与训练数据生成相同的高通量酵母展示方法进行实验验证。
作者将训练数据的实验测得结合分布与PSSM库和机器学习设计的序列进行了比较。机器学习设计的序列与训练数据相比,结合能力更强。值得注意的是,超过25%的集成方法Ab-14-H变体设计的实验测得结合亲和力比训练数据中最强的结合体测得结合亲和力更强,而仅有0.9%的PSSM方法Ab-14-H变体设计的结合亲和力比训练数据中最强的结合体测得结合亲和力更强。
比直接进化更强!
表 1
作者通过比较每个机器学习得到的scFv库中最佳设计的结合强度和成功率与PSSM生成的库进行了质量评估。此实验定义成功率为具有比初始候选scFv Ab-14更好的实验测得结合得分的scFv的百分比。作者选择PSSM库作为比较对象,因为它们更好地反映传统的优化过程,并且通常比随机突变库更好。表1包含了每个库中最佳结合scFv的特征。与PSSM库中的scFv相比,机器学习优化库中的最佳scFv结合能力更强,通常含有更多的突变。在重链设计中,En-Gen库中最强结合的设计比PSSM库中最强的scFv结合力强28.7倍。而在轻链设计中,En-Gibbs库中的最佳设计比PSSM库中最佳scFv结合力强7.7倍。
图 2
图2显示了设计库的性能和多样性。对于Ab-14-H重链设计,除了En-Gibbs库中的序列外,所有机器学习优化的库在中位结合亲和力方面都优于PSSM库(图2a),并且在成功率方面明显优于PSSM库的23.8%(图2b)。En-HC(94.3%)和En-GA(96%)库特别成功,优于所有GP生成的Ab-14H变体库(59.4–84.2%)。对于Ab-14-L轻链设计,所有机器学习优化的库在中位结合亲和力(图2d)和成功率方面均优于PSSM库,而PSSM库的成功率为45.6%(图2e)。基于GP的库的成功率(95.7–99%)进一步优于所有基于集成的库(67.9–73.5%)。
作者使用两个突变距离指标来衡量库的多样性:dAb14avg(与初始Ab-14的平均距离)和dpw(平均成对距离)。前者dAb14avg表示设计与训练数据的距离,后者dpw表示库内的多样性。对于Ab-14-H变体设计,所有机器学习优化的库的dAb14avg都比PSSM库高(其中dAb14avg = 3.1)。基于集成的库也比基于GP的库(dAb14avg为3.4-3.7)具有显着更高的dAb14avg(为7.9-15.6),表明这些方法能够外推并设计远离训练数据的序列(图2c)。特别地,En-Gibbs库中的序列与Ab-14-H平均距离为15.6,与彼此的平均距离为14.9(图2c)。然而,这种突变距离的增加是以减少结合亲和力为代价的,这表明在两者之间最终存在一种权衡。
对于Ab-14-L变体设计,所有机器学习优化的库与Ab-14-L的距离均显著大于PSSM库,其中PSSM库的dAb14avg为3.2,GP-based库的dAb14avg为4.3-7.4,ensemble-based库的dAb14avg为12.4-21.3(图2f)。除了GP-GA(dpw = 4.5)外,所有机器学习优化的库的dpw(为6.3-22.4)都高于PSSM库(dpw = 5.9)。特别地,En-Gibbs轻链库由平均距离Ab-14-L为21.3的序列组成,这些序列彼此之间的平均距离为22.4(图2f)。
结论
在与传统的定向进化策略进行直接对比的实验中证明,作者的基于集成的机器学习方法设计的scFv结合能力显著更强,尤其是在高度多样性的情况下,模型能够准确预测高阶突变体的结合亲和力。值得注意的是,在经过一轮设计-构建-测试循环后,模型能够生成一个重链scFv,其结合能力比PSSM库中最强的scFv强28.7倍(表1)。大多数经过机器学习设计的scFv都优于候选scFv Ab-14;与PSSM库的成功率不到20%相比,超过90%的经过实验评估的En-GA和En-HC重链scFv都是成功的(图2)。此外,基于集成的方法能够探索更大的序列空间;重链集成库的平均突变距离为7.9到15.6,而PSSM库的突变距离为3.17(图2)。传统方法最终可能会找到与作者的机器学习方法找到的最好的结合体一样强的结合体。然而,这并不是保证的,至少需要进行额外的设计-构建-测试循环。传统方法很难达到与作者的方法相等的成功率和多样性指标。
参考资料
Li, L., Gupta, E., Spaeth, J. et al. Machine learning optimization of candidate antibody yields highly diverse sub-nanomolar affinity antibody libraries. Nat Commun 14, 3454 (2023).
https://doi.org/10.1038/s41467-023-39022-2