NCS | 不确定性驱动的构象空间采样

智源社区2年前 (2023)发布智源社区

543 0 0

目前，机器学习方法已经在分子模拟领域取得诸多成功应用。一大优势是在使用高保真的模拟数据进行训练时能够准确地对体系势能面进行建模。换言之，无论机器学习模型架构多么复杂，真正影响预测准确性的仍然是训练数据的质量和多样性。

主动学习（active learning, AL）是一种通过迭代过程生成多样化数据的有力工具，会在模型不确定的数据区域产生新数据，促使模型性能迅速提高，其中一种方法是QBC（query
by committee）策略。该策略会构建一个模型集合，计算每次预测时所有模型结果的方差。方差很大说明此类数据的学习不充分，值得加入训练集进行下次轮次的训练。主动学习的特点与我们在分子动力学模拟中的需求不谋而合，模拟轨迹常常陷于局部最优而缺少对某些关键高能区域的采样，主动学习就可以从已有轨迹出发，对新空间展开充分地采样。与元动力学等增强采样方法不同，主动学习方法不需要人为定义集合变量，可以实现自动采样。

基于上述思想，美国洛斯阿拉莫斯实验室的B. Nebgen团队提出了一种偏向于高不确定性区域的主动学习采样算法——不确定性驱动的动力学（uncertainty-driven dynamics, UDD）。该项工作近期发表在计算机科学顶级期刊Nature Computer Science上。【1】

UDD驱动采样方向的方法与很多增强采样方法一样，是通过添加偏置势实现的。两者的不同之处在于UDD的偏执势与模型集预测的不确定性相关，而该不确定性由模型集中所有模型对当前构象预测的能量的方差经过指数运算得到。通过上述偏置势，可以促使模拟走向难以采样的区域。

图-1：UDD-AL方法架构示意图

研究者通过两个案例研究证明了所提方法的实用价值，包括甘氨酸分子的构象采样和乙酰丙酮中质子转移过程的模拟。

甘氨酸虽然是结构最简单的氨基酸分子，但是由于其势能面上存在非常多的局部最优区域，是非常有挑战性的模拟对象。在该体系下，作者首先比较了不确定性驱动的动力学和常规动力学的差别。图-2b展示了在每次主动学习迭代内模拟轨迹到达不确定区域的时间，结果表明在350K温度下，不确定性偏置势能使构象更快地到达模型没有学习过的区域。采用高温进行模拟也是常用的对高能区域进行采样的方法，研究者在分别在两种高温条件下进行模拟并与UDD方法进行比较，表明UDD采样高能区域的速度介于600K和1000K的模拟方法之间。图-2c显示采样到的构象能量分布与600K下的模拟结果接近，表明UDD能够在更短的模拟时间内模拟到较高能的构象空间。接着研究者从400K 50ns的甘氨酸模拟轨迹中采样出5000个构象作为测试集以验证4个模型的准确性。结果表明，在充分学习后四个模型都能比较准确地预测构象的能量，相比之下350K的常规模型更准确，这可能是由于该模型学习时几乎没有学习到高能构象，训练集与测试集相似导致的。

除了速度和精度的比较外，研究者还对模拟轨迹进行了分析。从图3中可以看出，除了350K常规模拟的模型外，其余3组均能对高能区域进行采样并且能够采样出由化学键旋转带来的构型变化。值得大家注意的是，高温模拟方法相比UDD方法也有缺陷，过高的温度容易造成键长和键角的错误进而导致体系崩溃，UDD可以在避免上述风险的前提下完成对高能空间的采样。

图-2：不同主动学习模型在甘氨酸构象采样测试中的结果比较。（b）不同迭代轮次内模拟到达不确定区域的时间；（c）主动学习产生构象的能量分布；（d）主动学习过程中模型预测的精度比较；（d）350K常规模拟模型产生构象与测试集构象的能量分布。

图-3：甘氨酸构象空间的降维可视化结果。（a）训练集可视化；（b-c）训练集中可以观察到构型变化；（d-f）350K UDD模拟、600K常规模拟和1000K常规模拟的构象可视化。

研究者还以乙酰丙酮质子转移过程的模拟为例探讨了UDD方法在反应途径采样中的泛化能力。如图-4所示，添加不确定性驱动的偏置势后，轨迹中可以观察到在低温常规模拟中不能观察到的质子转移现象，并且系统中的其他自由度的分布没有失真，接近低温模拟的分布。相反地，高温模拟也能观察到质子转移，但是其他不涉及变化的化学键键长出现波动，衬托出UDD方法的优势。

图-4：乙酰丙酮质子转移过程研究结果。（a）研究对象示意图；（b）不确定区域可视化展示，深色区域表现不确定性高的位置；（c）自由质子的低能区域可视化展示，深色区域表示低能区域；（d）添加偏置势后的质子低能区域可视化；（e-f）模拟轨迹中两种C-H键的键长分布。

总结

研究者创新性地提出了一种高能构象的采样方法UDD，避免了人为选择的集合变量可能带来的问题，也避免了高温模拟时体系崩溃的风险。文中使用的模型集合中各个模型均是相同架构和超参数的，如果进行个性化的调参，相信UDD方法还会有更好的表现。不过，该方法也有一定局限性。UDD的主要影响因素是偏置势的幅度和宽度，这是根据使用场景人为设置的，具有一定的经验性。未来使用一些算法自动化地设置这些参数可能该方法的进步方向之一。

参考文献

【1】Kulichenko, M., Barros, K., Lubbers, N. et
al. Uncertainty-driven dynamics for active learning of interatomic
potentials. Nat Comput Sci 3, 230–239 (2023). （DOI：10.1038/s43588-023-00406-5）