今天为大家介绍的是中南大学湘雅药学院曹东升教授团队和香港浸会大学吕爱平教授团队合作提出了一种预测专利中关键化合物的方法PatentNetML(图1)。该方法利用网络科学和机器学习技术,通过整合网络指标(基于化学结构相似性网络计算)、ADMET 属性和其他分子描述符,构建分类模型预测专利中的关键化合物。研究结果近期在线发表于Journal of Medicinal Chemistry,题为“PatentNetML: A Novel Framework for Predicting Key Compounds in Patents using Network Science and Machine Learning”。
图 1 PatentNetML的整体结构
前言
专利在药物研发中扮演着至关重要的角色。传统上,通过文献获取信息存在一定的时间延迟,而专利信息往往领先数年。这使得研究人员能够更早地获取关键数据来验证实验方案并寻找潜在的先导药物,从而为研发提速提供了便捷途径。
药物研发中的化学分子专利至关重要,其中最宝贵的信息是权利要求保护的化学空间,由Markush结构概括。挖掘专利中的化学实体具有挑战性,但可利用文本挖掘等方法,或者直接借助数据库资源如SureChEMBL[1]。从专利中庞大的化学数据中识别其中的关键化合物其能加速研究,但人工识别耗时且繁琐,有研究开发了自动识别方法,如CSA[2]、MI和FOG[3]。这三种传统化学信息学方法都仅依赖于结构信息,并基于相同的假设:药物化学家已经广泛探索了关键化合物的化学性质,认为关键化合物应位于或接近专利化合物的化学空间中心。这些方法的详细信息请参阅原文附加信息和它们的原始论文。这些算法虽然简单易操作,但也存在局限性,例如忽略影响候选药物选择的药代动力学关键因素。
图 2 PatentNetML方法的概念
PatentNetML方法
作者的方法灵感来源于CSA方法,它包括三个主要步骤:基于分子指纹计算专利内化合物相似性矩阵、设定阈值确定每个化合物的邻居数量、重新排序化合物。第二步类似于计算网络中节点的度,作者因此引入了网络科学概念,将化合物视为网络节点,进而计算网络指标(如度中心性等),同时又进一步计算化合物ADMET和理化性质来构建机器学习模型。机器学习算法选择RF和XGBoost用于构建分类模型。为解决类别不平衡的问题,进行下采样。最终通过整合表现良好的模型预测专利中的关键化合物。(图2)
专利数据集分析
本研究收集整理了来自1555个专利的1000个药物或候选药物的分子,平均每个专利包含约206个分子给准确预测带来了挑战(图3A)。本数据集中专利涵盖1975年至2020年的各个时期,21世纪专利数量迅速增长(图3B);诺华公司拥有最多的专利,其次是百时美施贵宝公司、默沙东公司、杨森制药公司和辉瑞公司等(图3C)。此外,专利中涉及的适应症也是宝贵的信息,作者采用了国际疾病分类(ICD)系统分析专利中涵盖广泛的适应症,前三类分别是肿瘤、某些感染性或寄生虫病和神经系统疾病(图3D)。另外,作者对专利中分子的理化性质和骨架进行了分析,结果表明专利中的分子在骨架和理化性质方面具有多样性(见原文附图S3)。总而言之,由于每个专利包含大量化合物且分子种类繁多,从其他化合物中区分关键化合物是一项挑战。该数据集现已在GitHub上公开(https://github.com/zhu-tingfei/PatentNetML)。
图 3 专利概况和分布
PatentNetML方法预测
作者使用ROC-AUC分析评估了模型性能,结果表明模型表现出色,在验证集和测试集上的平均ROC-AUC值分别达到0.83和0.84,0.84和0.87(图4A)。为了提高可靠性,作者采用共识方法,结合多个模型的预测结果进行集成。在验证集和测试集中,将关键化合物预测在前 1、前 5 和前 10 个位置的准确率分别为11.4%、37.9%和49.3%,以及22.7%、42.7%和54.0%(图4B)。这些结果表明,PatentNetML 方法可以有效预测关键化合物。
四种方法的比较
根据超几何分布,随机选择5个化合物的总体准确率为4.4%。传统方法(CSA、MI、FOG的总体准确率分别为27%、18%和26%)在将关键化合物排序至前五的能力上明显优于随机选择。相比之下,PatentNetML在关键化合物预测方面取得显著进展。在外部测试集上其前五名的准确率大幅提升,预测在第一的准确率略微提高,分别为38.1%和15.5%(图4C)。PatentNetML能够准确识别出四种方法中任一种预测正确的大部分专利(79%)。考虑到PatentNetML将关键化合物预测在前10的情况,准确率进一步提升至52.3%,共有88个专利成功被四种方法中任一方法预测,而PatentNetML成功预测其中的81个(92.1%)(图4D)。这突显了PatentNetML在专利关键化合物预测方面的有效性和优越性。
案例研究
PatentNetML方法的有效性和局限性可以通过三个专利案例进行阐述。
US-4767760:精准预测关键化合物。PatentNetML成功将关键化合物Diclazuril排名前列 (1/50),传统方法均未能预测进前五。SHAP分析显示,PatentNetML考虑了更多种类的介数中心性,是其优越表现的关键。排名第二的 c1-2因CYP2C19抑制特性,对预测造成负面影响。这凸显了将ADMET性质纳入预测模型的重要性。
US-20170233376:揭示隐藏的关键化合物。该专利旨在使用羧酸及其衍生物开发靶向URAT1的降尿酸药物。基于作者收集数据的方式,Verinurad 最初被确认为关键化合物,PatentNetML未将其预测在前5名,而FOG方法成功预测。而进一步分析相关专利发现,该专利被同一专利受让人的另一件专利WO2019183835A1引用,且新专利保护的是化合物1的各种盐型。预示化合物1可能才是US-20170233376中真正的关键化合物。有趣的是,PatentNetML准确地将化合物1排名前5,再次证明其挖掘隐藏模式和识别传统方法可能忽略的重要化合物的价值。
US-9290496:生物活性数据的潜在帮助。该专利公开了新的嘌呤衍生物及其在治疗哺乳动物异常细胞生长(包括癌症)方面的应用。所有四种方法都未能准确预测关键化合物Mavelertinib。SHAP分析和t-SNE降维显示,关键化合物 Mavelertinib不位于网络中心,导致预测准确性受限。值得注意的是,该专利提供了几乎所有化合物的生物活性数据,这为重新排名提供了可能。通过结合生物活性数据,Mavelertinib 的排名可以提升,为研究人员提供一定程度的指导。
图 5 案例分析
这些案例研究展示了PatentNetML的潜力和局限性。它通过考虑网络中心性和ADMET性质,成功预测了传统方法无法识别的关键化合物。然而,对于某些专利,准确性仍然受限,需要进一步改进和探索。生物活性数据等信息可能成为未来提升PatentNetML预测准确性的关键。
总结与讨论
本研究收集并分析了来自1555个专利的32万余条数据,涵盖1000个独特关键化合物。分析显示,该数据集包含多样化的分子,可作为测试专利关键化合物预测方法的宝贵资源。
传统化学信息学方法在关键化合物排序方面准确性较低,而作者的 PatentNetML方法取得了更好的表现。网络指标、ADMET性质和理化性质的整合为专利关键化合物预测提供了新的方法,揭示了不同专利中潜在的内在特性和联系。然而,本研究也存在局限性。偏离中心性模式假设的专利和与天然产物药物相关的专利对准确预测提出了挑战。这些发现为未来研究提供了宝贵指引,例如探索图嵌入等替代方法,并引入生物活性数据等额外知识来改进预测模型。
总而言之,本研究利用网络科学和机器学习技术,为高效识别专利中潜在的候选药物提供了宝贵见解。改进的关键化合物预测准确性对于药物发现和制药行业具有实际意义。
参考资料
-
Papadatos G, Davies M, Dedman N, et al. SureChEMBL: a large-scale, chemically annotated patent document database[J]. Nucleic acids research, 2016, 44(D1): D1220-D1228.
-
Hattori K, Wakabayashi H, Tamaki K. Predicting key example compounds in competitors’ patent applications using structural information alone[J]. Journal of chemical information and modeling, 2008, 48(1): 135-142.
-
Tyrchan C, Boström J, Giordanetto F, et al. Exploiting structural information in patent specifications for key compound prediction[J]. Journal of chemical information and modeling, 2012, 52(6): 1480-1489.
原文链接
Zhu T F, Qian R, Wei X, et al. PatentNetML: A Novel Framework for Predicting Key Compounds in Patents Using Network Science and Machine Learning[J]. Journal of Medicinal Chemistry, 2024.