近日,交叉信息院曾坚阳研究组发现蛋白质 - 小分子间局部共价相互作用和结合强度的深度学习模型,该成果论文“ MONN: a multi-objective neural network for predicting compound-protein interactions and affinities ”发表于 Cell Systems 期刊,同时被计算分子生物学研究国际会议接收( RECOMB, 2020 )。

蛋白质 - 小分子相互作用( CPI )是药物研发过程中的关键问题,准确预测这一相互作用有助于提高药物研发的效率。虽然近年来有一些深度学习算法应用在这一领域的工作,但是这些神经网络模型的可解释性仍然比较局限,仅能在少数案例上通过注意力机制分析分子间的结合位点。曾坚阳研究组首次整理了一个大规模数据集来验证现有 CPI 预测模型的可解释性,并发现现有的基于神经网络的注意力机制模型很难自动捕获蛋白质和小分子之间形成的非共价键。

基于上述发现,曾坚阳研究组重新定义了 CPI 预测的机器学习问题,将预测分子间非共价键和预测亲和力这两个任务结合起来,开发了一个多目标神经网络模型,同时预测蛋白质 - 小分子间形成的局部非共价键和亲和力。前者是揭示 CPI 作用机制的重要线索,而后者是虚拟高通量药物分子筛选的重要指标。分子间形成的非共价键会影响其相互作用强度,因此本研究猜测引入这一信息能够更好地帮助亲和力预测,而计算实验也证明了这一假设。测试表明,这一模型在两个任务上均能实现准确的预测,效果优于现有的机器学习模型。在没有可利用的结构信息来支持非共价键预测的大规模虚拟筛选数据集上,模型也能够成功获得优于其他算法的预测效果。除此之外,模型还能够自动捕获分子间相互作用的化学规则。

该成果论文共同第一作者为交叉信息院博士生万方平和硕士生李舒雅,通讯作者为交叉信息院曾坚阳副教授和赵诞助理研究员 本研究得到了国家自然科学基金、南京图灵人工智能研究院和中关村海华前沿信息技术研究院支持。

论文原文链接: https://www.sciencedirect.com/science/article/pii/S2405471220300818