温暖的长颈鹿 · MockBean required a ...· 1 年前 · |
苦闷的猕猴桃 · Module.Find 方法 ...· 1 年前 · |
傻傻的铁链 · crontab每半小时执行一次_linux ...· 1 年前 · |
爱看书的竹笋 · django学习(2)加载静态html模板网 ...· 1 年前 · |
高大的柚子 · Java记事本-阿里云· 1 年前 · |
2021年12月6日,克利夫兰医学中心Lerner研究所方坚松博士(第一作者,现广州中医药大学副研究员)等联合在Nature 子刊Nature Aging上在线发表了题为“Endophenotype-based in silico network medicine discovery combined with insurance record data mining identifies sildenafil as a candidate drug for Alzheimer’s disease”的研究论文。该研究报道了一种基于内表型网络方法的AD药物重定位策略,结合对包含723 万人的保险记录数据库进行回顾性队列分析,发现了老药西地那非(sildenafil)与AD发病风险的降低显著相关(风险比 (HR)= 0.31, 95% 置信区间(CI) 0.25–0.39, P< 1× 10的-8次方)。进一步倾向性评分分层分析发现,西地那非与其它几种药物(地尔硫卓、格列美脲、氯沙坦和二甲双胍)相比,同样可显著降低AD发病风险。研究还发现,在AD病人来源的多功能干细胞分化的神经元模型中,西地那非可显著增加神经突生长并降低磷酸化Tau蛋白表达,从机制上进一步支持了其对 AD 的潜在应用价值。总之,该研究证明了内表型网络结合临床电子病历挖掘可作为一种有效促进AD药物开发的策略,同时可应用于其它神经退行性疾病的药物发现。1.研究背景阿尔茨海默症(Alzheimer's disease, AD),俗称“老年痴呆症”, 是一种严重的神经退行性疾病,主要临床特征表现为记忆力减退、思维迟缓以及性格和行为的改变。目前,全球约有5000万AD患者,且随着全球老年化的加剧,其患病率也在不断上升,预计到2050年,阿尔兹海默症患者将增加至1.5亿以上。令人遗憾的是,AD的病因复杂,科学界至今仍未破译阿尔兹海默症发病的具体机制,至今也仍未有真正逆转AD进程的药物上市。近十年来,随着药物重定位在新药研发中迸发出了巨大潜力,科学家们开始关注于通过老药新药途径开发抗AD药物, 据统计目前已有近30多个FDA已上市的药物正在做AD相关的临床试验。AD发病机制复杂,主流观点认为病因是β-淀粉样蛋白(Aβ)和Tau蛋白沉积造成的神经元大量死亡。即Aβ形成斑块,tau蛋白形成神经纤维缠结,共同危害神经元健康。然而,数十年来靶向这两个靶点的AD药物临床试验却鲜有成功。目前越来越多的临床与实验表明,AD的诱发主要来自于Aβ和tau的相互作用,而非单纯Aβ或tau引起,即Aβ和tau存在协同作用(Nat Neurosci. 2020;23:1183-93; Alzheimers Dement. 2017;13, 644–53;Cell Rep. 2019;29, 3592–604)。内表型网络是一类能够表征某一独立生物体系功能中间遗传特征的分子网络,可进一步发展为多种遗传学相关的疾病。此前方坚松博士等受邀药学顶级期刊 Medicinal Research Reviews 杂志(第一作者),发表了题为“Harnessing endophenotypes and network medicine for Alzheimer's drug repurposing”的前沿综述,提出了基于网络医学框架的AD内表型网络假说(Med Res Rev. 2020 ;40(6):2386-2426)。该假说认为复杂性疾病AD涉及多种病理机制,每一种病理机制可以抽象为一种内表型(Endophenotype),而这些表型可以同时参与多种疾病的发病机制。在此篇Nature Aging研究中,作者们旨在运用先前提出的内表型网络方法开展抗AD的药物重定位研究,并结合大规模的临床电子病历数据挖掘评估候选药物与AD疾病风险之间的关联性,同时结合体外AD细胞模型研究其作用机理(图1)。图1 基于内表型网络方法的抗AD药物重定位策略2.主要发现研究团队首先通过整合144个高质量的AD种子基因用于构建Aβ与Tau互作内表型网络(图2),并使用最大连接子图LCC方法证明该网络具有显著的模块特征。接着证明了与单独靶向Aβ与Tau的药物相比,同时靶向Aβ与Tau蛋白的AD在研药物与多组学来源的AD疾病模型具有更为显著的AD网络近邻特征,即表现出与AD更好的病理相关性。基于此他们构建并论证了Aβ与Tau互作内表型网络能够很好的拟合AD的病理特征,并采用该网络模型预测了美国FDA的1608个已上市药物,发现了66个潜在的抗AD药物。图2 Aβ与Tau互作内表型网络进一步的分析发现老药西地那非为最优的候选药物,已报道的文献证据表明了西地那非能够显著改善多个AD转基因动物模型(APP/PS1和J20)小鼠的学习记忆能力(Br. J.Pharmacol. 2011; 164, 2029–2041; Neuropharmacology. 2013; 64, 114–123),同时也有两项小规模临床试验初步显示西地那非可能对治疗 AD 具有潜在益处(J. Alzheimers Dis. 2019;70, 163–170;J. Alzheimers Dis. 2017;60, 1351–1364)。然而,目前未见大规模回顾性队列研究显示其与降低AD风险相关。基于此,该团队利用MarketScan Medicare Claims数据库中2012 年至 2017 年的保险记录数据(包含732万人的临床电子信息)系统研究了西地那非服用人群与AD发病风险之间的关系。为了尽量降低混杂因素,共进行了三类基于药物队列的观察性研究:1) 西地那非服用者 vs.非西地那非服用者,2) 西地那非 vs.对照药物(地尔硫卓或格列美脲,未见AD相关的临床证据),以及 3) 西地那非与对照药物(氯沙坦或二甲双胍,已开展过抗AD临床试验)。对于每个队列比较,首先对数据进行了倾向评分分层(n = 10),并完成了分层前后的 Kaplan-Meier 曲线及其对数秩检验,以及 Cox 回归分析。结果表明,这五个药物流行病学分析揭示了服用西地那非对降低 AD 风险具有显著益处。紧接着,进一步地考虑疾病(常见并发症冠心病、高血压及二型糖尿病)因素、性别因素及年龄因素校正后,进一步揭示了服用西地那非对降低男性患AD风险显著相关。尽管如此,未来仍需要进一步设计随机对照临床试验去证实西地那非与AD之间的因果关系。为了进一步研究西地那非抗AD的分子机制,研究团队利用网络分析预测出西地那非抗AD的作用机制与影响Tau功能相关的蛋白(GSK3β与CDK5)有关,并在脂多糖刺激的人源小胶质细胞HMC3细胞模型上进行验证,发现了西地那非(30 和 100 μM)预处理能够降低GSK3β和 CDK5的磷酸化水平。同时在AD病人来源的多功能干细胞分化的神经元模型中,西地那非可显著减少了 分化的神经元中 p-tau 181 的积累。3.总结本研究提供了一种基于网络的药物重定位综合方法,该方法结合了内表型网络发现、大规模AD患者数据分析,以及体外分子机制探讨,发现了具有降低AD发病风险的抗AD有效候选药物西地那非。该方法同样可用于研究用其它AD相关的内表型,如炎症和代谢功能障碍,同时也适用于其它神经退行性疾病。该研究还发现了除老药西地那非以外的其它众多潜在抗AD药物,未来将开展更多的临床前或临床研究去进一步发现它们的潜在应用价值。
本文介绍一篇来自中国科学技术大学刘淇教授课题组和腾讯量子实验室联合发表的一篇文章。该文章提出了基于官能团的分子属性预测图网络自监督预训练方法MGSSL。MGSSL结合化学领域知识,在大量无标签分子数据中划分官能团和构建官能团树,并进一步通过官能团生成式自监督任务,使得预训练的图网络可以学习到官能团的结构和语义信息,提高下游分子属性预测任务的效果。1.研究背景分子属性预测任务对于药物合成和筛选具有重要意义,例如新冠病毒药物筛选。传统通过实验和理论计算的方法的得到分子属性耗时且昂贵。近年来,基于深度学习的分子属性预测方法大大减少了预测时间和成本。为了保留分子的结构信息,分子通常可以表示成图,并利用图网络进行分子属性预测。但是训练图网络用于分子属性预测需要大量有标签分子数据,否则图网络模型易于过拟合并且泛化性能差。为了克服有标签分子数据匮乏的问题,可以考虑引入类似于CV和NLP中自监督预训练的方法:先在大量无标签分子数据上预训练图网络,然后再在下游有标签分子数据上微调。如何对于图数据特别是分子数据,设计合适的自监督预训练方法是当下的研究热点和难点。目前的图自监督预训练方法大致可以分为两类:基于对比学习的方法和基于预测的方法。(1)基于对比学习的方法,让来自同一个图的视图表示接近,不同图的视图表示相异;(2)基于预测的方法从数据本身特点构建预测任务,例如通过周围的结点预测被遮掩住结点的类型。然而当前分子图网络模型的自监督预训练无法有效利用分子官能团的信息,使得预训练效果受到限制。分子官能图指的是分子中经常出现并且对于分子属性具有决定作用的片段。例如,具有(-OH)的小分子通常水溶性比较好。因此,设计基于官能团的图网络自监督预训练方法。2.MGSSL 方法图1 MGSSL方法示意图MGSSL 创新的提出了一种自监督官能团生成预测任务,使得预训练的图网络可以有效捕捉分子图中官能团的结构与语义信息。如图1所示,MGSSL 同时考虑了原子层级和官能团层级的自监督任务。在原子层级,MGSSL使用了遮掩并预测原子/化学键种类的方法学习到原子层级的信息。在官能团层级,MGSSL自监督框架由三部分构成:由化学领域知识启发的分子官能团划分,官能团生成预测和多层级自监督预训练。图2 分子官能团划分如图2所示,为了划分分子官能团,我们首先使用了基于化学反应模板的 BRICS(Breaking of Retrosynthetically Interesting Chemical Substructures)方法。然而通过BRICS划分得到的官能团词典较为冗余,我们还定义了两个规则去除冗余的官能团,最终构建 motif tree:(1)当一个化学键连接的两个原子,一个在环上,一个不在环上时,断开化学键;(2)当不在环上的原子有三个或者三个以上邻居时,断开与邻居间的化学键,并且选取所述不在环上的原子作为新的官能团。在划分官能团后,我们可以构建官能团树并且得到预训练数据集的官能团词典。图3 官能团树生成(深度优先顺序和广度优先顺序)如图3所示,利用构建的官能团树,可以建立官能团生成的自监督预训练任务,官能团生成的每一步都进行拓扑预测和官能团种类预测。其中官能团的生成顺序,主要包括深度优先顺序和广度优先顺序。最终MGSSL自监督预训练的损失函数包括原子层级和官能团层级的损失函数。3.实验结果表1分子属性预测实验结果在论文中,作者主要考虑分子属性预测任务。自监督预训练在ZINC15 中250k 个分子数据上进行。下游分子属性预测数据集使用的是MoleculeNet中8个双分类数据集。实验中数据集划分使用的是scaffold-split。MGSSL的对比方法主要有Infomax, Attribute masking, GCC, GPT-GNN 和 Grover。下游分子属性预测实验结果如表1所示,MGSSL 在MoleculeNet 8个数据集中的7个得到了最好的表现,验证了基于分子官能团的自监督预训练的有效性。图4 不同预训练方法的训练和测试曲线在图4中,我们展示了不同预训练方法的训练和测试ROC-AUC随着微调epoch的变化。可以看出,对比其他自监督预训练和没有预训练直接微调,MGSSL预训练过的图网络具有更快的收敛速度。一旦使用MGSSL预训练好之后,图网络可以以很小的预训练开销快速迁移到各种下游任务中去。表2 对比MGSSL在不同图网络模型的效果提升在表2中,我们进一步对比了使用MGSSL在不同图网络模型的效果提升。可以看到MGSSL是通用的图网络自监督预训练方法,可以提升GCN,GIN, RGCN, DAGNN, 和GraphSAGE在分子属性预测任务中的表现。4.总结这篇论文提出了一种基于官能团生成的图网络自监督预训练方法MGSSL。大量实验表明MGSSL可以使得预训练图网络学习到官能团结构和语义信息,提升下游分子属性预测的表现。未来的研究工作包括:(1)设计更多基于官能团的图网络自监督学习任务 (2)探索基于官能团的自监督学习在其他领域的应用。
介绍:图神经网络在分子上的应用是当前的研究热点。这个课件主要目标是用一小时给领域初学者讲清楚基础知识和背景,当前的研究热点,以及重要的工作。更重要的是,该课件内附很多领域内数据、公开赛、算法的链接,以便初学者快速上手。该课件主要内容分为五个部分:研究动机;数据和问题建模;从神经信息传递的角度讲方法;分子三维形态确定;一些算法库。作者介绍:Yi Liu, 德州农工大学计算机科学与工程系博士候选人,师从Shuiwang Ji教授(http://people.tamu.edu/~sji/。主要研究兴趣是深度学习的方法,及其深度学习在医学化学数据上的应用。研究成果发表在KDD, TPAMI,TMI等会议和期刊上。slides链接链接: https://pan.baidu.com/s/18UjirXrAOQ0vQU6suwXd7Q提取码: f5gr..........
近年来分子生成问题收到了很多关注。但是现有的方法都是基于深度神经网络,需要在很大的数据集上训练。在实践中,由于劳动密集型实验和数据收集,特定类别化学数据集的规模通常是有限的(例如,几十个样本)。这对深入学习生成模型全面描述分子设计空间提出了相当大的挑战。另一个主要挑战是只产生物理上可合成的分子。这对于基于神经网络的生成模型来说是一项非常重要的任务,因为相关的化学知识只能从有限的训练数据中提取和概括。 此篇论文中,作者提出了一个数据高效性的生成模型,可以从比普通基准小几个数量级的数据集中学习。此方法的核心是一个可学习的图语法,它可以通过一系列的生成法则来生成模型。不需要任何人工帮助,这些生成规则可以从训练数据中自动构建。此外,附加的化学知识可以通过进一步的语法优化来加进模型里。学习完的图语法仅仅通过三个各包含约20个样本的单位数据集,就可以在生成高质量分子任务中获得最先进的结果。此论文的方法在只有117个训练样本的化合物合成任务中获得了很好的结果,与使用了81k的数据点的现有方法性能相当。 1.介绍本文提出了一种将复杂图语法构造与相对简单有效的学习技术相结合的生成模型。特别是,该语法包含了不同大小的子结构(即原子级以上),构建过程直接优化了各种化学指标(如分布统计和合成能力),同时满足特定的化学约束(如价限制)。此外,此方法具有符号知识表示的优点:可解释性和数据高效性。此论文的评估重点是聚合物,特别是他们的单体构建块。作者表示,此模型适用于任意分子。2.方法 分子超图图1 萘二异氰酸酯的超图表示形式语法图语法论文专注于分子图的形式语法——图语法,而不是字符串。如图3所示,生成规则的左右侧都是图。这些图包含非终点节点、终点节点、代表性原子。白色节点是锚节点,它不会从左侧变为右侧。图3 使用图2的图语法的萘二异氰酸酯的生成过程 基于图语法的分子图类似于基于字符串语法的图(如图3)。为了确定生成规则是否适用于每一步, 作者用子图匹配来测试当前图是否包含与规则左侧同态的子图。由于子图通常规模较小,因此匹配过程在实践中是有效的。整体流程图4 如图4所示,作者的算法是由一组分子结构和一组评估指标(如多样性和可合成性)构成。目的是学习一种可以用于分子生成的语法。为此,首先将分子看作一个超图。图5语法构造是一个自底向上的过程,通过压缩超边(如图5)来迭代地创造生成规则。压缩超边是由一个含参函数来确定,以神经网络的形式来实现。作者同时执行多个随机搜索来获得多个语法,由输入的度量值来计算。此方法学习如何构建语法,用最大化输入指标地对分子进行采样。因此特定领域地知识可以应用到基于语法的生成模型里。构建自底向上的图语法自底向上的搜索是用来从最基层开始构建生成规则,包含了分子超图的单个超边。通过迭代采样一组超边,然后将他们压缩成一个节点来构建语法。 压缩的每一步里,都会构造一个生成规则并加入到语法里。这样就会得到有着更少的节点和边的新超图。作者同时对所有的输入分子进行超边选择和规则构建,直到所有的超边被压缩。此方法有几个特点:(1)作为生成模型,语法可以复制所有的输入分子。(2)由于生成规则是由真实的分子的子图构造而成,所以自然符合化合价的条件。因此,生成的所有分子都是有效的。(3)生成不仅包含训练数据。而且还可推测生成先前所见示例分布之外的分子结构。(4)所构建的语法基本遵守Chomsky范式,易于分析,易于解释。优化图语法观察到到语法结构完全由被选择的超边集序列决定,作者将语法的优化转变成被选择的超边序列的优化。因此,优化问题的变量是选择序列,目标是使评价指标最大化。 作者将超边序列的搜索定义为MSF(最小生成森林)问题。自底向上的语法构建过程可以看作是搜索所有输入图的森林。注意此论文关注的是加入MSF的超边顺序,而不是MSF本身的架构。超边的顺序由边权函数决定,它将分子超图中的每条超边映射为标量。超边选择的优化相当于边权函数的优化。3.结果作者使用了三个小的数据集,每个数据集都代表了一个特定的单体类。这些都是作者从资料中手动整理的:丙烯酸酯,扩链剂和异氰酸酯,分辨包含了32个,11个,11个样品。 为了比较以及预训练基线,作者还使用了来自St.John等人和Jin等人的81k个单体的大型数据集。作者比较了多种方法:GraphNVP,JT-VAE,HierVAE,MHG,STONED。本文的方法缩写为DEG。在小规模,特殊属性的数据集上的结果表1:在异氰酸盐上的结果:作者省略了创新性,因为所有方法都达到了100%;由GraphNVP生成的分子有效率较低,无法对某些指标进行合理的评价(-)。表2:丙烯酸酯和扩链剂的结果。由于GraphNVP生成的分子效度较低,无法对某些指标进行合理的评价(-)。观察发现,GraphNVP的性能相当差。VAEs和现有的基于语法的系统在某些指标上表现得很好,但在RS和Membership指标上得分很低。相比之下,对于三个数据集上的Membership和Retro*分数,作者的方法明显优于其他方法。而且在其他指标上也是最好的或极具竞争性的。在大规模的数据集上的结果表3:聚合物大型数据集上的结果。GraphNVP和SMILESVAE生成的分子效度较低,无法对某些指标进行合理评估(-)。DEG在0.15%的训练数据(117个样本)上进行训练。结果如表3所示。总而言之,一些SOTA系统,如SMILESVAE和GraphNVP,无法捕获任何分布细节,大多生成无效分子。JT-VAE和基于语法的基线(MHG、STONED)虽然相对于前者表现较差,但它们的样本质量是合理的。HierVAE在除倒角距离外的所有指标上都表现得非常好。作者的方法大体上可以与后者相竞争(仅在0.15%的数据上训练),而且可以获得更好的样本质量,特别是倒角距离是后者的两倍高。4.总结作者提出了一种结合图语法构造和领域优化的数据高效性生成模型。语法包含了不同大小的子结构,结构可以直接优化各种化学指标。在三个小尺寸聚合物数据集和一个大数据集上的大量实验证明了该方法的有效性。这个的系统是唯一一种能够在特定的类中生成单体且有高成功率的系统。将属性预测模型与此论文的图语法结合起来,将有助于生成优良分子。
癌症治疗药物正在被考虑用于治疗如肺动脉高压(PH)等罕见的非癌性疾病,但还缺乏有效的计算筛选这些药物治疗疾病的方法。2021年10月20日,来自匹兹堡大学医学院及匹兹堡大学医学中心、普雷里维尤农工大学(Prairie View A&M University,PVAMU)、哈佛大学、MIT和波士顿儿童医院等11所大学和医疗机构的30多位研究员在Science Advances上联合发表了一项重大研究成果“Computational repurposing of therapeutic small molecules from cancer to pulmonary hypertension”。论文的通讯作者是来自匹兹堡大学医学院的Stephen Y.Chan教授。利用具有实验验证的计算方法,研究人员发现了具有治疗肺动脉高压(pulmonary hypertension,PH)潜力的抗癌药物,结果确定了I-BET762和BRD2889有望成为PH治疗的候选者。这些发现可以促进未来应用中重新利用癌症治疗药物来定制精确的治疗方案,或对治疗非癌症疾病的药物的反应进行预测。1.研究背景基于计算的药物再利用正发展成为一种可行的方法,其利用可用的大规模临床和分子分析并与机器学习、网络建模和临床文本挖掘的计算机方法相结合来定义新的药物活性。然而,绝大多数的此类分析通常不适用于罕见或新兴疾病的有限的组学数据集。肺动脉高压(PH)是一种罕见且无法治愈的肺部血管疾病,世界肺动脉高压大会(World Symposium of Pulmonary Hypertension,WSPH)定义其为五组临床分类,尤其是第1组(PAH)和第3组(由缺氧性肺病导致)的PH亚型的死亡率很高。目前的治疗药物主要用于舒张血管以控制症状,大多用于治疗第1组PAH但无法治愈。因此,对新药开发的需求尚未得到满足。内皮病理生物学是PH产生炎症和异常血管重建的致病特征,而在PH中靶向治疗内皮功能障碍一直具有挑战。对PH与癌症之间的分子相似性的进一步认识,以及PH在肺癌中的发展之间的直接联系,提高了将现有小分子抑制剂从癌症重新用于PH疾病的研究热情,但癌症数据集中的广泛分子谱尚未被用于此类PH药物的发现。因此,绘制与PH相关的基因调控依赖网络,并研究与癌症药物活性相关的这些网络的“重新布线”为此提供了机会。在这里,作者假设对药物反应与癌细胞中涉及PH和癌症的通路的分子重新布线之间的关系进行深入分析,将有助于深入了解PH中的血管细胞如何对特定药物作出反应,并反过来支持这些药物再利用于PH2.模型与方法EDDY研究人员设计了一种计算策略:EDDY(Evaluation of Dependency DifferentialitY,差异依赖性评估),以识别癌细胞中与药物反应相关的基因和罕见疾病(如PH)重叠的差分依赖网络(DDNs)。这是一种先验知识辅助算法,该算法基于不同条件下网络中基因间依赖性相互作用的重新布线来定义DDNs。EDDY已用于人类疾病的研究和人类 PH 肺组织的转录组分析来识别疾病中的DDNs。EDDY主要应用于癌细胞系百科全书(CCLE;包括来自810个癌细胞系的RNA测序数据目录)和癌症治疗反应门户(CTRP;调查这些细胞系对368种小分子的反应)这两个数据库的数据集。在这个过程中,对于所调查的每种抗癌药物,细胞系被分为药敏组和耐药组,EDDY-CTRP确定DDNs,这些DDNs通过敏感细胞和耐药细胞中的特定的重新布线来定义药物反应。EDDY-CTRP-PH该团队利用EDDY的计算优势开发了EDDY-CTRP-PH作为一个计算平台,来预测控制罕见非癌性疾病(如PH)的癌症药物功能的前景。这些功能依赖于癌症和PH常见基因的重新连接的差异依赖网络(DDNs)以及与缺氧和炎症的共享链接,可控制多种PH亚型的活性。3.实验与结果研究团队利用EDDY-CTRP-PH分析了来自暴露于数百种癌症治疗药物小分子的800多个癌细胞系的基因表达数据,并评估了与这些细胞中药物反应相关的基因网络的重新布线。根据材料和方法中定义的重新布线分数对小分子和簇进行排序(如下图)。作者发现Bromodomain and extra-terminal motif(BET)蛋白抑制剂依赖于许多基因簇,其中一个基因簇包括半乳糖凝集素-8 (LGALS8),LGALS8有助于控制内皮细胞凋亡,这对于PH的治疗具有重要作用。EDDY-CTRP-PH分析了三种BET抑制剂(JQ-1、I-BET151和I-BET762),其中I-BET151是排名靠前的药物之一。此外,为了确定最稳健的候选药物通路轴,该团队专注于簇43 (C43)。作者发现了一种类似于piperlongumine(荜茇酰胺,胡椒科植物荜茇的一种天然生物碱)的化合物BRD2889,是预测靶向C43的重新布线得分最高的药物分子。并通过实验表明,BRD2889的作用取决于铁-硫基团生物合成基因ISCU,其诱导的GSTP1可以抑制ISCU谷胱甘肽化,挽救氧化代谢,减少内皮细胞凋亡,从而改善PH的症状。最后,在细胞和啮齿动物疾病模型中进行的一系列测试也表明,BET抑制剂和BRD2889都能够按预期与其PH相关的遗传目标结合,同时还观察到用化合物处理后模型的组织学和血液动力学表现有所改善。因此,这两种抗癌药物分别被预测和实验证明在缺氧和炎症条件下分别通过调节内皮LGALS8和GSTP1-ISCU,从而能够缓解肺动脉高压的症状。在这项研究中,作者利用差异依赖性分析的计算优势与大量癌细胞数据相结合,开发了EDDY-CTRP-PH,从而预测控制罕见非癌性疾病(如PH)使用抗癌药物功能的前景,满足了对能够快速并系统性地确定罕见病疗法的方法的需求,而无需事先了解特定分子药物靶点。经预测和实验证明,在缺氧和炎症条件下,BET抑制剂和BRD2889分别通过调节内皮LGALS8和GSTP1-ISCU,从而控制体内PH的症状。该结果确定了特定化合物可以再利用于缓解多种PH亚型的内皮病理生物学症状。更广泛地说,这些发现为计算网络药理学的进展以及将药物从癌症重新用于其他罕见疾病提供了广泛的影响。
本文介绍的是由荷兰莱顿药物研究学术中心、西安交通大学电子与信息工程学院和莱顿高级计算机科学研究所联合发表在Journal of Cheminformatics上的研究成果。作者在之前的一项研究中提出了一种名为DrugEx的药物分子生成方法,将探索策略集成到基于RNN的强化学习中,以提高生成分子的多样性。在本文中,作者通过多目标优化扩展DrugEx算法,以生成针对多个靶标或一个特定靶标的类药物分子,同时避免脱靶(本研究中的两个腺苷受体,A1AR和A2AAR,以及钾离子通道hERG)。该模型使用RNN作为智能体(agent),机器学习预测器作为环境,agent和环境都被预先训练,然后在强化学习框架下交互。作者将进化算法的概念融合到模型中,交叉和变异操作由与agent相同的深度学习模型实现。训练期间,agent生成一批SMILES形式的分子。随后,环境提供的所有靶标的亲和力分数将用于构建生成的分子的帕累托排名,该排序采用了非支配排序算法和拥挤距离算法。作者证明了生成的化合物可以对多种靶标进行作用,并具有高效低毒的潜力。1.背景介绍“一种药物,一个靶点,一种疾病”的模式多年来在药物发现领域占据主导地位,为药物开发和了解分子作用机制做出了巨大贡献。然而,最近的研究表明,一种药物分子平均可以与6个蛋白靶点相互作用,这证实主导模式不够严谨。药物与预期之外的非靶点结合而产生的副作用是候选药物临床失败甚至FDA批准的新药物退出的主要原因之一。然而,疾病往往是由多种遗传和/或环境因素对生物系统的扰动造成的,复杂的疾病更可能需要通过同时调节多个靶标来治疗。因此,对于多种复杂疾病,将药物发现模式转变为“多重药理学”是至关重要的。在多重药理学中,药物与多个特异性靶点结合以增强疗效或减少耐药性形成。已有研究表明,对少量靶标的部分抑制比对单个靶标的完全抑制更有效,特别是对于复杂和多因素疾病。同时,蛋白质的常见结构和功能相似性易导致药物与非靶标结合。因此,药物需具有较高的靶蛋白选择性,以避免与不需要的靶蛋白结合。由于首个版本的DrugEx v1证明了设计新型A2AAR配体的有效性,作者将这种方法扩展到针对多个靶点的药物设计。在该研究中,作者通过将源自进化算法的交叉和变异操作添加到强化学习框架中,将DrugEx更新到第二版 (v2)。为了评估该模型的性能,作者在多靶标和特定靶标案例研究中验证了DrugEx v2。对多靶标,所需要的分子应该对A1AR和A2AAR都有很高的亲和力。对特定靶标,要求分子只对A2AAR有高亲和力,但对A1AR有低亲和力。为了降低毒性和不良事件的风险,在这两种情况下,分子必须对hERG具有低亲和力。值得注意的是,生成的分子还应具有化学多样性,并具有与已知配体相似的物理化学性质。2.DrugEx v2方法数据集作者从ChEMBL数据库(版本26)下载以SMILES形式表示的类药物分子,并对其经过电荷标准化、去除金属和小片段等数据预处理后,收集了170万个分子,命名为ChEMBL数据集。此外,作者还从ChEMBL数据库中提取了25731个配体,构建了LIGAND数据集,对人类A1AR、A2AAR和hERG蛋白靶点进行了生物活性测量。预测模型为了预测每个生成分子对给定靶标的pChEMBL的平均值(pX,包括pKi、pKd、pIC50或pEC50),作者使用4种不同的机器学习算法构建了QSAR回归模型,即随机森林(RF)、支持向量机(SVM)、偏最小二乘回归(PLS)和多任务深度神经网络(MT-DNN)。为了增加QSAR模型可用的化学多样性,作者纳入了没有pChEMBL值的低质量数据,标记为“Not Active”或没有定义pX值的分子。对于这些数据点,作者定义pX值为3.99(略小于4.0),以消除数据集的不平衡性,保证模型能够预测负样本。在训练过程中,低质量数据样本权重设置为0.1,pX准确的数据样本权重设置为1.0。这使得模型能够融入化学多样性,同时避免性能下降。模型输出值是基于该向量的给定化合物是否具有活性的概率。生成模型作者将数据集中的所有分子拆分为一系列标记,以构成一个SMILES词汇表。生成模型使用RNN进行构建,包含一层输入层、一层嵌入层、三层循环层和一层输出层。和DrugEx v1中的区别是,在循环层中,作者使用带有512个隐藏神经元的长短期记忆(LSTM)作为循环单元,而在DrugEx v1中使用的是门控循环单元(GRU)。强化学习对生成器进行预训练后,强化学习(RL)训练流程分为四步(如图1):(1)根据生成器计算出的概率,通过逐步采样标记生成一批SMILES;(2)有效的SMILES被解析为分子并编码为描述符,以得到预测的pXs;(3)基于Pareto优化将预测的pXs转化为单个值作为每个分子的奖励;(4)将SMILES序列及其奖励送回生成器,用策略梯度方法进行训练。图1. DrugEx2利用强化学习的训练流程RL框架下的SMILES序列构建可以看作是一系列决策步骤,生成器(G)和预测器(Q)分别被视为策略和奖励函数。在这项研究中,作者使用了多目标优化,目的是最大化每个目标,即maximizeR1, maximizeR2, ...,maximizeRn,其中n为目标数(本研究中n=3),每个目标i的得分Ri计算如下(其中pXi是每个预测器对第i个目标给出的预测分数):为了评估生成分子的性能,作者引入了有效性(Validity)、可取性(Desirability)、唯一性(Uniqueness)以及多样性(Diversity)。此外,作者还通过计算分子的SA和QED评分来进一步衡量生成分子的性能。为了协调和结合这些不同的目标,作者比较了两种不同的奖励方案:Pareto front(PF)和weighted sum(WS)。PF方案根据不同解集之间的支配关系,确定有优势的解集。例如,给定一个问题的两个解决方案m1,m2,其解集分别为(x1,x2,…,xn)和(y1,y2,…,yn),对于∀ i∈{1,2,…,n} 都有xi≥yi 且 ∃ i∈{1,2,…,n}使 xi>yi,则称m1支配m2,m1的解集优于m2。在确定所有解集之间的优势后,利用非支配排序算法得到不同的帕累托前沿面,然后根据Tanimoto距离的平均值对分子进行排序,距离较大的分子排在最前面。最终奖励R*定义如下:WS方案根据分数小于和大于阈值的生成分子数量之比来确定第i个目标的权重wi,R*定义如下:算法推理进化算法(EAs)是药物发现中比较常用的方法。例如,分子进化器(moleculare voluator)包含交叉和变异操作,可用于药物分子的从头设计;分布估计算法(estimated of distribution algorithm, EDA)是一种基于模型的方法,使用新个体的概率分布估计和抽样来代替突变和交叉操作。DrugEx也是一种基于模型的方法,利用深度学习(DL)模型估计序列决策的概率分布。作者在该实验中使用DL方法来定义基于模型的变异和交叉操作,在EDA和EA中,作者采用RL方法代替样本选择步骤来更新模型或种群。具体算法流程如图2所示。图2. 进化算法的流程图比较。A:分子进化器的算法流程;B:EDA的算法流程;C:作者提出的算法流程探索策略作者之前的研究中,通过导入一个固定的探索网络来实现探索策略,以在训练中扩大生成分子的多样性。作者在本文中引入了代理网(GA),交叉网(GC)和变异网(GM)来实施探索策略,在模型训练过程中,通过对GA、GC和GM的参数不断更新,以生成理想的分子,这三种网络具有相同的RNN结构,如图3所示,绿色代表GA、红色代表GM,蓝色代表GC:图3.探索策略模型3.结果与讨论预测器的性能作者利用LIGAND数据集中的分子训练QSAR模型,然后采用五折交叉验证和独立测试集两种验证方式对不同算法的性能进行评估。如图4所示,在交叉验证中,MT-DNN模型的总体表现相对较优,但是RF在hERG靶标上性能最佳。独立测试集上,RF模型总体上达到了最高的R2(观察到的实际结果与模型构建的预测值之间的相关系数的平方)和最低的均方根误差(RMSE)。由于生成模型可能会创建大量与训练集中的分子不相似的新分子,作者考虑预测器的稳健性,最终选择RF算法构建环境,它提供最终奖励来指导RL中生成器的训练。图4. 不同机器学习回归模型的性能比较性能比较作者比较了DrugEx v2、DrugEx v1和另外两种基于深度学习的药物设计方法(REINVENT和ORGANIC)的性能。作者把两种不同的多目标强化学习方案应用到四种算法中,分别对不同算法进行了多靶标和特定靶标的性能测试。如表1和表2所示,在多靶标和特定靶标的实验上,WS方案可以帮助模型提高可取性,PF方案可以帮助模型实现更好的子结构的多样性。通过比较这些方法,DrugEx v2在PR和WS方案中获得了最佳的可取性,REINVENT生成的分子更容易合成,更像药物,而DrugEx v1生成的分子与配体中的分子分布更相似。表1.不同方法在多靶标情况下的性能比较表2.不同方法在特定靶标情况下的性能比较化学空间的比较关于化学空间,作者对多靶标(图 5A-H)和特定靶标(图5I-P)情况下所有分子的ECFP6描述符采用t-SNE实现可视化,其中A-D和I-L基于PF奖励方案,E-H和M-P基于WS奖励方案。在多靶标情况下,LIGAND 集中大多数所需的配体分布在图的边缘区域,PF方案比WS方案能更好地引导所有生成体覆盖化学空间。在特定靶标的情况下,LIGAND 集中所需的配体在边缘和中心区域分布的更分散,所需配体所占据的区域只有一部分与REINVENT和ORGANIC生成的分子重叠,而DrugEx v1和v2生成分子的分布与之高度吻合。与WS方案相比,DrugEx v2 使用 PF 方案显着提高了化学空间覆盖率。图5显示了所有已知配体(橙色)和所需配体(黑色),此外还显示了由 DrugEx v1(A、E、I、M,蓝色)、DrugEx v2(B、F、J、N,红色)、ORGANIC(C、G、K、O,绿色)和 REINVENT(D、 H、L、P,紫色)生成的分子。从图中可以看出DrugEx更好地覆盖了输入数据的整个化学空间。图5. LIGAND 集和生成分子的化学空间的比较4.总结在这项工作中,作者提出了一种基于帕累托的多目标学习算法,用于基于不同要求的多靶标亲和力分数的多目标药物从头设计。作者将进化算法的概念(包括变异和交叉操作)引入到RL中,更新DrugEx进行多目标优化。此外,帕累托排序算法也被集成到模型中,以处理药物发现中常见的矛盾目标,并扩大化学多样性。为了证明有效性,作者测试了DrugEx v2在多靶标和特定靶标情况下的性能。该模型生成的SMILES分子具有较高的有效性和多样性,且生成的分子与已知配体有很强的相似性,几乎覆盖了已知配体占据的化学空间。在未来的工作中,作者提出将继续使用这些新的深度学习模型来更新DrugEx,以处理不同的分子表征,如图或片段,还将会整合更多的目标(例如稳定性、可合成性等),特别是当这些目标相互矛盾时,模型允许用户为每个目标设定权重,以生成更可靠的候选配体,更好地控制生成过程。
今天给大家介绍一篇关于分子表征学习的文章。分子表征学习(MRL)旨在将分子嵌入到实向量空间中。然而,现有的基于SMILES(简化分子线性输入系统)或GNN(图神经网络)的MRL方法要么以SMILES字符串作为输入,难以编码分子的结构信息,要么过度强调GNN结构的重要性,而忽视了其泛化能力。因此,作者提出使用化学反应来协助学习分子表征,其核心思想在于保持分子在嵌入空间中的化学反应的等价性,即强制让每个化学方程式的反应物嵌入和生成物嵌入的总和相等,该限制在保持嵌入空间的有序性和提高分子嵌入的泛化能力中被证明是有效的。此外,该模型可以使用任何GNN作为分子编码器,与GNN结构无关。实验结果表明,这种方法在各种下游任务中都达到了最佳性能,超过了最佳基线方法。1.引言在化学中,一般用IUPAC命名法、分子式、结构式、骨架式等形式来表示一个分子,然而这些形式最初是为人类而不是计算机设计的。为了便于计算机理解和利用分子,MRL被提出,MRL将分子映射到低维空间,表示为稠密向量。分子的学习向量(又称嵌入)可用于广泛的下游任务,如化学反应预测、分子性质预测、分子结构预测等。研究人员已经提出了许多MRL方法,其中大部分都将SMILES字符串作为输入,尽管这些语言模型功能强大,但它们却很难从SMILES中学习到分子的原始结构信息,因为SMILES是分子结构的一维线性化。而GNN在处理分子表示中局限于设计新颖精致的GNN结构,忽略了MRL的本质——泛化能力。这激励了作者探索GNN架构之外的方法。在本文中,作者使用化学反应来协助学习分子表征,提高其泛化能力。化学反应通常由化学反应方程式表示,反应物在左侧,生成物在右侧,例如乙酸和乙醇的费希尔酯化反应。作者的想法是保持分子在嵌入空间的等价性。更重要的是,当分子编码器是以总和作为readout函数的GNN时,该模型能够自动隐式地学习同一类别内一组化学反应的反应模板,学习反应模板是提高分子表征泛化能力的关键。作者将该模型称为MoLR(chemical-reaction-aware molecule embeddings,化学反应感知的分子嵌入)。并且将可视化分子嵌入,表明它们能够编码反应模板和几个关键的分子属性,如分子大小和最小环的数量。2.方法结构分子编码器分子图用G = (V, E)表示,其中V = {a1, …}是非氢原子的集合,E = {b1, …}是键的集合。在这项工作中,每个原子ai都有初始特征向量,该向量包括四个one-hot向量,每个one-hot向量表示一种原子属性,四个one-hot向量分别表示四种原子属性,分别为元素类型、电荷、原子是否是芳香环以及附着的氢原子数,然后每个one-hot向量有一个额外的未知条目,以在推理过程中处理未知值。此外,每个键bi都有一种键类型,例如单键、双键,根据作者的实验,键的类型不会持续改善模型性能,因此没有将键的类型作为输入。作者使用GNN作为基础模型,典型的GNN遵循领域聚合策略,通过聚合原子的邻居和自身的表示来迭代更新原子的表示。GNN的第k层是:这里,是原子ai在第k层的表征向量,N(i)是与ai相连的原子集合,K是GNN的层数,这个聚合函数的选择是设计GNN的关键。最后,readout函数用于聚合最后一个GNN层输出的所有结点表示,以获得整个分子的表示hG:readout函数可以是简单的置换不变函数,例如求和和取平均,也可以是更复杂的graph-level pooling算法。图1:(a) GNN编码器处理脯氨酸分子,省略了氢原子;(b) 丙酸和丙醇的费希尔酯化反应,以及模型学习到的相应反应模板。反应中心用橙色表示,距离反应中心1或2的原子用浅橙色表示;(c)小批量化学反应对比损失的图示,dij是嵌入和之间的欧氏距离。保持化学反应等价性如前所述,作者希望在分子嵌入空间中保持反应物和生成物的等价性,即:其中,R是反应物集合,P是生成物集合。这个简单的限制能有效提高分子嵌入的质量,下面的命题将会证明化学反应中的等价关系是等式(3)约束下的等价关系:对于一个分子的集合M,M的所有子集2的M次方可以根据等价关系划分为等价类,一个等价类中所包含的所有分子的嵌入总和应该相等。因此,等式3形成了一个线性方程组,化学反应等价性对基础分子的嵌入施加了更加强大的约束,分子嵌入的可行解将更加稳健,整个嵌入空间将更加有序。然后作者提出反应中心的概念,反应中心被定义为将反应物转换为生成物所需的一组最小图形编辑,鉴于反应中心的概念,有以下命题:命题2表明,反应物嵌入和生成物嵌入之间的剩余仅取决于距离反应中心小于K跳的原子。如图1 (b)所示,剩余物完全取决于反应中心(橙色)以及距离反应中心1或2的原子(浅橙色)。这意味着,方程适用于任何官能团R1和R2,这称为反应模板,它概括了同一类别内的一组化学反应,反应模板可以轻松地适应训练集中没见过但符合已知反应类型的反应。训练模型在这里作者使用了一个类似于基于小批量的对比学习框架。对于小批量的数据B = {R1→P1,R2→P2, …},首先使用GNN编码器处理B中所有的反应物和生成物,并得到它们的嵌入物,匹配的反应物-生成物对(Ri, Pi)被称为正对,其嵌入差异将最小化,而不匹配的反应物-生成物对(Ri, Pj)(i≠j),其嵌入差异将最大化。为了避免总损失被负对主导,作者使用基于边距的损失:其中γ是一个边距超参数。因此,可以使用基于梯度的优化方法(如随机梯度下降SGD)最小化上述损失来训练模型。3.实验化学反应预测作者使用USPTO-479k数据集,每个反应实例包含5种反应物和1种生成物。化学反应预测的任务可表述为一个排序问题。在推断阶段,给定化学反应的反应物集R,将测试集中的所有生成物视为候选者C,根据反应物嵌入hR和候选生成物嵌入hC之间的L2距离对所有生成物进行排序,和真实值比较以计算指标。结果如表1所示,很明显,MoLR的方法都显著优于基线方法。表1:USPTO-479k数据集上的化学反应预测结果。最佳结果以粗体突出显示,基线的最佳结果以下划线突出显示。案例研究 作者选取了前20个反应作为案例研究,表2展示了两个反应的结果,结果表明MoLR模型在预测生成物时非常精确。表2:在USPTO-479k数据集上的案例研究现实场景生成物预测中的多选择问题 每个问题给出反应的反应物,从4或5个选项中选出正确的生成物,结果如图2所示,MoLR优于基线方法。图2:现实场景生成物预测中的多选择问题的结果分子性质预测作者在5种数据集中测试MoLR,每个数据集包含数千个SMILES分子。预测的AUC结果如表3所示,MoLR在4个数据集中表现最好,作者将MoLR在分子性质预测方面的优异性能归因于,MoLR在USPTO-479k上预训练,因此根据命题2对反应中心敏感。注意,反应中心通常由化学活性官能团组成,这些官能团对确定分子性质至关重要。图编辑距离预测表4:分子性质预测的AUC结果图编辑距离(GED)是两个图之间相似性的度量,定义为将一个图转换为另一个图的最小编辑操作数。这项任务根据两个分子图的嵌入来预测它们之间的GED,目的是显示学习到的分子嵌入是否能够保持分子之间的结构相似性。此外,计算GED是NP-hard问题,这项任务也能近似作为计算GED的算法,结果如表4所示。表5:在QM9数据集上GED预测的RMSE结果,最佳结果加粗显示嵌入可视化图4:在BBBP数据集上可视化分子嵌入空间在图4a中,分子根据渗透性的性质着色,我们发现了两个非渗透性分子群落,这表明molr可以捕获感兴趣的分子性质。在图4b中,根据BBBP数据集中随机选择的分子(编号1196)的GED对分子进行着色,显然,与1196号分子结构相似的分子(橙色)在嵌入空间中很接近,而与1196号分子结构不同的分子(红色)在嵌入空间中相距很远,这表明molr能捕捉分子的结构相似性。在图4c中,分子根据其大小着色,嵌入空间被完美地分割为小分子区域(上部)和大分子区域(下部)。换句话说,二维嵌入空间的纵轴表征分子大小。惊讶的是,我们发现横轴与分子中最小环的数量有关:如图4d所示,没有环的分子(蓝色)仅存在于左簇中,含有一个环的分子(黄色)仅存在于左簇和中间簇中,含有两个环的分子(橙色)基本上位于中间簇,而右边簇主要由含有3个及以上环的分子(红色)组成。图3:醇氧化和醛氧化反应的可视化作者还以醇氧化和醛氧化为例说明MoLR编码化学反应,结果如图3所示,蓝色箭头的长度大约是相应的红色或橙色箭头的两倍,这正是因为(CH2OH)2/(CH2CHO)2具有两个待氧化的羟基/醛基。4.结论和未来工作在这项工作中,作者使用GNNs作为分子编码器,并使用化学反应来协助学习分子表征,强制让反应物的嵌入总和等于生成物的嵌入总和。该模型能够学习反应模板,这是提高模型泛化能力的关键。该模型能够胜任广泛的下游任务,可视化的结果表明,学习到的嵌入是有组织的和反应感知的。作者指出了今后工作的四个方向。首先,环境条件也是化学反应的一部分,需要考虑进去;第二,值得研究如何显式输出学习的反应模板;第三,值得研究如何在嵌入空间中区分立体异构体,因为现有模型不能处理立体异构体;最后,加入额外的信息(如分子的文本描述)来协助学习分子表征也是一个很有希望的方向。
从 2D 分子图中预测稳定的 3D 构象一直是计算化学中的一个长期挑战。而最近,机器学习方法取得了相比传统的实验和基于物理的模拟方法更优异的成绩。这些方法主要侧重于模拟分子图上相邻原子之间的局部相互作用,而忽略了非键合原子之间的长程相互作用。然而,这些未成键的原子在 3D 空间中可能彼此接近,模拟它们的相互作用对于准确确定分子构象至关重要,尤其是对于大分子和多分子复合物。在本文中,作者提出了一种称为动态图评分匹配 (DGSM) 的分子构象预测新方法,该方法通过在训练和推理过程中根据原子之间的空间接近度动态构建原子之间的图结构来对局部和远程相互作用进行建模。具体来说,DGSM根据动态构建的图,使用评分匹配方法直接估计原子坐标对数密度的梯度场。可以以端到端的方式有效地训练整个框架。多项实验表明,DGSM 的表现远超该领域一流水平,并且能够为更广泛的化学系统生成构象,例如蛋白质和多分子复合物。1.简介基于图的分子表示普遍出现于各种任务之中,例如属性预测和分子生成。不过,分子更自然的表示方法是使用 3D 几何或 3D 构象,它将分子表示为一组 3D 坐标。分子的 3D 表示是许多任务的核心,例如分子性质预测和虚拟筛选。然而,确定分子的构象仍然是一项具有挑战性的任务——源于昂贵又耗时的计算方法(例如分子动力学 (MD))和实验方法(例如晶体学)。最近,机器学习方法已被证明有望用于分子构象的生成。GRAPHDG 和 CGCF 等开创性的方法会先进行键合原子间距离的预测,并据此通过后处理算法求解 3D 坐标。最近, Shi 等人提出了 CONFGF ,它采用评分匹配技术来学习键合原子之间的伪力,并迭代地将这些力施加到随机初始化的 3D 结构上,直到收敛。CONFGF 突破了之前工作中的两段式方法,并显著提高了性能。然而,这些方法有一个共同的主要限制——它们主要侧重于模拟由输入分子图定义的键合原子之间的局部相互作用,但未能捕获非键合原子之间的长程相互作用,因为它们只根据键合原子之间的距离(或梯度)进行建模。图1 三个分子系统,其中远程相互作用对其构象至关重要而在分子力学中,改变构象的分子的势能可以建模为四部分的总和:E = Ebond + Eangle + Etorsion + Enon-bonded 其中 Ebond、Eangle 和 Etorsion 对键合原子之间的局部相互作用进行建模,这些相互作用是在以前的方法中建模的。非键合原子之间的长程相互作用,表示为Enon-bonded,也是非平凡的,它通过不可忽略的静电力或范德华力等塑造分子几何形状。对于多分子复合物,非键相互作用主导复合物的几何结构。因此,构象生成的理想解决方案应该是同时捕获局部和远距离相互作用。在图 1 中,作者展示了三个典型的分子系统,其中长程相互作用在确定它们的构象方面起着关键作用。为了实现上述建模远程相互作用的构想,在本文中,作者提出了动态图评分匹配 (DGSM) 用于分子构象生成,遵循CONFGF 的学习原子坐标对数密度梯度的原则。不同于依靠分子图的静态输入作为现有工作,其基本思想是在训练和推理过程中根据原子的空间接近度动态构建原子之间的图结构。这允许模型 (1) 动态学习分子图表示,并考虑到长程相互作用的进化图结构,以及 (2) 动态确定一组对当前原子坐标梯度有贡献的原子间距离。具体来说,动态图的边由两部分组成。第一部分由共价键决定,共价键捕获原子之间的局部相互作用(Ebond、Eangle 和 Etorsion)。边的第二部分由每个训练或采样步骤中原子之间的空间接近度动态确定,即,两个原子只要它们是接近的就连接,无论它们是否键合。这种策略能够有效地捕获非局部相互作用(Enon-bonded),因为长程相互作用的大小与原子之间的距离成反比。同时它保持可扩展性,因为避免连接所有原子对,这具有平方复杂度。此外,建模非键相互作用使模型能够对多分子复合物的构象进行采样,这代表了更广泛的问题适用情况。作者进行了大量的实验,并将 DGSM 与之前在标准构象生成和属性预测任务上的最先进方法进行了比较。结果表明 DGSM 明显优于以前的方法,证实了建模长程相互作用的好处。此外,为了进一步证明 DGSM 的优势,作者将注意力放在两个更具挑战性的任务上——蛋白质侧链构象预测和多分子复合结构预测。这两项新任务代表了两类实际挑战:预测大分子和多分子复合物的结构。2.相关工作. 先前关于构象生成的工作主要依赖于分子动力学 (MD) ,其中新的构象是根据初始构象和原子间势的物理模型顺序生成的。虽然能够准确地采样平衡构象,但这些方法的计算量很大,尤其是对于大分子系统,例如蛋白质。另一类方法利用距离几何并启发式地将原子之间的距离固定为理想化值,这种方法更快但准确度较低。最近,人们提出了许多各种用于分子构象生成的深度生成模型,它们在计算效率和准确性之间取得了良好的平衡。在这些方法中,Mansimov 等人首先提出了一个变分自编码器来直接生成 3D 原子坐标。尽管很简单,但这种方法无法模拟分子构象的旋转-平移同变性,导致性能不理想。为了保持旋转-平移同变性,Simm 和 Hernandez-Lobato以及 Xu 等人,首先对分子距离几何进行建模,然后通过解决优化问题从生成的距离重建原子坐标。最先进的方法 CONFGF 估计作用在原子上的伪力并通过 Langevin MCMC 生成构象,绕过了之前工作中的两段式方法,显著提升了性能。这里存在两个同期工作,它们分别通过几何元素组装和双层编程以端到端的方式生成构象。最近也有人尝试使用强化学习进行构象搜索,这种方法无法明确地对键长进行建模,并且与其他方法有着根本的不同。总而言之,之前的所有方法都主要侧重于基于静态输入分子图(或通过在两跳和三跳之外的原子之间添加辅助边来增强图)对局部相互作用进行建模,而忽略了原子之间的长程非键相互作用。相比之下, DGSM 通过动态图评分匹配显式地对局部和长程相互作用进行建模,并有效地解决了上述问题。3.准备知识3.1 符号和问题表述3.2 基于分数的建模生成图2 DGSM 的拟训练程序4.模型作者的方法将构象生成视为由伪力(即原子梯度)引导的原子依次向高密度区域移动。在Shi等人的带领下,研究者们利用去噪评分匹配来近似原子坐标的对数密度的梯度。为了模拟对局部和长程相互作用(等式 1)敏感的原子梯度,并受到长程相互作用随着距离增加而迅速减少这一事实的启发,作者建议根据当前的空间接近度动态构建在一定距离内的原子对之间具有非键合边的图结构。通过这种方式,使模型能够有效地捕获长程非键相互作用,同时避免连接所有原子,这在计算上是昂贵的。为了确保训练期间图结构的分布与生成期间的分布匹配,作者设计了一种动态图评分匹配算法,其中图结构也在训练期间根据添加的扰动动态确定。整个框架如图2和图3所示。下面作者将在4.1节描述笛卡尔坐标的得分估计框架,在4.2节描述动态图得分匹配算法,在4.3节描述生成过程。4.1 笛卡尔坐标系下的分数估计作者的目标是学习原子坐标的对数密度(分数)的梯度,即∇R log p(R | )。使用图神经网络 (GNN) 在绝对笛卡尔坐标上直接参数化评分网络依赖于旋转和平移的选择,这是分子系统中影响构象变化的非必要自由度。因此作者将它们从模型中排除,并首先估计一组动态确定的原子间距离的分数,然后通过到笛卡尔坐标距离的微分来反向传播梯度。受上述等式的启发,作者首先训练一个噪声条件评分网络来联合预测原子间距离的分数。在训练噪声条件评分网络后,原子坐标的对数密度的梯度 ,可以通过等式4估计。作者有如下命题:4.2 结合噪声条件评分网络的动态图评分匹配在本节中,作者描述了所提出的原子间距离动态图评分匹配,目的是对局部和远程相互作用进行建模。为了确保学习的评分函数覆盖具有不同图结构的所有区域,在训练期间基于添加的扰动动态构建具有原子之间非键合边的图结构。继 Songand Ermon之后,作者训练了一个噪声条件评分网络来联合估计一组动态确定的原子间距离的扰动分布的分数,并结合消息传递神经网络(MPNN)将分数参数化。动态评分匹配 为了捕捉分子系统中非键原子之间的长程相互作用,一种简单的方法是将分子图视为全连接图,并模拟所有原子对之间距离的对数密度梯度。然而,这种做法在计算上是昂贵的,特别是对于大型系统,例如蛋白质,而且有时是不必要的,例如,范德华相互作用会随着距离的增加而迅速衰减。作为补救措施,作者设置了一个截止距离,并假设每个原子只与截止距离内的所有原子相互作用,忽略所考虑球体之外的所有相互作用。这是计算化学中一种非常流行的策略,它在效率和准确性之间取得了良好的平衡。图3 根据朗之万动力学提出的 DGSM 的生成过程使用上述策略,特定分子图的图结构是可变的并取决于添加的扰动,只要采样足够的噪声,所有图结构都是可能的。这将产生 (1) 一个用于消息传递和表示学习的动态确定的图结构,它考虑了远程相互作用;以及 (2) 一组动态确定的原子间距离,根据等式4它有助于原子坐标的梯度分数估计。请注意等式5 的原始实现需要计算原子对之间的所有距离。在实践中,为了避免二次复杂性,作者在为每个原子添加扰动之前,通过构建具有 2δ阈值的半径图对远邻进行了预过滤,并凭经验验证了这种做法的高效性和有效性。4.3 生成然后使用来自评分网络的梯度信息更新构象(方程 4)。这里提供算法1中的伪代码。5.实验继先前关于构象生成的工作之后,作者使用以下两个标准任务评估所提出的 DGSM:构象生成(第 5.1 节)和属性预测(第 5.2 节)。为了进一步证明 DGSM 模拟远程相互作用的能力,在两个更具挑战性的基准任务上对其进行了评估:蛋白质侧链构象生成 和 多分子复合物构象生成(第 5.3 节)。在特定任务的部分中描述了实验设置。5.1 构象生成设置 此任务通过测量生成的构象的准确性和多样性来评估模型生成稳定分子构象的能力。根据之前的工作,我们使用 GEOM-QM9 和 GEOM-Drugs数据集来完成这项任务。我们使用提供的 train-testsplit。GEOM-QM9 和 GEOM-Drugs 的训练分裂都包含 40,000 个分子,每个分子有 5 个用于训练的构象,或总共 200,000 个构象。GEOM-QM9 的测试分裂包含 200 个具有 22,408 个构象的分子,GEOM-Drugs 的测试分裂包含 200 个具有 14,324 个构象的分子。将 DGSM 与 5 个最先进的方法进行比较:RDKIT、CVGAE 、GRAPHDG 、CGCF 和 CONFGF。对于测试集中的每个分子,采样的构象是其参考构象的两倍。使用匹配分数 (MAT) 来衡量生成构象的准确性,并使用覆盖分数 (COV) 来衡量多样性。这两个指标都基于分子之间的均方根偏差 (RMSD),同时考虑了对称性。结果 作者报告了测试拆分 GEOM-QM9 和 GEOM-Drugs 数据集中所有分子的平均 COV 和 MAT 分数。如表 1 所示,DGSM 始终优于其余所有方法。值得注意的是,DGSM 和 CONFGF 都是基于分数的模型,但 DGSM 实现了更好的性能。它们之间的区别在于 DGSM 通过动态图评分匹配成功地考虑了远程相互作用。这证实了建模远程相互作用的显著好处。在图 4 中展示了由不同方法生成的几种构象,这表明 DGSM 成功捕获了高亮区域的远程相互作用,而其他方法失败,导致这些区域的结构扭曲。表 1 GEOM-QM9 和 GEOM-Drugs 数据集上的 COV 和 MAT 分数图4 基于来自 GEOM-Drugs 测试集的四个随机分子图,由不同模型生成的构象示例5.2 属性预测设置 此任务演示了如何将分子构象的生成模型应用于作为下游任务的特性预测。它还提供了对不同光线下生成的构象质量的评估。通过在之后聚合其构象特性来估计分子图的整体特性。具体来说,首先使用模型为 GEOM-QM9子集中的每个分子图生成 50 个构象,并使用量子化学工具包 PSI4 来计算每个构象的能量和 HOMO-LUMOgap。然后,根据构象能量和间隙计算平均能量 、最低能量 Emin、平均间隙 、最小间隙 和最大间隙 。通过测量它们对实际情况真值的平均绝对误差 (MAE) 来评估估计的集成属性的准确性。CVGAE 被排除在这项任务中,因为它的性能很差。表2 eV 中预测的整体属性的平均绝对误差 (MAE)结果 表 2 显示 DGSM 明显优于其他基于机器学习的方法。DGSM 对平均能量 和最小间隙 的估计接近 RDKIT,但仍优于最具竞争力的基于 ML 的方法 CONFGF。构象能的计算对几何形状的变化高度敏感——即使键长的细微偏差也会导致显着的能量变化。因此,DGSM 的优越性能表明它比其他方法生成更准确的构象,从而导致更准确的属性估计。这再次验证了建模远程相互作用的有效性。5.3 大分子和多分子建模蛋白质侧链构象 此任务是根据其骨架结构预测蛋白质侧链构象。与前几节中的常规分子构象生成相比,这项任务的主要挑战有两个:(1)大量原子,这禁止构建以二次方增长的完整图来模拟长程相互作用。(2)共价键稀疏,这限制了之前工作中边缘增强技术的力量。DGSM 通过引入的动态图评分匹配解决了这两个挑战。表3 不同的侧链构象生成方法的 RMSD图5 (a) 生成的具有原子级坐标的蛋白质侧链构象的示例 (b) DGSM 生成的两个多分子复合物的构象。作者使用 SidechainNet 数据集来完成这项任务,并遵循官方的训练测试分割。作者将 DGSM 与最先进的构象生成模型 CONFGF 进行了比较。此任务的主要目的是证明 DGSM 对大分子的有效性。对于每个蛋白质,生成了 5 个不同初始化的侧链构象,并计算了真实构象和生成的构象之间的均值和最小 RMSD。通过对表 3 测试集中每种蛋白质的分数求平均值来报告总体平均和最小 RMSD 分数,表明了 DGSM 比以前的最先进模型取得了更好的性能。作者还在图5(a)中给出了一个例子,可以看到预测的构象在主要部分与实际情况是一致的。图6 氢氧距离的分布多分子复合物构象 此任务是预测多分子复合物的构象。多分子复合物由多个分子组成,它们之间没有共价键。长程相互作用支配着多分子复合物的结构。此任务的目的是展示 DGSM 对更广泛问题的潜在应用,并为构象生成提供新的基准。作者使用量子化学软件 xtb 构建了一个由24个水-有机复合物组成的数据集,每个水-有机复合物都有数百个构象,其中20个复合物用于训练模型,剩下4个作为测试数据集。不报告基于 RMSD 的指标,例如 COV 和 MAT,因为多分子复合物的结构非常灵活。图 5(b) 显示了两组生成示例。作者观察到水分子规则地放置在溶质有机分子周围。值得注意的是,氢键(水和溶质之间,以及水和水之间)正确形成了。这也可以在氢氧距离的直方图(图 6)中得到证明,其中在 1.5Å 和 2.5Å 之间有一个峰值,即氢和氧之间的氢键长度范围。6.结论和未来工作作者提出了 DGSM,这是一种用于生成平衡态分子构象的基于评分的新方法。通过在训练和推理期间基于原子之间的空间接近度动态构建图结构,DGSM 能够对分子系统中的局部和远程相互作用进行建模。作者还设计了一种动态图评分匹配算法来有效地估计原子梯度,其中图结构是根据添加的扰动动态确定的。对两个标准任务和两个原始任务的大量实验表明,DGSM 大大优于最先进的方法,证实了建模远程相互作用的显著优势。将来,作者计划将该方法应用于更具挑战性的蛋白质结构预测问题。
实现蛋白质三维结构的有效预测。1研究背景蛋白质结构从头预测通常是指在PDB(蛋白质数据库)中不使用同源模板即可对蛋白质结构进行建模的方法,在过去几十年中一直吸引着人们的研究兴趣。十年前,包括Rosetta和QUARK在内的几个先进pipelines在CASP(critical assessment of protein structure prediction)实验中开创性地为长度超过100个残基的挑战性目标生成了正确的折叠,但这些从头折叠方法仍远不尽如人意。克服从头算建模局限性的有效方法之一是在折叠模拟中结合长程接触,但仍需要足够高精度的接触预测,以便建模精度不会因为太多错误预测的接触而受到影响。直接耦合分析(DCA)和深度神经网络学习技术的引入实现了接触预测精度的飞跃。但尽管在接触预测方面取得了显著进展,除非预测接触与折叠模拟有效集成,否则当前的从头建模协议无法充分发挥其潜力。特别是,当同源序列的数量较少以及基于序列的接触预测的准确性较低时,如何平衡有噪声的接触图与先进的折叠模拟力场以构建正确的从头结构折叠仍然是一个重要且具有挑战性的问题。本文研究开发了一个接触引导从头折叠程序,C-QUARK。为了系统地探索接触图预测的能力,特别是那些精度较低的接触图预测,以改进从头折叠,该研究将接触约束与基于QUARK的折叠模拟结合了起来。该pipeline 在CASP目标和单独的大规模测试数据集上进行了严格的基准测试,结果显示,与QUARK以及其他先进的结构建模方法相比,C-QUARK在建模长距离和非同源目标方面显示出显著优势。2介绍C-QUARK是基于QUARK这一顶级从头蛋白质折叠模拟程序之一建立的,其算法主要分为五个步骤:通过DeepMSA生成多序列比对、基于深度学习的接触图预测、片段构建、接触图引导的副本交换蒙特卡罗折叠模拟、模型选择与细化。C-QUARK从全基因组和宏基因组序列数据库的多序列比对(MSA)收集开始,其中两种类型的接触图是通过基于深度学习和协同进化的预测器创建的。接下来,从不相关的PDB结构中收集具有连续序列长度(1-20 AA)的结构片段,并在由基于知识的能量项、基于其距离分布从结构片段中收集的残基间接触以及基于序列的接触图预测组成的复合力场的指导下,通过副本交换蒙特卡罗(REMC)模拟将其用于组装全长结构模型(图1)。然后,通过SPICKER对模拟轨迹中的构象进行聚类,识别对应最低自由能状态的簇,并通过分子动力学结构细化方法FG-MD进一步优化簇心,获得最终的结构模型。与QUARK相比,C-QUARK有三个主要实现项,包括:(1) 多序列比对生成工具DeepMSA,用于构建谱和预测接触图;(2) 基于深度学习和协同进化的接触预测模块,用于残基接触图预测、组合和选择;(3) 开发并精心训练了接触势能项来平衡接触势能与其他能量项(包括固有知识和物理势能),以指导结构组装模拟。图1.C-QUARK流程图3结果C-QUARK在从头结构预测中显著优于QUARK由于C-QUARK和QUARK之间的主要区别在于前者程序中包含了接触约束,因此对这两个程序进行基准测试可以检验接触图在蛋白质从头折叠中的有效性。作者从PDB收集了一组包含247个非冗余单域蛋白质的集合,其分辨率优于3Å,长度在50–300个残基之间。表1总结了测试结果,其中C-QUARK的第一个模型的平均TM-score(0.606)比QUARK (0.423)高出43%。表1还列出了前五名模型中最佳模型的结果,其中C-QUARK再次显著优于QUARK,其平均TM-score(0.629)比后者(0.468)高34%。这里,TM-score是用于评估模型预测结构和原生结构之间的结构相似性(即模型预测准确性)的指标,取值介于0到1之间,TM-score> 0.5则表示模型预测的结构与真实结构相似。此外,数据显示,在247个测试蛋白上,C-QUARK有224个测试蛋白生成的模型比QUARK生成的模型具有更高的TM-score。如果用正确的结构折叠来计算, C-QUARK的第一个模型有186个(75%)蛋白质被正确折叠,而QUARK只有71个(29%)蛋白质被正确折叠。C-QUARK正确折叠了46% QUARK无法折叠的蛋白质,表明了接触约束在C-QUARK蛋白质结构从头折叠的过程中起了主要的积极影响。表1.C-QUARK与QUARK对247个测试蛋白质的预测性能为了评估C-QUARK对不同蛋白质类型进行建模的能力,作者根据测试目标的二级结构组成将测试目标分为三类,即α、β和α-β蛋白(图2)。对于建模相对容易的α-蛋白,C-QUARK的正确折叠率(64种α蛋白的52种)几乎是QUARK(64种α蛋白的24种)的两倍,而对于β和α-β类型的蛋白质,C-QUARK的折叠成功率比QUARK高约三倍。其中β-蛋白建模精度的提高尤其令人振奋,因为β-蛋白通常具有以长程接触图为特征的复杂拓扑结构而导致其从头建模一直相当困难,其从头折叠程序的固有力场通常难以捕捉由微妙的氢键网络形成的这种长程相互作用。C-QUARK结合长程残基间接触预测有效地捕捉到了这种相互作用,并显著改善了具有复杂β折叠拓扑的目标的折叠性能。图2.C-QUARK和QUARK在247个测试蛋白上的比较结果。a.C-QUARK与QUARK对不同蛋白质类别的第一个模型的TM-score。b .在不同的蛋白质长度区间,C-QUARK和QUARK的平均TM-score。对于缺乏同源序列和高精度接触的目标,C-QUARK 明显优于其他接触引导折叠方法作者将C-QUARK的性能与其他三个主要基于预测的接触或距离构建结构模型的程序进行了比较,包括CNS、DConStruct(v1.0)和trRosetta(v1.0)。值得注意的是,在有效序列数低(Nf < 15)或接触图精度低(< 30%)的59个目标中,C-QUARK为24个目标(41%)生成了正确的折叠,而CNS(DConStruct)仅为4(4)个获得了正确的折叠。由于低Nf MSAs的接触预测一直是接触引导从头建模的瓶颈,因此C-QUARK在为这些具有挑战性的目标生成正确模型方面,其成功率的显著提高尤其令人鼓舞。同时,C-QUARK在这59个目标的TM-score (0.428)也明显高于QUARK (0.348),表明尽管精度相对较低,接触图预测仍然有助于折叠。QUARK优于其他基于接触的折叠程序,这主要是因为其在结构组装模拟中综合力场的帮助。C-QUARK的成功应归功于预测的残基-残基接触与固有力场和结构组装模拟过程之间的相互作用。C-QUARK 在CASP13目标上的性能测试为了直接将 C-QUARK 与其他最先进的结构预测程序进行比较,C-QUARK 作为“QUARK”服务器参与了第13次结构预测关键评估(CASP13)实验。作者分析了C-QUARK在64个CASP13 FM(free modeling)、FM/TBM(free modeling/template-based modeling)和TBM-hard(template-based modeling-hard)目标上的性能。这些目标具有挑战性,因为同源模板不存在或难以从PDB库中检测到。根据64个CASP13目标的实验结构,C-QUARK的平均GDT_TS(CASP评估员使用的标准分数)高于所有其他p值<0.05的参与服务器的平均GDT_TS。尤其是在TBM-hard和FM类别中,C-QUARK分别比第二好的方法好4%和5%。而对于FM/TBM目标,BAKER-ROSETTASERVER (60.58) 略好于C-QUARK (58.94),但差异并不显著。4总结在这项研究中,作者开发了基于(稀疏)接触图引导的蛋白质结构从头预测算法C-QUARK,它显示出对在PDB没有同源模板的“hard”蛋白质建模的能力显著提高。虽然C-QUARK pipeline建立在该领域顶级从头建模程序之一的QUARK平台上,但当基于序列的接触预测被纳入时,平均TM-score提高了43%。重要的是,C-QUARK生成正确折叠的总体成功率约为75%,是QUARK (29%)的2.6倍,表明接触图预测在改进从头结构建模中的重要性。此外,C-QUARK还显示出一致的折叠长度大于150个残基的中型到大型蛋白质的能力,这一直是几十年来从头建模领域的限制之一。
本文介绍由加拿大麦吉尔大学与蒙特利尔高等商学院、北京大学、复旦大学的研究人员联合发表在Nature Communications的研究成果:本文作者提出了单细胞嵌入式主题模型scETM(single-cell Embedded Topic Model)用于解决大规模scRNA-seq数据集的整合分析。scETM利用可迁移的基于神经网络的编码器,和一个通过矩阵三角分解而具有可解释的线性解码器。scETM同时学习一个编码器网络从而推测细胞类型混合物和一组高度可解释的基因embeddings,主题embeddings和来自多个scRNA-seq数据的批次效应线性截距(linear intercepts)。scETM可扩展到超过106个细胞,并且在跨组织和跨物种零次迁移学习上有着卓越的表现。通过基因集富集分析,作者发现scETM学习的主题富集到具有生物学意义且疾病相关的通路。scETM能将已知基因结合到基因embeddings中,从而通过主题embeddings学习通路和主题的相关性。1简介高通量测序技术的进步为在生物学和病理条件下测量单个细胞的转录组提供了前所未有的机会,并激发多个图谱项目建立。单细胞RNA测序(scRNA-seq)数据的关键应用为无监督聚类识别细胞类型。灵活、可扩展和可解释的计算方法对于将转录谱翻译为生物学见解至关重要。尽管在为scRNA-seq数据开发的聚类方法上取得了可观的进展,但仍然存在一些挑战。首先,与bulk RNA-seq相比,scRNA-seq数据通常表现出更高的噪声水平和drop-out率。实验设计而导致的基因表达变化,通常指的是批次效应,会对聚类产生很大影响。其次,仅仅是对细胞群的分类不足以给出生物学解释。注释细胞clusters需要大量的人工进行文献搜索,注释质量可能取决于用户的领域知识。因此,需要一个可解释且灵活的模型。第三,模型可迁移性是一个重要的考虑因素。作者认为如果学习到的知识作为模型参数用于未来的数据建模,则这个模型是可迁移的。最近的几种方法已尝试解决这些挑战,例如Seurat,Harmony,Scanorama,UNCURL,LIGER。深度学习方法,尤其是自编码器,在scRNA-seq数据建模中表现出良好的性能。在本文中,作者提出了scETM(single-cell Embedded Topic Model),是一个生成主题模型,用于整合分析大规模单细胞转录组数据,主要贡献是利用可迁移的基于神经网络的编码器,和有一个通过矩阵三角分解可解释的解码器。scETM从scRNA-seq数据中同时学习编码器网络参数和一组高度可解释的基因embeddings、主题embeddings和批次效应线性截距(linear intercepts)。编码器网络的灵活性和表达能力使scETM能够对庞大的scRNA-seq数据集进行建模,而无需进行特征选择或降维。scETM可发现可解释的细胞签名(cellular signatures)和基因标志物(gene markers)的同时跨条件、研究对象或实验研究整合scRNA-seq数据。scETM在为来自不同数据集中的细胞聚类到已知的细胞类型上具有理想的运行时间和内存要求。本文还展示了scETM在不同测序技术之间、不同组织之间和不同物种之间进行有效知识迁移的能力。scETM还可以用来发现具有生物学意义的基因表达signatures。最后,作者将已知的pathway-gene关系以基因embeddings的形式结合到scETM中,并利用学习到的pathway-topic embedding来展示包含通路信息的 scETM(p-scETM)学习具有生物学意义信息的能力。2结果scETM模型概述该团队开发了scETM来模拟跨实验或研究的scRNA-seq数据(图1a)。scETM改编自ETM(Embedded Topic Model,嵌入主题模型),继承了主题模型的优点,可以有效处理大和重尾分布的词频。在scRNA-seq数据分析中,每个单细胞转录组作为一个标准化的基因count向量提供给一个两层全连接神经网络(即编码器),推测该细胞的主题混合比例。在参考scRNA-seq数据上训练的编码器可用于推测从不同组织或物种收集的未知scRNA-seq数据的主题混合(图1b)。对于可解释性,作者使用线性解码器,将基因和主题embeddings作为可学习参数。具体来说,将cells-by-genes count矩阵分解为cells-by-topics矩阵 θ(由编码器推测)、topics-by-embedding α和embedding-by-genes ρ矩阵。这种三角分解设计以高度可解释的方式探索细胞、基因和主题之间的关系。为了解决条件或实验对象之间的偏差,引入了一个可选的批次校正参数λ,它作为类别softmax函数中的线性截距项,以减轻编码器对批次效应建模的负担,使其专注于推测具有生物学意义的细胞主题混合 θd。与scVI-LD(Svensson等人提出的变分自编码器)相比,学习主题和基因的common embeddings的线性解码器组件提供了更灵活性和可解释性以及整体更好的性能(图1c)。图1 scETM模型概述数据整合作者对scETM以及七种最先进的单细胞聚类或整合分析方法进行基准测试,即scVI、scVI-LD、Seurat v3、scVAE-GM、Scanorama、Harmony和LIGER,在六个已发布的数据集上,即小鼠胰岛(MP)、人类胰岛(HP)、Tabula Muris(TM)、阿尔茨海默数据集(AD)、重度抑郁症数据集(MDD)和小鼠视网膜(MR)。在所有数据集中,scETM提供了有竞争力的结果,尤其是在可迁移和可解释的模型中。为了进一步验证聚类性能(Adjusted Rand Index)和评估批次混合性能(k-nearest-neighbor Batch-Effect Test),作者使用UMAP可视化细胞embeddings(图2)。图2 小鼠视网膜数据集上的整合和批次矫正批次过度校正分析某些方法可能过度校正批次效应,并且无法捕捉生物变异的某些方面。一些方法(如LIGER)kBET高但ARI低,这表明批次效应可能过度校正。为了测量每种方法的批次过度校正程度,使用两个数据集进行两个实验,即人类胰腺(HP)数据集和小鼠视网膜(MR)数据集。使用3个指标在数据集上评估所有方法:ARI、kBET 和平均轮廓宽度(ASW)。对于HP数据,scETM在识别细胞类型和整合不同批次之间取得了良好的平衡。MR数据集来自于小鼠视网膜两个独立研究,因此在这里把这两个研究视为两个批次,scETM在该数据集上实现了最高的ARI、合理的ASW和适度的kBET,表明它能够从未过度校正批次效应的数据中捕获真实的生物学特性。可扩展性scETM的一个关键优势是其高可扩展性和效率,并通过与其他先进方法在运行时间、内存使用和聚类性能上相比来证明。这里的数据集是整合MDD和AD细胞的数据集。scETM在所有基于深度学习的模型中拥有最短的运行时间(图3a)。尽管Harmony和Scanorama比scETM更快,但scETM可以轻松把这里使用的前3000最易变基因扩展到所有基因,而这是更想要的因为生成的模型可以推广到其他数据集。scETM原则上采用线性运行时间和恒定内存与每个训练epoch样本大小有关,而Seurat的记忆需求随着细胞数量的增加而迅速增加(图3b)。在聚类准确性方面,scETM的性能始终具有竞争力,而Harmony和Scanorama随着数据集大小的变化而表现不稳定(图3c)。图3 七种scRNA-seq聚类算法的效率和可扩展性比较跨单细胞数据集的迁移学习scETM的一个突出特点是它的参数,因此scRNA-seq数据建模的知识可以跨数据集迁移。scETM具有跨组织迁移知识的能力,具体来说,作为scETM的一部分,在参考scRNA-seq数据集上训练的编码器可用于推断目标scRNA-seq数据集的细胞主题混合(图1b),无论两个数据集是否共享相同的细胞类型。本文通过6个任务进行了一套全面的跨组织和跨物种迁移学习分析:(1)TM (FACS)和MP数据集之间的迁移(包括MP→TM (FACS)); (2)人类胰腺(HP)数据集和小鼠胰腺(MP)数据集之间的迁移;(3)人类初级运动皮层(M1C) (HumM1C)数据集和小鼠初级运动区域(MusMOp)数据集之间的迁移。在这些迁移学习任务(A→B)中,仅对源数据A训练期间校正批次效应,而在迁移到目标数据B的过程中没有校正。作为比较,作者评估和可视化scETM、scVI-LD和scVI在6个迁移学习任务中的聚类结果(图4)。总体而言,scETM在所有任务中取得了最高的ARI和竞争力的kBET分数。图4 跨组织和跨物种零次迁移学习scETM主题的通路富集分析接下来研究scETM推断的主题是否与人类已知的基因通路具有生物学相关性。方法是在每个主题下任意选择多个top基因用于检验通路富集。当在个体基因水平上存在渐近p值时,这种方法很有效。在本文的例子中,每个基因都以主题得分为特征,因此很难系统地选择每个主题的top基因数量。为此,作者使用基因集富集分析(GSEA)。对于HP数据集,每个主题都检测到许多显着富集的通路,Benjamini-Hochberg FDR < 0.01(图5a)。其中许多与胰腺功能有关,包括胰岛素加工(图5b)、胰岛素受体再循环、胰岛素葡萄糖通路、胰腺癌等。由于scETM联合学习基因embeddings和主题embeddings,则可以通过UMAP在同一embeddings空间中可视化基因和主题(图5c)。确实在胰岛素加工通路中观察到基因的强共定位和对应的富集主题(即Topic 54)。图5 人类胰腺数据集的基因集富集分析疾病状况和细胞类型中的差异scETM主题作者试图发现疾病特异性或细胞类型特异性scETM主题。从AD数据集开始,作者发现scETM学习到的主题对细胞类型标记基因具有高度选择性(图6a)并且对细胞类型具有高度识别力(图6b)。为了检测疾病特征,作者将细胞分为来自24个AD患者的和来自24个对照组的。然后,作者进行了置换检验以评估两个细胞组是否在主题表达方面表现出显着差异。Topic 12和58在AD细胞和对照细胞中显著差异表达(图6c,d)。作者还从HP、AD和MDD数据集中确定了几个细胞类型特异性scETM主题(图6b)。图6 阿尔茨海默snRNA-seq数据集的scETM主题embeddings通路-informed的scETM主题为了进一步提高主题的可解释性,作者结合了已知的通路信息来指导主题embeddings的学习(图7a)。作者将此scETM变体表示为通路-informed的scETM或p-scETM。作者在HP、AD和MDD数据集上检测p-scETM。在不影响聚类性能的情况下,p-scETM学习了具有功能意义的主题embeddings。在HP主题embeddings中,作者发现胰岛素信号、营养消化和代谢是几个主题中的主要通路。在MDD主题embeddings中,top通路与Topic 40相关,Beta-2肾上腺素能受体信号,也富集在MDD全基因组关联研究中。在AD主题embeddings中,作者发现了Topic 9与阿尔茨海默-淀粉样蛋白分泌酶通路之间的关联。为了进一步证明p-scETM的实用性,作者还使用了7481个基因本体论生物过程(GO-BP) 术语作为固定基因embeddings,它从每个数据集中学习topic-by-GOs主题embeddings。在每个主题下,作者选择了得分最高的前5个GO-BP术语来检查它们与目标组织或疾病的相关性(图7b)。对于 HP 数据集,B型胰腺细胞的负调节(GO:2000675)和胰腺汁分泌调节(GO:0090186)分别是Topics 27和68的top GO-BP术语。对于AD数据集,淀粉样蛋白前体蛋白生物合成过程(GO:0042983)在Topic 40下的前5个GO-BP术语之中。对于MDD数据集,在使用所有基因和仅用编码基因学习的主题中发现了相似的top GO-BP术语。有趣的是,MDD中的Topic 98和Topic 22,51参与的腺苷酸环化酶调节G蛋白偶联受体信号(GO:0007188),是最近开发的几种抗抑郁药物的靶点。图7 p-scETM学习的pathway-topics embeddings3总结与讨论scETM作为一个统一且高度可扩展的框架,用于跨多个数据集的大规模单细胞转录组的综合分析。与现有方法相比,scETM在数据整合、迁移学习、可扩展性和可解释性方面具有优异的表现。本文的工作未来的研究方向:I. 进一步提高批次校正。因为当前的模型只考虑单个类别批次变量,可以扩展它以校正多个类别批次变量。II. 进一步提高数据整合。将scETM扩展为多组学整合方法,该方法可以整合scRNA-seq和其他组学,例如在scRNA-seq相同细胞中测量的蛋白质表达或在不同细胞但在相同的生物系统中测量scATAC-seq。III. 进一步提高可解释性。原始ETM在更大的参考语料库(例如Wikipedia)上使用来自word2vec的预训练词embedding,以提高对目标文档建模的主题质量。
今天给大家介绍来自哈佛医学院、麻省理工学院以及东北大学(美国)团队发表在Nature Communications上的文章,文章提出一个变分自编码器的概率模型(msiPL)用于学习质谱图像的低维嵌入表示。该模型可分析不同类型质谱仪和不同组织类型的质谱图像;并在3个公开的质谱成像(MSI)数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验,实验结果表明msiPL可以有效的分析这些MSI数据集。1研究背景质谱成像(MSI)是一种用于质谱分析的技术,用于可视化分子(比如生物标志物、代谢物、肽和蛋白质)的空间分布。MSI的快速发展,对解剖病理学以及药物研发产生了重要的影响。研究人员使用计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,传统的机器学习技术处理具有高维度的MSI数据面临维度灾难的困境。因此,降维技术被广泛应用于MSI数据分子,比如主成分分析(PCA)和非负矩阵分解(NNMF)等。但是,这些方法都是进行了线形降维,未能捕获谱结构的非线性特征。与此同时,非线性降维方法t-SNE近年来被用于组学数据分析。但是t-SNE方法需要将所有数据都加载到内存,这对于MSI的大量数据是没法做到的。最近有研究提出,采用基于神经网络的自动编码方法相比于线形降维模型具有更加有效地捕获非线性特征的能力。因此,该论文提出了一种基于神经网络的变分自动编码方法msiPL,不需要峰值预处理的操作可以直接输入MSI数据到模型中,并且该模型可以分析不同类型的MSI数据。2主要贡献该论文提出了一个基于变分自编码器神经网络的深度学习模型msiPL,该模型可以更加有效的学习MSI数据集的低维嵌入特征表示,用于MSI数据的峰值学习。3模型数据该论文一共使用了5个MSI数据集,包括3个来自于公开数据库的数据集,分别是1)人结直肠腺癌的3D DESI MSI数据集,2)人口腔鳞状细胞癌的3D MALDI MSI数据集,3)小鼠肾的3D MALDI MSI数据集来自于公开数据库。以及论文作者收集整理的两个MSI数据集,4)人类前列腺癌的2D MALDI MSI数据集,和5)胶质母细胞瘤的PDX小鼠脑模型的3D MALDI FT-ICR MSI数据集。这些MSI数据集需要从标准化格式imzML转换为HDF5格式以输入到msiPL模型中。图1 msiPL框架图方法模型输入MSI数据的高维度特征表示,输出MSI数据降维之后的特征表示,模型msiPL框架如图1所示。该模型是基于变分自编码器(VAE)的结构,VAE旨在同时优化用于变分推理的概率编码器和概率解码器。将MSI数据表示如下:其中N为样本数;假设x可以从一个与低维度的隐变量z有关的分布中随机采样,而z是可以从一个先验分布pθ中采样,x是可以从一个条件概率分布采样,则真实的pθ后验分布可以获得MSI数据的低维表示;由于x的高维特性使得后验分布pθ在计算上难以处理,因此引入了一个qψ分布来近似pθ分布,并且假定qψ是从一个均值为μ和方差为σ的分布中采样得到:然后变分参数ψ是通过使得qψ和后验分布pθ更加接近来估计的。这里采用KL散度来衡量两个分布的接近程度:其中VAE的编码器和解码器的参数都是通过神经网络优化损失函数来计算的,优化的损失函数如下:该损失函数的第一项充当编码器的正则化器,它计算近似后验和先验之间的接近度,第二项为交叉熵的预测误差的期望值。该模型的VAE网络结构如图2,其由5层全连接层组成,即输入层,三个隐含层和输出层;神经元数分别是512,5,512,则隐含层h2的输出为MSI数据的低维嵌入表示。图2 VAE结构图4实验为验证模型的有效性,在3个公开的MSI数据集以及2个由该论文作者收集整理的MSI数据集上进行了实验。限于篇幅,这里主要介绍在2个由论文作者收集整理的MSI数据集上的实验。分析来自人前列腺癌组织标本的FT-ICR MSI 数据来自人前列腺癌组织标本的FT-ICR MSI数据含有12716个像素,每个像素是一个高维度的数据点,其含有730403个m/z(质荷比)值。使用msiPL模型在该数据集上进行降维和可视化实验,其VAE网络损失函数下降结果如图3(a),即模型在不到100次迭代后收敛;图3(b)给出了原始数据和预测数据的光谱分布,它们的叠加反映了模型的高质量估计;图3(c)表示模型在该数据集上的非线性嵌入的可视化结果。图3 在人前列腺癌组织标本的FT-ICR MSI 数据上的实验结果在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征从胶质母细胞瘤(GBM12)小鼠脑模型中采集了四个12µm厚度的连续组织切片,并通过MALDI FT-ICR MSI进行分析。该MSI数据非常稀疏,由3570个光谱组成,每个光谱661402个m/z值。使用msiPL模型在该数据集上进行降维和可视化实验,图4(a)表面VAE网络的损失在不到100次迭代内达到稳定收敛,图4(b)表示在误差内预测数据的光谱分布;图4(c)表示模型在该数据集上的非线性嵌入的可视化结果;将学习到的低维嵌入特征使用高斯混合模型(参数k=8)进行聚类,聚类图像(图4 d)揭示了分子上不同的组织区域,例如异质性肿瘤区域(簇2和簇8)和肿瘤边缘(簇4);图4(e)给出了原始数据和预测数据的光谱分布。图4 在胶质母细胞瘤的PDX小鼠脑模型中识别肿瘤特异性代谢特征的实验结果5总结研究计算方法来挖掘MSI数据特征,可以识别具有临床重要性的分子特征并发现新的生物标志物。然而,现有的计算模型处理高维稀疏的MSI数据存在一定的局限性。因此,该论文提出了一种基于VAE神经网络结构的模型msiPL,用于分析和学习来自不同类型质谱仪和组织类型的MSI数据。并在五个不同的MSI数据集上进行了实验,结果表明msiPL在分析这些MSI数据集上是有效的。该论文作者表示其未来研究方向是设计模型来完成直接从质谱数据中对肿瘤类型和等级进行分类和预测的任务。
今天给大家介绍来自不列颠哥伦比亚大学和阿尔伯塔大学联合发表的一篇文章。该文章系统地评估并优化了基于循环神经网络在低数据环境中的分子生成模型。发现该模型可以从更少的例子中学习到健壮的模型。同时,本文还确定了低数据下,得到等学习效果和等质量模型的策略;特别是通过枚举非规范SMILES进行数据增强,并通过学习细菌、植物和真菌代谢组模型来证明这些策略的可用性。并且,本文还对评估生成模型的指标进行了基准测试,发现该领域中许多最广泛使用的指标未能捕获模型质量,同时确定了一些表现良好的指标。1介绍目前人类已经探索出了大量分子,即便如此,这些分子在广阔的化学空间中也仅仅占一小部分,就目前的医学实践与无限的可能性来说,更有效的化学空间导航(分子发现)方法或能帮助解决人类面临的各种紧迫挑战。最近,深度生成模型已成为化学空间探索的强大工具。这些模型利用深度神经网络来学习隐含在训练分子中的化学物质。一旦经过训练,这些模型就能够从目标化学空间中随机采样没见过的分子。许多成功的生成模型方法都是学习生成分子的文本表示,通常采用简化的分子输入行输入系统(SMILES)格式(图 1a)。基于 RNN (图 1b)的 SMILES 字符串模型表现较优,本文将其称为化学语言模型( CLM)。CLM因为其“逆向设计”(生成需要特性的分子)的可行性引起了人们的兴趣。其中有一个突出的挑战——需要大量的训练数据(数十万到数百万数量的分子),然而通常情况下,目标探索化学空间并没有相应数量的示例。为了在低数据情况下实现生成建模,已经开发了基于强化学习 (RL)或迁移学习 (TL) 的方法,即模型首先在大型通用化学结构数据库上进行“预训练”,然后进行第二轮“微调”,旨在缩小在有更多约束的化学空间。然而它们都有模式崩溃和灾难性遗忘的缺点。理想情况下是可以直接从少量示例中学习生成模型。本文则从这方面着手展开了研究。2结果首先确定训练强大的 CLM 所需的最小分子数。随机在ZINC 数据库中抽取1,000 到 500,000 个 SMILES 字符串样本来训练模型,每个训练模型中采样 500,000 个 SMILES(图 1c)。计算了每个模型生成的有效 SMILES 的比例,随着训练集大小的增加,有效分子的比例迅速增加,在大约 50,000 个分子后迅速饱和(图 1d)。图1 从有限数据中学习生成分子广泛使用的指标无法捕获生成模型的性能模型可能已经学会了生成有效的 SMILES 字符串,但生成的分子与训练集中的分子几乎没有相似之处。因此,我们寻求对模型性能进行更全面的评估。作者选取了23个曾被提议用于评估分子生成模型的指标,并推断随着训练集大小的增加,指标度量得到的模型性能也增加,将该推断作为本实验的“ground truth”。通过计算训练集大小与每个度量值之间的 Spearman 等级相关性来比较此23个指标。令人惊讶的是,23 个指标的相关性表现出巨大差异(图 1e),只有少数指标与训练集的大小密切相关,大多数与这个实验的“ground truth”充其量仅仅是适度相关,其中还有两个最广泛使用的指标:Percent unique和log P。分子生成模型的整体评估整合几个表现最佳的指标,以得出模型性能的单一衡量标准。然而,这些指标是在非常不同的尺度上测量的,并表现出复杂的相关性(图 1f)。主成分分析 (PCA) 中,用“ground truth”选择主成分PC1(图 1g,h)。此外,整合多个指标后在数据集超过100万个分子后模型性能继续提高,说明CLM 首先学会产生有效的 SMILES,然后才学会匹配目标分子的结构和物理化学特性。因此,整合多个不同的指标对于整体评估是必要的。学习不同化学空间的 CLM从三个其他数据库(具有不同的结构特性)中采样分子(图 2a),重复前面实验,本文还测试了强大的 CLM 所需的分子数量是否会随着目标化学空间的变化而变化。加上前面的ZINC数据库,数据库的分子复杂程度从高到低依次为COCONU、ChEMBL、ZINC 和 GDB(图 2b)。图 2c显示,学习健壮模型所需的最少示例数量取决于目标化学空间的复杂性。23个指标的实验与ZINC数据集大同小异(图 2d);在每个数据库中分别执行 PCA 时获得了类似的结果(图 2d-f)。图 2h表明从 GDB 数据库获得的结果可能不适用于更复杂分子模型。图2 不同化学空间的少量数据生成模型单独指标和 PC1 分数都表明性能随着采样分子多样性的增加而下降(图 3)。这些发现表明,从少量示例中学习 CLM在化学空间相对同质的区域中更有可能取得成功。图3 多样化和同质分子的少量数据生成模型评估 CLM 的分子表征SMILES 字符串训练的模型通常会产生很大比例的无效分子,DeepSMILES 变体对 SMILES 语法进行了两项修改,以消除与环和分支表示相关的长期依赖关系。自引用嵌入字符串 (SELFIES) 是基于 Chomsky type-2 语法的完全不同的表示,其中每个 SELFIES 字符串指定一个有效的化学图 。在四个数据库的分子SMILES、DeepSMILES 和 SELFIES 表示上训练了生成模型(图 4a)。在 SELFIES 字符串上训练的模型确实以 100% 的比率生成了有效的化学图(图 4b)。而在 DeepSMILES 上训练的模型并没有比在规范 SMILES 上训练的模型更快速地产生有效分子。为了研究在每个表示上训练的模型如何学习匹配目标化学空间,再次执行 PCA。然而作者发现训练生成 SELFIES 字符串的模型始终比在相同分子的 SMILES 或 DeepSMILES 表示上训练的模型获得更低的 PC1 分数(图 4c )。检查单个指标也证实了这一趋势:例如,在 SELFIES 上训练的模型与训练集的 Fréchet ChemNet 距离也更高(图 4d)。结果表明,过滤掉无效分子后,在 SMILES 字符串上训练的模型比在替代表示上训练的模型更匹配目标化学空间。数据增强对 CLM 的矛盾影响按照惯例,每个化学结构都有一个单一的、“规范的” SMILES 表示。然而,通过改变分子中原子的遍历顺序,也可以列举数百个“非规范”SMILES 表示(图 4h)。非规范 SMILES 的枚举已被用于通过训练序列到序列模型来学习化学结构的连续表示,并且最新研究表明 SMILES 枚举可以提高生成模型的质量。作者测试了 SMILES 枚举是否可以减少学习 CLM 所需的训练示例数量(图 4h)。在枚举 SMILES 上训练的模型以显着更高的速率生成有效分子,尤其是在最小的训练数据集中(图 4i)。PCA 强调了 SMILES 枚举的上下文特定影响(图 4j)。数据增强对非常小的训练集学习的模型的效果最好;在很大的训练集中甚至偶有负面影响(图 4k)。这表明,数据增强最适合用于低数据区域,尤其是结构复杂的分子。量化SMILES 枚举的性能影响发现(图 4l、m),在结构化的大型数据集中存在“过度枚举”的可能性,反映了SMILES 枚举的矛盾影响。图4 少量数据生成模型的替代分子表示数据而非架构决定了低数据模式下的模型性能图 5显示出CLM 训练集的重要性,在大型超参数网格中,超参数的调整几乎不能像增加训练集的大小那样影响性能。图5 数据决定少量数据生成模型的性能学习细菌、真菌和植物代谢组的生成模型上文阐明了从有限的训练数据中学习 CLM 的原则,作为原则的阐述,作者组装了细菌、真菌和植物代谢物的数据库,但每个数据库仅包含 15,000-22,000 个分子(图 6a)。使用具有高度 SMILES 枚举的 LSTM 作为最佳策略(图 6b),尽管训练数据有限,但优化后的模型生成的分子的理化特性与目标代谢组的物理化学特性非常匹配;此外,生成模型几乎完美地再现了三个目标代谢组的化学空间(图 6c)。综上所述, CLM 可以直接从少量训练示例中学习,重现甚至非常复杂的化学空间。图6 细菌、真菌和植物代谢组的少量数据生成模型3方法输入数据 实验从四个化学结构数据库中学习分子的生成模型:ZINC 数据库;GDB-13 数据库,它列举了所有可能的包含13 个原子的有机小分子;ChEMBL 数据库,包含具有类似药物特性的生物活性小分子;天然产物 COCONUT 数据库。化学语言模型 除非另有说明,语言模型的架构由三层 GRU 组成,其中隐藏层为 512 维,嵌入层为 128 维,没有 dropout 层。使用 Adam 优化器训练模型,β1 = 0.9 和 β2 = 0.999,批量大小为 128(除非另有说明)和学习率为 0.001。评估模型性能 Spearman 等级相关性来考虑23个评估指标与数据集大小的关系。结合五个表现最佳的指标的信息,同时考虑指标之间的协方差,使用 R 函数“princomp”执行 PCA。代谢组的生成模型 为了训练细菌、真菌和植物代谢组的生成模型,作者编译了几个已知代谢物数据库:大肠杆菌代谢组数据库 (ECMDB)、铜绿假单胞菌代谢组数据库 (PAMDB)、StreptomeDB、NPASS和 BioCyc。在前三个代谢组上训练了总共 48 个化学生成模型。4总结CLM 已成为探索化学空间的强大工具。然而,人们普遍认为这些模型需要非常大型的训练集。在本文中,作者量化学习强大的 CLM 所需的最少分子数量,并确定降低此下限的策略。为在稀疏化学空间区域直接学习生成模型提供了基础。
今天给大家介绍宾夕法尼亚大学佩雷尔曼医学院Cesar de la Fuente-Nunez团队发表在Nature communications biology上的文章。该文章主要介绍表示学习,性质预测和生成模型等人工智能方法在小分子抗生素和抗菌肽发现中的应用。此外,作者还分析了该领域当前的开源问题和可复现问题,讨论了未来的研究趋势和可研究方向。1背景通过有效地针对入侵的生物体,抗生素参与到宿主-病原体进化军备竞赛的古老斗争中。然而,细菌因自然选择而进化出的耐药性正在削弱现有抗生素的疗效。根据美国疾病控制和预防中心估计,美国每年有280万例感染是由耐药细菌引起的,其中有3.5万人死于这种无法治疗的感染。当前处于临床试验中的抗生素大多与已经出现耐药机制的现有药物类似,这进一步强调了发现全新抗生素的必要性。然而,抗生素研发是一个缓慢、昂贵且容易失败的过程,这一过程可能持续数十年,花费数亿美元。从2014年至2019年,只有14种新的抗生素成功研发并通过审批。在一项对超过21000种化合物的近186000项临床试验的调查中,研发的新药能够成功治疗传染病的可能性仅为25.2%。这一挑战催生了一系列基于启发式和人工智能算法的抗生素发现方法。可用的公开数据集(表1)、计算机技术的进展以及开源机器学习库的激增极大地促进了人工智能在药物发现和抗生素发现中的应用。在这篇综述中,作者着重介绍人工智能应用于小分子抗生素和抗菌肽发现的方法。表1 抗生素发现的数据集2化合物表示学习表示学习是计算药物发现流程(图1)的一个重要组成部分。为了避免浪费大量时间和金钱用于合成非活性化合物和进行实验,研究人员利用表示学习来表征候选药物并据此预测药物的性质。分子的各种性质和实验可以产生大量的信息,例如,为了描述简单的氨基酸残基,在线数据库中已经有400多个不同的测量方法;对于小分子药物,有计算和压缩量子力学推导出的描述符来表示拓扑性质的方法。然而,测量得到的数据不一定能准确地表示分子。这催生了一系列研究,将实验数据组合成简单的描述符,以尽可能少的维度来描述尽可能多的信息。文章提到的一个典型的例子是使用图卷积网络,其利用分子的几何形状和连通性将分子转化为图,利用神经网络从化学结构中学习分子的特征。类似的,也有工作使用图神经网络的方法来表示和预测蛋白质结构。递归神经网络(RNNs)在信号处理和自然语言处理(NLP)领域很常见,且现在已经被用于处理分子的SMILES表示。有研究人员使用长短期记忆单元(LSTM)从已知药物的SMILES学习分子特征并生成新的化合物。另外,RNN也可与强化学习结合,根据药物的SMILES生成药物的embedding特征。RNN还用于抗菌肽的表示,有研究人员利用基于ONE-HOT编码的LSTM自编码器和LSTM神经网络来学习和生成抗菌肽序列的表示,其可以用于推导蛋白质的二级结构、热稳定性、残基突变类型,甚至是突变带来的功能性影响。图1 计算抗生素发现流程3性质预测抗菌小分子活性预测是机器学习运用于抗生素发现中的核心,推动了近几十年来在QSAR问题的研究并提供新的解决方案(表2)。例如,有研究人员使用逻辑回归对训练集中的分子片段进行分类。这一方法构造了一个基于分子片段的活性“词汇表”,可以将这些分子片段拼接起来作为针对革兰氏阴性菌铜绿假单胞菌有活性的新抗生素。最近也有研究人员试图寻找现有的药物作为抗生素,其利用神经网络来学习化合物的表示,然后评估其抗菌潜力。该工作还利用了集成学习,其结合模型的多个副本(具有不同的权重),并考虑了每个模型的加权投票来实现最终的预测。文章中还提到了基于支持向量机预测分子的抗菌活性;基于深度神经网络预测多肽对铜绿假单胞菌的活性;基于RNN的回归模型挑选具有抗菌活性的抗菌肽等方法。抗菌肽被认为是解决微生物耐药性进化的新抗生素的主要来源。抗菌肽限制耐药性进化的能力与其不同的生理作用机制有关,这使得研究人员专注于多肽的分类和发现新的作用机制。例如,有研究人员提出利用DBSCAN聚类并预测抗菌肽对革兰氏阴性菌的活性,并在体外合成了有效的候选抗菌肽。此外,还有研究人员基于已知抗生素的活性和一系列同源序列训练一个广义线性模型来生成对大肠杆菌抗菌活性增加160倍的新抗菌肽。由于广义线性模型所发现的模式可以通过分析模型的权重来直接解释,因此可以直接将模型转化为抗菌肽设计的指导信息。近几十年来,药物类药性(drug-likeness)的预测方法不断发展,其感兴趣的特征包括吸收、分布、代谢、排泄和毒性(ADMET)。基于机器学习的结合亲和力预测也可以通过确定具有更有利的药物-靶点相互作用的候选药物来加速高通量筛选和基于结构的药物先导物优化。文章提到有一系列工作分别利用神经网络、分类树、梯度增强分类器和共识模型预测抗菌肽和类抗菌肽药物的溶血活性。也有一系列研究利用随机森林、深度神经网络和深度泰勒分解用于预测候选药物的细胞毒性。开发基于抗菌肽的抗生素的还必须考虑肽的溶解性和稳定性。已有相关工作利用神经网络、梯度增强模型、逻辑回归分类器、支持向量机和随机森林预测蛋白质溶解度。在评估抗菌肽的稳定性时,蛋白水解酶的降解作用也是一个重要因素。如果能识别抗菌肽的水解酶结合位点,那将有利于先导抗菌肽的挑选和稳定性优化。现有一系列工作利用SVM、卷积神经网络、条件随机机场分类器和逻辑回归模型,来预测水解位点。类似的,有工作利用基于注意力的图神经网络和朴素贝叶斯分类器来预测类药化合物的稳定性。与大多数治疗方法不同,抗生素设计的目标是杀死具有耐药性进化能力的细菌。因此,抗生素药物设计需要考虑细菌耐药性进化的不可避免性。虽然当前已有基于机器学习的耐药性预测方法在临床上预测抗生素配方的耐药性,作者更希望在药物开发的实验中使用耐药性预测。作者预计流行病学和医学中的基于耐药性基因组学的机器学习方法将越来越多地专门用于药物开发,例如利用机器学习对先导化合物的耐药性实验进行预测。目前基于机器学习的抗药性预测都是基于细菌的基因组特征,而不是药物或分子靶点特征。例如,已有工作基于病原体基因组数据训练了能够预测细菌对抗生素的敏感性和耐药性表型的机器学习模型,包括肺炎克雷伯菌、大肠杆菌、P.铜绿假单胞菌、结核分枝杆菌和金黄色葡萄球菌。也有工作利用SVM预测外排介导的耐药性。虽然“黑盒”方法可能限制机器学习用于减少耐药风险,但可解释性机器模型可以使模型能够在机体和种群规模上找出耐药性的进化原因。有研究人员结合机器学习与基因-蛋白结构图谱,以研究结核分枝杆菌耐药性进化的驱动因素,其假设赋予细菌耐药性的基因之间的相互作用表现为它们在SVM超平面的权重和符号的相关性。还有工作开发出开源软件用于基于蛋白质同源性的基因变异定位的可解释耐药性预测。表2 用于抗生素发现的机器学习模型4基于深度生成模型的抗生素发现生成式深度学习可以通过多种方式来辅助抗生素的发现。作者着重介绍从头分子设计,其通常使用生成对抗网络(GANs),变分自动编码器(VAEs)相关的架构。GAN由生成模型和判别模型组成,其推断训练数据的概率分布,以便从这个分布构造新的样本。在一个极大极小博弈中,两个模型都被训练以优化判别器的错误率:生成器被训练以最小化判别器正确区分真实数据和合成数据的可能性,判别器被训练以最大化这种可能性。与经典的自编码器一样,VAEs将输入编码到隐层表示中,然后解码重构,学习能够描述训练数据的隐层变量。然而,VAEs是一种定向的概率模型,通过变分贝叶斯方法学习连续的潜在变量。本节介绍这两种模型应用于药物发现的几种变体。深度生成模型已经被用于化学工程和蛋白质工程,包括无机物的逆向设计和基于图的神经网络模型蛋白质折叠生成。已有工作分别利用了结合深度强化学习的生成网络,深度生成对抗自动编码器,可微分强化学习和对抗训练神经网络,结合蒙特卡罗树搜索的深度神经网络,结合随机和目标指引分子设计的自动编码器GAN用于从头药物设计。鉴于对序列数据的适用性,也有工作利用接受SMILES输入的RNN模型进行药物设计。在化学工程、蛋白质工程和整体药物开发中,人们对深度生成模型的兴趣日益浓厚,类似的技术可能会越来越多地应用于抗菌肽和小分子抗生素设计。到目前为止,GAN已被用于生成一个对大肠杆菌的最低抑制浓度明显低于氨苄青霉素的抗菌肽。基于迁移学习的LSTM生成模型表明,在对较小数据集的目标特异性生物活性分子进行微调后,可以成功生成已知的靶向金黄色葡萄球菌的分子。此外,有研究者在一个基于单向LSTM的抗菌肽设计中,观察到82%的生成肽是潜在的抗菌肽,而训练数据的氨基酸分布中只有65%的随机排列被预测为抗菌素。5开源和可复现性一个确保计算可重复性的开放科学机制保证了公众可以免费访问文章(1)源代码、(2) 训练和测试数据以及(3)发表的研究结果,这有利于加速基于机器学习的抗生素发现。然而, 对400篇人工智能会议论文的分析显示,只有6%发布了代码,54%发布了伪代码,30%的发布了测试数据。在生命科学和医学的机器学习中,最近的一项综述发现,300份出版物中有50%发布了软件,而64%发布了数据。一项对511项研究的综述发现,在可复现性等多个指标上,将机器学习应用于生命健康科学领域的可复现性指标相比自然语言处理、计算机视觉和一般ML的论文表现不佳。因此,作者呼吁提高基于机器学习的抗生素发现的开源。6趋势和未来研究方向为了评估机器学习对抗生素发现的发表状况,作者研究了PubMed论文的趋势。结果表明,在21世纪的头二十年里,机器学习在抗生素和癌症药物领域的应用落后于广泛药物开发领域的应用近十年。令人惊讶的是,心血管药物领域的机器学习论文数更低。不过,广泛药物开发的大量应用预计随着时间的推移将对特异性疾病群体研究产生促进影响。在21世纪的第三个十年里,机器学习促进的抗生素发现的前景将部分取决于数据的改进。随着更大数据集的公开,可以更严格地重新审视曾经遇到的问题。联邦学习可能会促进在各研究机构数据闭源的情况下扩展经验数据集。最近的一篇综述观察到,以计算机科学、生物学和医学合作为特色的生物医学出版物具有更大的技术正确性,这表明抗生素发现可能从综合专业知识中获益。推动机器学习与体外和体内实验的结合,甚至是额外的计算方法,如分子动力学模拟,将有助于确保模型的可靠性。对于机器学习模型内部决策中普遍存在的“黑箱”问题,可解释性机器学习是生物医学计算中一个日益扩大的焦点,其被用于阐明抗生素的作用机制。
本次报道的论文来自清华大学的曾坚阳老师团队发表在nature communications上的A deep-learning framework for multi-level peptide–protein interaction prediction。文章提出了一个可多层次预测多肽-蛋白相互作用的深度学习框架(CAMP)。该模型包括二元多肽-蛋白相互作用预测和相应的多肽结合残基鉴定,通过综合测试指标表明,CAMP可以成功地捕获多肽和蛋白质之间的二元相互作用,并识别参与相互作用的多肽上的结合残基。此外,CAMP在二元多肽-蛋白相互作用预测方面优于其他最先进的方法。模型可以作为多肽-蛋白相互作用预测和鉴定多肽中重要结合残基的有用工具,从而促进多肽药物的发现过程。1研究背景多肽通过与多种蛋白质相互作用,参与许多细胞过程,如程序性细胞死亡、基因表达调控和信号转导,在人类生理中发挥重要作用。目前有两种主流的蛋白质-配体相互作用的预测方法,分别是基于序列的和基于结构的方法。然而,现有的方法主要集中于识别蛋白质表面的多肽结合残基,基于序列的方法无法进行大规模计算,基于结构的方法需要用到三维结构信息,但计算获得三维结构信息非常昂贵和耗时。在这里作者提出了CAMP,一种深度学习框架,用于同时预测多肽-蛋白相互作用(pepPIs)和识别多肽序列的结合残基。2模型介绍CAMP利用两个多通道特征提取器来分别处理输入的多肽-蛋白对的特征轮廓。每个提取器包含一个数值通道和三个分类通道。数值通道用于提取预先定义的密集特征(即蛋白质位置特异性评分矩阵(PSSM)和蛋白质和多肽序列中每个残基的内在无序趋势)。每个分类通道包含一个self-learning word embedding层,它具有输入多肽或蛋白质的分类特征之一(即原始氨基酸、二级结构、极性和亲水性特性)。接下来,CAMP利用两个卷积神经网络(CNN)模块,分别提取多肽和蛋白质的隐藏特征。此外,CAMP采用self-attention机制来学习残基之间的长期依赖关系,以及蛋白质和多肽的单个残基对最终相互作用预测的贡献。最后,CAMP结合了所有提取的特征,并使用三个完全连接的层来预测给定的多肽-蛋白对之间是否存在相互作用。图1. CAMP流程图。a. 数据收集和标签提取的工作流程 b . CAMP的网络架构3结果CAMP在二进制交互预测方面优于baseline方法pepPIs的二元分类是CAMP的主要目标。作者比较了CAMP的分类性能与其他最先进的baseline方法进行比较,所有的预测方法均通过交叉验证在基准数据集上进行评估。图2显示,CAMP始终优于最先进的baseline方法,在ROC特征曲线下面积(AUC)和精度召回率曲线下面积(AUPR)方面分别增加了10%和15%。此外,作者还注意到,在“New Peptide Setting”的数据划分下的模型性能似乎比在其他设置中更好,这可以解释为在基准集中的多肽之间的相似性少于蛋白质,因此基于相似性聚类后,训练和测试集中的多肽分布没有太大变化。这些测试结果表明,在所有交叉验证设置下,CAMP都可以比baseline方法获得更好的性能和鲁棒性。图2. 通过三种设置下的交叉验证,CAMP和baseline模型的AUC和AUPR描述多肽上的结合残基的新见解作者设计了一个监督预测模块来从多肽序列中识别结合残基,首先利用来自PepBDB的相互作用信息构建了一套合格的多肽结合残基标签。在这些监督信息的支持下,CAMP的平均AUC为0.806,Matthes相关系数(MCC)为 0.514(图3a,3b)。作者为了进一步证明CAMP在结合残基预测中的性能,还选择了4个代表性病例,并将预测残基与真实的相互作用残基进行比较(图3c,3d,3e,3f)。测试结果表明,CAMP可以准确地预测结合残基,从而为进一步理解多肽与其伴侣蛋白的相互作用机制提供可靠的证据。图3. 通过5倍交叉验证,对CAMP对基准数据集上多肽结合残基鉴定的性能评价CAMP在其他基准数据集上的通用性首先在来自PDB的额外独立数据集上评估了CAMP,并遵循与构建之前的基准数据集相同的策略。为了证明CAMP在二进制交互预测方面的鲁棒性,作者评估了CAMP和基线模型在不同正负比的测试数据集的多个不同的变化上的性能。每个模型首先在完整的基准数据集上进行训练,然后使用一个集成版本(即来自五个模型的平均预测)对额外的测试数据集进行预测。图4a和4b显示,CAMP在所有场景下都取得了最好的结果,表明CAMP的性能优于baseline方法。同时,还评估了CAMP对多肽结合残基鉴定的预测结果。从PepBDB中获得了多肽序列的注释结合残基。图4c和4d显示,CAMP能够在上述额外的数据集上保持其预测能力。图4. CAMP的鲁棒性测试CAMP在三个相关任务中的扩展应用作者进一步研究了CAMP在三个相关任务中的应用潜力,即预测peptide-PBD(蛋白结合域)相互作用预测、结合亲和力评估和多肽的虚拟筛选。作者将CAMP与两种HSM模型进行了比较,即HSM-ID和HSM-D预测peptide-PBD相互作用。在这里,比较了CAMP和HSM模型在预测peptide-PBD相互作用方面的性能。特别是,在HSM论文中使用相同的数据集和8倍交叉验证设置来评估CAMP的性能。图5显示,除PDZ族外,所有结构域族的CAMP均显著优于HSM-ID和HSM-D。图5. CAMP、HSM-ID和HSM-D跨8个族的模型性能4总结作者开发了一个可多层次预测多肽-蛋白相互作用的深度学习框架(CAMP),包括二元相互作用预测和多肽结合残基预测。方法使用多通道特征提取器分别处理数值特征和分类特征,以避免多源特征的不一致性。此外,作者还提出了四个具有代表性的案例来可视化多肽结合残基鉴定任务的结果。同时,验证了CAMP在peptide-PBD相互作用预测、多肽-蛋白对的结合亲和力评估和多肽的虚拟筛选方面的应用潜力。这些结果表明,CAMP可以提供准确的多肽-蛋白相互作用预测,并为理解多肽结合机制提供有用的见解。
本文介绍来自北京大学来鲁华教授课题组发表在Chemical Science上的文章“Structure-based de novo drug design using 3D deep generative models”。在这项工作中,作者介绍了一种基于深度学习的新型药物设计方法DeepLigBuilder,可以在靶标蛋白结合位点生成三维(3D)分子结构。模型中配体神经网络(Ligand Neural Network,L-Net)生成在化学上和构象上有效的,具有高度药物相似性的3D分子。然后,L-Net和蒙特卡洛树搜索(MCTS)结合,完成基于结构的药物从头设计任务。DeepLigBuilder将深度生成模型与原子级相互作用评估相结合,为基于结构的新药设计和先导物优化提供了最先进的模型。1介绍新药物发现的核心任务便是寻找具有良好生物活性和成药性的分子,但它受制于规模巨大且复杂的化学空间。最近,各种深度生成模型被引入到从头设计领域。传统方法为保证输出分子的实用性,通常需要专家制定规则,而深度生成模型大多是“无规则”的,可以完全以数据驱动的方式训练,对专家知识的需求最小。基于SMILES和基于图的语言模型、VAE,GAN是最常使用的深度学习架构。在药物发现过程中,已经开发了各种方法来满足不同的需求,如基于性质、基于靶点、基于药效团和基于骨架的分子设计方法。然而,与传统方法直接在结合口袋的3D结构内部构建3D配体不同,大多数基于深度学习的方法只生成一维(1D)(smile)或二维(2D)(Graph)分子表示,没有使用目标的结构和相互作用信息。因此,这些方法大多依赖于基于配体的目标,这可能会受到与训练集中的配体相关的偏差的影响。这也使得模型难以应用于生物活性数据有限的病例。而基于结构的信息为优化配体与靶点之间的相互作用提供了直接指导,降低了对现有生物活性信息的依赖。因此,将3D条件纳入深层分子生成模型是非常可取的。2方法作者实现了以一种新的从头分子设计模型DeepLigBuilder,它同时享有了传统方法和深度学习方法的优势,使用深度生成模型直接在3D结合口袋内构建和优化配体的3D结构。作者将这个目标分为以下两个任务。首先训练一个可以生成具有有效3D结构的类药物分子;其次,将基于靶标的信息引入模型中,从而得到具有预测良好的结合亲和力的分子。L-Net介绍针对第一个任务,作者采用了一种专门用于生成3D类药物分子的图形生成模型L-Net。L-Net有两个对其性能很重要的特征。首先,它由一个结合了图池化(graph pooling)和旋转协方差等特征的新的图卷积结构构建的,增加了网络的感受野的大小,同时提高了训练和采样的效率。其次,L-Net使用了一种新的方案进行训练,使其能抵抗生成过程中的3D误差。因此,该模型可以生成化学性质正确、构象有效和高度药物样的分子。与G-SchNet相比,L-Net实现了显著更好的化学有效性,同时保持了生成构象的质量提高。L-Net使用状态编码器和策略网络,通过迭代精炼现有结构生成3D分子。如图1a,在每个步骤中,状态编码器首先用来分析现有的结构,并将信息编码成连续的表示,然后由策略网络使用该表示来决定分子应该如何编辑。策略网络决定应该添加多少原子到分子中,每个新原子和键的类型,以及新原子的3D位置。图1. DeepLigBuilder架构作者设计了一个类药物数据集(QED>0.5),包含从ChEMBL中过滤得到的100万个由RDKit生成构象的分子。L-Net使用了一整套常见的原子类型({C, H, O, N, P, S, F, Cl, Br, I}),覆盖了ChEMBL数据集中的大多数类药物分子。训练期间,模型需要“模仿”数据集中的分子,具体来说,就是为每个分子创建一个“专家轨迹”来形成其结构。利用L-Net进行基于结构的分子设计为完成第二项任务,作者将L-Net与MCTS相结合,在蛋白结合口袋内直接生成具有高预测亲和力的配体,称该方法名为DeepLigBuilder。MCTS是一种广泛应用于强化学习的技术,可以直接在结合口袋内对分子进行优化。作者调查表明,这是第一次将3D生成模型与MCTS结合来解决基于结构的药物发现(SBDD)相关问题。如图1b,展示了L-Net结合MCTS优化蛋白结合口袋内药物样分子的流程。MCTS通过迭代构建搜索树来找到奖励函数的有希望的解。树中的每个节点代表分子生成过程中的一个中间状态。在每次迭代中,模型首先从搜索树中选择一个有希望的状态(selection),枚举该状态的可能操作(expansion),并执行rollout以生成其余的分子结构(simulation)。为该结构收集奖励,信息通过树反向传播,更新每个节点的q值。其中,作者使用了smina 提供的对接得分作为奖励函数。MCTS负责寻找高结合亲和力的分子,而L-Net用于促进结构变得有效、类似药物、易于合成和多样化。3结果Net分子生成作者设定了如下的一组评估指标来综合评估L-Net的性能,特别强调了3D结构质量:生成在化学上有效的化合物的能力;生成样本的多样性;正确学习重要分子性质分布的能力;L-Net是否能正确为训练集的化学空间(2D和3D)建模;生成高质量构象的能力。图2显示了L-Net的定量评估结果,每个指标都是使用L-Net中随机生成的50,000个样本进行计算的。高达94.3%输出有效性表明模型能够正确地学习拓扑结构的化学约束。通过计算 MMFF94s 力场优化前后结构之间的 RMSD 值来评估生成的分子构象的质量。结果表明,L-Net在性能上比G- SchNet(3D生成任务中之前最先进的模型)略胜一筹。图2.L-Net的定量评估。a-d: 在四种方式(有效输出百分比、优化后的RMSD值、2D MMD、2D preceision (pink) and recall (blue))上测量的L-Net的性能;e-f:QED和分子量分布;g:使用NPR描述符可视化的分子形状分布;使用DeepLigBuilder进行基于结构的分子设计作者使用DeepLigBuilder设计了病毒SARS-CoV-2的主要蛋白酶(Mpro,也称为3CL蛋白酶)的潜在抑制剂。首先研究了DeepLigBuilder基于现有拟肽共价抑制剂的片段进行先导物优化的能力。然后在非共价抑制剂的新设计上测试了它的性能,目的是生成具有新型支架的高效抑制剂。作者使用DeepLigBuilder 模拟MI-23设计过程,检测模型是否能生成具有良好药物相似性和高预测结合亲和力的分子。利用Mpro与MI-23配合物的结构进行分子生成,只保留P1片段(图3a,蓝色)作为生成的起始点。实验结果(图3.b-h)发现,给定一个已知的特权片段,DeepLigBuilder能够生成具有良好的预测结合亲和力、合理的药物相似性和与已知抑制剂相似的结合特征的分子。这些属性证明了DeepLigBuilder在引导优化问题方面的实际适用性。图3.使用DeepLigBuilder进行先导物优化接着,作者使用DeepLigBuilder设计针对Mpro的非共价抑制剂。图 4b 显示了一种具有高生物活性的分子(化合物 5,IC50=0.128μM)。作者只使用化合物5中含有三个原子的小片段作为生成种子(图4b,蓝色),目标是生成具有新型骨架的分子。实验结果(图4d-f)表明在生成的分子中可以观察到蛋白-配体相互作用的重要药效团特征。除此之外,作者还分析了生成分子的化学骨架,选择3个与化合物5相比QED、SAscore和smina评分提高的化合物进行进一步分析。实验结果展示了DeepLigBuilder发现与靶蛋白新相互作用的能力。但是这些设计的化合物是否能有效抑制Mpro还需要进一步的实验研究。图4.使用DeepLigBuilder进行分子生成4总结作者开发了一种基于深度学习的新型药物设计方法DeepLigBuilder,可在靶蛋白结合位点生成3D分子结构。模型使用L-Net生成有效的3D类药物分子,使用MCTS搜索强结合分子,可以直接输出类药物分子的3D和拓扑结构,而不需要额外的原子位置或键序推断。DeepLigBuilder能够生产具有新型化学结构、高预测结合亲和力的有前途的类药物化合物,捕获已知抑制剂的重要药效团特征,用于先导物优化和从头生成任务。DeepLigBuilder的独特之处在于,它直接操作3D分子结构,并在同一时间直接使用MCTS在结合口袋内优化分子的拓扑和3D结构。由于它能够直接操作3D结构,DeepLigBuilder更加灵活,可以轻松实现更高级的功能,如在空间位置锚定生成分子或基于特权3D片段执行生成。
中国的新锐公司和IT巨头希望将中国的人工智能能力转化为世界领先的药物创新,他们是否比西方企业更有优势?中国的研究人员正在积极的探索以AI技术为基础的新药发现新范式。就在上个月,三个中国企业筹集了巨额资金,以推动其AI药物发现计划。Insilico Medicine是一家总部设在香港的公司,其全球业务的一半在上海,筹集了2.55亿美元,以推动其人工智能发现的候选药物进入临床试验,并开发新算法以寻找新靶标。此前,北京StoneWise在4月筹集了1亿美元,总部位于深圳的XtalP在去年9月筹集了3.19亿美元。(声明:此处无任何商业宣传,仅转述原文)腾讯、百度和字节跳动等IT巨头也一直在将其强大的人工智能能力赋能于药物设计。凭借一项旨在实现人工智能占主导地位的雄心勃勃的国家战略、庞大的人工智能研究人员人才库、大量可供合作的合同研究组织(CRO)以及不断发展的健康数据隐私保护,中国的人工智能公司已准备好在全球竞争中更快、更便宜地制造更多药物。但是,即使14亿人口能够提供丰富的数据,使中国的人工智能公司比西方同行领先,但对于用于训练公司算法的临床前和临床数据的质量仍有疑问。Insilico Medicine的创始人兼首席执行官Alex说:"如果你来到这里,看到正在发生的事情,它会给你留下深刻印象。创新工场是一家位于北京的风险投资公司,主要投资人工智能公司,其首席执行官李开复也同意:"中国确实有建立药物发现系统的先进能力。但中国的人工智能药物发现公司是后来者。过去十年中,像Atomwise、BenevolentAI(伦敦)、Exscientia(牛津)、Relay Therapeutics和Numerate这样的公司正在与跨国制药公司达成大交易。甚至现在与中国有关的两家最著名的人工智能药物设计公司-Insilico Medicine和XtalPi都是2014年在美国成立的。当时,中国的人工智能药物研究几乎没有得到任何牵引力。XtalPi联合创始人马健说:"当他在2015年第一次回到中国,并开始与中国的制药公司交谈时,很明显,他们中的大多数人对人工智能在药物研发中的应用不感兴趣或没有做好准备。然而,从那时起情况发生了迅速变化。AlphaGo在2016年和2017年战胜了人类顶尖的围棋选手,让业界关注到人工智能的潜力,在许多中国年轻人的心目中是一条通往成功的道路。第二年,中国政府推出了一个雄心勃勃的战略,以使中国在2030年前成为全球人工智能的领导者,这导致了新的大学培养计划等。工智能代表了一种跨越式发展的方式。中国的研究人员响应了这一号召。在一场 "风暴 "中,计算机科学家、物理学家、数学家和传统药物发现研究人员推出了50多家人工智能药物发现公司,张健说,他在上海交通大学领导一个分子设计实验室,并与少数人工智能药物设计初创公司合作。中国人口众多,医院规模庞大,因此很容易收集大量数据集--这是训练人工智能的关键。在中国,人们对隐私的担忧也较少,意味着数据更容易获取。Lee说,美国的人工智能公司尤其受到法规的阻碍,例如1996年的《Health Insurance Portability and Accountability Act》,该法案规定了如何共享电子健康记录的标准。Lee说,HIPAA使得即使在患者同意的情况下,也很难将数据汇集起来。Lee说,尽管中国政府即将对那些出售泄露个人数据的人进行严厉的处罚,但像医渡云这样将得到同意的病人数据汇集到研究工具中的公司正在出现,以确保这些数据可以被访问。他们在美国的同行--Flatiron Health、Tempus、Aetion和Palantir也同样在大规模地整合现实世界的电子健康记录数据,以用于药物发现。但许多数据的质量很差,这可能会误导人工智能。"数据质量是绝对的关键。大多数从事药物发现的中国公司没有高质量的数据用于训练。”( Ye Tao)中国强大的人工智能研究人员队伍(包括从美国和欧洲回国的人员), 在百度、阿里巴巴和腾讯从事工业研究的资深人士,以及在支持中国长期人工智能战略的新政府项目下接受培训的人员,这应该使中国的人工智能行业具有竞争优势。根据斯坦福大学最近的一份报告,在全球人工智能研究论文中,以中国为基地的研究人员占总数的22.4%,而欧洲为16.4%,美国为14.6%。去年,来自中国的人工智能论文首次获得了比美国论文更多的引用。中国仍然缺乏取得根本性突破的科学家,由前1%的论文代表(特别是高引用率的会议论文),Lee说。"当涉及到真正的最具创造性的发散性思维者时,美国仍然领先。但这对于药物发现来说可能并不重要。中国公司可以修补基于人工智能的算法(其中大部分是在美国、加拿大或欧洲开发的),因为它们通常是开源的,可以公开访问。NUTSHELL(中国)的Yu:"你改变几个字就能改变整个概念,你可以找到一种方法来解决你的问题。"The science is from there [the West], but the technology is from here."Lee 说,中国人工智能药物发现的方法也可能更加务实,这可能给了中国一个优势。DeepMind 是谷歌的子公司,通过解决几十年前的蛋白质折叠让研究人员感到震惊,但中国公司“非常擅长将人工智能转化,用人工智能创造价值和构建新产品。Nature | AlphaFold预测98.5%人类蛋白结构,科学研究新范式让子弹飞 | 院士深度解析Alphafold DB的未来影响然而,对人工智能的兴趣和机会的爆炸式增长推高了工资,并且难以留住专业知人士。Alex说,中国顶尖的人工智能专家的成本高于美国,而且往往会四处流动。Insilico 主要聘请中国大陆以外的人工智能专家。Insilico 的研究从生物假说和新生物靶点的识别延伸到候选分子的生成和测试,主要聘请中国大陆以外的人工智能专家,在后期化学设计和分子合成方面更依赖中国。Alex说,中国有大量的CRO(总共约3000家)公司,这也许是中国的人工智能药物发现公司最吸引人的地方。Insilico正与其中80家公司合作。这使该公司能够避免与学术机构合作所带来的时间和知识产权的损失。它还允许在开发管线中的多个CRO公司平行运行多个实验。Alex说,比较结果 "对人工智能来说是一个巨大的学习经验"。中国有大量的实验室可以以合理的成本进行所有实验或同时并行,唯一能做到的地方就是中国。”与其他地方一样,中国人工智能药物设计的成功将取决于其候选药物是否在临床上取得成功,这是人工智能设计的药物尚未实现的。新墨西哥大学的计算生物学家 Tudor Oprea 说:“有很多炒作,很多人试图向你推销根本不存在的东西。” “The proof of the pudding is in the eating. So you don’t really know until it’s on the market.”腾讯、百度和字节跳动进入人工智能药物发现领域,将为中国的努力增添分量。2020 年 7 月,腾讯推出了自己的人工智能驱动药物设计平台 iDrug。它已经启动了十多个项目,包括寻找对抗冠状病毒的药物。该公司计划涵盖临床前研究、预测蛋白质结构、筛选候选药物、设计和优化分子以及表征蛋白质功能的整个领域。Lee表示:这些 IT 巨头将扮演中国版的谷歌,生产像 DeepMind 这样的大型机器,可以解决蛋白质折叠等问题,这些问题需要比小型初创公司更多的计算能力。“所以现在有了一些更务实、更快速赚钱的小而灵活的公司,然后是大巨头。所以这是一个很好的分工。虽然中美之间存在一些良性竞争,但许多研究人员更担心当前的政治紧张局势可能会损害两国在这个新兴领域的协同效应。中国人工智能药物设计的大部分投资来自美国,而有影响力的人工智能会议论文的作者中有三分之一在中国接受教育,但大部分在美国工作。Lee说:“所以他真的希望医疗保健或药物发现不会成为这种脱钩谈话的一部分,因为这项研究完全是为了人类的利益。
今天介绍来自西交利物浦大学和福建医科大学的Zitao Song, Daiyun Huang等人六月份发表在Nature Communication的文章“Attention-based multi-label neural networks for integrated prediction and interpretation of twelve widely occurring RNA modifications”。文中提出了一种建立在基于注意力机制的多标签深度学习框架上的方法——MultiRM,它不仅可以同时预测12种广泛发生的RNA修饰的假定位点,而且还可以返回对阳性预测贡献最大的关键序列上下文。该模型从相关序列上下文的角度揭示了不同类型的RNA修饰之间的强关联,能够综合分析并理解基于序列的RNA修饰机制。简介RNA转录后修饰增加了RNA分子的结构和功能多样性,调节了RNA生命的所有阶段。因此,准确识别出 RNA 修饰位点对于理解各种 RNA 的功能和调控机制至关重要。目前已经有许多计算方法根据初级 RNA 序列对 RNA 修饰位点进行计算预测,极大地提高了我们在不同条件下对不同物种多种 RNA 修饰类型的定位的理解。然而,当前大多数方法存在以下问题:仅关注单一的RNA修饰类型,对不同RNA修饰机制之间的相互作用的研究有限。仅依赖单一来源的有限数据,没有充分利用可用的表观转录组(epi-transcriptome)信息。仅专注预测的准确性,却没有对其预测结果提供清晰直观的解释。目前仍没有为一些RNA修饰类型(如m6AM)开发预测框架。基于上述问题,作者通过集成多种技术生成的数据集来支持多种RNA修饰,开发了统一的预测框架MultiRM。MultiRM,是一种基于注意力机制的多标签神经网络方法,根据初级RNA序列(或相应DNA序列)对RNA修饰进行集成预测和解释。模型支持12种RNA修饰类型,包括m6A, m1A, m5C, m5U, m6Am, m7G, Ψ, I, Am, Cm, Gm, 和 Um。模型的多标签结构能够在充分利用不同RNA修饰的独特特征的同时适应它们的共享结构。为了解决多标签学习中训练数据不平衡的问题,采用了OHEM (online hard examples mining)和不确定加权(Uncertain Weighting)方法。使用当前最先进的机器学习算法XGBoost 和 CatBoost 作为基准。使用积分梯度 (IG) 和注意力权重(attention weights)来深入了解训练后的整体模型并解释每个单独的预测。最后,作者开发了可以免费访问的web服务器。结果MultiRM框架给定一组基本分辨率修饰位点,MultiRM框架学习位点序列上下文和修饰类型之间的映射。一旦学会这种映射,注意力机制和IG方法使得MultiRM可以解释模型,并且提取对阳性预测贡献最大的序列上下文,即序列模体(sequence motif)。集成模型采用的多标签框架也有助于学习不同RNA修饰之间的潜在关联。如图1,MultiRM由一个嵌入模块和一个LTSM-Attention模块组成,用于提取和学习有用的特征。然后,通过注意力过滤的特征被输入到多标签模块中,以同时预测 RNA 修饰。嵌入模块使用核苷酸之间固有的短长相互作用来表示输入RNA序列,接着嵌入表示被提供给LTSM层,提取所有修饰共享的底层序列特征。然后注意力机制根据需求每种特定修饰类型的输入RNA序列的相关区域。最后,包含两个全连接层(FC)的多标签模块同时预测多个修饰位点。框架使用OHEM和不确定性加权法增强的交叉熵损失(cross-entropy loss)进行训练。图1. MultiRM模型体系结构MultiRM性能分析本文研究目的主要是建立一种可解释的预测因子,能够在识别初级RNA序列中广泛出现的多种RNA修饰方面达到最优的准确性。作者首先尝试根据AUCb来优化输入序列的长度,使用Word2vec embedding,以21-bp、51-bp和101-bp的RNA序列作为输入来评估多标签模型。结果如表1,其中51-bp的平均性能最优。表1. 不同输入长度下模型(w2v + LSTM +attention)的AUCb得分接着,为解决训练数据不平衡的问题,使用了OHEM和不确定性加权来优化模型,以51-bp的输入序列评估性能。作者将MultiRM和基准方法以及其他embedding技术进行了比较,结果如表2。其中MultiRM模型的平均值和中值得分最高,并且有6种RNA修饰性能最佳。表2. MultiRM 与基准方法和其他嵌入技术的比较AUCb得分MultiRM解释为了深入了解预测背后的驱动特征,作者使用注意力权重和IG直观地解释模型是如何做出特定决策的。即在做出不同预测时,重点关注模型最看重的东西,并在通过注意力权重和IG进行阳性预测时获得贡献最大的核苷酸。汇总在模型中发挥关键作用的共有模体时,作者发现它们中有许多与传统模体发现方法DREME和STREME解释的序列模式相匹配。因此,应用模体比较工具TOMTOM生成p值来量化通过MultiRM 和 DREME/STREME 获得的模体之间的相似性,如图2。图2.模体匹配为了更好地理解不同RNA修饰之间固有的共享结构,作者提取了注意力机制中前馈神经网络的权重。这些权重分别为对应于12个RNA修饰的12个向量,并与模型的其他所有成分共同学习。通过计算每对向量的皮尔逊相关系数(ρ)来表示任意两种RNA修饰的相关性。如图3,RNA修饰之间都显示出强烈且显著的正相关,甚至包括那些来自不同核苷酸的修饰。这表明存在被多个RNA修饰密集修饰的区域,这些区域可能是基因调控的表观转录组层的关键调控成分。这些关键调控区域的序列特征很大程度上在不同的 RNA 修饰之间共享,并被模型成功捕获。值得注意的是,上述分析没有考虑RNA修饰的上下文特异性。图3. MultiRM揭示了RNA修饰的关联结论为了充分利用序列的内在结构,作者试验了三种不同的嵌入式技术,发现Word2vec 大大增强了预测能力。此外,作者还发现输入更长的 RNA 序列可能不一定会导致更高的预测准确性,因此采用了 OHEM 和不确定性权重策略处理不平衡问题。为确保预测的可靠性和稳健性,作者仅使用了从多个正交技术和多项研究生成的高质量表观转录组谱作为训练和测试数据。MultiRM模型首次揭示了12种RNA修饰之间在序列偏好方面的正相关。作者认为,研究一般 RNA 修饰和表观转录组调控的关键调控区域应该受到重视。同样,它们在不同生物条件下的动态串音也值得关注,这就要求当这些数据更丰富时,对特定条件下的表观转录组谱进行集成预测。由于受限于当前技术,尽管MultiRM 能够预测 12 种不同类型的 RNA 修饰,但目前仅限于人类,而且模型并没有考虑不同 RNA 修饰的不同丰度。
今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面,介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法,在6个常用的数据集上进行了实验比较。结果发现,深度学习的方法要普遍优于传统方法,并且不同的方法和数据集之间也有较大的差异。最后,作者总结了生物医学命名实体(BioNER)存在的一些挑战和未来的发展。1介绍随着生物医学的广泛发展,人们获取电子生物医学文献越来越方便。尤其是在新冠肺炎疫情爆发之后,生物医学类的文献增长更为迅速。如此大的增长量,导致专业人员很难从中获取自己所需要的信息,因此如何从大量的生物医学文献中挖掘出有用的信息就显得十分重要。为了解决生物医学文献增长如此迅速的问题,研究者提出了许多文本挖掘任务,而生物医学命名实体识别(BioNER)就是其中一项最基础的任务。它的目的是从大量的非结构化医学文本中找出基因、疾病、蛋白质等相应的医学实体边界,然后再经过标准化映射到受控词汇表中,从而方便进行文献挖掘的下游任务。相较于普通领域的命名实体识别,生物医学实体(BioNEs)通常由很长的词汇组成,例如:“遗传性非息肉性结直肠癌综合征”。而且一个实体有多个变体名称,如:“Zolmitriptan, Zomig and Zomigon”,这三个名词都是表示同一实体。除此之外,生物医学实体通常由数字和字母缩写组成,有时相同的字母可能表示不同的意思。因此,BioNER比普通领域NER要困难的多。而深度学习有一系列强大的特征提取器,可以有效地捕捉原始数据中包含的特征和规则。因此逐渐成为BioNER的主流方法。在这篇文章中我们按照模型使用的数量和结合方式,从基于单一神经网络、基于多任务、基于迁移学习和基于混合模型的方法这4个方面对现有的生物医学实体命名识别进行了综述。旨在帮助不同的研究者,从多个方面系统地了解生物医学命名实体识别。此外我们还总结了生物医学命名实体识别常用的数据集和其来源,方便研究者快速地获取所需要的数据集。接着我们从这些常用的BioNER模型中选出了几个具有代表性的方法进行了性能比较,并分析了比较结果。最后对文章提到的方法进行了分析总结,概述了Bio-NER面临的一些挑战和机遇。2深度学习BioNER结构从生物医学文本中识别相应实体大致分为三个步骤:(i)准备合适的数据集(ii)提取实体特征和(iii)候选实体的分类(图1)。数据集的大小和质量严重影响着最终的识别效果。深度学习需要大量的高质量的已标注的数据集,并从这些数据集中进行端到端的自主学习。黄金标准的数据集具有较少的噪声,但其数量通常较少。白银标准的数据集数量较大,但通常噪声也很多。因此如何充分地选择和利用数据集是BioNER任务的关键步骤。深度学习通常不需要人工标记的特征,它们自主地从数据集学习有用的特征。用于自然语言处理的深层神经网络。深度学习的方法是将文本转换成embedding信息,然后从这些信息中提取有用的特征用于生物医学实体识别。提取特征的方式以及特征的组合影响着最后的结果,因此深度学习模型特征提取是BioNER最重要的一步。当神经网络自动提取到数据实体特征后,需要根据学到的特征判断是否是实体,这个实体应该属于哪一类别哪一部分。而BioNER的最终目的是找到实体的边界,因此我们需要用一个特定的规则,结合神经网络学习到的特征对文本中的每个词做出判断,进而找出最终的生物医学实体。这个分类的过程可以是机器学习的方法,也可以是神经网络模型。图1 BioNER的大致步骤3深度学习的方法我们根据模型的数量与结合方式,把这些方法分成4个类别,分别是:基于神经网络、基于多任务、基于迁移学习、基于混合模型的方法。表1总结了现有的BioNER方法,并评估了这些方法的可用性。单一神经网络模型是只用神经网络模型识别指定任务的BioNEs的方法。该方法只使用深度学习模型从词嵌入和字符嵌入中学习相应的实体特征表示。由于这种模型只需要使用神经网络,且只针对一个任务,实现起来比较简单,因此是近年来使用最多的方法。目前最常用的神经网络模型主要是卷积神经网络(CNN)和长短时记忆网络(LSTM)。有时候这两个模型会结合其他神经网络模型或者在它们的基础上进行微调改进以获得更好的BioNER性能。多任务学习是一种归纳学习的方法。它同时在多个任务上训练不同的模型,然后共享不同任务模型之间的参数,例如使用多个BiLSTM同时识别细菌实体和基因实体,使得bacteria NER和gene NER性能都有提高。与神经网络模型不同的是,多任务学习结合了不同的任务,使用了更多的数据信息,因此近年来BioNER更倾向于使用MTL代替神经网络模型。迁移学习是将某个领域或任务上学习到的知识或模式应用到其他相关的领域或问题中的方法。迁移学习通常在源域上训练模型,然后将学到的特征,参数等迁移到目标领域并微调。与多任务学习相比,迁移学习在源领域和目标领域学习的过程是依次进行的,当源数据发生改变时,目标数据也能做出适当调整,适用于数据变化的情况。混合模型是神经网络模型、多任务学习、迁移学习和传统BioNER方法其中的两种或多种组合而成的一种模型。与前几个方法不同,混合模型是针对同一任务使用不同的模型,并将这些模型线性结合起来,提高单一任务的性能。在混合模型中,通常使用传统的方法预先处理部分数据,然后神经网络模型从预先处理的这部分数据中学习相应的特征。这种方法能预先处理大量的低质量数据,因此被经常用在弱监督或无监督的学习中。4数据集我们收集了以前工作中提到的可用于BioNER的所有数据集。它们的具体信息以及来源如表2所示。5结果在这篇文章中我们评估和比较了CRF、GRAM-CNN、Layered-BiLSTM-CRF、MTM-CW和BioBERT模型在数据集JNLPBA、BC2GM、NCBI disease、BC5CDR、BC4CHEMD、LINNAEUS这6数据集上的性能。同时分析了导致这些结果的可能原因与改进后可能得到的结果。实验结果如表3所示:一般来说,这几个模型在这6个数据集上都表现良好,但同一模型在不同的数据集上仍然存在很大的差异。模型在JNLPBA和LINNAEUS数据集上的表现明显不如其他4个数据集。GRAM-CNN和MTM-CW在BC5CDR数据集上的F1-sorce是最高的,其次是BC4CHEMD,它在JNLPBA数据集上的性能最低。而BioBERT在BC4CHEMD数据集上的F1是最高的。这三个模型在BC5CDR和BC4CHEMD两个数据集上的实验结果相差不大。Layered-BiLSTM-CRF在BC4CHEMD数据集上的F1-sorce最高。对于相同的数据集,BioBERT模型性能基本优于MTM-CW。MTM-CW模型的性能始终优于GRAM-CNN和Layered-BiLSTM-CRF模型,而GRAM-CNN的性能又高于Layered-BiLSTM-CRF。总的来说深度学习模型效果基本优于CRF模型。6挑战与展望虽然实验证明了这些方法在BioNER任务中的有效性。但目前仍然存在许多问题需要解决。(1)目前相同类型的BioNER的数据集很多,但这些数据集之间的标注标注存在很大差异,因此需要制定统一的数据集标注标准。(2)此外,深度学习需要大量的注释的训练数据,而且训练数据的数量与质量与最后的实验效果密切相关。因此需要构建大规模高质量语料库。(3)生物医学文献的增长也为我们提供了大量的无标签数据信息,这些无标签的数据同样含有丰富的信息。因此在未来可以考虑元学习策略,将这些已标记和未标记的数据充分利用起来,使得实验模型不再受样本数量的限制。(4)BioNER是近几年才逐渐发展起来的NER任务的一个子领域,与NER有着异曲同工之妙,但它的方法还远不如NER方法成熟。因此迁移其他领域的知识或方法也是未来的可行方案之一。
论文名称AMA-GCN: Adaptive Multi-layer Aggregation Graph Convolutional Network for Disease Prediction表型对于医疗影像诊断会有负面影响,多图融合方法的参数随着表型的增加而变大,从而影响模型的效果。为了应对上述挑战,作者提出了一种新的相似性感知自适应校正多层聚合称GCN结构(AMA-GCN), 编码器根据表型数据的空间分布,自动选择适当的表型,并利用文本的相似性和边缘的感知机制计算节点之间的权重。编码器可以自动使用对环境有积极影响的策略构造表型图种群,并进一步融合多模式信息。此外,还提出了聚合机制,设计新颖的图多层卷积网络结构,可以在抑制的同时获得深层结构信息过度平滑,并在相同类型的节点之间增加相似性。论文名称Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Predict现有PPI的预测在新的数据集上的表现并不好。蛋白质之间的相关性,例如,蛋白质A与B有相互作用,B与C有相互作用,那么A与C是相关的。基于以上分析,作者提出GNN-PPI框架充分探索蛋白质之间的相互作用(基于图的数据集划分),且将蛋白质之间的相关性纳入模型中,以提高蛋白质相互预测的效果。论文名称Medical Image Segmentation using Squeeze-and-Expansion Transformers医疗图像分割需要同时顾及全局信息和局部细节,现有方法(U-net等)抽取并融合多尺度信息,但依然只有很小的有效感受野。本文提出Segtran,基于transformers的分割框架,即使在高特征分辨率下也具有无限的有效感受野。此外,本文提出了一种新的基于transformers的位置编码方案,对图像施加连续性归纳偏置。论文名称MDNN: A Multimodal Deep Neural Network for Predicting Drug-Drug Interaction Events现有方法很少关注DDI与多模态数据(如靶点和酶)之间的潜在相关性。本文提出用于DDI预测的多模态深度神经网络(MDNN)。在MDNN中,存在一个双通路框架,包括基于药物知识图谱(DKG)的通路和基于异质特征(HF)的通路,以获得药物多模态表征。最后,设计了一个多模态融合神经层来探索药物多模态表征之间的互补性。论文名称CSGNN: Contrastive Self-Supervised Graph Neural Network for Molecular Interaction Prediction现有分子相互作用研究依赖于分子的特性和结构,这大大限制了模型的迁移能力,本文致力于广泛的分子相互作用预测,提出对比自监督图神经网络(CSGNN)用于分子相互作用预测(MIP)。CSGNN将多跳邻居聚合器融合到图形神经网络(GNN)中来捕获分子相互作用中的高阶依赖性,同时利用对比自监督学习来增强多任务学习的泛化能力能力。论文名称Learning Attributed Graph Representations with Communicative Message Passing Transformer基于图的分子表征往往关注局部信息聚合忽略图的高阶信息,使用节点信息而不是边的信息。为了缓解这样的问题,作者提出提出了一个消息交换传递转换器(CoMPT),改进分子的图神经网络。通过transformer来增强节点和边之间的信息交互。区别于将分子视为全链接图,在图中,作者引入了一种消息扩散机制,降低图连接诱导性偏差并减少信息丰富爆炸论文名称Self-Supervised Adversarial Distribution Regularization for Medication Recommendation论文名称A Structure Self-Aware Model for Discourse Parsing on Multi-Party Dialogues论文名称Adapting Meta Knowledge with Heterogeneous Information Network for COVID-19 Themed Malicious Repository Detection论文名称Adaptive Residue-wise Profile Fusion for Low Homologous Protein Secondary Structure Prediction Using External Knowledge
今天带来的是商汤科技(SenseTime)研究小组发表在arxiv上的Learning Unknown from Correlations: Graph Neural Network for Inter-novel-protein Interaction Prediction。现有蛋白质-蛋白质相互作用(protein-protein interaction, PPI)预测方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。本文从两方面新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法来解决预测未知蛋白的相互作用。蛋白质-蛋白质相互作用是指两个或两个以上的蛋白质分子通过非共价键形成蛋白质复合体(protein complex)的过程。多类型蛋白质-蛋白质相互作用(PPI)的研究是从系统的角度理解生物过程和揭示疾病机制的基础。现有方法在未知数据集(指的是经常出现在训练集中未看到相互作用的蛋白质的数据集)上进行测试时会出现显着的性能下降。以最先进的模型 PIPR为例,在与训练集同源的 SHS148k 测试集上进行的测试与在更大的 STRING 测试集上进行比较,衡量精度和召回率的micro F1 分数从 92.42 下降到 53.85。进一步研究,本文将 STRING 测试集划分为 BS、ES 和 NS 子集,其中 BS 表示在训练期间看到了相互作用中的两个蛋白质对,ES 表示看到了这对蛋白质中的一个(但不是两个),NS 表示没有看到蛋白质。如图1所示,ES 和 NS 子集的性能不佳(在本文中统称为新型蛋白质Inter-novel-protein间相互作用)是性能下降的主要原因。下面来主要介绍本文的两方面解决问题的方法--设计考虑新型蛋白质之间的相互作用的评估框架和基于图形神经网络的方法。图 1 测试集中不同蛋白质子集的F1分数评估(evaluation)设计了一个新的评估框架,该框架充分考虑了新型蛋白质之间的相互作用,并在数据集之间提供了一致的评估。由于新蛋白之间的相互作用是主要的瓶颈,要求评估框架的测试集Xtest满足条件|XBS| << |XES|+|XNS|,为了达到这一效果,论文提出通过在PPI网络中使用 BFS 或 DFS 构建测试集。通过在PPI网络中使用广度优先搜索(BFS)算法得到是彼此紧密互动,在PPI网络中以集群的形式存在的蛋白质。通过在PPI网络中使用深度优先搜索(DFS)算法得到的是稀疏分布在 PPI 网络中,彼此之间几乎没有交互的蛋白质。其目的是为了保持训练集和测试集的PPI网络连通性。方法( methodology)提出了一种基于图形神经网络的方法(GNN-PPI),通过图表自然建模和挖掘相关性,结构图如图2所示。其中蛋白质作为节点,相互作用作为边缘,用于更好地预测新蛋白质之间的相互作用。首先组装成对的相互作用数据来构建图,其中蛋白质作为节点,相互作用作为边。首先选择根节点,然后执行提出的 BFS 或 DFS 策略来构建测试集。该模型的首先通过embedding获得预定义的特征,然后通过卷积和池化提取蛋白质独立编码 (PIE) 特征,最后通过图卷积聚合并到蛋白质图编码 (PGE) 功能。在训练集标签监督下对相互作用中成对蛋白质的特征分类。本文设计了蛋白质独立编码 (PIE) 和蛋白质图编码 (PGE) 模块来编码蛋白质特征。对于未知的PPI,本文结合前面过程编码的蛋白质特征,计算它们在不同PPI类型中的分数,并输出其多标签预测。相关性的引入和提出的 GNN-PPI 模型在很大程度上缩小了 BS、ES 和 NS 子集之间的性能差距。图 2 本文GNN-PPI模型结构图结果(result)无论是在同源数据集还是大型数据集的测试中,GNN-PPI 都优于最先进的 PPI 预测方法,表1为本文GNN-PPI模型和PIPR模型在同源数据集和STRING数据集上的结果对比,其中STRING数据集上的结果主要衡量了对新型蛋白质的预测效果。在同源测试集的预测中精确度提升约10%;在STRING数据集中精确度提升了约30%。表 1 本文GNN-PPI模型和PIPR模型对比总结(summary)本文主要研究了蛋白质间相互作用(PPI)预测问题,对于目前方法对新型蛋白质(没有在训练集中出现过的蛋白质)的关系预测不准确问题进行的重点研究,设计了一个充分考虑了新型蛋白质之间的相互作用的评估框架,并将蛋白质之间的相关性纳入 PPI 预测问题,提出了一种基于图神经网络的相关性建模方法,所提出的 GNN-PPI 模型在不同尺度的真实数据集中实现了最先进的性能。
DGL最新的v0.7版刚刚正式发布。大家已经可以通过pip或conda下载升级。这里我们总结了新版本的一些特性。系统层面的增强此次0.7版中有不少底层系统结构上的增强。其中很大一部分有来自用户社区的参与和贡献。我们非常高兴地注意到这一趋势,也欢迎未来能有更多来自社区的贡献。基于GPU的邻居采样加速我们知道邻居采样(neighbor sampling)是巨图训练非常重要的基础算法。在英伟达团队的帮助下,新版DGL现在支持在GPU上进行等概率邻居采样,并在GPU上完成MFG转换。这就避免了在每个采样迭代过程中把数据从CPU内存到GPU显存的拷贝,同时还能利用GPU的加速能力加快采样的过程。有了这一功能,在ogbn-product数据上运行GraphSAGE模型取得了超过10倍的提速 (在g3.16x实例上,每epoch运行时间从113秒降低到11秒)。想要使用这一功能,可以对一个存在GPU上的图创建一个NodeDataLoader,并指明在GPU上进行采样,如下所示。g = ... # 一个图 g = g.to('cuda:0') # 把此图存入GPU # 创建一个dataloader dataloader = dgl.dataloading.NodeDataLoader( g, # 支持存在GPU上的图 train_nid, sampler, device=torch.device('cuda:0'), # 指定特定的GPU来进行采样 num_workers=0, # num_workers必须设定成0 batch_size=1000, drop_last=False, shuffle=True) # 模型训练的循环 for input_nodes, output_nodes, sample_graphs in dataloader: # 生成的sample_graphs已经在GPU里了 train_on(input_nodes, output_nodes, sample_graphs)对应此功能,以下文档也相应地进行了修改:在《用户手册》中新增了一章《Using GPU for Neighborhood Sampling》,介绍了何时以及如何使用这一新功能。在NodeDataLoader代码中新增了API文档。CPU上消息传递内核的加速CPU上GNN消息传递的GSpMM内核的核心代码在0.7版中进行了改写增强。新的内核对CSR矩阵进行操作,并利用了英特尔的LibXSMM实现内核生成。相关细节可参考论文 https://arxiv.org/abs/2104.06700。在Xeon处理器上,这个功能会自动打开,从而带来显著的性能提升。这里非常感谢英特尔团队对于新CPU内核的贡献。针对多GPU和分布式场景的节点嵌入(NodeEmbedding)模块的优化新版的DGL使用NCCL来同步训练过程中的稀疏点嵌入(dgl.nn.NodeEmbedding)的梯度。用户指定nccl作为torch.distributed.init_process_group的后端选项时,这一功能会被自动启动。我们的试验显示,使用这一功能在ogbn-mag数据上训练RGCN会带来20%左右的提速。在g4dn.12xlarge实例(4块T4 GPU)上,每epoch的训练时间从47.2秒降到39.5秒。这里非常感谢英伟达团队的贡献。此外,在新版本中,分布式的点嵌入模块(dgl.distributed.DistEmbedding)也实现了同步的梯度更新机制,让训练过程更加的稳定。DGL Kubernetes Operator奇虎360团队为DGL贡献了专用的Kubernetes Operator,使得在Kubernates上使用DGL进行分布式或非分布式训练变得更加方便。感兴趣的用户可以参考奇虎团队的github仓库:https://github.com/Qihoo360/dgl-operator。其他关键性能提升除了上述提到的主要性能提升,DGL社区还帮助我们修复了一些性能的问题。其中,DGL在中等规模的图数据上使用CPU进行随机游走采样的速度提升了24倍。对十亿级别点的超大图进行分布式训练集分割的内存消耗节省了7倍。详情请参阅0.7版本的发布日志。更多的模型和之前的版本发布一样,0.7版里面也发布了新的19个模型样例,使得样例总数达到了90个。为了便于用户找到他们需要的样例(比如,特定的主题或数据集),我们在dgl.ai上提供了一个新的搜索工具,供用户使用关键字来搜索模型样例。以下为0.7版里新发布的模型样例列表:Interaction Networks for Learning about Objects, Relations, and Physics (https://arxiv.org/abs/1612.00222.pdf)Multi-GPU RGAT for OGB-LSC Node ClassificationNetwork Embedding with Completely-imbalanced Labels (https://ieeexplore.ieee.org/document/8979355)Temporal Graph Networks improvedDiffusion Convolutional Recurrent Neural Network (https://arxiv.org/abs/1707.01926)Gated Attention Networks for Learning on Large and Spatiotemporal Graphs (https://arxiv.org/abs/1803.07294)DeeperGCN (https://arxiv.org/abs/2006.07739)Deep Graph Contrastive Representation Learning (https://arxiv.org/abs/2006.04131)Graph Neural Networks Inspired by Classical Iterative Algorithms (https://arxiv.org/abs/2103.06064)GraphSAINTLabel PropagationCombining Label Propagation and Simple Models Out-performs Graph Neural Networks (https://arxiv.org/abs/2010.13993)GCNIILatent Dirichlet Allocation on GPUA Heterogeneous Information Network based Cross Domain Insurance Recommendation System for Cold Start UsersFive heterogeneous graph models: HetGNN/GTN/HAN/NSHE/MAGNN. Sparse matrix multiplication and addition with autograd are also added as a result.Heterogeneous Graph Attention Networks with minibatch samplingLearning Hierarchical Graph Neural Networks for Image Clustering单机多GPU和分布式训练的教程随着用户对于在超大规模图数据上运用图神经网络的需求的增加,我们收到了很多对于如何使用单机多GPU和多机分布式训练的问题。在本版本里,我们新增了两个教程,分别介绍了使用单机多GPU训练进行点分类和图分类的方法,和如何使用多机进行DGL分布式训练的方法。目前这两个教程都可以在docs.dgl.ai里面看到。更多内容请参阅0.7版本https://github.com/dmlc/dgl/releases/tag/v0.7.0
“依我之见,AlphaFold是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一” ——施一公。2020年可谓是AI制药的“元年”,MIT在Cell的封面文章,通过AI发现史上最强抗生素。全球知名科技评论期刊《麻省理工学院科技评论》将“人工智能辅助药物设计”选为2020年度“全球十大突破性技术”。这一年,除了大型药企,互联网巨头也纷纷进入AI药物赛道:Facebook声称AI可以预测治疗复杂疾病的药物组合,亚马逊与DrugAI团队合作的“面向药物发现的深度图学习”成功入选2020 SAIL(Super AI Leader)年度榜单。国内BAT、华为、字节跳动都宣布进军AI药物研发。2020年末,AlphaFold2的横空出世,为AI制药的烈火上添了一把干柴。2021年7月16日,DeepMind团队在Nature上公布了AlphaFold的源代码。一周后, 7月22日,DeepMind团队再次在Nature发表文章,发布了AlphaFold对人类蛋白质组的结构预测。预测信息将通过欧洲生物信息研究所(EMBL-EBI)托管的公用数据库免费向公众开放。“AlphaFold确定了覆盖几乎整个人类蛋白质组(98.5%的所有人类蛋白)的蛋白质的结构。”自此,生物医药研究进入到后AlphaFold时代,但是,对于AlphaFold在药物研发领域的影响,学术界有两派截然不同的看法:一派认为AlphaFold将为药物研发带来革命性变化,另一派则认为AlphaFold对药物研发中的“核心问题”帮助不大。今天,小编来讨论一下后AlphaFold时代的AI药物研发会有何变化。目前,AlphaFold至少在以下方面取得了药物专家的认可:1为罕见病的药物研发带来希望“月亮的孩子”、“瓷娃娃”、“蝴蝶宝贝”……你却不知道这背后的他们面临着怎样的人生,搜索一下,你会发现这些名字所代表的,是白化病、成骨不全症、大疱性表皮松懈症……由于回报率低、患者多为贫困人口等原因,这些疾病无法得到医药公司的重视,这类疾病被称为被忽视疾病。仅在中国,这类疾病的患者就达2000万以上。尽管被忽视疾病占了全球总疾病里的12%,但奈何只有仅仅1.1%的新研发药物,适用于被忽视的疾病。如今,AlphaFold为这类疾病的药物开发带来了希望,被忽视疾病药物组织的领导者Ben Perry指出:“全世界有数亿面临被忽视疾病风险的人,人工智能可以改变药物研发的游戏规则:通过快速准确地预测蛋白质结构,AlphaFold使几乎只集中在贫困人口中的疾病的药物研发成为可能。”AlphaFold能低成本的预测这些疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。当然,对于突发疾病,如突发的病毒流行病,AlphaFold也能快速解析病毒的蛋白结构,加速药物和疫苗的研发。2加速抗生素的研发科罗拉多大学的Marcelo Sousa教授介绍:“我们课题组在研究细菌耐药性的过程中,某些蛋白的结构困扰了我们10多年。AlphaFold的预测帮助我们解决了这个难题,并加速了我们对抗生素耐药性的研究,这些预测是如此精确,以至于我一开始都不敢相信。”3提高AI药物算法的精度毋庸置疑的是:AlphaFold预测的高质量蛋白质结构,会促进高效筛选化合物的新技术,从中药方剂中寻找有效成分的新方法,从大量人类蛋白中寻找药物结合靶点的新思路,针对临床优化候选药物的新流程,以及药物递送方法的优化等等。但是,AlphaFold能否解决大多数药物研发中的“核心问题”?根据Tufts Center的统计报告,开发一款成功上市的新药平均需要投入26亿美元。居高不下的成本,与药物研发的巨大失败率有关。过去十年,药物开发项目从1期临床到获得FDA批准上市的成功率平均为7.9%。从事药物研发的大多数人会对下面三个问题“痛彻心扉”,这也是药物研究人员真实的“恐怖经历”。读者可以思考AlphaFold在哪里会有所帮助。1. 选择正确的靶点我们最大的挑战之一就是“选择到错误的靶点”。我们有各种各样的化合物可以用于人体试验,但是最后根本没有办法通过临床测试——因为一开始对于疾病的假设或者研究思路就是错误的。几个简单的例子就可以说明问题:是什么原因导致了老年痴呆症?治疗败血性休克的最佳靶点是什么?帕金森病的根本病因是什么?严重抑郁症的分子生物学机制是什么?如果想逆转特定组织中的纤维化,我们该针对哪些蛋白?如果以上问题解决得不好,即使我们的药物进入II期临床试验,仍然会存在着重大的风险。可以看到老年痴呆症的所有临床测试几乎全部失败。因此,能够更好地选择与疾病真正相关的靶点将会是一个巨大的进步。不幸的是,现在我们似乎没有普遍解决该问题的方法,因为它需要我们对每种疾病有更加详细的了解。那么,AlphaFold能否帮助我们更好的了解疾病?Science子刊:为什么97%抗癌药研发都失败了?或许靶点找错了2. 开发更好的疾病模型开发更好的疾病模型是另一个重大挑战。老年痴呆症的动物模型相关的争论已经持续了数十年,原因在于——人类是唯一已知真正患有老年痴呆症的动物。动物模型可以告诉一些信息,但是在动物模型中有效却在人体试验中无效的药物数量实在是太多了,因此动物模型与真正的人类相比,显然缺少了一些关键的因素。疾病模型开发有时也会遇到“先有鸡,还是先有蛋?”的问题,因为在建立一个好的疾病模型之前,我们需要先对疾病有更多的了解才行。西湖大学郭天南指出:一切生命的表现形式,本质上都是蛋白质功能的体现。完整意义上的蛋白质组学,能够对疾病的发生、发展、转归等过程有一个全面的认识。AlphaFold对蛋白质组学的贡献,毋庸置疑可以促进我们对疾病的了解。糖尿病/肥胖动物模型3. 毒性预警系统另一个重大挑战是:我们需要有一个更好的临床实验“毒性预警系统”。由于意外的毒副作用,许多有前途的药物退出临床研究。测试药物毒性的动物模型非常有价值,但是动物模型不是全部,我们需要进入高风险的人体临床实验。如果我们可以稍微降低这一风险,影响将会是巨大的。一般的解决方案是开发高度模仿的人类生物系统,但现在来说这仍是一个难以实现的目标。AlphaFold让我们对人类蛋白有了3D模型,这也许可以帮助我们建立更好的人类生物模拟系统。以上三个都是药物开发过程中的重大问题。药物开发通常受到这些事情的玩弄。我们可以直接针对疾病靶标提供高效的、特异性强的的药物分子,但是在临床中往往会发现该化合物无效。对化合物或者生物分子的优化很难解决该问题—因为问题不仅仅在于药物分子本身。因此,当我们考虑AlphaFold是否能为新药开发带来革命性变化时,我们需要思考AlphaFold是否会真正影响上述问题。路漫漫其修远兮,吾将上下而求索。AI制药还有很长的路要走,创办DrugAI公众号之目的,在于启发中国千千万万的青年学子,投身到这一领域的发明创造中来。正如鲁迅所说:“愿中国青年,能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光。——不必等候Deepmind,此后如竟没有Deepmind,各位便是中国的AlphaDrug。“最后,我们以“计算机之父”、“人工智能之父”图灵的话结束今天的讨论:
本次报道论文为发表于PNAS的Understanding the role of individual units in a deep neural network。众所周知,深度神经网络擅长查找可解决大型数据集上负责任务的分层表示。人类如何理解这些学习到的表示,这是值得探究的问题。该文章是美国麻省理工学院的David Bau博士等人在该领域的研究成果:首先提出网络剖析方法来识别、可视化和量化深度神经网络中各个神经元的作用,接着剖析了在图像分类和图像生成两种不同类型的任务上训练的网络神经元,最后通过两个应用程序证明了方法的有用性。1介绍随着越来越复杂的神经网络框架的出现,许多人开始思考神经网络中每个神经元本身的作用究竟是什么?在最先进的深度网络中,研究者们已经观察到许多单个神经元与未教授给网络的人类可解释的概念相匹配:已发现神经元可以检测物体、区域、性别、语境、感情等。找到这样有实际意义的抽象概念是深度学习的主要目标之一,然而这类具有特定概念的神经元的出现以及在神经网络中的作用尚不明确。针对上述情况,文中开篇提出两个疑问:(1)如何量化跨网络层中概念神经元的出现?(2)这些概念神经元匹配哪些类型的概念,它们有什么功能? 当神经网络包括一个关于树的激活神经元时,研究者们希望了解它们的关联是虚假的还是具有逻辑的,这可以揭示网络如何对更高级别的树概念进行建模。为研究这些问题,作者引入了网络剖析模型,这是一种分析框架,可以系统地识别图像分类和图像生成网络中各个隐藏神经元的语义。首先,作者分析了一个经过场景分类训练的卷积神经网络(CNN),并发现与各种对象概念集相匹配的神经元。有证据表明网络已经学习了许多在场景分类中起着关键作用的对象类。其次,作者使用类似的分析方法来分析训练用于生成场景的生成对抗网络(GAN)模型。通过分析在激活或停用小组神经元时所做的改变,我们发现在适应环境的同时可以在输出场景中添加或删除对象。最后,作者将他们的分析框架应用于理解对抗性攻击和语义图像编辑。2研究成果2.1 场景分类器中物体检测器的出现首先,在景色分类任务训练时,研究人员对物体检测器对应的神经元进行了定义。具体来说,研究者对VGG-16结构的CNN网络进行了分析,而分类任务则使用了从MIT计算机科学和人工智能实验室风景识别数据库中提取的Places365数据集,将图像分为365个风景类别。作者分析了网络的13个卷积层内的所有神经元(图2-1 A)。如图2-1所示,(A) VGG-16由13个卷积层组成,conv1_1到conv5_3,然后是3个全连接层fc6、fc7、fc8。(B)在输入图像上的单个过滤器的激活可以可视化为过滤器激活超过其前1%分位数水平的区域,该区域对应图像中所有人的头部。(C)通过将高激活区域与一组人类可理解的视觉概念相匹配,为单个神经元评分;如图显示了几个标记的概念检测器神经元以及五个神经元激活程度最高的图像。(D) 列出了conv5_3层中每个分割的概念匹配神经元,不包括IoU 比率 <4%的神经元,显示了每个概念匹配神经元的频率。(E)比较网络的所有层,发现大多数目标探测器出现在最后的卷积层。(F) 显示了该神经元在飞机和非飞机图像网络的样本上的激活分布。在研究过程中,为了量化概念c和神经元u之间的关系,使用了IoU比率:这个IoU比率是在支持验证集图像集上进行计算的。2.2 场景分类器中神经元的角色作者在文中提出疑问:在上述的图像分类神经网络中如何使用物体检测神经元? 网络压缩的研究表明,在确保整体神经网络分类准确度的同时,可以通过重新训练消除许多神经元。估计单个神经元重要性的一种方法是研究删除该神经元对整体平均网络精度的影响。为更细致地了解网络中每个神经元的逻辑作用,作者评估在移除单个神经元时,神经网络对每个单独场景进行分类的能力的影响。移除神经元的方法是通过强制指定神经元输出为零并保持网络的其余部分完好无损。同时,网络并未被重新训练,作者采用在指定类与其它所有类之间做区分的分类任务,以此测试单类别的分类精度。在上图2-2 A中,当每个神经元从网络中单独移除时,四个 conv5_3 神经元对滑雪胜地的平衡分类精度造成的损害最大;剖析显示,这些最重要的神经元可以探测出滑雪场中突出的视觉概念。2-2 B则表明当对场景类别中最重要的神经元全部删除时,所有类别的分类精度下降到接近机会的水平。当conv5_3中的492个最不重要的神经元一起被删除(只留下20个最重要的神经元)时,精确度仍然很高。同时,作者发现神经元重要性和可解释性之间的关系,如图2-2 E;最可解释的神经元是那些对许多不同场景输出类别都很重要的神经元。仅对一类重要的神经元的可解释性较差,一般由IoU衡量。2.3 对抗生成网络中物体检测器的出现生成对抗网络 (GAN) 学习合成随机逼真图像,模拟训练集中真实图像的分布。在架构上,经过训练的 GAN 生成器与分类器相反,从随机输入的潜在向量生成逼真的图像。与分类不同,它是一种无监督的设置:没有向GAN提供人工注释,因此网络必须自己学习图像的结构。作者测试了经过训练以模仿LSUN厨房图像的渐进式GAN架构。该网络结构由15个卷积层组成。给定一个从多变量高斯分布采样出512维的向量,网络在处理 15 层数据后生成256*256的逼真图像,如下图2-3所示:在研究过程中,作者发现神经元并没有严格的对应于像素模式,如图2-3 E:当烤箱或椅子部件神经元被激活时,会生成烤箱和椅子的各种视觉外观。图2-3 F显示将对应于窗户的神经元314作为分类器进行测试时,平均而言,该神经元在包含大窗口的生成图像上比不包含大窗口的图像更强烈地激活。然而,并不完全是这样,图2-3 G则是举了些反例,在不激活神经元314的情况下生成包含大窗口的图像。2.4 对抗生成网络中神经元的角色神经元和生成的对象类之间的相关性是暗示性的,但它们并不能证明与对象类相关的神经元实际上会导致生成器渲染对象类的实例。为了更好地理解神经元在GAN生成器中的逻辑作用,作者测试了当神经元组被直接移除或激活时生成器的输出结果。首先,作者从在LSUN教堂场景上训练的渐进GAN中依次移除更大的树神经元集。我们根据IoUu,tree对第4层的神经元进行排序,以识别出最具树特异性的神经元。当这些树神经元的连续较大集从网络中移除时,GAN生成的图像树越来越少,越来越小(图2-4 A)。去掉20个最特定于树的神经元,测量超过10,000张随机生成的图像,发现生成的输出中树像素的数量减少了53.3%。3应用3.1 分析分类器的对抗性攻击图像分类器对对抗性攻击的敏感性是一个十分活跃的研究领域。为了可视化和理解攻击的工作原理,作者检查对重要对象检测器神经元的影响。在下图3-1 A中,正确分类的“滑雪胜地”图像被Carlini-Wagner优化方法攻击成“卧室”。对抗性算法计算一个微小的扰动,当该扰动添加到原始图像时,结果图像在肉眼完全无法和原图区别开的同时,被错误分类为了卧室。为了理解攻击是如何工作的,作者检查了滑雪胜地场景最重要的四个神经元和对卧室场景最重要的四个神经元。在图3-1 B中可视化了这些神经元在原始图像和对抗性图像之间的激活变化。这表明攻击通过减少对雪、山、房子和树物体的检测,并通过在图像中实际不存在这些对象的位置增加床、人头和沙发的检测器的激活来愚弄网络。3.2 使用GAN的语义绘制为了解网络中神经元的作用,作者创建一个人机界面,通过直接操纵神经元来控制网络。作者将此方法应用于GAN以创建交互式绘画应用程序,该应用程序不是使用调色板进行绘画,而是使用高层视觉概念画板。每个概念与20个神经元相关联,这些神经元概念u而言拥有最大比率IoUu,c。该应用通过操纵GAN神经元进行绘画。如上图3-2所示,(A)交互界面允许用户选择几个高级语义视觉概念并将它们绘制到图像上。每个概念对应于GAN中的20个神经元。(B)用户在指定位置添加圆顶后,结果是修改后的图像,其中已添加圆顶代替原始尖塔。在通过更改20个圆顶神经元来表达用户的高级意图后,生成器会自动处理如何将对象组合在一起以保持输出场景逼真的像素级细节。3总结展望为了更好地理解网络是如何工作的,作者提出了一种分析单个神经元的方法。在分类其中,神经元揭示了网络如何将特定场景类别的识别分解为对每个场景类别都很重要的特定视觉概念。此外,在生成器中,神经元的行为揭示场景中物体类间强制执行的环境适应关系。网络剖析依赖于在训练过程中出现的人类可理解的神经元,在最先进的有监督的和无监督的神经网络模型中都已经发现许多这种可解释的神经元。如何训练更好的解开模型是一个开放的问题,也是众多研究者持续努力的方向。作者得出的结论是,对单个神经元的系统分析可以洞察深层网络的黑盒子内部。通过观察和操作深层网络的神经元,就有可能理解网络所学习的知识的结构,并建立有助于人类与这些强大模型交互的系统。
2021年7月22日,DeepMind和欧洲生物信息学研究所(EMBL-EBI)联合发布了AlphaFold预测的蛋白质结构数据库,该数据库将会对生命科学和生物医药领域产生什么深远影响呢?我们来看看英国皇家学会院士Stephen Cusack等人的最新评论。作者Stephen Cusack, Sebastian Eustermann, Gerard Kleywegt, Jan Kosinski, Julia Mahamid, José Antonio Marquez, Christoph Müller, Thomas Schneider, Janet Thornton, Jessica Vamathevan, Sameer Velankar, Matthias Wilmanns在最新一期的Nature论文中,DeepMind和EMBL-EBI合作发布了数据库AlphaFold DataBase (AlphaFold DB),向社会免费提供AlphaFold结构预测结果。初始的AlphaFold DB涵盖了属于人类以及其他20个重要物种的大多数具有较大价值的蛋白质, 包含超过35万个不同的蛋白结构,并最终将增加到约1.3亿个三维结构(约为目前PDB数据库的700倍)未来的几个月里,AlphaFold DB将扩展到涵盖所有编码蛋白质的90%。这意味着对于UniProt数据库中的每一个蛋白序列,要么有一个实验确定的结构,要么有一个AlphaFold预测的结构,或者可以使用传统的结构预测技术根据PDB或AlphaFold DB中类似序列的模型来轻易地建立结构。这一发展代表了分子生物学的一个重要变化:几乎所有已知序列的蛋白质都将有一个高质量的三维模型可用。那么,AlphaFold DB将可能有哪些重要应用呢?我们来听听英国皇家学会院士Stephen Cusack等人的看法。背景多年以来,蛋白质结构一直是热门的研究话题,研究者使用核磁共振、X 射线、冷冻电镜等一系列实验技术来检测和确定蛋白质结构。但这些方法往往依赖大量试错和昂贵的设备,每种结构的研究都要花数年时间。1972 年,美国科学家 Christian Anfinsen 因“对核糖核酸酶的研究,特别是对其氨基酸序列与生物活性构象之间联系的研究”获得诺贝尔化学奖。在颁奖礼上,他提出了一个著名的假设:从理论上来说,蛋白质的氨基酸序列应该可以完全决定其结构。这一假设引发了长达五十年的探索,即仅仅基于蛋白质的一维氨基酸序列计算出其三维结构。2020年11 月 30 日,一条重磅消息引发了科技界所有人的关注:谷歌旗下人工智能技术公司 DeepMind 提出的深度学习算法「Alphafold」破解了出现五十年之久的蛋白质分子折叠(protein folding problem)问题。CASP14 组织者、年近七旬的 UC Davis 科学家 Andriy Kryshtafovych 在大会上感叹道,I wasn't sure that I would live long enough to see this(我活久见了)。预测方法的当前局限性尽管Alphafold取得了世人瞩目的进展,但其仍有局限性:许多蛋白质的功能是与其他蛋白质、核酸(DNA或RNA)或配体形成复合体。AlphaFold目前不能预测蛋白质-蛋白质或蛋白质-DNA/RNA/配体复合物的三维结构。某些情况下,单链预测的结果可能对应于复合物中采用的结构。大多数情况下,周围分子的背景缺失会导致复合物预测结果不可信。蛋白质是一个动态系统,根据其环境或功能周期内的状态而采取不同的结构。当一个蛋白质已知有多种构象时,AlphaFold通常只会预测其中一种。这使得蛋白质构象的动态预测仍然存在问题,而这对理解生物功能至关重要,这仍将是一个非常活跃的研究领域。对于那些内在无序或无结构的区域,AlphaFold的预测可信度很低,预测的结构会有一个延伸的、带状的外观。AlphaFold可以作为识别这类区域的工具,但预测结果并不说明不同构象的相对可能性(用生物物理学术语来说:它不是玻尔兹曼分布的一个样本)。AlphaFold还没有经过训练或验证来预测突变的影响。特别是,它不能捕捉到破坏蛋白质稳定性的点突变的影响。配体不包括在结构中,因此AlphaFold不能对实验结构中的非蛋白质成分(如金属、配体,包括药物类分子、离子、碳水化合物和其他翻译后修饰)进行预测。与实验测得的结构一样,预测的结构可以提供蛋白质功能的假设,但这种假设必须通过进一步的实验来检验。对科学界的影响 AlphaFold DB中的蛋白质结构预测将对分子结构生物学研究产生直接影响,从更长远的角度来看,将对科学、医学和最终的经济产生重大影响。这一变化将促进许多新领域的研究。结构生物学研究的机会结构生物学是分子生物学的一个分支,它利用三维结构信息(最好是原子分辨率)来回答生物学问题,例如解释蛋白质或复合物的功能。为此,结构生物学家通常需要确定同一蛋白质的多个结构,例如与配体、某些突变,或与其他大分子(包括其他蛋白质或核酸)的复合物。加速结构研究大规模地提供预测的三维模型可能会大大改变结构生物学研究的格局,某些情况下会加速结构分析。目前,PDB包含超过18万个条目,涵盖约5.5万个独特的蛋白质。PDB对蛋白质世界的有限覆盖(UniProt中约2.2亿个序列或MGnify中约6.25亿个序列)是许多生物学领域的一个障碍,包括结构生物学本身。预测模型可以强有力的帮助实验性的从头结构测定,即使是低质量或低分辨率的数据集。短期内,它将有助于帮助那些几年前就已经收集了实验数据,但至今仍无法解析的结构。这包括EMDB中超过5700张冷冻电镜图,这些图以前很难解析。虽然冷冻电镜是确定大型和灵活的蛋白质复合体和 "分子机器 "结构的主要方法之一。但是主要的和重要的复合物将不会被完全解析到高分辨率。预测模型可以帮助从低分辨率区域得到高质量的结构。填补蛋白质复合物的缺失AlphaFold DB将使研究复杂的生物系统成为可能,因为这些系统没有高分辨率或高质量的实验结构数据,同时,AlphaFold DB可以为大分子机器提供可能的机制解释。在没有蛋白质复合物的实验数据的情况下,可以用AlphaFold模型作为补充,产生有关结合点或相互作用表面的假设,然后设计实验,例如找出哪些配体(或配体的片段)可以结合。为蛋白质动力学模拟提供3D模型高质量的蛋白质三维模型是蛋白质动力学分析的前提。动力学分析可以帮助我们了解酶的催化机制,或结合配体后的构象变化。对大分子复合物进行建模冷冻电镜的快速发展使得利用原位实验研究生物环境中的大分子复合物成为可能。预测的模型可能有助于阐明在细胞内各种情况下与大分子复合物相互作用的蛋白质的身份。虽然AlphaFold DB总体上将加速结构生物学研究,但它也可能导致研究重点从最初的结构测定转移到对蛋白质结构的更多机制和功能方面的研究。同时,这也会导致对专门用于结构测定的大规模结构生物学基础设施进行客观的重新评估。结构预测的未来挑战 几十年来,从蛋白质的序列中准确预测其三维原子结构(或折叠)一直是生物学的 "圣杯",全球都在为之付出大量的研究努力。AlphaFold在CASP14中的成功构成了这个领域的一个变化。迈向预测的新挑战对蛋白质折叠问题的解决,可能会使结构预测研究者的重点转向新的方向,如预测复合物的结构,预测药物与蛋白质的相互作用。深度学习技术可能成为未来发展的主流,应用于这些新挑战。其中一个挑战是研究蛋白质中的内在无序和移动区域,这些区域在功能上很重要,在不同的情况下可能会有不同的结构,例如在与其它蛋白相互作用时。据预测,人类蛋白质组中约有三分之一含有内在无序区,预测方法的进步将推动其研究。深度学习技术也可应用于其它类似问题,例如预测RNA分子的三维结构。拥有更多的方法从序列中预测结构通过一些公共资源(SWISS-MODEL、AlphaFold DB、Genome3D等),整个生命科学界可以免费获得来自PDB的实验确定的结构模型和通过各种方法产生的预测模型。3D-Beacons是一个用于注册和定位此类模型的门户网站,由一个联盟创建,该联盟开发了使用分布式架构(即没有一个网站托管所有数据)访问结构-模型数据的标准。这使得使用通用的、标准化的应用编程接口(API)以编程方式访问三维模型成为可能,进一步促进了这些模型的使用。AlphaFold DB将很快为UniRef90集群的所有参考序列提供预测模型,其中每个序列与该集群的其他成员至少有90%的序列相同。这一发展强调了像CASP这样的社区驱动计划在推动研究工作和工具开发方面的重要性。其他这样的努力(例如,评估复合物结构预测方法的CAPRI)继续发挥着这样的作用,使计算结构生物学成为一个丰富的研究领域。AlphaFold的突破可能会导致这一领域的工作重心重新调整,从预测单个蛋白质结构转向目前仍然具有挑战性的问题,如预测多域蛋白质和复合物的结构,评估预测的准确性和质量指标。结构生物信息学研究的机遇以前所未有的规模提供预测的三维模型,为结构生物信息学家提供了一个名副其实的数据宝库,供其利用、分析和挖掘。促进科学发现工具的发展预计将开发新的方法来分析这些结构模型的规模,例如,将AlphaFold模型与已知的实验结构进行比较,寻找实验中尚未观察到的折叠,结构域的进化分析,检测活性部位的明显收敛进化的实例等。AlphaFold DB将促进对蛋白质结构的进化和结构与功能的关系的研究,为新功能的工程化和加速合成生物学应用提供线索。大规模的结构数据也将有助于研究预测序列变化和配体结合的影响的计算方法,以及分析蛋白质结构的构象状态和动态。开发用于结构可视化和解释的新工具随着AlphaFold模型的出现,他们的用户将需要接受培训,了解如何批判性地评估和使用这些结构,并理解使用预测模型进行解释的局限性。表达和可视化结构、它们的动态和相互作用的需要,以及让分子生物学家理解它们的可靠性和重要性,将是对结构生物信息学家的一个重大挑战,他们需要开发具有适当用户界面的软件工具。完善功能预测的工具结构生物信息学家已经投入时间开发工具,利用PDB中有限的实验确定的结构来注释基因组(如结构域分配),这可以帮助建议未知功能的蛋白质的功能分配。现在可以通过使用更大的训练集来提高这些工具的性能。为更广泛的生命科学界提供机会当一个高质量的蛋白质的三维模型出现时,以前的实验观察往往可以被解释,并根据结构模型提出新的可测试的假设,比如解释为什么一个突变是有害的,或者一个蛋白质如何与另一个蛋白质相互作用等等。药物发现中,使用三维模型可以帮助理解为什么某种药物是抑制剂,或者为什么某些蛋白质是 "可药靶点 ",某些蛋白质不能作为靶点。这些模型将加速确定新的候选药物甚至是药物靶标的研究工作,预测出的三维模型开始帮助寻找可与药物结合的部位,启动结构测定,设计定向配体或片段筛选等。虚拟筛选技术也可以为老药的新用途提出建议,以便作用于以前没有结构的靶标。展望未来AlphaFold DB是一个巨大的蛋白质结构资源,它的出现也许可以与20年前人类基因组计划的完成相提并论,它使生物医学研究取得了实质性的进展,也为新的未预见的方向打开了大门。这些模型将为与健康和疾病有关的基本过程提供新的见解和理解,并应用于生物技术、医学、农业、食品科学和生物工程。可能需要一二十年的时间才能正确评估这一发展的全部影响(科学、医学和经济)。与科学或技术的阶梯式变化一样,目前的一些科学活动将不得不面临改变,但也会产生大量新的和令人兴奋的机会、应用和衍生产品,其中许多是我们今天甚至无法预见的。结构生物学和一般的生物学将不再相同,我们迫不及待地想看到这些新发展的影响--这将是一个令人振奋的经历 。人工智能作为科学工具AlphaFold已经证明了人工智能在蛋白质结构预测方面的能力。它补充了现有的方法并揭示了新的见解,但并没有取代确定结构的实验方法。这项工作是一个可能的典范--很明显,人工智能将在更广泛的科学研究中找到许多这样的应用。
Qiskit简介Qiskit [quiss-kit] is an open-source SDK for working with quantum computers at the level of pulses, circuits, and application modules.IBM量子体验(Quantum Experience)团队已将量子计算软件Qiskit开源,根据量子计算和信息科学家Jay Gambetta的介绍,Qiskit可供开发者使用Python体验IBM的云端量子处理器。Qiskit 是一个开源软件,用于在电路(circuits)、脉冲(pulses)和算法(algorithms)级别使用量子计算机。此外,在此核心模块之上还存在几个特定于领域的应用程序 API。Qiskit 的核心目标是构建一个软件堆栈,让任何人都可以轻松使用量子计算机,无论他们的技能水平或感兴趣的领域如何;Qiskit 允许人们轻松设计实验和应用程序,并在真正的量子计算机和/或经典模拟器上运行它们。Qiskit 已经在世界各地被初学者、业余爱好者、教育工作者、研究人员和商业公司使用。Qiskit官方网站https://qiskit.org/Qiskit官方GitHubhttps://github.com/Qiskithttps://github.com/Qiskit/qiskitQiskit安装pip install qiskit
Psi4简介Psi4 是一套开源的ab initio量子化学程序,专为高效、高精度地模拟分子特性而设计。我们经常在多核机器上执行超过 2500 个基函数的计算。凭借用 C++ 编写的计算要求高的部分,通过 Pybind11 将许多 C++ 类导出到 Python 中,以及灵活的 Python 驱动程序,Psi4 努力对用户和开发人员都友好。Psi4官方网站https://psicode.org/Psi4官方GitHubhttps://github.com/psi4https://github.com/psi4/psi4引用 Psi4The journal article reference describing Psi4 is:D. G. A. Smith, L. A. Burns, A. C. Simmonett, R. M. Parrish, M. C. Schieber, R. Galvelis, P. Kraus, H. Kruse, R. Di Remigio, A. Alenaizan, A. M. James, S. Lehtola, J. P. Misiewicz, M. Scheurer, R. A. Shaw, J. B. Schriber, Y. Xie, Z. L. Glick, D. A. Sirianni, J. S. O'Brien, J. M. Waldrop, A. Kumar, E. G. Hohenstein, B. P. Pritchard, B. R. Brooks, H. F. Schaefer III, A. Yu. Sokolov, K. Patkowski, A. E. DePrince III, U. Bozkaya, R. A. King, F. A. Evangelista, J. M. Turney, T. D. Crawford, C. D. Sherrill, "Psi4 1.4: Open-Source Software for High-Throughput Quantum Chemistry", J. Chem. Phys. 152(18) 184108 (2020).
PySCF基于 Python 的化学模拟框架 (PySCF) 是由 Python 提供支持的电子结构模块的开源集合。该软件包为量子化学计算和方法开发提供了一个简单、轻量且高效的平台。PySCF 可用于使用平均场和后平均场方法模拟分子、晶体和自定义哈密顿量的属性。为了确保易于扩展,PySCF 中的几乎所有功能都用 Python 实现,而计算关键部分则用 C 实现和优化。使用这种组合的 Python/C 实现,该包与现有的最佳 C 或基于 Fortran量子化学程序。除了核心库之外,PySCF 还支持丰富的扩展模块生态系统。PySCF官方网站https://pyscf.orgPySCF官方GitHubhttps://github.com/pyscfhttps://github.com/pyscf/pyscfPySCF安装pip 安装 PySCFpip install pyscf pip install --upgrade pyscf从PySCF 2.0版本开始,部分模块是独立开发的;pip install pyscf[geomopt] pip install pyscf[all]conda 安装 PySCFconda install -c pyscf pyscf引用 PySCFThe following paper should be cited in publications utilizing the PySCF program package:PySCF: the Python‐based simulations of chemistry framework, Q. Sun, T. C. Berkelbach, N. S. Blunt, G. H. Booth, S. Guo, Z. Li, J. Liu, J. McClain, E. R. Sayfutyarova, S. Sharma, S. Wouters, G. K.-L. Chan (2018), WIREs Comput. Mol. Sci., 8: e1340. doi:10.1002/wcms.1340Recent developments in the PySCF program package, Qiming Sun, Xing Zhang, Samragni Banerjee, Peng Bao, Marc Barbry, Nick S. Blunt, Nikolay A. Bogdanov, George H. Booth, Jia Chen, Zhi-Hao Cui, Janus J. Eriksen, Yang Gao, Sheng Guo, Jan Hermann, Matthew R. Hermes, Kevin Koh, Peter Koval, Susi Lehtola, Zhendong Li, Junzi Liu, Narbe Mardirossian, James D. McClain, Mario Motta, Bastien Mussard, Hung Q. Pham, Artem Pulkin, Wirawan Purwanto, Paul J. Robinson, Enrico Ronca, Elvira R. Sayfutyarova, Maximilian Scheurer, Henry F. Schurkus, James E. T. Smith, Chong Sun, Shi-Ning Sun, Shiv Upadhyay, Lucas K. Wagner, Xiao Wang, Alec White, James Daniel Whitfield, Mark J. Williamson, Sebastian Wouters, Jun Yang, Jason M. Yu, Tianyu Zhu, Timothy C. Berkelbach, Sandeep Sharma, Alexander Yu. Sokolov, and Garnet Kin-Lic Chan, J. Chem. Phys., 153, 024109 (2020). doi:10.1063/5.0006074
自我监督学习已成为AI社区中令人兴奋的方向。Jitendra Malik: "Supervision is the opium of the AI researcher"Alyosha Efros: "The AI revolution will not be supervised"Yann LeCun: "self-supervised learning is the cake, supervised learning is the icing on the cake, reinforcement learning is the cherry on the cake"计算机视觉(Computer Vision)SurveyA Survey on Contrastive Self-supervised Learning [pdf]Ashish Jaiswal, Ashwin R Babu, Mohammad Z Zadeh, Debapriya Banerjee, Fillia MakedonSelf-supervised Visual Feature Learning with Deep Neural Networks: A Survey. [pdf]Longlong Jing and Yingli Tian. T-PAMI 2020Self-supervised Learning: Generative or Contrastive [pdf]Xiao Liu, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, Jie Tang.图像表示学习(Image Representation Learning)Benchmark codeFAIR Self-Supervision Benchmark [repo]: various benchmark (and legacy) tasks for evaluating quality of visual representations learned by various self-supervision approaches.2015Unsupervised Visual Representation Learning by Context Prediction. [pdf] [code]Doersch, Carl and Gupta, Abhinav and Efros, Alexei A. ICCV 2015Unsupervised Learning of Visual Representations using Videos. [pdf] [code]Wang, Xiaolong and Gupta, Abhinav. ICCV 2015Learning to See by Moving. [pdf] [code]Agrawal, Pulkit and Carreira, Joao and Malik, Jitendra. ICCV 2015Learning image representations tied to ego-motion. [pdf] [code]Jayaraman, Dinesh and Grauman, Kristen. ICCV 20152016Joint Unsupervised Learning of Deep Representations and Image Clusters. [pdf] [code-torch] [code-caffe]Jianwei Yang, Devi Parikh, Dhruv Batra. CVPR 2016Unsupervised Deep Embedding for Clustering Analysis. [pdf] [code]Junyuan Xie, Ross Girshick, and Ali Farhadi. ICML 2016Slow and steady feature analysis: higher order temporal coherence in video. [pdf]Jayaraman, Dinesh and Grauman, Kristen. CVPR 2016Context Encoders: Feature Learning by Inpainting. [pdf] [code]Pathak, Deepak and Krahenbuhl, Philipp and Donahue, Jeff and Darrell, Trevor and Efros, Alexei A. CVPR 2016Colorful Image Colorization. [pdf] [code]Zhang, Richard and Isola, Phillip and Efros, Alexei A. ECCV 2016Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles. [pdf] [code]Noroozi, Mehdi and Favaro, Paolo. ECCV 2016Ambient Sound Provides Supervision for Visual Learning. [pdf] [code]Owens, Andrew and Wu, Jiajun and McDermott, Josh and Freeman, William and Torralba, Antonio. ECCV 2016Learning Representations for Automatic Colorization. [pdf] [code]Larsson, Gustav and Maire, Michael and Shakhnarovich, Gregory. ECCV 2016Unsupervised Visual Representation Learning by Graph-based Consistent Constraints. [pdf] [code]Li, Dong and Hung, Wei-Chih and Huang, Jia-Bin and Wang, Shengjin and Ahuja, Narendra and Yang, Ming-Hsuan. ECCV 20162017Adversarial Feature Learning. [pdf] [code]Donahue, Jeff and Krahenbuhl, Philipp and Darrell, Trevor. ICLR 2017Self-supervised learning of visual features through embedding images into text topic spaces. [pdf] [code]L. Gomez* and Y. Patel* and M. Rusiñol and D. Karatzas and C.V. Jawahar. CVPR 2017Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction. [pdf] [code]Zhang, Richard and Isola, Phillip and Efros, Alexei A. CVPR 2017Learning Features by Watching Objects Move. [pdf] [code]Pathak, Deepak and Girshick, Ross and Dollar, Piotr and Darrell, Trevor and Hariharan, Bharath. CVPR 2017Colorization as a Proxy Task for Visual Understanding. [pdf] [code]Larsson, Gustav and Maire, Michael and Shakhnarovich, Gregory. CVPR 2017DeepPermNet: Visual Permutation Learning. [pdf] [code]Cruz, Rodrigo Santa and Fernando, Basura and Cherian, Anoop and Gould, Stephen. CVPR 2017Unsupervised Learning by Predicting Noise. [pdf] [code]Bojanowski, Piotr and Joulin, Armand. ICML 2017Multi-task Self-Supervised Visual Learning. [pdf]Doersch, Carl and Zisserman, Andrew. ICCV 2017Representation Learning by Learning to Count. [pdf]Noroozi, Mehdi and Pirsiavash, Hamed and Favaro, Paolo. ICCV 2017Transitive Invariance for Self-supervised Visual Representation Learning. [pdf]Wang, Xiaolong and He, Kaiming and Gupta, Abhinav. ICCV 2017Look, Listen and Learn. [pdf]Relja, Arandjelovic and Zisserman, Andrew. ICCV 2017Unsupervised Representation Learning by Sorting Sequences. [pdf] [code]Hsin-Ying Lee, Jia-Bin Huang, Maneesh Kumar Singh, and Ming-Hsuan Yang. ICCV 20172018Unsupervised Feature Learning via Non-parameteric Instance Discrimination [pdf] [code]Zhirong Wu, Yuanjun Xiong and X Yu Stella and Dahua Lin. CVPR 2018Learning Image Representations by Completing Damaged Jigsaw Puzzles. [pdf] [code]Kim, Dahun and Cho, Donghyeon and Yoo, Donggeun and Kweon, In So. WACV 2018Unsupervised Representation Learning by Predicting Image Rotations. [pdf] [code]Spyros Gidaris and Praveer Singh and Nikos Komodakis. ICLR 2018Learning Latent Representations in Neural Networks for Clustering through Pseudo Supervision and Graph-based Activity Regularization. [pdf] [code]Ozsel Kilinc and Ismail Uysal. ICLR 2018Improvements to context based self-supervised learning. [pdf]Terrell Mundhenk and Daniel Ho and Barry Chen. CVPR 2018Self-Supervised Feature Learning by Learning to Spot Artifacts. [pdf] [code]Simon Jenni and Universität Bern and Paolo Favaro. CVPR 2018Boosting Self-Supervised Learning via Knowledge Transfer. [pdf]Mehdi Noroozi and Ananth Vinjimoor and Paolo Favaro and Hamed Pirsiavash. CVPR 2018Cross-domain Self-supervised Multi-task Feature Learning Using Synthetic Imagery. [pdf] [code]Zhongzheng Ren and Yong Jae Lee. CVPR 2018ShapeCodes: Self-Supervised Feature Learning by Lifting Views to Viewgrids. [pdf]Dinesh Jayaraman*, UC Berkeley; Ruohan Gao, University of Texas at Austin; Kristen Grauman. ECCV 2018Deep Clustering for Unsupervised Learning of Visual Features [pdf] [code]Mathilde Caron, Piotr Bojanowski, Armand Joulin, Matthijs Douze. ECCV 2018Cross Pixel Optical-Flow Similarity for Self-Supervised Learning. [pdf]Aravindh Mahendran, James Thewlis, Andrea Vedaldi. ACCV 20182019Representation Learning with Contrastive Predictive Coding. [pdf]Aaron van den Oord, Yazhe Li, Oriol Vinyals.Self-Supervised Learning via Conditional Motion Propagation. [pdf] [code]Xiaohang Zhan, Xingang Pan, Ziwei Liu, Dahua Lin, and Chen Change Loy. CVPR 2019Self-Supervised Representation Learning by Rotation Feature Decoupling. [pdf] [code]Zeyu Feng; Chang Xu; Dacheng Tao. CVPR 2019Revisiting Self-Supervised Visual Representation Learning. [pdf] [code]Alexander Kolesnikov; Xiaohua Zhai; Lucas Beye. CVPR 2019Self-Supervised GANs via Auxiliary Rotation Loss. [pdf] [code]Ting Chen; Xiaohua Zhai; Marvin Ritter; Mario Lucic; Neil Houlsby. CVPR 2019AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data. [pdf] [code]Liheng Zhang, Guo-Jun Qi, Liqiang Wang, Jiebo Luo. CVPR 2019Unsupervised Deep Learning by Neighbourhood Discovery. [pdf]. [code].Jiabo Huang, Qi Dong, Shaogang Gong, Xiatian Zhu. ICML 2019Contrastive Multiview Coding. [pdf] [code]Yonglong Tian and Dilip Krishnan and Phillip Isola.Large Scale Adversarial Representation Learning. [pdf]Jeff Donahue, Karen Simonyan.Learning Representations by Maximizing Mutual Information Across Views. [pdf] [code]Philip Bachman, R Devon Hjelm, William BuchwalterSelfie: Self-supervised Pretraining for Image Embedding. [pdf]Trieu H. Trinh, Minh-Thang Luong, Quoc V. LeData-Efficient Image Recognition with Contrastive Predictive Coding [pdf]Olivier J. He ́naff, Ali Razavi, Carl Doersch, S. M. Ali Eslami, Aaron van den OordUsing Self-Supervised Learning Can Improve Model Robustness and Uncertainty [pdf] [code]Dan Hendrycks, Mantas Mazeika, Saurav Kadavath, Dawn Song. NeurIPS 2019Boosting Few-Shot Visual Learning with Self-Supervision [pdf]Pyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick Pérez, and Matthieu Cord. ICCV 2019Self-Supervised Generalisation with Meta Auxiliary Learning [pdf] [code]Shikun Liu, Andrew J. Davison, Edward Johns. NeurIPS 2019Wasserstein Dependency Measure for Representation Learning [pdf] [code]Sherjil Ozair, Corey Lynch, Yoshua Bengio, Aaron van den Oord, Sergey Levine, Pierre Sermanet. NeurIPS 2019Scaling and Benchmarking Self-Supervised Visual Representation Learning [pdf] [code]Priya Goyal, Dhruv Mahajan, Abhinav Gupta, Ishan Misra. ICCV 2019Unsupervised Pre-Training of Image Features on Non-Curated Data [pdf] [code]Mathilde Caron, Piotr Bojanowski, Julien Mairal, Armand Joulin. ICCV 2019 OralS4L: Self-Supervised Semi-Supervised Learning [pdf] [code]Xiaohua Zhai, Avital Oliver, Alexander Kolesnikov, Lucas Beyer. ICCV 2019Self-supervised model adaptation for multimodal semantic segmentation. [pdf] [code]Abhinav Valada, Rohit Mohan, and Wolfram Burgard. IJCV 20192020A critical analysis of self-supervision, or what we can learn from a single image [pdf] [code]Yuki M. Asano, Christian Rupprecht, Andrea Vedaldi. ICLR 2020On Mutual Information Maximization for Representation Learning [pdf] [code]Michael Tschannen, Josip Djolonga, Paul K. Rubenstein, Sylvain Gelly, Mario Lucic. ICLR 2020Understanding the Limitations of Variational Mutual Information Estimators [pdf] [code]Jiaming Song, Stefano Ermon. ICLR 2020Self-labelling via simultaneous clustering and representation learning [pdf] [blogpost] [code]Yuki Markus Asano, Christian Rupprecht, Andrea Vedaldi. ICLR 2020 (Spotlight)Self-supervised Label Augmentation via Input Transformations [pdf] [code]Hankook Lee, Sung Ju Hwang, Jinwoo Shin. ICML 2020Automatic Shortcut Removal for Self-Supervised Representation Learning [pdf]Matthias Minderer, Olivier Bachem, Neil Houlsby, Michael TschannenA Simple Framework for Contrastive Learning of Visual Representations [pdf] [code]Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton. ICML 2020How Useful is Self-Supervised Pretraining for Visual Tasks? [pdf] [code]Alejandro Newell, Jia Deng. CVPR 2020Momentum Contrast for Unsupervised Visual Representation Learning [pdf] [code]Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, Ross Girshick. CVPR 2020ClusterFit: Improving Generalization of Visual Representations [pdf]Xueting Yan*, Ishan Misra*, Abhinav Gupta, Deepti Ghadiyaram**, Dhruv Mahajan**. CVPR 2020Self-Supervised Learning of Pretext-Invariant Representations [pdf]Ishan Misra, Laurens van der Maaten. CVPR 2020Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning [pdf] [unofficial-code]Jean-Bastien Grill, Florian Strub, Florent Altché, Corentin Tallec, Pierre H. Richemond, Elena Buchatskaya, Carl Doersch, Bernardo Avila Pires, Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Bilal Piot, Koray Kavukcuoglu, Rémi Munos, Michal Valko. NeurIPS 2020, OralBig Self-Supervised Models are Strong Semi-Supervised Learners [pdf] [code]Ting Chen, Simon Kornblith, Kevin Swersky, Mohammad Norouzi, Geoffrey Hinton. NeurIPS 2020Self-Supervised Prototypical Transfer Learning for Few-Shot Classification [pdf] [code]Carlos Medina, Arnout Devos, Matthias GrossglauserSCAN: Learning to Classify Images without Labels [pdf] [code]Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, Marc Proesmans, Luc Van Gool. ECCV 2020Unsupervised Learning of Visual Features by Contrasting Cluster Assignments [pdf] [code]Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, Armand Joulin. NeurIPS 2020Self-Supervised Relational Reasoning for Representation Learning [pdf] [code]Massimiliano Patacchiola, Amos Storkey. NeurIPS 2020, SpotlightExploring Simple Siamese Representation Learning [pdf] [unofficial-code]Xinlei Chen, Kaiming HeOnline Bag-of-Visual-Words Generation for Unsupervised Representation Learning [pdf] [code]Spyros Gidaris, Andrei Bursuc, Gilles Puy, Nikos Komodakis, Matthieu Cord, Patrick Pérez2021Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning [pdf] [code]Zhenda Xie, Yutong Lin, Zheng Zhang, Yue Cao, Stephen Lin, and Han Hu. CVPR 2021视频表示学习(Video Representation Learning)Unsupervised Learning of Video Representations using LSTMs. [pdf] [code]Srivastava, Nitish and Mansimov, Elman and Salakhudinov, Ruslan. ICML 2015Shuffle and Learn: Unsupervised Learning using Temporal Order Verification. [pdf] [code]Ishan Misra, C. Lawrence Zitnick and Martial Hebert. ECCV 2016LSTM Self-Supervision for Detailed Behavior Analysis [pdf]Biagio Brattoli*, Uta Büchler*, Anna-Sophia Wahl, Martin E. Schwab, and Björn Ommer. CVPR 2017Self-Supervised Video Representation Learning With Odd-One-Out Networks. [pdf]Basura Fernando and Hakan Bilen and Efstratios Gavves and Stephen Gould. CVPR 2017Unsupervised Learning of Long-Term Motion Dynamics for Videos. [pdf]Luo, Zelun and Peng, Boya and Huang, De-An and Alahi, Alexandre and Fei-Fei, Li. CVPR 2017Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation Learning. [pdf]Chuang Gan and Boqing Gong and Kun Liu and Hao Su and Leonidas J. Guibas. CVPR 2018Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning. [pdf]Biagio Brattoli*, Uta Büchler*, and Björn Ommer. ECCV 2018Self-supervised learning of a facial attribute embedding from video. [pdf]Wiles, O., Koepke, A.S., Zisserman, A. BMVC 2018Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles. [pdf]Kim, Dahun and Cho, Donghyeon and Yoo, Donggeun and Kweon, In So. AAAI 2019Self-Supervised Spatio-Temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics. [pdf]Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu. CVPR 2019DynamoNet: Dynamic Action and Motion Network. [pdf]Ali Diba; Vivek Sharma, Luc Van Gool, Rainer Stiefelhagen. ICCV 2019Learning Correspondence from the Cycle-consistency of Time. [pdf] [code]Xiaolong Wang*, Allan Jabri* and Alexei A. Efros. CVPR 2019Joint-task Self-supervised Learning for Temporal Correspondence. [pdf] [code]Xueting Li*, Sifei Liu*, Shalini De Mello, Xiaolong Wang, Jan Kautz, and Ming-Hsuan Yang. NIPS 2019Self-Supervised Video Representation Learning Using Inter-Intra Contrstive Framework [pdf] [code]Li Tao, Xueting Wang*, Toshihiko Yamasaki. ACMMM 2020Video Playback Rate Perception for Self-Supervised Spatio-Temporal Representation Learning [pdf] [Code]Yuan Yao*, Chang Liu*, Dezhao Luo, Yu Zhou, Qixiang Ye. CVPR 2020Self-Supervised Video Representation Learning by Pace Prediction [pdf] [code]Jiangliu Wang, Jianbo Jiao, Yun-Hui Liu. ECCV 2020Video Representation Learning by Recognizing Temporal Transformations [pdf] [code]Simon Jenni, Givi Meishvili, Paolo Favaro. ECCV 2020Self-supervised Co-training for Video Representation Learning [pdf] [code]Tengda Han, Weidi Xie, and Andrew Zisserman. NeurIPS 2020Cycle-Contrast for Self-Supervised Video Representation Learning [pdf]Quan Kong, Wenpeng Wei, Ziwei Deng, Tomoaki Yoshinaga, and Tomokazu Murakami. NeurIPS 2020Video Representation Learning with Visual Tempo Consistency [pdf] [code]Ceyuan Yang, Yinghao Xu, Bo Dai, and Bolei ZhouSelf-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [pdf]Jiangliu Wang, Jianbo Jiao, Linchao Bao, Shengfeng He, Wei Liu, and Yun-hui LiuSpatiotemporal Contrastive Video Representation Learning [pdf]Rui Qian, Tianjian Meng, Boqing Gong, Ming-Hsuan Yang, Huisheng Wang, Serge Belongie, and Yin CuiSelf-Supervised Video Representation Using Pretext-Contrastive Learning [pdf]Li Tao, Xueting Wang, and Toshihiko YamasakiUnsupervised Video Representation Learning by Bidirectional Feature Prediction [pdf]Nadine Behrmann, Juergen Gall, and Mehdi NorooziRSPNet: Relative Speed Perception for Unsupervised Video Representation Learning [pdf]Peihao Chen, Deng Huang, Dongliang He, Xiang Long, Runhao Zeng, Shilei Wen, Mingkui Tan, and Chuang GanHierarchically Decoupled Spatial-Temporal Contrast for Self-supervised Video Representation Learning [pdf]Zehua Zhang and David CrandallCan Temporal Information Help with Contrastive Self-Supervised Learning? [pdf]Yutong Bai, Haoqi Fan, Ishan Misra, Ganesh Venkatesh, Yongyi Lu, Yuyin Zhou, Qihang Yu, Vikas Chandra, and Alan YuilleEnhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion [pdf] [code]Jinpeng Wang, Yuting Gao, Ke Li, Jianguo Hu, Xinyang Jiang, Xiaowei Guo, Rongrong Ji, and Xing Sun. AAAI 2021Space-Time Correspondence as a Contrastive Random Walk [pdf] [code] [project]Allan Jabri, Andrew Owens, Alexei A. Efros. NeurIPS 2020 OralGeometryUnsupervised CNN for Single View Depth Estimation: Geometry to the Rescue. [pdf] [code]Ravi Garg, Vijay Kumar BG, Gustavo Carneiro, Ian Reid. ECCV 2016Self-supervised Learning of Motion Capture. [pdf] [code] [web]Tung, Hsiao-Yu and Tung, Hsiao-Wei and Yumer, Ersin and Fragkiadaki, Katerina. NIPS 2017Unsupervised learning of object frames by dense equivariant image labelling. [pdf]James Thewlis, Hakan Bilen, Andrea Vedaldi. NeurIPS 2017Unsupervised Learning of Depth and Ego-Motion from Video. [pdf] [code] [web]Zhou, Tinghui and Brown, Matthew and Snavely, Noah and Lowe, David G. CVPR 2017Active Stereo Net: End-to-End Self-Supervised Learning for Active Stereo Systems. [project]Yinda Zhang*, Sean Fanello, Sameh Khamis, Christoph Rhemann, Julien Valentin, Adarsh Kowdle, Vladimir Tankovich, Shahram Izadi, Thomas Funkhouser. ECCV 2018Self-Supervised Relative Depth Learning for Urban Scene Understanding. [pdf] [project]Huaizu Jiang*, Erik Learned-Miller, Gustav Larsson, Michael Maire, Greg Shakhnarovich. ECCV 2018Geometry-Aware Learning of Maps for Camera Localization. [pdf] [code]Samarth Brahmbhatt, Jinwei Gu, Kihwan Kim, James Hays, and Jan Kautz. CVPR 2018Self-supervised Learning of Geometrically Stable Features Through Probabilistic Introspection. [pdf] [web]David Novotny, Samuel Albanie, Diane Larlus, Andrea Vedaldi. CVPR 2018Self-Supervised Learning of 3D Human Pose Using Multi-View Geometry. [pdf]Muhammed Kocabas; Salih Karagoz; Emre Akbas. CVPR 2019SelFlow: Self-Supervised Learning of Optical Flow. [pdf]Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu. CVPR 2019Unsupervised Learning of Landmarks by Descriptor Vector Exchange. [pdf] [code] [web]James Thewlis, Samuel Albanie, Hakan Bilen, Andrea Vedaldi. ICCV 2019AudioAudio-Visual Scene Analysis with Self-Supervised Multisensory Features. [pdf] [code]Andrew Owens, Alexei A. Efros. ECCV 2018Objects that Sound. [pdf]R. Arandjelović, A. Zisserman. ECCV 2018Learning to Separate Object Sounds by Watching Unlabeled Video. [pdf] [project]Ruohan Gao, Rogerio Feris, Kristen Grauman. ECCV 2018The Sound of Pixels. [pdf] [project]Zhao, Hang and Gan, Chuang and Rouditchenko, Andrew and Vondrick, Carl and McDermott, Josh and Torralba, Antonio. ECCV 2018Learnable PINs: Cross-Modal Embeddings for Person Identity. [pdf] [web]Arsha Nagrani, Samuel Albanie, Andrew Zisserman. ECCV 2018Cooperative Learning of Audio and Video Models from Self-Supervised Synchronization. [pdf]Bruno Korbar,Dartmouth College, Du Tran, Lorenzo Torresani. NIPS 2018Self-Supervised Generation of Spatial Audio for 360° Video. [pdf]Pedro Morgado, Nuno Nvasconcelos, Timothy Langlois, Oliver Wang. NIPS 2018TriCycle: Audio Representation Learning from Sensor Network Data Using Self-Supervision [pdf]Mark Cartwright, Jason Cramer, Justin Salamon, Juan Pablo Bello. WASPAA 2019Self-supervised audio-visual co-segmentation [pdf]Andrew Rouditchenko, Hang Zhao, Chuang Gan, Josh McDermott, and Antonio Torralba. ICASSP 2019Does Visual Self-Supervision Improve Learning of Speech Representations? [pdf]Abhinav Shukla, Stavros Petridis, Maja PanticOthersSelf-learning Scene-specific Pedestrian Detectors using a Progressive Latent Model. [pdf]Qixiang Ye, Tianliang Zhang, Qiang Qiu, Baochang Zhang, Jie Chen, Guillermo Sapiro. CVPR 2017Free Supervision from Video Games. [pdf] [project+code]Philipp Krähenbühl. CVPR 2018Fighting Fake News: Image Splice Detection via Learned Self-Consistency [pdf] [code]Minyoung Huh*, Andrew Liu*, Andrew Owens, Alexei A. Efros. ECCV 2018Self-supervised Tracking by Colorization (Tracking Emerges by Colorizing Videos). [pdf]Carl Vondrick*, Abhinav Shrivastava, Alireza Fathi, Sergio Guadarrama, Kevin Murphy. ECCV 2018High-Fidelity Image Generation With Fewer Labels. [pdf]Mario Lucic*, Michael Tschannen*, Marvin Ritter*, Xiaohua Zhai, Olivier Bachem, Sylvain Gelly.Self-supervised Fitting of Articulated Meshes to Point Clouds.Chun-Liang Li, Tomas Simon, Jason Saragih, Barnabás Póczos and Yaser Sheikh. CVPR 2019Just Go with the Flow: Self-Supervised Scene Flow Estimation [pdf] [code]Himangi Mittal, Brian Okorn, David Held. CVPR 2020SCOPS: Self-Supervised Co-Part Segmentation.Wei-Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming-Hsuan Yang, and Jan Kautz. CVPR 2019Self-Supervised Adaptation of High-Fidelity Face Models for Monocular Performance Tracking.Jae Shin Yoon; Takaaki Shiratori; Shoou-I Yu; Hyun Soo Park. CVPR 2019Multi-Task Self-Supervised Object Detection via Recycling of Bounding Box Annotations. [pdf] [code]Wonhee Lee; Joonil Na; Gunhee Kim. CVPR 2019Self-Supervised Convolutional Subspace Clustering Network.Junjian Zhang; Chun-Guang Li; Chong You; Xianbiao Qi; Honggang Zhang; Jun Guo; Zhouchen Lin. CVPR 2019Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation.Xin Wang; Qiuyuan Huang; Asli Celikyilmaz; Jianfeng Gao; Dinghan Shen; Yuan-Fang Wang; William Yang Wang; Lei Zhang. CVPR 2019Unsupervised 3D Pose Estimation With Geometric Self-Supervision.Ching-Hang Chen; Ambrish Tyagi; Amit Agrawal; Dylan Drover; Rohith MV; Stefan Stojanov; James M. Rehg. CVPR 2019Learning to Generate Grounded Image Captions without Localization Supervision. [pdf]Chih-Yao Ma; Yannis Kalantidis; Ghassan AlRegib; Peter Vajda; Marcus Rohrbach; Zsolt Kira.VideoBERT: A Joint Model for Video and Language Representation Learning [pdf]Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid. ICCV 2019Countering Noisy Labels By Learning From Auxiliary Clean Labels [pdf]Tsung Wei Tsai, Chongxuan Li, Jun Zhu机器学(Machine Learning)Self-taught Learning: Transfer Learning from Unlabeled Data. [pdf]Raina, Rajat and Battle, Alexis and Lee, Honglak and Packer, Benjamin and Ng, Andrew Y. ICML 2007Representation Learning: A Review and New Perspectives. [pdf]Bengio, Yoshua and Courville, Aaron and Vincent, Pascal. TPAMI 2013.强化学习(Reinforcement Learning)Curiosity-driven Exploration by Self-supervised Prediction. [pdf] [code]Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. ICML 2017Large-Scale Study of Curiosity-Driven Learning. [pdf]Yuri Burda*, Harri Edwards*, Deepak Pathak*, Amos Storkey, Trevor Darrell and Alexei A. EfrosPlaying hard exploration games by watching YouTube. [pdf]Yusuf Aytar, Tobias Pfaff, David Budden, Tom Le Paine, Ziyu Wang, Nando de Freitas. NIPS 2018Unsupervised State Representation Learning in Atari. [pdf] [code]Ankesh Anand, Evan Racah, Sherjil Ozair, Yoshua Bengio, Marc-Alexandre Côté, R Devon Hjelm. NeurIPS 2019推荐系统(Recommendation Systems)Self-supervised Learning for Deep Models in Recommendations. [pdf]Tiansheng Yao, Xinyang Yi, Derek Zhiyuan Cheng, Felix Yu, Aditya Menon, Lichan Hong, Ed H. Chi, Steve Tjoa, Jieqi (Jay)Kang, Evan Ettinger Preprint 2020Robotics2006Improving Robot Navigation Through Self-Supervised Online Learning [pdf]Boris Sofman, Ellie Lin, J. Andrew Bagnell, Nicolas Vandapel, and Anthony StentzReverse Optical Flow for Self-Supervised Adaptive Autonomous Robot Navigation [pdf]A. Lookingbill, D. Lieb, J. Rogers and J. Curry2009Learning Long-Range Vision for Autonomous Off-Road Driving [pdf]Raia Hadsell, Pierre Sermanet, Jan Ben, Ayse Erkan, Marco Scoffier, Koray Kavukcuoglu, Urs Muller, Yann LeCun2012Self-supervised terrain classification for planetary surface exploration rovers [pdf]Christopher A. Brooks, Karl Iagnemma2014Terrain Traversability Analysis Using Multi-Sensor Data Correlation by a Mobile Robot [pdf]Mohammed Abdessamad Bekhti, Yuichi Kobayashi and Kazuki Matsumura2015Online self-supervised learning for dynamic object segmentation [pdf]Vitor Guizilini and Fabio Ramos, The International Journal of Robotics ResearchSelf-Supervised Online Learning of Basic Object Push Affordances [pdf]Barry Ridge, Ales Leonardis, Ales Ude, Miha Denisa, and Danijel SkocajSelf-supervised learning of grasp dependent tool affordances on the iCub Humanoid robot [pdf]Tanis Mar, Vadim Tikhanoff, Giorgio Metta, and Lorenzo Natale2016Persistent self-supervised learning principle: from stereo to monocular vision for obstacle avoidance [pdf]Kevin van Hecke, Guido de Croon, Laurens van der Maaten, Daniel Hennes, and Dario IzzoThe Curious Robot: Learning Visual Representations via Physical Interactions. [pdf]Lerrel Pinto and Dhiraj Gandhi and Yuanfeng Han and Yong-Lae Park and Abhinav Gupta. ECCV 2016Learning to Poke by Poking: Experiential Learning of Intuitive Physics. [pdf]Agrawal, Pulkit and Nair, Ashvin V and Abbeel, Pieter and Malik, Jitendra and Levine, Sergey. NIPS 2016Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours. [pdf]Pinto, Lerrel and Gupta, Abhinav. ICRA 20162017Supervision via Competition: Robot Adversaries for Learning Tasks. [pdf]Pinto, Lerrel and Davidson, James and Gupta, Abhinav. ICRA 2017Multi-view Self-supervised Deep Learning for 6D Pose Estimation in the Amazon Picking Challenge. [pdf] [Project]Andy Zeng, Kuan-Ting Yu, Shuran Song, Daniel Suo, Ed Walker Jr., Alberto Rodriguez, Jianxiong Xiao. ICRA 2017Combining Self-Supervised Learning and Imitation for Vision-Based Rope Manipulation. [pdf] [Project]Ashvin Nair*, Dian Chen*, Pulkit Agrawal*, Phillip Isola, Pieter Abbeel, Jitendra Malik, Sergey Levine. ICRA 2017Learning to Fly by Crashing [pdf]Dhiraj Gandhi, Lerrel Pinto, Abhinav Gupta IROS 2017Self-supervised learning as an enabling technology for future space exploration robots: ISS experiments on monocular distance learning [pdf]K. van Hecke, G. C. de Croon, D. Hennes, T. P. Setterfield, A. Saenz- Otero, and D. IzzoUnsupervised Perceptual Rewards for Imitation Learning. [pdf] [project]Sermanet, Pierre and Xu, Kelvin and Levine, Sergey. RSS 2017Self-Supervised Visual Planning with Temporal Skip Connections. [pdf]Frederik Ebert, Chelsea Finn, Alex X. Lee, Sergey Levine. CoRL20172018CASSL: Curriculum Accelerated Self-Supervised Learning. [pdf]Adithyavairavan Murali, Lerrel Pinto, Dhiraj Gandhi, Abhinav Gupta. ICRA 2018Time-Contrastive Networks: Self-Supervised Learning from Video. [pdf] [Project]Pierre Sermanet and Corey Lynch and Yevgen Chebotar and Jasmine Hsu and Eric Jang and Stefan Schaal and Sergey Levine. ICRA 2018Self-Supervised Deep Reinforcement Learning with Generalized Computation Graphs for Robot Navigation. [pdf]Gregory Kahn, Adam Villaflor, Bosen Ding, Pieter Abbeel, Sergey Levine. ICRA 2018Learning Actionable Representations from Visual Observations. [pdf] [Project]Dwibedi, Debidatta and Tompson, Jonathan and Lynch, Corey and Sermanet, Pierre. IROS 2018Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning. [pdf] [Project]Andy Zeng, Shuran Song, Stefan Welker, Johnny Lee, Alberto Rodriguez, Thomas Funkhouser. IROS 2018Visual Reinforcement Learning with Imagined Goals. [pdf] [Project]Ashvin Nair*, Vitchyr Pong*, Murtaza Dalal, Shikhar Bahl, Steven Lin, Sergey Levine.NeurIPS 2018Grasp2Vec: Learning Object Representations from Self-Supervised Grasping. [pdf] [Project]Eric Jang*, Coline Devin*, Vincent Vanhoucke, Sergey Levine. CoRL 2018Robustness via Retrying: Closed-Loop Robotic Manipulation with Self-Supervised Learning. [pdf] [Project]Frederik Ebert, Sudeep Dasari, Alex X. Lee, Sergey Levine, Chelsea Finn. CoRL 20182019Learning Long-Range Perception Using Self-Supervision from Short-Range Sensors and Odometry. [pdf]Mirko Nava, Jerome Guzzi, R. Omar Chavez-Garcia, Luca M. Gambardella, Alessandro Giusti. Robotics and Automation LettersLearning Latent Plans from Play. [pdf] [Project]Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, Pierre SermanetSelf-Supervised Visual Terrain Classification from Unsupervised Acoustic Feature Learning. [pdf]Jannik Zuern, Wolfram Burgard, Abhinav Valada2020Adversarial Skill Networks: Unsupervised Robot Skill Learning from Video. [pdf] [Project]Oier Mees, Markus Merklinger, Gabriel Kalweit, Wolfram Burgard ICRA 2020自然语言处理(NLP)BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. [pdf] [link]Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. NAACL 2019 Best Long PaperSelf-Supervised Dialogue Learning [pdf]Jiawei Wu, Xin Wang, William Yang Wang. ACL 2019Self-Supervised Learning for Contextualized Extractive Summarization [pdf]Hong Wang, Xin Wang, Wenhan Xiong, Mo Yu, Xiaoxiao Guo, Shiyu Chang, William Yang Wang. ACL 2019A Mutual Information Maximization Perspective of Language Representation Learning [pdf]Lingpeng Kong, Cyprien de Masson d'Autume, Lei Yu, Wang Ling, Zihang Dai, Dani Yogatama. ICLR 2020VL-BERT: Pre-training of Generic Visual-Linguistic Representations [pdf] [code]Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai. ICLR 2020ASRLearning Robust and Multilingual Speech Representations [pdf]Kazuya Kawakami, Luyu Wang, Chris Dyer, Phil Blunsom, Aaron van den OordUnsupervised pretraining transfers well across languages [pdf] [code]Morgane Riviere, Armand Joulin, Pierre-Emmanuel Mazare, Emmanuel Dupouxwav2vec: Unsupervised Pre-Training for Speech Recognition [pdf] [code]Steffen Schneider, Alexei Baevski, Ronan Collobert, Michael Auli. INTERSPEECH 2019vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations [pdf]Alexei Baevski, Steffen Schneider, Michael Auli. ICLR 2020Effectiveness of self-supervised pre-training for speech recognition [pdf]Alexei Baevski, Michael Auli, Abdelrahman Mohamed, ICASSP 2020Towards Unsupervised Speech Recognition and Synthesis with Quantized Speech Representation Learning [pdf]Alexander H. Liu, Tao Tu, Hung-yi Lee, Lin-shan LeeSelf-Training for End-to-End Speech Recognition [pdf]Jacob Kahn, Ann Lee, Awni Hannun. ICASSP 2020Generative Pre-Training for Speech with Autoregressive Predictive Coding [pdf] [code]Yu-An Chung, James Glass. ICASSP 2020Disentangled Speech Embeddings using Cross-modal Self-supervision [pdf]Arsha Nagrani, Joon Son Chung, Samuel Albanie, Andrew Zisserman. ICASSP 2020Multi-task self-supervised learning for robust speech recognition [pdf]Mirco Ravanelli, Jianyuan Zhong, Santiago Pascual, Pawel Swietojanski, Joao Monteiro, Jan Trmal, Yoshua BengioVisually Guided Self Supervised Learning of Speech Representations [pdf]Abhinav Shukla, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis, Maja PanticGraphDeep Graph Infomax [pdf] [code]Petar Veličković, William Fedus, William L. Hamilton, Pietro Liò, Yoshua Bengio, R Devon Hjelm. ICLR 2019When Does Self-Supervision Help Graph Convolutional Networks [pdf]Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen. ICML 2020Multi-Stage Self-Supervised Learning for Graph Convolutional Networks on Graphs with Few Labels [pdf]Ke Sun, Zhouchen Lin, Zhanxing Zhu. AAAI 2020Gaining insight into SARS-CoV-2 infection and COVID-19 severity using self-supervised edge features and Graph Neural Networks [pdf]Arijit Sehanobish, Neal G. Ravindra, David van Dijk. ICML 2020 WorkshopDeep Graph Contrastive Representation Learning [pdf] [code]Yanqiao Zhu, Yichen Xu, Feng Yu, Qiang Liu, Shu Wu, Liang Wang. ICML 2020 WorkshopContrastive Multi-View Representation Learning on Graphs [pdf]Kaveh Hassani, Amir Hosein Khasahmadi. ICML 2020GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [pdf]Jiezhong Qiu, Qibin Chen, Yuxiao Dong. KDD 2020GPT-GNN: Generative Pre-Training of Graph Neural Networks [pdf] [code]Ziniu Hu, Yuxiao Dong, Kuansan Wang, Kai-Wei Chang, Yizhou Sun. KDD 2020Self-supervised Learning on Graphs: Deep Insights and New Direction [pdf]Wei Jin, Tyler Derr, Haochen Liu, Yiqi Wang, Suhang Wang, Zitao Liu, Jiliang Tang.TalksThe power of Self-Learning Systems. Demis Hassabis (DeepMind). [link]Supersizing Self-Supervision: Learning Perception and Action without Human Supervision. Abhinav Gupta (CMU). [link]Self-supervision, Meta-supervision, Curiosity: Making Computers Study Harder. Alyosha Efros (UCB) [link]Unsupervised Visual Learning Tutorial. CVPR 2018 [part 1] [part 2]Self-Supervised Learning. Andrew Zisserman (Oxford & Deepmind). [pdf]Graph Embeddings, Content Understanding, & Self-Supervised Learning. Yann LeCun. (NYU & FAIR) [pdf] [video]Self-supervised learning: could machines learn like humans? Yann LeCun @EPFL. [video]Week 9 (b): CS294-158 Deep Unsupervised Learning(Spring 2019). Alyosha Efros @UC Berkeley. [video]ThesisSupervision Beyond Manual Annotations for Learning Visual Representations. Carl Doersch. [pdf].Image Synthesis for Self-Supervised Visual Representation Learning. Richard Zhang. [pdf].Visual Learning beyond Direct Supervision. Tinghui Zhou. [pdf].Visual Learning with Minimal Human Supervision. Ishan Misra. [pdf].BlogSelf-Supervised Representation Learning. Lilian Weng. [link].Self Supervised Representation Learning in NLP. Amit Chaudhary. [link].The Illustrated [Self-Supervised Learning], [SimCLR], [PIRL], [Self-Labelling], [FixMatch], [DeepCluster]. Amit Chaudhary.Contrastive Self-Supervised Learning. Ankesh Anand. [link].LicenseTo the extent possible under law, Zhongzheng Ren has waived all copyright and related or neighboring rights to this work.
今天给大家介绍的是华盛顿大学蛋白质设计研究所所长,著名的蛋白质设计天才科学家David Baker课题组发表在Nature Communications上的一项工作。在这项工作中,作者提出了一个深度学习框架DeepAccNet,用于估计蛋白质模型中每个残基的准确性和残基-残基距离中的符号错误,并使用这些预测来指导Rosetta蛋白质结构优化。在Rosetta改进方案的多个阶段中,加入准确性预测,可以大大提高所得蛋白质结构模型的准确性,说明深度学习可以改善对生物分子整体能量最小值的搜索。介绍基于氨基酸共同进化数据的距离预测可以显著促进蛋白质结构预测,但是在大多数情况下,预测结构仍然与实际结构有很大差异。蛋白质结构改进的挑战是提高此类起始模型的准确性,迄今为止,最成功的方法是基于物理的方法,该方法涉及大规模搜索低能结构。同时,也有很多基于深度学习和非深度学习的方法,但它们着重于预测每个残基的准确性,而无法预测应如何移动,因此效果都不明显或用处不大。在这项工作中,作者开发了一个基于深度学习的框架——DeepAccNet,该框架可估计每个残基-残基距离中的符号错误以及局部残基接触误差,并使用此估计值来指导基于Rosetta的蛋白质结构优化。方法DeepAccNet结构如图1所示,可在蛋白质结构模型的基础上进行三种类型的预测:每个残基的Cβ局部距离差异测试(Cβ1-DDT)分数,阈值为15Å的局部Cβ接触图,以及来自相应自然结构的有符号Cβ–Cβ距离误差的每个残基对分布。作者指出,DeepAccNet不是预测每对位置的单个误差值,而是预测误差的直方图,该直方图提供有关可能结构分布的更详细信息,并更好地表示误差预测所固有的不确定性。DeepAccNet整合了1D,2D和3D特征,首先在以每个残基为中心的坐标框中对局部原子网格执行一系列3D卷积操作,这些卷积生成描述蛋白质中N个残基中每个残基的局部3D环境特征。这些3D特征以及附加的残基水平一维输入特征通过平铺与2D残基-残基输入特征结合在一起,然后使用ResNet架构将生成的组合2D特征描述输入到一系列2D卷积层中。图1 Approach overview结果图2显示了对于三个靶蛋白(3lhnA,4gmqA和3hixA),在两个随机选择的诱饵结构上没有MSA或Bert嵌入的DeepAccNet预测。在每种情况下,网络都会为两个诱饵生成不同的有符号残基-残基距离误差图,这些图在质量上类似于结构误差的实际模式。网络还可以准确预测不同诱饵的每个残基模型准确性(Cβ1-DDT分数)的变化, 总体而言,详细的预测提供了有关结构的哪些部分需要移动以及以何种方式指导优化的大量信息。图2 examples of DeepAccNet prediction为了研究每种特征对网络性能的贡献,作者在训练过程中一次将每种功能与距离图结合在一起,并通过交叉熵损失和测试集上的Cβ1-DDT得分均方误差来评估性能(图3a)。除了MSA特征外,最大的贡献来自基于3D卷积特征和Bert嵌入。作者调查了网络在X射线晶体学,核磁共振波谱(NMR)和电子显微镜(EM)所确定的实验结构上的性能,对于高分辨率晶体结构,DeepAccNet变体的预测Cβl-DDT值接近1.0,而对于较低分辨率的结构,Cβ1-DDT值则有所降低(图3c), 核磁共振结构的预测准确度低于高分辨率晶体结构(图3d)。作者将DeepAccNet变体与其他精度估算器进行了比较(图3b),从最近的CASP实验中可以明显看出,从多个序列比对中得到的协同进化信息提供了详细的结构信息。DeepAccNet-Bert包含Bert嵌入,这些嵌入是由单个序列生成的,没有任何进化比对,在没有同源序列信息的蛋白质上,它在EMA任务上的表现优于DeepAccNet-MSA,当有多个序列比对信息时,DeepAccNet-MSA将是一个更可靠的选择,显示了最先进的性能。图3 DeepAccNet performance.作者发现,基于网络的准确性预测会不断提高基准示例的准确性。通过更新的方案,无论蛋白质大小如何,在起始模型上均观察到一致的改善(图4a), 对每个残基模型质量的更详细预测也与实际值非常吻合(图4e)。作者还评估了准确度预测对改进模型质量的实际影响(图4c), 从DeepAccNet 柱状图预测得出的残基对约束对于成功提炼至关重要(图4d)。如图4f所示,改进包括在整体结构正确时识别和修改错误区域,精度预测网络通过两种方式促进了这一总体改进:它提供了对不可靠的距离对和区域的更准确的估计;其次,它提供了一种有效地估计距离的方法。图4 Guiding search in protein structure refinement using the accuracy predictors.总结这项工作中,作者提出了DeepAccNet,DeepAccNet对以残基为中心的原子坐标进行3D卷积,将详细的残基信息与其他单独的残基以及残基-残基水平的信息集成在一起。实验结果表明,DeepAccNet可以提供最先进的蛋白质模型精度预测,并且可以将它们进一步用于预测带符号的距离误差,以进行蛋白质结构优化。
今天给大家介绍卡耐基梅隆大学Amir Barati Farimani团队近期发表在arxiv上的关于如何利用对比学习和图神经网络进行分子表示,并服务于下游任务的研究。分子机器学习在分子性质预测和药物发现方面具有广阔的应用前景。然而,由于标记数据有限和分子的化学空间十分广阔,有监督学习模型泛化能力较差。这大大限制了机器学习方法在分子设计和发现中的应用。为解决上述问题,作者提出了一个用于大型无标记分子库的自监督学习框架:MolCLR,该模型通过图神经网络(GNNs)结合对比学习学习分子表示。实验表明,MolCLR学习到的分子表征可以迁移到多个下游分子性质预测任务中,在许多具有挑战性的数据集上实现了最先进的性能。该文还证明了文章中提出的分子图增强算法在有监督的分子分类任务中也十分有效。MolCLR模型框架图1 通过图神经网络表示的分子对比学习N个分子的SMLIES表示sn转换成分子图Gn。对每个图应用两个随机分子图增强方法,得到两个相关遮盖图:G̃2n−1和G̃2n。基于图卷积的读出操作的特征编码器提取表示h2n−1,利用对比损失来最大化MLP投影头的潜在向量z2n−1、z2n之间的一致性。图2 三种分子图增强策略。(a)原子遮盖,随机遮挡原子节点的特征。(b)键删除,随机地删除两个原子之间的键。(c)子图删除,从原始分子图中随机删除一个诱导子图。总结作者提出了基于GNNs的分子表征对比学习框架MolCLR和三种分子图增强策略:原子遮盖、键删除和子图删除。实验表明,与以监督学习方式训练的模型相比,MolCLR预训练的GNN模型在各种分子任务上都有不错的效果,并且具有更好的泛化能力。
今天给大家介绍的是深度学习三巨头之一,谷歌大脑人工智能团队首席科学家且为图灵奖获得者的Geoffrey Hinton教授于2月26日在Twitter上分享了一篇关于表示的新作,且该文仅由Hinton一人署名。在文中,他提出了一种用神经网络表示部分-整体层次结构的设想,将几个不同的领域整合到一起组成一个名为GLOM的假想系统令神经网络以人类的方式理解图像,其中的模块包括transformer,神经场,对比表示学习,蒸馏学习和胶囊网络模型。Hinton表示如果GLOM最终可用,应该能大幅度提高像transformer这类模型产生的表示方法的可解释性。想法心理学研究表明人们将视觉场景解析为部分-整体层级结构,并将部分和整体之间视点不变的空间关系视作部分和整体之间坐标的转换。神经网络如果需要具备和人类理解图像的思维方式,则需要弄清楚神经网络如何表示部分整体层次结构。由于神经网络并不能动态地分配一组神经元,Sabour和Hinton等人提出了一系列使用“胶囊”的网络模型。胶囊模型假设一组神经元(胶囊)将成为图像特定区域中的特定类型的一部分,然后通过激活这些预先存在的、特定类型的胶囊的子集,以及它们之间的适当连接来创建解析树。作者用胶囊来表示神经网络中的部分-整体层次结构,GLOM可以简单地理解为用于处理一系列帧序列的流水线,由大量权重相同的列组成,这些列的层次和神经科学家提出的超列相似,每一列都是由空间局部自动编码器堆叠而成,而这些编码器学习小图像块上的多级表示。每个自动编码器利用多层自下而上的编码器和多层自上而下的解码器将一个级别的嵌入转换为相邻级别的嵌入。这些级别对应于部分-整体层次结构中的级别。例如,当显示一张脸部图像时,单列可能会收敛到代表鼻孔,鼻子,脸部和人的嵌入向量上。下图则显示了不同层次的嵌入如何在单列中进行自下而上,自上而下和相同级的交互。图1 GLOM结构单列中3个相邻级间的交互上图并没有显示不同列中同一级别的嵌入之间的交互,它们不需要实现部分整体坐标转换。而是像多头transformer中代表不同单词片段的列之间的注意力加权交互,这更简单了,因为查询、键和值向量都与嵌入向量相同。列间交互旨在通过使该级别的每个嵌入向量向附近位置的其他类似向量回归,从而在某个级别上产生具有相同嵌入的岛。这将创建多个局部“回音室”,在某个局部“回音室”中,同一层次的嵌入主要与其他想法相似的嵌入相呼应。优缺点(1) 与胶囊模型相比GLOM的主要优势在于:(1)它无需在每个级别预先将神经元分配给一组可能的离散部分,这将带来更大的灵活性。(2)它不需要动态路由,可以为部分所占据的每个位置构建属于自己的整体向量表示。(3)其用于形成岛的聚类过程比胶囊模型中使用的聚类过程要好得多。与大多数胶囊模型相比,GLOM的主要缺点是关于特定类型物体形状的知识并不局限于一小群神经元(可能会在相当大的区域内复制)。(2) 与Transformer模型相比GLOM和Transformer相比,做出了几点改变。(1)每层的权重都相同,因为GLOM是一个循环神经网络,并且作者将时间片转换为层。(2)利用层次上的嵌入向量作为查询,键以及值,极大地简化了注意机制。(3)用于提供更多表现力的多头被重新设计成用于实现整个部分整体层次结构的多个级别,并且某个位置的多个头之间的交互是高度结构化的,因此一个级别仅与相邻级别进行交互。(4)计算相邻级别之间交互的自下而上和自上而下的神经网络在部分和整体分布式表示之间执行坐标转换。图2 GLOM结构,突出与Transformer间关系(3) 与CNN模型相比早前Hinton即表示CNN会被胶囊网络替代,如果你很喜欢CNN 的话,GLOM可被视为一种特殊的CNN。它在以下方面不同于标准CNN:(1)它仅使用1x1卷积(前端除外)。(2)位置之间的交互是通过无参数平均化来实现的。(3)它不使用单个前馈遍历表示层,而是迭代以允许由神经场实现的自上而下的影响。(4)它包括对比自我监督学习,并作为识别的一部分而不是单独的任务执行层次分割。生物可行性作者以三个疑问性标题阐述GLOM是否具有生物可行性。第一,尽管GLOM受生物学启发,但将其当作生物学模型仍有些生硬,其中三个功能解释了和生物学模型格格不入的原因。(1)自下而上或自上而下的模型在不同列中的权重分配。(2)需要处理否定的示例对以进行对比学习,而又不中断视频流水线。(3)使用反向传播来学习自顶向下和自底向上模型的隐藏层。第二,GLOM建议使用上下文监督来解决生物学家经常反对的权重共享问题。在真实的大脑中,我们想要的是一种在某个位置训练自下而上和自上而下的网络的有效方法,以便它们计算与其他位置的相应网络相同的功能,作者提出可以使用知识蒸馏来实现这一目标。第三,阐述了睡眠在对比学习中的作用,由于查找和处理不应该相似的图像对会增加复杂性,所以GLOM在生物学模型上似乎不太合理。通过在晚上使GLOM脱机进行消极学习,以防止表示崩溃,可以避免损害GLOM的实时性能。有证据表明,高速,自上而下的序列生成发生在睡眠的纺锤体阶段。从哲学角度出发Hinton本人认为科学与哲学之间的区别在于,实验可以证明极端合理的想法是错误的,而极端不可行的想法(例如,通过端到端的梯度下降学习一个复杂系统)是正确的。GLOM虽然目前未实现,但是Hinton教授正在一个项目上进行测试,目的是测试GLOM体系结构以全新角度理解形状识别的能力,另外作者呼吁科研工作者积极投入以实现这部分的想法。以下为作者从哲学角度对此想法进行的一些评价:(1)解析树中的节点由相似向量的岛表示的想法统一了两种非常不同的理解感知方法。第一种方法是经典的格式塔心理学,它通过诉诸场(field)来建立感知模型,提出了整体不同于部分总和的观点。在GLOM中,感知器被视为一个场,并且整体的共享embedding向量是有别于部分的。第二种方法是典型的人工智能方法,它通过结构描述来建立感知。GLOM是具有结构描述的。(2)部分不看好深度学习的学者认为,神经网络无法处理组合层次结构,需要有一个“神经系统符号”接口,该接口允许神经网络的前端和后端将高层推理移交给更具符号性的系统。而作者认为GLOM的主要推理模式是由于高维向量之间的相似性进而使用的类比方式。(3)BERT取得的巨大成功,结合早期工作表明,通过构造BERT中multi-head之间的交互,并对应其表示级别,通过添加对比学习的正则化器来鼓励每个级别上多个单词片段的局部孤岛的一致性,这可能可以说明GLOMBERT确实能够解析句子。
今天给大家介绍美国国立卫生研究院(NIH)和加拿大公共卫生局国家微生物实验室在Nature Biotechnology上联合发表的一篇文章“Biological activity-based modeling identifies antiviral leads against SARS-CoV-2”。该文章提出了一种基于生物活性建模(BABM)的方法,在该方法中,经过多种测定建立的化合物活性谱被用作化合物特征,用来预测化合物对于新靶点或在其他测定中的活性。作者用BABM模型预测了311种对SARS-CoV-2具有潜在活性的化合物,其中32%的化合物在细胞培养活病毒测定中表现出抗病毒活性,有潜力进一步发展为抗SARS-CoV-2药物。研究背景高昂的成本和操作瓶颈限制了先导化合物识别,导致传统的高通量筛选(HTS)通常限于1-2百万种化合物。为此,最新的HTS进展实现了虚拟筛选(VS),能够筛选数百万具有潜在生物活性的化合物。然而,现有的虚拟筛选方法在预测生物活性时都严重依赖化合物的结构信息,导致虚拟筛选仅限于在已知配体结构和药物靶点的相近结构中进行查询。针对这一问题,作者提出了基于生物活性建模的方法。由于BABM建立在“具有相似活性模式的化合物很可能具有相似的靶标或作用机理”假设的基础上,BABM方法可利用化合物的生物活性进行预测。作者使用BABM方法构建了SARS-CoV-2的预测模型,识别了300多种抗SARS-CoV-2的化合物。作者进一步在活病毒分析中测定了这些化合物,确认了约100种化合物(>30%)具有抗病毒活性,从而验证了BABM方法的实用性和准确性。方法作者使用一个两步评分算法WFS构建模型。首先,使用两尾费舍尔精确检验确定活性化合物中每种特征与非活性化合物中特征相比的富集显著性,并为数据集中存在的所有特征计算P值。对于测定活性数据,每个测定读数均被视为特征,对于活性化合物,特征值设置为1,对于非活性化合物,特征值设置为0。如果某个特征在活性化合物的频率比非活性化合物的频率低,则将其P值设置为1。这些P值形成了“综合”特征指纹,然后基于该指纹,根据公式(1)对每种化合物存在活性的可能性进行评分。其中Pi是特征i的P值,C是化合物中所有特征的集合,M是在综合特征指纹中编码的一组特征,N是特征数量,α是权重因子,在文中描述的所有模型中均设置为1。WFS得分高表示化合物具有活性的可能性很大。整个模型的训练,测试和验证过程如图1所示。模型性能通过AUC-ROC曲线下的面积进行测量。图1 模型训练、测试和验证过程实验实验数据和基准模型表1概述了用于建模的三类病毒靶点(SARS-CoV-2,ZIKV和EBOV)。其中,ZIKV NS1表示寨卡病毒非结构蛋白,EBOV表示埃博拉病毒。基准模型如表2所示,包括结构-活动组合模型(CM)、基于活动的模型(BABM)和基于结构的模型(SBM)。BABM-M(或CM-M)、BABM-S(或CM-S)和BABM-G(或CM-G)分别表示基于MLS、Sytravon和Genesis数据集的BABM(或CM)模型。表1 用于建模的病毒靶点概览和模型识别的活性化合物统计表2 建立在不同测试数据集上的模型模型性能和实验验证实验结果如图2所示,大多数模型在其相应的测试集上表现良好(图2a),平均AUC-ROC值大于0.8。与BABM模型和SBM模型相比,CM模型表现出最佳性能,平均AUC-ROC值大于 0.83。为了进一步验证模型并识别具有抗病毒活性的新化合物,作者为每个病毒靶点选择了模型预测的活性成分子集进行实验验证,计算每个模型的正预测值PPV(TP /(TP + FP)),即通过实验确定的模型预测的活性成分百分比(图2b)。图2 模型性能和实验验证结果识别抗SARS-CoV-2化合物SARS-CoV-2 BABM模型预测的311种化合物的活性在活病毒细胞病变效应(CPE)测定中进行了测试,其中99种被证实具有活性,命中率为32%(图2b)。模型的PPV范围从32%(CM-S)到38%(BABM-S)。图3总结了实验确认的活性物的效力范围,从图3中可以看出,与相应的训练数据集中的活性成分比例相比,所有模型预测的活性集都显著富集了真正的活性化合物。实验证实的SARS-CoV-2-活性化合物在8个浓度下进行了进一步测试,以得到更准确的效力度量。选择的94种化合物中有9种在二级确认测定中表现为无活性,对SARS-CoV-2 CPE分析的确认率为90%。作者在CPE分析中还筛选了一些文献中报道的某些已知的抗SARS-CoV-2化合物,尤其是目前正在进行COVID-19临床试验的那些化合物,其效力各不相同。相比之下,文章中的模型确定的抗SARS-CoV-2化合物的效力属于已知的抗SARS-CoV-2化合物的范围。图3 对模型预测的活性化合物的二次确认实验结果抗SARS-CoV-2化合物的抗病毒机制针对SARS-CoV-2感染的治疗干预有多个靶点,包括病毒进入宿主细胞,3C样蛋白酶对病毒多肽进行蛋白水解以释放非结构蛋白和宿主细胞中的自噬通道。作者使用三种检测方法进一步研究了85种经实验证实的抗SARS-CoV-2化合物的潜在抗病毒机制。实验结果表明,在85种抗SARS-CoV-2化合物中,有53个是通过SARS-CoV-2假型颗粒(PP)进入测定法测定的病毒进入抑制剂,通过GFP-LC3测定识别出35个是自噬调节剂,有52个化合物在至少一个自噬参数中处于活动状态。这些结果表明自噬在模型识别的抗SARS-CoV-2化合物的抗病毒活性中起主要作用,并且这些化合物大多数是病毒进入抑制剂。总结文章中提出了BABM方法,该方法将化合物在多种生物测定中的测定结果作为化合物的描述符或特征,用于预测其它化合物的活性。与仅使用化学结构数据构建的传统QSAR模型相比,BABM可以识别出与训练集和SBM所识别的化合物在结构上不同的化合物,这证明了BABM在发现新化合物种类方面的优势。结合传统SBM与BABM,可以最大化最优先导化合物即目标治疗靶点的新候选化合物的机会。此外,SARS-CoV-2 BABM模型识别出约100种抗SARS-CoV-2化合物,这些化合物经过实验验证在活病毒测定中显示出抗病毒活性。
今天给大家介绍日本京都大学大学院医学研究科医学部教授Yasushi Okuno团队近期发表在nature machine intelligence上的关于如何利用深度学习技术DEFMap直接提取冷冻电镜密度图中蛋白质动态信息的文章。DEFMap仅使用低温冷冻电镜密度数据,获得了与分子动力学模拟和实验方法数据高度相关的动力学信息。此外,DEFMap成功地检测到与分子识别相关的动力学变化。DEFMap结合了深度学习、实验数据和分子动力学模拟,为蛋白质科学提供一种新的解决方案。简介三维结构和动力学信息对于蛋白质功能理解至关重要。低温冷冻电镜(cryo-EM)的单粒子分析技术(SPA)的突破使得研究人员可以对蛋白质的三维结构以原子或接近原子的分辨率进行解析。然而,由于蛋白质靶点较大且结构复杂,利用冷冻电镜分析蛋白质靶点的动力学信息依然富有挑战性。单粒子分析技术采用的样本利用了快速冷冻溶液,蛋白质拥有不同的构象,因此,蛋白质的动力学性质可以隐藏在重建的低温电磁图中。而从重建的3D低温电磁图的局部图强度得到的局部分辨率和原子动力学信息相关联,即较低的局部分辨率对应更灵活的区域。然而,局部分辨率可能会受人为影响,从而使得分析结果不准确。所以作者提出DEFMap,这是一种通过深度学习技术直接提取低温冷冻电镜密度图中与原子波动相关的动力学信息的方法。作者使用全原子分子动力学(MD)模拟和深度神经网络结合构建了一个模型,以根据冷冻电镜密度数据预测动力学信息。通过将结果与MD派生的和实验确定的动力学性质进行比较,并且该模型的性能可以利用未包含在训练数据集中的大分子进行验证。此外,DEFMap可以从单独的cryo-EM图谱中识别与分子识别相关的动力学变化及其伴随的变构效应,而无需进行其他实验(例如MD模拟)。该方法使多个研究领域相结合,例如深度学习,MD仿真和SPA技术,并简化了使用常规技术难以处理的动力学特性的研究。模型框架DEFMap利用EMDB和PDB中的大分子进行训练,在原子级进行MD(分子动力学)模拟。在训练数据构建阶段,动力学特性是从MD模拟计算的RMSF值(对于重原子)导出的。在训练阶段,DEFMap中的3D-CNN模型学习不同位置的动力学特征和密度数据之间的关系。在预测阶段,对于未包含在训练数据集中的其他低温冷冻电镜图像,训练模型根据输入密度数据预测动力学值。在这项研究中,25个大分子被用来验证和训练DEFMap模型,另外9个大分子被用来进行动力学预测和进一步的结构分析。具体实验模型和部分实验结果见图一。图一:DEFMap,基于低温冷冻电镜图像的动力学特征提取。总结这项技术证明了可以从冷冻电镜密度数据中有效地提取与溶液中行为相关的特性,并且开发靶向药物或抗体来抑制例如SARS-CoV-2蛋白HR1基序及其S蛋白近端区域的动态扰动为对抗病毒感染提供了有效策略。另外,DEFMap模型的性能取决于图像分辨率,这可能是由于低分辨率图像会丢失详细的结构信息。对分辨率的依赖性表明,通过开发先进设备(如冷场发射枪)获得更高分辨率图像的不断进步,DEFMap的性能将得到提高。从处理密度数据的角度来看,使用基于局部分辨率锐化的图像训练模型,使数据集属性得到了均匀化,会提高DEFMap的性能。另外,使用其他大分子进行额外的模型训练可以提高模型的准确性和鲁棒性。在未来,DEFMap可能会加速数据驱动的结构研究,旨在了解蛋白质的功能,并制定针对各种疾病分子的靶向治疗策略。本研究将实验数据、深度学习方法和MD模拟相结合,并能从数据中准确提取动力学信息。该策略为实验科学、模拟科学和数据科学的结合提供了一条有效且多学科交叉的研究途径。数据集PDB: https://www.rcsb.org/EMDB: https://www.ebi.ac.uk/pdbe/emdb/Zenodo: https://doi.org/10.5281/zenodo.4317158
今天给大家介绍中山大学杨跃东教授课题组发表在Journal of Cheminformatics上的一篇论文。该论文指出蛋白质的溶解度对于生产新的可溶性蛋白质非常重要,但是目前预测蛋白质溶解度的方法大多基于氨基酸的一维嵌入,仅限于捕获空间结构信息。针对上述问题,作者开发了一种新的结构感知方法——GraphSol,通过注意力图卷积网络(GCN)预测蛋白质的溶解度,其中蛋白质拓扑结构属性图是通过预测序列的接触图构建的,结果显示GraphSol明显优于其他基于序列的方法。1介绍近20年来,蛋白质的溶解度在生物技术和制药工业的蛋白质生产中起着重要作用。现有的预测蛋白质溶解度的计算方法主要是:基于物理的方法和基于机器/深度学习的方法。在基于物理的技术方面,大多数工作集中在利用分子动力学模拟来评估(聚集和溶解状态间)的自由能差,但这些方法通常准确性有限。而对于机器/深度学习技术,大部分方法主要基于LSTM和CNN,没有利用蛋白质分子的空间信息。随着蛋白质结构预测的最新发展,蛋白质接触图的预测效果得到改善,预测的蛋白质接触图可以高精度地表示2D结构特征。在这项研究中,作者通过结合预测的接触图和图神经网络,以新颖的结构感知方法GraphSol预测蛋白质的溶解度。作者表明这是第一项通过图神经网络对蛋白质进行基于序列的溶解度预测的研究,并且该结构可以轻松应用于蛋白质的广泛任务中,例如蛋白质功能预测,蛋白质-蛋白质相互作用预测,蛋白质折叠和药物设计。2模型这项工作中,作者将蛋白质溶解度预测任务转换为基于图的回归问题。给定一个由????个氨基酸组成的蛋白质序列,整个蛋白质因此可以表示为拓扑属性图????(????,????),其中F代表所有残基(节点)的特征集,????代表残基接触(边缘)。根据预测的蛋白质接触图,通过图卷积神经网络模型输出预测的溶解度。GraphSol模型包括三个部分。如图1所示,第一部分是图卷积网络(GCN),它在迭代过程中从其节点和边缘聚合蛋白质结构信息。第二部分是一个自注意层,它将不同大小的节点隐藏状态转换为具有固定大小的图形表示向量。最后,这个固定大小向量将经过全连接层以预测蛋白质的溶解度。图1 GraphSol3实验数据集为了训练模型,作者使用了eSOL数据集,共有2737种蛋白质序列。从这些序列中,随机选择75%(2052个蛋白)作为训练集,其余685个蛋白用作独立测试。对于外部独立测试,作者选择了从酿酒酵母中收集的另一个蛋白质数据集。该数据集是通过包含108种具有相应3D结构的蛋白质而得出的。数据集考虑了如表1所示的四种节点特征。表1 数据集节点特征实验结果 作者测试了eSOL数据集上GraphSol模型的性能。如表2所示,对于5折CV和独立测试,获得的R2值分别为0.476±0.014和0.483。当通过0.5的临界值将数据集分为两个离散状态(可溶或不可溶)时,对于5折CV和独立测试,AUC值分别为0.855和0.866, CV和独立测试的相似结果表明了GraphSol模型的鲁棒性。为了表明特征组的重要性,作者在消融研究中通过3种方式评估了性能。如表2所示,当将单个要素组用作节点要素时,在独立测试中,HHM产生的R2最高。预测的结构特征组(SPIDER3)的性能最差。相反,当去除单个基团时,去除SPIDER3导致最大的下降,这可能是因为SPIDER3提供了唯一的结构信息,而其他功能则具有补充功能。当通过递归添加特征组来评估模型时,模型会随着每个特征组的添加而显示出递增的性能。添加SPIDER3特征后,性能迅速提高,这反映了溶解度和结构特征之间的关系。表3 方法比较4总结这项研究中,作者提出了一种基于序列的预测蛋白质溶解度的方法GraphSol。与其他方法相比,GraphSol利用了预测的蛋白质接触图,该图在连接蛋白质拓扑属性和注意力图神经网络中发挥了关键作用。作者指出,残基之间的预测接触概率比离散状态更能表示成对关系,这种方法在蛋白质功能预测、蛋白质相互作用预测、蛋白质折叠和药物设计等蛋白质属性预测方面具有潜在的应用价值。
近日来自Genome Biology的一项研究中提出了一个综合数据库:My Personal Mutanome (MPM),用于加速精准癌症医学方案的开发。MPM提供了基于网络的诊断和药物基因组学方法,用来了解临床环境中复杂的基因型-表型关系和治疗反应,有望促进肿瘤发生的可操作突变的鉴定和人类相互作用组水平的个体化治疗。大量的基因组测序数据激发了个性化治疗的新挑战,并促进了肿瘤药物的发现。My Personal Mutanome (MPM)数据库包含了来自The Cancer Genome Atlas的33种癌症类型中超过10,800个肿瘤外显子组的490,245个突变,映射至94,563个结构分辨/预测的蛋白-蛋白相互作用界面(“网络边扰动”)和311,022个功能位点(“网络节点扰动”),包括配体蛋白结合位点和8种类型的蛋白质翻译后修饰。对于这些作图的相互作用,总共获得了8,844个存活结果和1,271,132个药物反应。随着高通量测序不断发展,已经有数十万个外显子组和基因组发布。癌症基因组图谱(TCGA,https://www.cancer.gov/tcga)计划已对33种癌症类型中超过11,000名患者的基因组/外显子组进行了表征。癌症的体细胞突变目录(COSMIC)和cBioPortal等这些数据和网络资源极大地促进了癌症的研究和药物发现,但对于精准医学发展至关重要的变异体致病性仍没有更好解释。典型的计算方法也只能以临床决策所需的高置信度来识别一小部分致病变体。对因果和临床上可行的突变进行鉴定和优先排序对于了解其在肿瘤发生和疾病进展中的作用、发现新的生物标记并提供生物学相关的药物靶标方面至关重要。论文小组的所有先前的观察和其他研究提供了人类癌症体细胞突变的节点和边缘效应的功能验证。这些结果激励作者开发一个系统生物学工具,用于查询人类相互作用体中的此类节点突变和边缘突变,这将有助于识别用于精确癌症药物的新的功能突变/基因、药物靶点和药物基因组学生物标志物。图1数据库的总体设计论文研究小组收集并处理了包括21,759种蛋白质,490,245个体细胞突变和544,692个突变病例的121,172个PPI,在1074个癌细胞系中测试的251种药物的药物反应,41,843种 PDB和535,182个蛋白质功能位点,用于蛋白质-配体结合并跨越7种类型的蛋白质翻译后修饰(PTMs):乙酰化,丙二酸化,甲基化,邻位糖基化,磷酸化,琥珀酰化,泛素化。以上所有的数据及其结果都已经集成到了关系数据库MPM中。此外,作者的网站利用的几个主要实体(如药物、蛋白质)和各实体之间的关系如下图所示,用户可依据此体系结构找到需要搜索的信息。图2.数据库的信息体系结构作者表示,将继续把人类相互作用组更新到数据库中,特别是包括更无偏的系统PPIs数据。此外,将为功能站点提供选择较小窗口的功能。MPM的未来更新将侧重于提供更完整、更高质量的人类相互作用体(包括蛋白质-DNA/RNA相互作用)、功能位点和来自CPTAC的蛋白质基因组学数据。作者将整合更多的人类基因组测序数据,包括跨组学精准医疗(TOPMed)计划,阿尔茨海默症测序项目(ADSP),以及国际癌症基因组联盟(ICGC),通过添加更加个性化的基因组分析来改善MPM的实用性。MPM将每年更新一次。
最近IBM和伯尔尼大学的研究人员利用基于自注意力机制的深度神经网络实现了对化学反应的分类,该项成果发布于Nature Machine Intelligence杂志上。化学反应的分类对化学家们有很高的价值,比如利用同类反应的相似成份推测最佳反应条件等。近年来,一些机器学习方法被用于化学反应的分类,但是都存在一定的局限。IBM和伯尔尼大学的研究人员提出使用BERT(Bidirectional Encoder Representations from Transformers)模型,该模型不同于由专家们根据经验编写大量规则的传统分类方法,而是通过化学反应方程式文本便能实现化学反应分类的预测。研究者在13.2万个化学反应上进行了测试,最高可达98.2%的分类精度,而传统方法仅为41%。此外,该模型使用注意力机制,相较于传统方式能更好的捕捉到对反应分类起关键作用的成份,该项工作有望开辟有机合成领域新的未来。BERT模型基于“自注意力”机制,可以利用大规模的文本数据学习语言特征,研究者们首先将化学反应式转换为SMILES格式,相当于对化学反应式进行了语言描述,图1为两个化学反应式及其对应的SMILES 表示:图1 化学反应式案例及其对应的SMILES representation然后利用BERT模型进行语言学习,即经过若干个Tranformer神经网络结构,得到名为RXNFP的向量,然后基于此向量进行化学反应分类,具体过程如图2。图2 BERT模型用于化学反应分类BERT模型的注意力机制可以发现进行分类的关键作用成份,如图3,格图的纵轴对应BERT模型的不同层,横轴对应每一个反应成份,颜色越深表示不同层对某个成份的关注度越高。图3 注意力权重解读基于BERT模型,化学反应可以表示成一个固定维度的向量,研究者将不同化学反应描绘在一张图上,如图4,从图中可以观察到不同化学反应之间的关系。图4 化学反应的向量可视化,不同颜色代表不同的化学反应,左下图为预训练网络结果,中间图为训练后的网络所得结果RXN Chemistry demo
今天给大家介绍的是由MIT在“Biorxiv”上发表的预印本”Sequence-based prediction of protein-protein interactions: a structure-aware interpretable deep learning model ”。蛋白质-蛋白质相互作用(PPI)网络在系统生物学中是一种促进发现和理解蛋白质功能的有价值工具。然而,实验PPI数据在大多数模式生物中仍然稀少,而且在新物种推广上不佳或是需要特定类型和大小的数据训练。因此,本文提出了D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接触残基相互作用预测迁移),一种仅使用序列训练的PPI预测模型。与现有方法相比,D-SCRIPT不仅对新物种有更好的泛化能力,而且对训练数据大小的限制有较强的鲁棒性。作者在人类PPI上训练了一个模型,并使用来自其他5个模型生物的PPI数据集对其进行了评估,取得了不错的结果。这说明,仅人类蛋白质语言也有助于解码其他生物的蛋白质。1背景和相关工作细胞中物理蛋白-蛋白相互作用(PPIs)的系统映射已经被证明对加深我们理解蛋白质功能和生物学非常有价值。然而,尽管引入了高通量方法来测定PPIs,但迄今为止,通过实验确定的人类PPIs仅代表物理结合在人类细胞中真实蛋白质对的一小部分。在其他物种中,相关数据甚至更少。如图1所示,在大多数模式生物的情况下,实验确定的PPIs数量远远少于人类,而在非模式生物的情况下,几乎不存在PPIs。这促使科学家研究预测PPIs的计算方法。图1 实验PPI数据的语料库有限本文介绍了一种新的深度学习方法D-SCRIPT(Deep Sequence Contact Residue Interaction Prediction Transfer,深度序列接触残基相互作用预测迁移),它基于氨基酸序列来确定两个蛋白质是否在细胞内发生物理相互作用。该模型关键的进步在于合理的特征和结构能使模型仅通过序列数据训练,监督只有一个二进制互动标签,然而可以产生一种捕捉蛋白质之间相互作用对的中间表示。D-SCRIPT能够同时提供迄今为止无法同时实现的优势:广泛的适用性、可解释性和高跨物种准确性。D-SCRIPT与最近其他成功的深度学习方法PIPR和DPPI一样,属于单独从蛋白质氨基酸序列进行PPI预测的方法。它可以从一类蛋白质PPI的数据进行训练,来进行任意蛋白质预测任务。类似D-SCRIPT这样基于序列的方法的优点是输入的序列数据几乎总是可用的,这是以为低成本基因组测序的巨大进步。在基于序列的方法中,D-SCRIPT的优势在于其更强的跨物种泛化能力和在现有训练数据稀疏的情况下更准确的预测。此外,作者基于接触图的方法与最近在蛋白质序列的单结构接触图的深度学习预测方面的工作相似。虽然这些方法都是在三维结构数据上进行训练,但该方法被设计成只使用序列数据进行训练。尽管如此,作者的方法和这些方法的见解可能在未来的工作中结合起来。2方法模型预测可以分为两个阶段:1.分别为每个蛋白质生成丰富的特征表示;2.根据这些特征预测交互。两个阶段都是端到端训练的。与PIPR、DPPI将大部分计算复杂性放在阶段1不同,D-SCRIPT的一个关键创新是作者设计了一个更具有结构感知(structurally-aware)的阶段2。阶段1是通过使用Bepler & Berger预训练的蛋白质序列模型和投影模块来完成的,其中模型学习低维蛋白嵌入,这也可以用作下游相互作用和结构预测任务的紧凑表示。对于阶段2,作者提出了一种新的结构来编码蛋白质相互作用的物理模型,如图2所示。作者预测两个蛋白质只有在残基高度兼容时才会发生作用。阶段2分成三部分:投影模块,残基接触模块和预测模块。在投影模块中,对原始嵌入进行压缩。在残基接触模块中,低维投影嵌入用于计算稀疏接触图。最后,相互作用预测模块在接触图上使用定制的maxpooling操作来预测输入蛋白质之间的交互概率。模型的输入的是一对序列s1,s2,长度分别为n和m,预测概率p和预测接触图矩阵C。p和C的元素输出都在0到1范围内。图2 D-SCRIPT架构序列嵌入首先,利用Bepler & Berger预训练模型将序列s1,s2分别嵌入为E1,E2。他们的模型是一个Bi-LSTM神经网络,训练三个独立的信息: 1)蛋白质的SCOP分类,表明其一般结构,2)蛋白质的三维结构的自接触图,3)相似蛋白质的序列比对。其余的可选嵌入可以被替代。投影模块在投影模块中,嵌入E通过一个全连接层压缩成低维投影嵌入Z。相互作用预测模块这个模块输出PPI预测概率p,模型采用2个池化操作。第一个是标准的最大池化。输出的最大池化矩阵P代表了蛋白质局部区域相互作用的概率,并且只保留了每个区域的最大残留接触概率,用于全局预测。第二个池化是全局池化,计算如下:公式通过一个学习参数γ使P稀疏化,保留高概率预测结果。这种全局池化操作获得了这样一种直觉:仅使用高概率区域预测残基接触,低概率被忽略。交互预测的最后一步是增强输出分布的双峰性,从而使临界点的选择在区分正预测和负预测时变得不那么重要。通过一个激活函数实现并输出最终的概率p。损失函数除了二元交叉熵BCE Loss外,文章引入接触图的损失MAG Loss,损失函数为MAG Loss起到一种正则化的作用,由接触图矩阵C的算数平均值计算得到,使接触图的大小最小化。作者认为要根据少数高概率残基接触而大多数不接触来优化。3结果PPI数据集为了评估D-SCRIPT在预测蛋白质-蛋白质相互作用方面的性能,本文使用了来自STRING数据库(v11)的数据。作者限制了序列长度并除去了40%以上的相似序列。为了产生PPI的负面例子,遵循Neyshabur等人的工作从非冗余集合中随机配对的蛋白质,选择10:1的负对正比率,以反映真正的正例PPI。本文的人类PPI数据集包含47,932个阳性和479,320个阴性蛋白相互作用,作者将其中得80%(38,345)用于训练,20%(9,587)用于验证。对于5种模式生物(表1),我们使用这个程序为每一种选择了5000个正相互作用和50000个负相互作用,而大肠杆菌则是(2000 / 20000),因为在STRING中可用的大肠杆菌正例是有限的。跨物种预测作者在人类PPI上训练了一个模型,并使用来自其他5个模型生物的PPI数据集对其进行了评估。作者比较了D-SCRIPT和PIPR,两者在相同的人类PPI集上训练。此外,作者还使用了混合方法(PIPR + D-SCRIPT)。在表1中,本文列出5个物种的各方法的精度、召回率、精确召回曲线下面积(AUPR)、ROC曲线下面积(AUROC)。对于高度不平衡的数据,比如这里,AUPR通常被认为是比AUROC更好的指标。D-SCRIPT的跨物种表现明显优于PIPR,并且在所有物种中都保持了较高的AUPR,即使是那些进化上与人类极为遥远的物种。事实上,它在这些物种中的AUPR与人类交叉验证中的AUPR相当。在跨物种分析中,混合方法优于单独使用D-SCRIPT和PIPR方法,但对D-SCRIPT的改进不大。人类交叉验证虽然本文的目标是增强跨物种PPI预测,但作者试图研究D-SCRIPT在预测人类PPIs的表现。作者进行了5折交叉验证,并在此报告了所有的平均值。此外,本文还评估了一种混合方法(PIPR + D-SCRIPT)。表1显示,尽管在交叉验证中,PIPR在人类PPIs上的表现明显优于DSCRIPT,但组合方法的表现要优于单独一种方法。DSCRIPT在涉及PPI网络中不常见蛋白的相互作用方面表现更好,而PIPR在涉及频繁发生蛋白的相互作用方面表现更好。表1 在人类PPI上的模型评价自我接触预测设计D-SCRIPT的目的之一是捕捉交互作用的结构,训练过的投影模块产生的每个蛋白质嵌入应该编码结构信息。为了验证这一点,本文从蛋白质数据库(PDB)中随机选择了300个蛋白质,并使用在人类PPIs上训练的D-SCRIPT模型生成这些蛋白质的(n x d)维嵌入。图3显示,投影模块输出的特征通过线性组合能够实现真实接触的一个重要子集,在测试数据集上,每个per-structure的AUPR中位数为0.19。这些结果强烈表明, D-SCRIPT只使用序列数据的端到端训练可以捕获每个蛋白质层次结构信息的中间表示。可解释性蛋白质间对接接触的预测。作者研究了D-SCRIPT模型的可解释性是否有助于预测蛋白质间的对接接触。D-SCRIPT的残基接触模块的输出是一个蛋白间接触图C,其中C中的元素Cij可以解释为蛋白S1的残基i与蛋白S2的残基j接触的概率。本文验证了训练后生成的接触图与设计目标是一致的:对应于负例的接触图Cij分数应该接近零,而对应正例预测的接触图应该是稀疏的,但有孤立的高分数区域。作者发现通常情况下确实是这样的,并在图4中展示了一些例子:正例的最大C值高,负例的最大C值低。接下来,作者试图测试矩阵C是否在物理上代表实际的对接机制的相互作用。作者强调,这是一个很高的标准,因为他们没有为模型提供任何三维信息,也没有任何对接指导,原则上,在矩阵C不具备物理精度的情况下,模型可以很好地完成分类任务。本文使用Hwang等人的对接蛋白结构基准数据集进行了这项测试。基准集中每个PDB复合体中的每一对链生成一个候选PPI。作者在295个候选PPIs上应用了本文的人类数据训练的模型,并根据真实接触点评估了预测的接触图(在8埃进行评估)。在D-SCRIPT预测了交互作用的情况下,作者发现接触矩阵C实际上基本概括了真实接触点(图4a,4b)。甚至在某些情况下, D-SCRIPT没有预测的交互,C的分布Cij分数仍然是真实的(图4c)。作者发现,接触图C与真实值显著相似,即使在D-SCRIPT不能预测交互作用的情况下,C接触图与ground truth的相似性也高于随机基线。图4 D-SCRIPT正确预测时的接触图与真实值比较4总结本文介绍了一种可解释的基于序列的PPI相互作用预测方法——D-SCRIPT。结果表明,它的预测比其他方法更适用于与组成蛋白相互作用的训练实例较少的PPIs,更重要的是适用于只针对不同物种的蛋白序列进行训练的跨物种环境,有点类似迁移学习。D-SCRIPT说明,学习单个蛋白质的语言也有助于解码蛋白质相互作用的语言。
Phenomic AI的Sam Cooper博士和Michael Briskin讨论了人工智能(AI)如何使他们能够针对多细胞相互作用进行药物开发。许多预后最差的癌症由于其免疫抑制性的微环境而对免疫疗法产生耐药性。然而,研究和靶向这些癌症并不是一项简单的任务,主要是因为这种环境依赖于不同细胞类型之间的众多相互作用,这意味着孤立地研究单个细胞类型的传统方法无法提供准确的代表性。虽然包含多种不同细胞类型的多细胞培养物和器官体可以提供更多生理相关的模型,但要确定特定细胞在疾病中的作用以及研究性治疗如何影响它们,需要进行单细胞分析,这又会产生大量的数据集。理解这些数据对于理解这些复杂的疾病,从而成功开发候选药物至关重要。Drug Target Review的Hannah Balfour采访了Phenomic AI的首席执行官Sam Cooper博士和该公司的首席科学官Michael Briskin博士,讨论了他们为什么使用人工智能(AI)来分析他们的湿实验室数据,以及如何使他们能够开发针对复杂生物学的治疗性抗体,如肿瘤基质。为什么要使用AI分析多细胞培养数据?Cooper解释说:“多细胞模型具有多种不同的细胞类型,它们可以共同生长和相互作用,而单一培养只有一种类型。通常,使用多细胞培养物时,制药公司会进行大量分析。他们一起分析所有细胞并获得单一结果。但是,这不能显示培养物中每个单个细胞正在发生什么。相反,使用成像和单细胞RNA测序技术来了解单细胞水平上发生的事情。这会产生大量数据,将使用一种深层神经网络对其进行处理,以消化和识别存在的细胞类型以及它们如何受到影响。允许研究人员做的是针对不同细胞类型之间的相互作用。当研究肿瘤微环境时,这是关键,因为它包含许多彼此相互作用的细胞类型。通过一起培养和试验这些细胞类型,但将它们作为个体进行分析,能够观察细胞-细胞反馈以及不同细胞产物之间的相互作用,并确定其中哪些可能导致疾病。基于AI识别肿瘤基质的药物靶标为什么要研究和靶向肿瘤基质?Briskin博士解释说,肿瘤基质是肿瘤学领域特别理想的靶标,因为它积极参与在肿瘤周围建立免疫抑制或免疫排斥的环境,从而阻止了它们对免疫疗法的有效反应。他说,这些通常是预后最差的肿瘤,并补充说一些例子包括胰腺癌,结直肠癌,前列腺癌和乳腺癌子集。多细胞培养和AI在此应用中有何帮助?为了有效地研究肿瘤基质,Phenomic开发了一个平台,该平台使用深度学习工具来分析实验数据并消除多细胞分析中靶标抑制作用的影响。迄今为止,这已使研究人员能够识别肿瘤基质中的新靶标并开发抗体疗法,他们希望将其推进临床前研究中。肿瘤基质是一个复杂的结构,富含许多细胞类型,包括基质蛋白和成纤维细胞,它们相互作用产生免疫抑制性微环境。为了了解和开发用于肿瘤基质的药物,需要多细胞模型和多组学方法。药物研发中使用AICooper说,这一领域令人兴奋,自从1980年代首次出现以来,人工智能已经发展了很多。其在药物发现中的当前用途分为三个不同的组:最早的应用是设计化合物或蛋白质,现在有大量使用高级机器学习(ML)的公司涌入。出现的第二种方法是检查大型临床数据集并分析某种药物是否可以使特定患者群体受益。使用ML分析大型实验和组织数据集,以从分子水平帮助理解健康和疾病中的生物学。未来用于药物发现的AI的发展而言,Phenomic正处于使用它来探索蛋白质组学的边缘,而除此之外,可能还在研究代谢组学和糖组学。这意味着数据集将变得更加丰富,甚至更有价值。Cooper和Briskin得出结论,ML能够从多细胞研究中消化大量数据集的能力意味着它正在成为增进对健康和疾病中细胞复杂相互作用的生物学认识的日益重要的工具。
人工智能(AI)最早描述于1955年,是制造智能计算机程序的科学和工程。AI可以被描述为 "一个实体(或一组合作实体的集体),能够从环境中接收输入,从这些输入中解释和学习,并表现出相关的和灵活的行为和行动,帮助实体在一段时间内实现特定的目标或目的"。人工智能的最终目标是利用机器模拟人类的智能过程,如学习、推理、自我修正等,模仿人类的决策过程。人工智能正在迅速崛起,成为解决各种医疗管理问题的全能解决方案。预计2021年全球用于人工智能的支出将增长到522亿美元。医药研究和发现是第二大快速增长的学科,预计2016年至2021年的年均增长率为70.5%。AI包含多种技术:机器学习(ML)、深度学习(DL)、自然语言处理(NLP)和光学字符识别(OCR)。ML广泛应用于医药行业,创建数据分析算法和数学模型,从样本数据中提取特征,目的是进行预测或决策。ML分为(1)应用于数据提取的无监督学习,(2)应用于预测建模的监督学习。DL是一类基于人工神经网络的ML方法,使用多个隐藏层从原始输入中逐步提取和处理复杂数据。NLP是应用于药物开发的另一个领域,利用NLP从文本信息或自然语言数据中提取意义。OCR利用模式识别和计算视觉,目的是将打字、手写或印刷文本的图像电子化为机器编码文本。基于ML的应用被利用在不同的医疗领域--早期疾病预测、诊断和治疗、结果预测和预后评估、个性化治疗、行为调整、药物发现、制造、临床试验研究、放射学和放射治疗、智能电子健康记录和疫情预测。虽然人工智能在COVID-19大流行中,在追踪与预测、诊断与预后、治疗与疫苗、社会控制等方面具有潜在的效用,但由于数据缺乏、数据过多,以及数据隐私的限制,其价值受到限制。Karekar等报道了159项在Clinicaltrials注册的AI研究。Gov.最常见的研究是肿瘤学、心脏病学、眼科、精神病学和神经学。大多数研究是针对器械和诊断的。虽然这是对注册研究的审核,但作者没有讨论研究的质量。Liu等人在最近对3万多项基于人工智能的诊断研究进行了系统回顾和荟萃分析,发现DL模型的诊断性能与医护人员的诊断性能相当。然而,<1%的研究具有足够高质量的设计和报告,可以被纳入荟萃分析。最近的指南--SPIRIT-AI扩展和CONSORT-AI扩展--有望促进AI临床试验方案的透明度和完整性。对于制药业,AI正在成为一个多功能的工具,它可以在药物开发的各个阶段,如药物靶标的识别和验证,设计新的分子,老药重新规划被应用,提高临床试验效率和药物警戒(PV)。AI在临床药物开发中经过专门尝试,但一直困扰着高成本和高失败率。DL在识别潜在的新药候选者以及改进对它们的特性和可能的安全风险的预测方面取得了显著成功。AI可以提高寻找适应症和生物标志物之间相关性的效率,并帮助选择在临床开发过程中更有可能获得成功的先导化合物。DSP-1181是一种使用AI创建的强迫症分子,已进入I期试验。AI提供了改变临床试验行为研究,设计,计划和执行的关键步骤的希望。ML,DL,NLP和OCR可用于链接大型多样的数据集,例如电子病历(EMR),已出版的医学文献和临床试验数据库,以通过将患者特征与选择标准相匹配来改善患者招募。人工智能可以通过以下方式帮助增强患者选择:减少人口异质性。这可以通过协调来自多种格式和不同精度级别的大型EMR数据,以及利用电子表型分析来实现。通过预后充实–选择具有较高可测临床终点可能性的患者。使用阿尔茨海默氏病(AD)的关键生物标志物的ML技术可用于预后富集。通过预测性富集–选择更有可能对治疗产生反应的人群。对于早期AD,通过对药物,疾病和疾病进展进行建模开发的临床试验模拟工具已经进行了监管审查,该工具有助于预测性富集。AI系统可用于自动分析EMR和临床试验数字数据库,并将其与从试验公告,社交媒体或注册表中招募临床试验相匹配。它还可以帮助患者更快地了解感兴趣的临床试验,并使他们能够进入研究者所在地以评估合格性。基于AI的临床试验匹配已使肺癌试验的入选人数增加了58.4%。AI技术与可穿戴技术的结合对于在试验过程中自动且连续地对患者进行高效,实时和个性化监控非常有用。这可以提高对协议要求的遵从性以及端点评估的可靠性。DL模型通过分析可穿戴式传感器的数据和视频监控,可以生成适应行为变化和疾病表达的患者特定疾病日记。此类动态疾病日记有助于有效,可靠地收集依从性和终点。被批准用于医学图像检测的ML技术将在基于图像的端点检测中发挥重要作用。模拟试验中,已经尝试使用基于ML的算法来确定缩小脑瘤所需的最小和最小剂量,同时减少化学疗法的不良反应。这样可以减少由于安全问题而辍学的风险。与传统的改良直接观察疗法相比,AiCure是一种基于AI的移动应用程序,用于测量药物依从性,在精神分裂症的II期临床试验中,依从性提高了25%。利用可穿戴式传感器的图像和视频的AI辅助患者监护系统最近已进行了测试。可穿戴设备是一种可以执行测量或数据处理活动的设备,并且在通过衣服直接或间接连接到人体上时具有完整的功能,但与任何其他不穿戴设备没有硬线连接。机器学习模型与可穿戴设备相结合,已用于认知和情绪状态的自动检测,帕金森氏病试验参与者的监测以及神经病学试验中睡眠质量的评估。ML,NLP和OCR可以帮助分析纸质格式的非结构化医疗记录,以便在印度进行现实世界的证据研究。ML和NLP已被用于自动检测不良事件和药物相互作用。已经识别并开发了将ML和NLP算法结合起来的认知服务,以解决个人案例安全报告的PV流程中需要人类智能的特定任务。此类AI技术可以减轻PV专业人员的认知负担,并提高各种PV过程的效率。尽管用于临床药物开发的AI技术迅速进步,但AI的实施仍面临各种挑战。主要障碍为EMR数据挖掘是可访问,数字化,和数据完整性。协调,各种格式的互操作性以及标准化是所有技术的常见问题。挖掘大型数据集的基因组数据,过去的临床研究,期刊文章以及相关的现实世界数据的难度很大,可能难以分布在多个机构和地区。数据隐私的监管环境限制了对单个患者数据的访问。数据隐私和安全性的类似法律障碍会影响临床试验匹配过程。FDA将基于AI / ML的软件视为医疗设备。FDA希望AI创新者遵守临床,分析和技术验证,质量体系,良好的机器学习实践,安全性和有效性的保证,透明性以及实际性能监控的要求。提议提高临床试验设计和实施效率的任何新AI技术,都应通过对其声称可补充或替代的现有技术进行测试来进行验证。监管机构和最终用户将期望AI技术应易于理解,符合道德,可复制且可扩展。最后,还存在人员问题,例如具有必要技术技能的人员的可用性,以及担心失业可能会延迟AI技术的采用。AI不是灵丹妙药,它可以在一夜之间提高临床试验的效率。人与机器仍处于学习曲线上!因此,制药业将需要花费大量的精力,金钱和时间(5-8年)才能实现新型AI工具的好处。
今天给大家介绍的是由哈佛大学Stuart L. Schreiber教授在“Cell”上发表的文章”The Rise of Molecular Glues”。2021年是发现环孢菌素A(cyclosporin A)和FK506以一种从未见过的方式发挥作用的30周年,即介导蛋白质-蛋白质结合的“分子胶水”。随着新型分子胶水探针和药物的大量涌现,人们对“分子胶水”这一领域的兴趣越来越浓厚。本文以奠基者的视角回顾了这个领域的发展轨迹。1背景早在人们知道环孢素A(cyclosporin A,CsA;sandimmune)是一种分子胶水之前,1971年瑞士制药公司Sandoz的一名生物学家和妻子在挪威度假时,发现了一份土壤样本。作为一项旨在发现含有抗真菌抗生素的微生物的筛选计划的一部分,员工通常会收集这些样本,但土壤含有的CsA的免疫抑制活性引起了Sandoz的注意。1979年,CsA被用于防止器官移植排斥反应,并于1983年被FDA批准。与此同时在1983年,日本制药公司Fujisawa正开发一个项目,项目通过筛选新的生物活性微生物产品来寻找免疫抑制剂。在1987年,他们发现FK506(tacrolimus),这是一种新的由23个部分组成的大环内酯,它具有与CsA相似的活性,但更有效并且似乎在器官移植患者中得到更好的结果。接下来的4年时间里,科学家竞相揭开CsA和FK506活动的分子机制,希望能创造出更好的类似物,最终孕育了分子胶水这一新领域。但分子胶水是怎么走到这一步的?在过去的30年里,分子胶水的前景如何?2分子胶水的发现80年代中期,作者在耶鲁遇到了Bob Handschumacher,他给作者介绍了CsA靶向亲环素免疫抑制(CsA targeting cyclophilin for immunosuppression)。亲环素(cyclophilin)是一种小的(18kD)并具有一种奇特酶活性的蛋白质,它可以催化蛋白质中脯氨酸(prolyl)的顺式和反式旋转异构体的相互转化。事实证明,CsA抑制了这种“肽基-脯氨酸异构酶”的活性。但亲环素与免疫抑制之间没有显著联系。因为脯氨酸异构化非常容易发生,而且发生在毫秒到秒的时间范围内,所以从化学家的角度看,很难想象催化或抑制这一过程对细胞有什么意义。那么,如何将这个看似无关紧要的功能与CsA对T细胞受体(T cell receptor,TCR)介导信号通路的抑制联系起来呢?作者想知道是否还存在类似性质的化合物。Fujisawa制药公司(现称Astellas)通过寻找可以干扰TCR信号的天然产物发现了FK506。FK506不同寻常的结构——大环聚酮引起了作者的注意,他开始寻找相似结构的化合物。1980年Ayerst科学家在“Canadian Journal of Chemistry”上报道了一种不同但结构也是大环聚酮的雷帕霉素(rapamycin),它是一种抗真菌剂。作者猜测它和FK506同样具有CsA活性。与Handschumacher的讨论让作者更加重视FK506和雷帕霉素靶点作用机制的发现。在1988年从耶路搬到哈佛后,作者利用亲和层析法(affinity chromatography)快速找到了FK506和雷帕霉素的靶点。虽然第一个靶标FKBP12与这两种化合物均有亚纳米摩尔相互作用(subnanomolar interactions),但其它靶标表现出差异结合(differential binding),而FKBP12与雷帕霉素表现出选择结合(selective binding)。值得注意的是,每一个FKBPs如同之前的亲环素一样,显示出对药物敏感的肽基-脯氨酰异构酶活性。亲环素和FKBPs被命名为免疫因子(immunophilins)。FKBPs释放了一系列确定的活动,以利用化合物作为它们所调节的生物探针。免疫学的研究者们将细胞内信号传导描述为一个“黑匣子”,并注意到最强大的探针——细胞表面受体的抗体无法穿透细胞膜,而小分子却可以。作者与其他研究者在1990年有了一个惊奇的发现:结构相关的FK506和雷帕霉素破坏两个截然不同的通路。FK506干扰TCR信号,而雷帕霉素干扰IL2受体信号。更令人费解的是,亲环素-CsA复合物的行为类似于FK506复合物,尽管它没有与FKBP12结合。这一奇怪的结果提出了一个新的可能,那就是FKBP12-FK506和FKBP12-雷帕霉素复合物具有不同的特性,并且针对不同的通路。如果这是真的,那么简单地结合FKBP12将不足以实现这些变量应答,但竞争性结合可以阻止这些化合物作用。为了验证这一假设,作者设计了非天然大环506BD(FK506和雷帕霉素的FKBP12结合域),并实现了其多步合成。506BD能明显消除FK506和雷帕霉素的细胞活性(但不能消除不与FKBP12的CsA)。作者将分子胶水的作用过程类比登月活动,认为KFBP12可能起到类似指令舱的作用,免疫抑制剂充当对接组件,但还没有找到登月舱。为了找到它,博士后Liu扩展了作者的亲和层析法研究,这次使用了亲环素-CsA、FKBP12-FK506和FKBP12-雷帕霉素作为诱饵。Liu发现亲环素-CsA和FKBP12-FK506结合蛋白磷酸酶(protein phosphatase calcineurin),如图1所示。CsA和FK506被命名为分子胶水!这个术语在第二年被发表,启发了Schreiber等人对抗肽选择性粘合特定MHC和TCR蛋白作为免疫应答手段的类似工作。FKBP12-雷帕霉素的结合物则在1994年才被发现。Mike Hall和George Levi的研究小组在酵母中发现FKBP12的隐性突变导致了雷帕霉素的耐药性,这为功能获得模型和雷帕霉素属于分子胶水的观点提供了有力支持。登月舱的证据来自于DRR(dominant rapamycin resistant)和TOR(target of rapamycin)耐药性等位基因区域的识别。在与Crabtree利用CsA和FK506阐明钙-磷酸酶-NFAT的信号通路后,作者于1994年回到了雷帕霉素未完成的研究。Sabatini和Brown再次使用基于FKBP12-雷帕霉素亲和层析法纯化并表征的FKBP12-雷帕霉素靶标作为未知蛋白激酶mTOR,确认了雷帕霉素像CsA和FK506一样也是功能分子胶水。20世纪80年代,细胞内信号传导、蛋白磷酸酶和蛋白激酶被认为是不可用药的靶点。由于发现现有的药物CsA通过抑制一种蛋白磷酸酶来阻断细胞内信号转导,因此前两种被认为是神话。3年后,随着mTOR抑制剂西罗莫司/雷帕霉素的批准,蛋白激酶将从不可用药名单中取消。2020年随着大环内酯WDB002的发现,科学家拓展了自然使用FKBP12作为指令模块和聚酮化合物的生物合成路径作为分子胶水来源的知识,FKBP12-WDB002可以结合CEP250几乎没有特征的盘状表面,如图1所示。不可用药的神话也被打破。图1:分子胶水发现时间线3有目的分子胶水20世纪90年代早期有了这种小而强大的分子胶水后,科学家开始回答有关邻近性在信号传导过程中的作用。蛋白质支架和小分子胶水的发现表明大自然利用邻近性普遍存在,如图2所示。作者受到Crabtree的启发,设计出了首个针对基因融合的“双功能“分子胶水,理论上它可以诱导任意两个蛋白质接近,这些蛋白可以遗传地附加到FKBP12或其他小分子结合模块上。化学邻近诱导剂(chemical inducer of proximity,CIP)由一步烯烃复分解反应结合两个FK506分子通过连接元素FK1012形成,如图2Bi所示。FK-CsA正是在这样的创新中发展起来,打开了使用任何不同基因融合的大门。CIPs表明简单地诱导细胞内部分邻近足以引发一系列细胞后果的事件,如图2Bi和2Bii所示。Rimiducid是第一个用于人体测试的有人工目的合成的分子胶水,结果表明骨髓移植患者通过诱导其死亡受体融合靶的二聚化从而消除移植物抗宿主病,导致靶向细胞消融。利用分子胶水诱导邻近蛋白关联,基因表达和抑制、染色质甲基化和重构、细胞器和膜定位、蛋白质降解可以被轻微地控制。4非天然分子胶水1996年,Deb Hung等人发现了天然产物圆皮海绵内酯(discodermolide),它可以稳固α和β微管蛋白单体的结合。这些化合物的作用并不是诱导新结合,而是稳定微管。然而,这些“分子钳”的潜在机制与化合物诱导新结合有关。2000年发现一种简单的合成化合物也可以诱导天然蛋白的结合,为这一领域开辟了新的方向。到目前为止,我们所遇到的分子胶水只是以自然产物胶或其衍生物的形式迅速增长。它们以CIPs的形式连接在一起,混合搭配,但构建的基石总是天然的。小分子筛选发现synstab-A(合成稳定剂)的“现成”合成化合物促进了微管在体外和细胞中的形成。因此,即使是简单的非天然化合物也能诱导蛋白质结合。在这一发现后的数年时间里,针对天然蛋白分子胶水和分子钳的发现出现了爆炸式增长。简单的小分子可以作为分子胶水,当你考虑到转录后修饰可以诱导蛋白质关联,就像一个错义突变安装一个不同的氨基酸可能完全改变蛋白质的样子和它的相互作用组。分子胶水只是这些天然模块的非共价延伸。另一个催化步骤是由免疫调节药物(IMiDs)萨力多胺(thalidomide)和来那度胺(lenalidomide)以及抗癌药物indisulam的作用机制(MoA)研究转向合成分子胶水。这些小分子诱导E3连接酶和靶向蛋白的联系。更普遍的是,对含有或不含化合物的蛋白质靶标进行的细胞下拉实验显示,它们的靶标相互作用的变化频率高得惊人。合成化合物常常起分子胶的作用,远非自然选择的专属领域。图2:分子胶水诱导蛋白质接近5意义与细胞质信号传导和核染色质信号传导等生物学信息传递手段类似,诱导蛋白的观念为药物开发带来了希望。当小分子与蛋白质结合时,它们通常改变它们的相互作用。假定在一个细胞中蛋白质有多个结合对象,小分子有能力改变蛋白质表面的布局,从而改变平衡,有利于不同蛋白质的结合。其结果包括增加(稳定剂)或减少(降解剂)靶标的寿命,改变其定位(矫正器),或激活信号,又或者基因表达。蛋白质和小分子间的相互作用使得药物治疗靶标范围更广,这些特征为分子胶水的前景奠定了基础。我们已经知道分子胶水是有效的药物,它在治疗人类急性白血病中显示出控制小分子敏感等位基因的活性,并且是最引人注目的探针之一。利用分子胶水降解剂和PROTACs降解治疗靶标的新方法在新兴制药和生物技术公司中出现,药物发现过程正在被重塑。6未来新型基因工具正在引导合成生物学家设想通过基因编辑技术等方式来重新布局细胞回路。而分子胶水可以让我们想象未来细胞电路可以在蛋白质水平上重新布局。除了使用分子胶水诱导新蛋白相互作用和调节药物靶标外,新型分子钳可以稳定蛋白动态结合。化学生物提供了一种手段可以发现分子胶水,它可以把蛋白质从复合物中取出来,并引导它们到新的化合物中去。这为干预和理解细胞回路提供了一种新的方式,并将其转化为全新的治疗方法。
今天给大家介绍一篇由Abdul W.Basit等人2020年12月5日发表在Drug Discovery Today上的一篇综述文章” Advanced machine-learning techniques in drug discovery”。机器学习(ML, machine learning)在药物发现中的受欢迎程度持续增长,取得了令人印象深刻的结果。随着其使用的增加,其局限性也变得明显。这些局限性包括它们对大数据的需求、数据的稀疏性以及缺乏可解释性。此外,这些技术也变得很明显,它们并不是真正的自主技术,甚至需要在部署后进行再培训。综述中详细介绍了先进技术的使用,以规避这些挑战。此外,还介绍了新兴技术及其在药物发现中的潜在作用。背景ML在药物发现领域的应用持续增长,促进了众多途径的研究。越来越多的制药公司将ML作为其商业模式的核心,大型制药公司也在探索ML用于药物发现。这样的成功证明了ML对于药物发现的必要性和实用性,也毫不含糊地表明药物发现将与ML有着内在的联系。其目标是减少药物发现的资源和劳动密集型,主要是高通量筛选(HTS)技术。ML的另一个目的是消除对动物试验的需求,而动物试验近来受到了负面的宣传。传统的ML技术已经在药物发现方面进行了彻底的探索。这些技术包括有监督和无监督的ML技术,包括k-最近邻(kNN)、决策树、随机森林、支持向量机(SVM)、人工神经网络(ANN)、主成分分析(PCA)和k-均值。它们的吸引力来自于它们的简单性,计算量不大,但与传统预测算法相比,预测精度有所提高。同样,传统技术的底层机制也可以被非计算机科学家研究人员认知理解。例如,对于kNN来说,用户只需要控制一个参数,即k值,而k值又是根据复数投票来决定分类搜索空间。另一个例子是SVM,它利用超平面结合支持向量来划分类别,使不同类别之间的距离最大化。SVM的优势在于使用了内核技巧,可以对数据进行非线性映射,这在非线性数据集上得到了广泛的应用。该技术也可用于PCA(kernel PCA;kPCA)。最近的一项研究发现,kPCA可以用来改善线性模型的分类,其性能与非线性模型相当,不过速度明显更快。传统的ML技术尽管简单,但也有其缺点。kNN受到维度的诅咒,即在高维空间,预测性能开始减弱。同样,当维数大于样本量时,SVM的性能也开始下降。增加随机森林中的树的数量可以提高预测精度,尽管大量的树结果产生的算法对于实时监测来说效率不高。然而,ML技术有两个主要的批评是其对大数据的需求和缺乏透明度。鉴于数据的收集可能具有挑战性、成本高、耗时长,因此需要解决这些限制。此外,透明度可能会促进用户对发现过程的理解,并最大限度地减少他们对ML理解过程的依赖。传统ML技术的另一个限制是它们缺乏自主性。此外,一旦部署,它将需要后期维护,特别是随着数据集的发展。为了解决这些限制,研究界已经采用了新的技术,并取得了可喜的成果。预计这些先进的技术将进一步扩大ML的应用范围。最终,人们的目标是实现药物发现管道中的人工智能(AI)。AI是计算机科学中一个广泛的分支,旨在利用机器创造人类智能,其中ML是实现这一目标的核心。近年来,ML的一个子集--深度学习作为一种能够从大数据中实现高准确度的技术出现,同时处理结构化和非结构化数据。先进机器学习技术ML技术的一些批评包括需要大量的数据集和人为干预。从这些言论中,人们研究了先进的技术,以解决传统ML技术的缺点,从而进一步扩大其适用性。这些先进的技术包括强化学习(RL, Reinforcement learning),它弥补了自主学习技术的差距;迁移学习,以及多任务学习,用于开发缺乏大数据的预测模型。强化学习(RL, Reinforcement learning)当代RL的核心是新分子设计或分子优化。Popova等人针对药物的全新设计进行了一项结合这两方面的值得注意的研究。通过这种方法,RL与两种深度学习技术相结合。一种技术,即生成模型,作为代理,生成表面上可行的化学分子。另一种技术,预测模型,作为批评者,据此它奖励或惩罚生成模型的每一个生成的分子。研究还进一步证明,通过深层RL,可以优化理想的物理性质、化学复杂性或生物活性的新型化合物。虽然该研究表明,RL可以被利用来生成新的化合物,但还需要进一步的工作来完善该模型。迁移学习(Transfer learning)如果数据供不应求,那么可以使用一些技术来规避这个问题。其中一种技术是迁移学习,它是将从解决一个任务中获得的知识转移到另一个相关任务的过程。ML在材料科学中也得到了应用,尽管它的应用不像在药物发现和开发中那样发达。材料科学与药物制剂息息相关,实际上也是一个同盟领域,有着相似的研究理念和方法。最近,迁移学习被应用于各种材料,包括小分子、聚合物和无机晶体材料。该研究能够成功地将迁移学习应用于一个观测值较少的数据集。此外,还揭示了小分子和聚合物之间、无机化学和有机化学之间的潜在联系。多任务学习(Multitask learning)迁移学习是顺序学习以及随后知识向另一任务的转移,而多任务学习是在一个模型中同时学习不同任务。据观察,与单学习任务时相比,学习相关任务可同时提高预测性能。多任务学习的好处在小批量数据集或噪声很大的情况下特别有用。此外,发现多任务学习优于传统的MLT,尤其是在数据相对稀疏的情况下。药物发现中,多任务学习已发现可用于解决多靶点药物的作用。对此类候选物进行研究是因为它们具有严重的不利影响,这是对多个靶标采取行动的不利结果。同样重要的是,最近证明,对于几种复杂疾病,例如癌症和代谢性疾病,多靶点药物比单靶点药物更有效。主动学习(Active learning)主动学习是一种独特的半自动化机器学习方法,试图使用用户反馈来解决低标签数据集的问题。与被动学习相比,主动学习是理想的选择,因为在这种情况下,大量的无监督训练数据需要昂贵且耗费资源的实验来标记。因此,用户可以进行实验并随后为数据集的子集标记数据,并使用主动学习来获得对其余未标记数据的预测。例如,使用ML预测药物通过血脑屏障的渗透率,一个人可以对10%的分子进行实验,并使用所述10%的分子训练模型以预测其他90%的分子。如果模型不确定,它将进行查询,然后研究人员可以对这些样本进行实验。因此,与被动学习相比,它有可能需要相当少的标记数据,从而在最小化成本的同时加快了药物发现过程。生成模型(Generative models)如前所述,生成模型是能够生成新样本的ML技术。生成模型通过直接从输入数据中学习而将自己与区分模型区分开,并不一定要求用户编写明确的规则。生成模型可以通过实现数据分布的概率估计器来生成新数据实例,其中新数据位于分布内。换句话说,生成模型能够为给定的分布生成新的样本。这与判别模型形成对比,判别模型揭示了给定数据实例的情况下标记数据的概率,而与数据实例是否有效无关。最近的研究中使用的深度生成模型,其中,在除了生成新的化合物,可以用小的数据集时用于数据扩张。如前所述,将需要对新产生的分子进行彻底评估,以确保它们与市场上已经存在的化合物不同和/或与输入模型的化合物不同。贝叶斯神经网络(BNN, Bayesian neural networks)BNN是利用贝叶斯推理将多个神经网络模型组合在一起的集合模型。与传统的神经网络不同,传统的神经网络需要大量的数据进行训练,而BNN由于能够避免过拟合,所以能够处理小数据集。过拟合是大多数传统ML技术相关的问题,BNN在训练过程中通过先验概率分布来计算众多模型的平均值,从而产生网络的正则化效应,从而避免了这个问题。换句话说,神经元的权重和偏置不是一个单一的值,而是从一个分布中抽样出来的,这个分布会定期更新来训练BNN。BNN在药物发现中的应用还没有被彻底探索。最近的一项研究显示,利用ChEMBL数据集,贝叶斯图网络在预测分子的抑制活性方面表现优于传统图网络。最近,BNN被应用于识别药物相似性,其中单个分类器的贝叶斯误差分布可以产生93%的准确率,用于区分类药物和非类药物分子。可解释性算法(Explainable algorithms)ML的使用确实可以促进和加快决策的制定,特别是对于日常任务。因此,可能没有必要了解该模型实现的决策过程。但是,了解ML做出的决策过程将灌输研究人员的信心。解释模型可以帮助研究人员解决模型出现错误的问题。此外,决策过程中的洞察力可能会引发合理的研究问题。另外,它可以通过提供决策制定的见解来促进研究理解。同样,如果要将技术商业化,透明度也可能会引起对监管机构的信任。最近一个可解释的机器学习实例被应用到构效关系建模中,其中半监督的回归树的表现优于监督的回归树。Rodriguez-Perez和Bajorath使用不同的策略来预测活性,开发了一种方法,该方法阐明了传统技术的预测过程以及集成和深度学习模型。他们的工作重点是消除ML模型的“黑匣子”性质。新兴的机器学习技术混合量子-机器学习(H-QML, Hybrid quantum-machine learning)机器学习与量子计算的混合已经成为预测分析中的一项强大技术。量子计算的主要前景是能够解决复杂问题的效率,而这些问题对于传统计算机而言却过于昂贵。H-QML的优势确实可以在制药科学中加以利用,但是,该技术尚未得到应用。2018年IBM发表了一篇关于量子计算在药物发现中的潜力的文章,其中作者将量子ML的潜力纳入了其综述范围。最近,Google LLC发布了针对python的开放访问量子ML框架,该框架将使研究人员能够使用混合量子机器学习技术。因此,制药科学中的混合量子ML有望很快实现。推荐系统推荐系统在2006年因Netflix竞赛而声名鹊起,该竞赛旨在为其用户创建准确的用户偏好内容。推荐系统是一种ML框架,它基于在一组用户到一组项目之间建立链接的数据。推荐系统在电子商务中被大量使用,例如亚马逊和YouTube。此类技术的优势在于它们具有处理数据稀疏性,在先验信息不可用时进行预测的能力,以及通过解释推荐系统如何做出决策来提供透明度的能力。推荐系统已被研究用于医疗应用中,正确的治疗是根据患者的病史提出的。但是,在药物发现和开发中的应用尚未建立。Sosnina等开发了用于化合物与靶标相互作用预测抗病毒药物发现的推荐系统。作者使用了基于内容的过滤推荐系统,该系统适用于稀疏数据和可解释性。
今天给大家介绍的是浙江工业大学智能制药研究院的段宏亮教授研究团队发表在Chemical Communications上的文章 "Heck reaction prediction using a transformer model based on a transfer learning strategy"。迁移学习是一种将某个领域或任务中学习到的基础知识或模式应用到不同但相关问题中的方法,可以有效缓解因目标任务训练样本过少造成的负面影响。由于该方法的强大应用性,因而引发了研究者对其在化学领域的应用探索。作者以经典的小数据-Heck人名反应为代表,证明了迁移学习这一方法在反应预测任务上具有强大性能,同时进一步扩展了transformer这一语言翻译模型在化学领域的应用,突破性地解决了有限数据预测的难题,为后续的人工智能辅助化学研发提供了重要的现实依据。1.研究背景Transformer模型是谷歌公司于2017年研发的一种语言翻译模型。与经典的神经循环网络(Recurrent Neural Network, RNN)不同,该模型完全依赖于注意力机制(attention mechanism)并且能够更好地捕捉文字序列相关信息。近年来,化学家逐渐将目光投向这一模型的实际化学应用并取得重大的突破。但是受限于化学数据的规模较小,对于小数据反应transformer模型的预测效果并不显著。该文研究者创新性地提出使用迁移学习(transfer learning)来突破这个困局,使小数据的高精度预测能够成为现实。值得注意的是,该文所使用的迁移学习,是一类经典的机器学习优化手段。该方法通过将化学领域的基础知识转移到特定的小数据预测,可以有效地提高模型对于小数据集的知识理解和性能预测。在该篇文章中,作者选择Heck反应作为代表反应用于验证transformer + 迁移学习这一实验策略方案的有效性。虽然Heck反应具有的区域选择性和位点选择会大大增加反应预测任务的难度(如图1),但是考虑其是一个经典的人名反应,并且对于构建碳-碳键相关反应的基础研究具有重大的意义,因此该实验围绕Heck反应预测为中心任务,以transformer模型和迁移学习优化手段为两大有力工具,展开小数据预测探索的研究工作。图1. Heck反应通式及反应机理。2.方法2.1 实验流程作者通过构建一系列的对比实验来评估transformer模型在Heck反应预测这一目标任务的表现。在该文章中,加入迁移学习的模型命名transformer-transfer learning模型,未含有迁移学习的参照模型则称为transformer-baseline模型。图 2. Transformer模型预测Heck反应产物的方法示意图。浅绿色背景中显示的是加入迁移学习的Heck反应预测过程,右侧白色背景中展示的是未加入迁移学习的Heck反应预测过程。Transformer-transfer learning模型的训练步骤主要分为两步:预训练和迁移训练。第一步,transformer模型首先在含有大量基础化学反应的数据库上进行端到端的训练,从而获得基础的化学知识。第二步,transformer模型将所学的这些基础化学知识迁移到Heck反应预测的目标任务中并且在Heck反应数据集上进一步训练,从而结合基础化学知识以及Heck特有的化学信息特征。最后,模型根据预训练和迁移训练过程中学习到的知识要素做出相应的Heck反应产物的预测。而transformer-baseline模型作为对比组,仅仅在Heck反应数据集上进行训练,然后做出相应的预测。具体的步骤如图2所示。2.2 实验数据该实验涉及两个数据集:预训练数据集和Heck反应数据集。预训练数据集是用于学习基础的化学反应知识从而弥补目标小数据集因数据缺乏导致的基础信息过少的缺陷。该数据集来源于美国专利数据库,共包含37万个实际应用化学反应,涵盖大部分的基础化学知识。而Heck反应数据集则是该文作者自己进行数据挖掘工作创建的。研究者从Rexays商业库中下载实验数据,经过一系列的数据清洗工作,最终获得9959个符合要求的Heck反应用于验证实验的有效性。这里值得注意的是,为了避免模型直接从预训练数据中获得关于Heck反应的信息导致对于迁移学习这一策略评估混淆,该实验特地删除了预训练数据中关于Heck反应的有效信息,从而保证了评估模型性能的真实性。表1为具体的Heck反应数据集信息。表1. Heck反应数据集分布。3.研究结果3.1 模型表现Transformer-transfer learning模型无论对于分子间还是分子内Heck反应的预测都具有非常强大的预测性能:对于分子间的Heck反应预测,transformer-transfer learning模型的top-1准确率能达到95.3%,而对于数据量较少且更为复杂的分子内Heck反应预测,transformer-transfer learning模型的top-1准确率仍能达到87.7%。但是与之相比, transformer-baseline模型对于这两类反应的预测表现并不使人满意,分别只有66.7%和58.7%的准确率。表2为具体的结果分析,从这些结果中可以体现transformer + 迁移学习这一实验策略方案的强大之处。同时,研究者也指出迁移学习的确能够非常有效地增进transformer模型对于数据信息的提取。无论是化学信息还是序列之间的对应关系,transformer模型通过迁移学习能够对其有更深刻的认识。考虑到分子间Heck反应能为工业上和医学上各种重要的取代烯烃和二烯烃的合成提供了简便途径,作者又根据反应物的类型(乙烯、单取代烯烃、二取代烯烃和三取代烯烃)来进一步展开讨论transformer对于分子间Heck反应的预测性能,并且希望通过该分析能够对于实际的合成产生现实意义的引导。表3. Transformer-transfer learning模型和transformer-baseline模型对于一取代烯烃作为反应物参与的分子间Heck反应预测的top-1准确率。如表3所示,对于以乙烯作为反应物的分子间Heck反应,transformer-transfer learning模型的top-1准确率达到97.1%,体现了该模型的高精度预测性能。虽然研究者指出一取代烯烃在发生分子间Heck反应的过程中会面临区域选择性问题,导致模型对于这一类反应的预测难度的增加,但是对于这一涉及复杂的区域选择性反应的预测,transformer-transfer learning模型仍表现其强大的预测能力。此外针对涉及到以二取代和三取代烯烃作为反应物的分子间Heck反应, transformer-transfer learning 模型仍然能取得较好的预测效果。与此同时,作者指出,含有多个卤素或双键的反应物在发生Heck反应时也会涉及到位点选择性问题。在Heck反应数据集中,共有375个Heck反应具有含多个双键的反应物。对于这一类反应,transformer-transfer learning 模型也取得了不俗的成绩,获得了85.3%的top-1准确率。而对于反应物中含有多个卤素的Heck反应,transformer-transfer learning 模型的top-1准确率能达到91.9%。图3.Transformer-transfer learning模型预测正确的Heck反应示例。A, 涉及区域选择性的反应例子:(a) β位插入,得到 (E)-1, 2-二取代烯烃;(b) α位插入以获得1, 1-二取代烯烃;(c) β位插入以获得 (Z)-1,2-二取代烯烃。B, 涉及位点选择性的反应例子:(a) 烯烃反应物中存在多个碳-碳双键;(b) 烯烃反应物中存在多种卤素。3.2 实验验证为了证明transformer-transfer learning模型的实际应用性,作者根据模型的预测方案进行化学实验。根据实验结果,该研究获得了两个文献中未报导的Heck反应产物。作者指出transformer + 迁移学习这一策略方案的确可以作为化合物设计的先导手段对实验合成提供有效的方向指导。图4. 化学实验得到的产物与transformer-transfer learning模型预测产物的比较。4.结论在这项工作中,作者将迁移学习策略与transformer模型结合,以Heck反应作为代表,进行小数据的化学反应预测。经实验证明,在引入迁移学习策略后,Heck反应预测的top-1准确率从66.3% 提高到94.9%,体现出迁移学习对于transformer模型强大的性能增强作用。同时,该研究也指出transformer + 迁移学习这一策略方案这种方式的确可以有效解决以数据为驱动的模型在小数据领域的应用困局。为了验证这一方法的现实适用性,作者通过以模型给出的候选方案进行实验合成,并且成功地获得了两个未报导的涉及区域选择性和位点选择性的Heck反应产物。通过理论和实验的结合,该研究充分显示了Transformer-transfer learning模型在现实上的应用价值。在人工智能辅助化学反应预测这一领域,化学数据的缺乏极大地阻碍了这一方向的进展,该研究创造性地提出使用迁移学习优化手段以及transformer模型来突破这一难关。我们有理由相信这一优化策略可以应用到更多的化学反应预测任务并且极大提高这类方法的实际应用能力。
分子性质预测是药物发现领域的一项基本任务。对其进行准确预测的计算方法可以大大加快以更快、更便宜的方式找到更好的候选药物的整体过程。传统的预测分子性质的计算方法主要依靠提取指纹或人为设计的特征,然后与机器学习算法结合使用。为了捕捉当前任务所需的特征,这类分子表征本身就带有领域专家的偏见。为了超越这种偏见,采用更通用的方法,不同类型的机器学习算法被引入到分子性质预测领域。尤其是深度学习算法,由于计算能力的加快,以及大型数据集的可用性越来越高,而且由于其在自然语言处理和模式识别等相关领域的巨大成功,深度学习算法已经看到了复苏。这些类型的网络能够以自动化的方式学习特定任务的表示,因此可以消除复杂的特征工程过程。为了使用深度学习算法,规避特定领域的特征工程,需要为分子找到合适的表示方法。由于分子可以用图来表示,一种方法是简单地使用分子图(Graph)表示,导致了基于GNNs的发展,获得了越来越多的关注,并变得越来越流行。GNNs似乎成为了图形特定任务中最有前途的深度学习方法之一,特别是由于它们在预测量子力学特性、物理化学特性(或预测毒性方面的成功表现优于传统的机器学习方法。显示了GNN出版物与分子属性预测出版物的比例,以及本次综述所包含的出版物的交集。图神经网络(GNN)研究人员调研了了80种不同的GNN架构,并将它们分为三个不同的类别。前两类是基于它们的整体传播类型:循环图神经网络(Rec-GNN, Recurrent graph neural networks)和卷积图神经网络(Conv-GNN, Convolutional graph neural networks)。一个GNN变体中存在着几种不同类型的网络,主要来自于使用不同的初始节点或边,聚合过程中使用何种特征的差异,或对所述基本特征的添加(GNN除了使用卷积聚合外,还使用一些门控输出函数或注意机制等)。第三类:不同的图神经网络架构(Dist-GNN, Distinct architectures)。所做的区分并不是基于传播类型,而是这个类别由一系列不同的基于图的神经网络架构组成,以及对任何一种图神经网络架构可能的架构添加,比如跳过连接、不同的池化方法或注意力机制。图分子图是无向的,未加权的,并且大多是异构的。异构图包含不同类型的节点和边及其相应的特征。学习方法存在几种不同的训练GNN的策略。根据手头的任务和可用数据,可以通过有监督,无监督,半监督或强化学习来完成。典型任务可以包括节点,边或图分类,链接预测或图回归。Rec-GNNs vs Conv-GNN 递归图神经网络(Rec-GNNs)是最早用于分子性质预测的基于图的神经网络,它们与基于卷积的图神经网络的主要区别(Conv-GNN)是信息的传播方式。Rec-GNN以迭代的方式应用相同的权重矩阵,直到达到平衡为止,而Conv-GNN在每个时间步长t上应用不同的权重。分子性质预测本文中,研究人员列出了不同类型的常规类别及其相关的分子特性,以及相应的数据集,任务的类型(回归或分类)以及已用于预测它们的GNN。总的来说,研究人员将48种不同的数据集分为20种不同的分子性质。基于量子力学性质,包含三个分子性质部分,即坐标,能量和包含六个数据集的部分电荷。使用13种不同的GNN体系结构进行的能量预测占了这一类别的大部分,这是由于可轻松访问QM7-QM9数据集而导致的。此外,QM类别中的大多数网络都可以在Conv-GNN类别中找到-尤其是MPNN方法,在14种GNN架构中有6种以上。物理化学性质类别包括10个分子性质,其中水溶性是主要的有关可用数据集的性质。其他性质包括极性表面积,生物利用度,溶解度,代谢稳定性,沸点和熔点,疏水性,溶剂化自由能,被动膜通透性和血脑通透性。为了预测水溶性,列出了16种不同的GNN结构,其后是具有13种GNN的疏水性以及具有10种和11种独特结构的溶剂化自由能和血脑通透性预测。物理化学性质类别中的大多数网络都是Conv-GNN。在该类别的21种GNN架构中,有13种以上基于GCN方法。生物物理学类别涵盖三个分子特性:亲和力、功效和活性。活性是一个非常模糊的类别,为所包含的九个不同数据集留下了很大的解释空间。从架构的角度来看,该类别包括表2中所示的几乎所有GNN ,总共有58个不同的网络。其中大多数来自Conv-GNN类别,仅Conv-GNN GCN就有21种架构,而MPNN方法则有8种。Rec-GNN占7种不同的架构。NCI1数据集用于25种不同的架构,因此是使用最多的数据集,其次是具有21种架构的HIV数据集。生物效应类别包括三个分子特性子类别,即副作用,毒性和ADMET。毒性是具有六个数据集的类别。在此类别中,Tox21和MUTAG数据集已与24种GNN架构结合使用。ClinTox被12个使用,其次是ToxCast和具有11种不同体系结构的PTC数据集。总共使用了35种不同的体系结构,其中22种来自Conv-GNN GCN变体,这些体系结构已应用于所有数据集。第二个最常用的变体是在6个数据集中使用的具有8种架构的MPNN,紧随其后的是具有7种不同架构的频谱GCN和Rec-GNN。结论GNN在药物发现领域,尤其是在分子性质的预测方面有了巨大的加速发展。这项调查中,研究人员回顾了63篇不同的出版物,根据其底层架构对80种不同的GNNs方法进行了分类,并对20种分子性质类别进行了全面的概述,分为48个数据集。
今天给大家介绍来自德国蒂宾根大学的Robert Geirhos和加拿大多伦多大学的Claudio Michaelis等人发表在Nature Machine Intelligence的文章“Shortcut learning in deep neural networks”。文章认为有很多种深度学习(DL)案例的失败可以看作是同一个问题——捷径学习(Shortcut Learning)的不同表现。捷径学习是在标准基准上性能良好但是在更具挑战性的测试条件上表现较差的决策规则(decision rule)。捷径学习可能是生物和机器学习系统的一个共同特征。基于此,作者提出了一些关于模型解释和基准测试的建议,并且介绍了机器学习(ML)从实验到实际应用提高鲁棒性(robustness)和可移植性(transferability)的最新进展。1介绍深度学习领域正在蓬勃发展,据报道,深度神经网络(Deep Neural Networks,DNNs)以越来越快的速度取得了人类级别的对象分类性能,对我们的生活和社会产生了巨大的影响。但是,深度学习仍处于发展的开端,科研人员缺乏对其基本原理和局限性的深入了解。在深度学习应用程序的社会影响日益增长的现在,这成为了迫切需要解决的问题。如果我们信赖自动驾驶算法驾驶汽车,如果我们使用神经网络在工作中进行评估,如果我们癌症筛查需要深度学习的帮助,那么我们必须明确——深度学习是怎么工作的?什么时候会犯错误?以及犯错的原因?图1.深度学习失败案例通过对深度学习局限性的观察,可以找到它大量的失败案例(图1)。一方面是超人的性能,一方面是惊人的失败,这两者之间的差异如何调节?根据观察可以发现,许多失败案例并非个例,而是与DNNs使用捷径策略相互关联。DNNs经常通过走捷径而不是学习预期方案(intended solution)来解决问题,从而导致泛化(generalisation)的缺乏,这种现象可以在很多实际应用中观察到。所以虽然捷径策略表面上是成功的,但情况稍有不同就会失败。捷径学习并不是一种新现象,它有很多不同的术语名称,例如“协变移位学习 ”、“反因果学习”、“数据集偏差”、“坦克传奇 ”和“聪明汉斯效果”等。在很多特定的深度学习领域都出现了捷径学习的问题,如计算机视觉(Computer Vision)、自然语言处理(Natural Language Processing)、基于 Agent(强化)学习(Agent-based(Reinforcement) Learning)和公平性和算法决策(Fairness & algorithmic decision- making)等。本文针对这些可以统称为捷径的现象提出一个统一的看法,并阐述在理论和实践中为解决这些问题采取的方法。2主体内容2.1定义捷径:决策规则的分类法在人工神经网络中的捷径学习是怎么样的呢?作者通过一个简单的分类问题(区分星星和月亮)进行举例(图2)。预期方案是基于对象形状进行分类,实际模型学习的捷径方案是基于对象位置进行分类,因为神经网络不能从训练数据中判断出预期方案和捷径方案的差异。图2.神经网络中捷径学习例子一般来说,任何神经网络都会执行一个定义输入和输出之间关系的决策规则。为了将捷径与其他决策规则区分开,作者引入一种决策规则的分类方法(图3)其中包含:所有可能的方案(含无法处理数据的方案);可解决训练集的方案(含过拟合);可解决i.i.d.测试的方案(包括捷径学习)(i.i.d.(independent and identically distributed):独立同分布数据集;o.o.d.(out-of-distribution):分布外数据集。);捷径学习在训练集和i.i.d.测试集上性能良好(标准基准排行榜的分高),但是在o.o.d.泛化测试中性能糟糕。期望方案:在i.i.d.测试集和o.o.d.测试集上都可以运行。图4捷径从哪里来?作者认为,需要从两方面考虑这个问题。一是数据中存在的捷径机会(或捷径特征);二是如何组合不同的决策规则的特征。它们共同决定了模型的泛化方式。训练数据集中,对象和背景或上下文之间的系统关系很容易创造出捷径机会,就像DNNs可以识别出草地上的牛,却无法识别海边的牛(图4 a);郁郁葱葱的草地会被DNNs误判为一群放牧的羊群(图1)。捷径机会是无处不在的,当数据集的规模简单地按一定数量级放大时,捷径机会就会出现。除此之外,DNNs十分依赖纹理和其他局部结构进行对象分类,而忽略了对象全局形状。如DNNs认为模型训练时学习纹理特征比学习全局形状特征更有效,但实际测试时模型会将猫的图像归类为大象(图4 b),这就是模型中的捷径学习。判别学习(DIscriminative learning)可以选择解决给定数据集测试的可靠特征,但是它并不知道实际的测试情况,不知道如何将用于区分的特征与定义对象的其他特征相结合。图5:图像分类既然了解了捷径的来源,那么如何发现它们呢?实验证明,捷径学习可以通过泛化测试发现。在泛化测试中,DNNs将图4 c错误判断为吉他,该实验发现DNNs似乎学会了检测某些特征而代替了吉他,所以在i.i.d.测试集性能良好的策略在o.o.d.数据上性能糟糕。这说明人类预期方案和模型实际学习的方案之间存在这差异,泛化失败既不是学习的失败也不是泛化的失败,而是没有按预期方向泛化的失败。2.3诊断理解快捷学习目前捷径学习有很多元素已经被发现并且取得了实质性进展,但是开发者都是在没有一个普遍认可的策略下来探索方法的。所以作者介绍了诊断和分析捷径学习的三个可行步骤。1)仔细分析结果目前机器学习领域最流行的基准测试仍然是i.i.d.测试,这使人们不再需要验证测试性能与人们真正该兴趣的基础能力(underlying ability)之间是否有关系。如原本计划用来衡量模型“识别对象”能力的ImageNet数据集,实际发现DNNs似乎主要依赖“对纹理块的计数”来通过测试。因此可以得出,模型简单通过数据集测试和模型实现了人们期望的基础能力之间是不一样的。数据集只有能很好地代表人类真正感兴趣的功能时才是有用的数据集。动物通常以一种意想不到的方式解决一个实验范式,而未使用人们真正感兴趣的能力,从而欺骗了实验者。摩根法则(Morgan's Canon)提到,如果可以用较低的心理过程来解释某种行为,那么绝将其归因于高级的心理过程,即法则否认了“人类思维模式和处理问题的方法很容易被非人类利用“的观点。但在算法层面,通常有一种默认的假设(same strategy assumption),如果模型有类人的表现,那么它采取的策略也是类人的。同理,在深度学习中,DNN单元不同于生物神经单元,但是如果DNNs成功识别了对象,那么很自然地假设它们像人类一样使用物体形状来识别。因此我们需要区分模型在数据集的性能表现与实际获取的能力之间的关系,在将“物体识别”或“语言理解”等高级能力赋予模型前要非常谨慎,因为通常有一个更简单的解释:“永远不要将能用捷径学习充分解释的结果归因于高级能力。”2)面向o.o.d.泛化测试以检测捷径学习通过i.i.d测试集上的验证性能来衡量模型性能是大部分机器学习基准测试的核心。但是在现实世界中,i.i.d.假设很少是合理的。如果模型性能仅在i.i.d.测试数据上进行评估,那么就无法发现模型是否真的采用了预期方案,因为模型利用捷径也会在标准指标上产生虚假的好结果。因此,作者希望能够确定一个足够简单有效的o.o.d.测试来取代i.i.d.测试,成为未来机器学习模型基准测试的新标准方法。作者认为优秀的o.o.d.测试至少要满足以下三个条件:有一个明确的分布变化。有一个明确定义的预期解决方案。是一个大多数现有的模型都认为具有挑战性的测试集。。目前表现优秀的o.o.d.基准有Adversarial attacks、ARCT with removed shortcuts、Cue conflict stimuli、ImageNet-A、ImageNet-C、ObjectNet、PACS和Shift-MNIST / biased CelebA / unfair dSprites。3)为什么学习捷径对于DNNs来说,利用捷径比学习预期的解决方案要容易得多。但是,是什么因素决定一个解决方案是否容易学习?对于机器来说,解决方案是否容易学习不仅仅取决于数据,而且取决于机器学习算法的四个组成部分:架构(architecture)、训练数据(training data)、损失函数(loss function)和优化(optimisation),他们被称为模型的归纳偏向(inductive bias)。归纳偏向会影响某些解决方案比其他方案更容易学习,从而使模型决定学习捷径方案而不是预期方案。2.4当前几种有前途的解决捷径的方法机器学习普遍存在缺乏分布外泛化的问题。因此,机器学习研究的很大一部分都与克服捷径学习有关。作者简单列举了几种前景很好的解决方法,每一种都提供了超越捷径学习的独特视角,例如特定领域的先验知识(Domain-specific prior knowledge)、对抗样本和鲁棒性(Adversarial examples and robustness)、领域自适应,领域泛化和领域随机化(Domain adaptation, -generalisation and -randomisation)、公平性(Fairness)、元学习(Meta-learning)和生成模型和disentanglement(Generative modelling and disentanglement)。3总结虽然深度学习在过去几年里取得了巨大的进步,但仍然在模型如何从数据中学习方案的原理理解和局限性方面落后。如何克服捷径学习的问题不仅与机器学习的当前应用领域相关,未来可能还会与其他学科交叉融合。因此,为了深入理解捷径学习,从而减轻它的影响,作者提出了四条建议:捷径学习无处不在,让不同领域通过它联系起来仔细分析结果使用o.o.d.测试集进行泛化了解解决方案容易学习的原因,弄清归纳偏向四个因素的影响以及彼此之间的相互作用。捷径学习是实现公平、健壮、可部署和值得信赖的机器学习的主要障碍之一。虽然完全克服捷径学习可能是无法实现的,但任何减轻捷径学习影响的进展都将使模型所学解决方案和预期解决方案取得更好的一致性。这就保证了机器即使是在远离训练经验的情况下也能表现得可靠。此外,机器决策将因此变得更加透明,能够更容易地检测和消除偏差。目前,关于捷径学习的研究仍然在不同社区中开展作者希望能推进讨论,建立替代当前i.i.d测试的o.o.d新标准范式。
科学家们表示,谷歌用于预测蛋白质3D形状的深度学习计划有望改变生物学。前言蛋白质是生命的基石,负责细胞内发生的大部分事情。蛋白质的工作方式和功能由其三维形状决定-"结构即功能 "是分子生物学的公理。几十年来,实验室实验一直是获得良好蛋白质结构的主要途径。从20世纪50年代开始,利用X射线束射向结晶的蛋白质,并将衍射光转化为蛋白质的原子坐标的技术,首次确定了蛋白质的完整结构。X射线晶体学产生了绝大部分的蛋白质结构。但是,在过去的十年里,低温电镜已经成为许多结构生物学实验室青睐的工具。科学家们长期以来一直想知道,蛋白质的构成部分:一串不同的氨基酸是如何映射出其最终形状的许多扭曲和褶皱的。研究人员说,在20世纪80年代和90年代,使用计算机预测蛋白质结构的早期尝试表现不佳。当其他科学家将这些方法应用于其他蛋白质时,发表的论文中对方法的崇高要求往往会被瓦解。John Moult 和 Krzysztof Fidelis 两位教授于 1994 年创办了CASP,每两年进行一次盲审,以促进蛋白质结构预测方面的新 SOTA 研究。该活动挑战团队预测已经用实验方法解决的蛋白质的结构,但这些蛋白质的结构还没有被公开。Moult认为这个实验极大地改善了这一领域。DeepMind已经取得了不俗的成绩,展示了人工智能已经学会了用超人的技术来玩各种复杂的游戏。但DeepMind的联合创始人Demis Hassabis一直强调,这些成功只是迈向更大目标的垫脚石。DeepMind名为AlphaFold的系统在2018年CASP13上的表现让该领域的许多科学家大吃一惊,长期以来,该领域一直是小型学术团体的堡垒,但其方法与其他应用AI的团队大致相似。AlphaFold的第一次迭代将被称为深度学习的AI方法应用于结构和遗传数据,以预测蛋白质中氨基酸对之间的距离。DeepMind公司的John Jumper说,在没有调用人工智能的第二步中,AlphaFold使用这些信息来提出蛋白质应该是什么样子的 "共识 "模型,他是该项目的领导者。该团队试图以这种方法为基础,但最终还是碰壁了。因此,它改变了策略,并开发了一个人工智能网络,该网络纳入了关于决定蛋白质如何折叠的物理和几何约束的额外信息。Jumper说,他们还设置了一个更困难的任务:网络不是预测氨基酸之间的关系,而是预测目标蛋白质序列的最终结构。这是一个复杂程度相当高的系统。2020年11月30日在两年一度的蛋白质结构预测挑战赛中,AlphaFold表现优于其他约100个团队,DeepMind和长期举办的 "蛋白质结构预测关键评估"(CASP)竞赛的组织者宣布DeepMind的AlphaFold的最新版本AlphaFold2可以准确地预测蛋白质结构,已经破解了生物学的一个重大挑战。惊人的准确性CASP历时数月,目标蛋白或被称为域的蛋白部分(共约100个)定期发布,各团队有几周时间提交预测结构。然后,一个独立的科学家团队会使用衡量预测蛋白与实验确定的结构相似度的指标来评估这些预测。评估人员不知道谁在进行预测。Lupas说,AlphaFold的预测是以 "427组 "的名义到达的,但它的许多条目的惊人准确性使它们脱颖而出。一些预测比其他预测更好,但近三分之二的预测在质量上与实验结构相当。Moult说,在某些情况下,并不清楚AlphaFold的预测和实验结果之间的差异是预测错误还是实验的人为因素。Moult说,AlphaFold的预测与一种名为核磁共振光谱的技术确定的实验结构匹配度很差,但这可能归结于原始数据如何转换为模型。该网络还难以对蛋白质复合物中的单个结构或群体进行建模,即与其他蛋白质的相互作用会扭曲它们的形状。Moult说:与上届CASP相比,今年各团队预测的结构更加准确,但大部分的进展可以归功于AlphaFold。在被认为难度适中的蛋白质上,其他团队的最佳表现通常在100分的预测准确度上得到75分,而AlphaFold在同样蛋白上得到90分左右。Moult说,大约有一半的团队在总结他们的方法的摘要中提到了 "深度学习",这表明人工智能正在对该领域产生广泛的影响。其中大部分来自学术团队,但微软和中国科技公司腾讯也进入了CASP14。纽约市哥伦比亚大学的计算生物学家、CASP参赛者Mohammed AlQuraishi渴望挖掘AlphaFold在比赛中的表现细节,并在12月1日DeepMind团队展示其方法时,了解更多关于系统的工作原理。他强烈预感是,AlphaFold将是变革性的。蛋白三维结构的快速获取AlphaFold预测帮助确定了一种细菌蛋白的结构,Lupas实验室多年来一直在试图破解这种结构。Lupas的团队之前已经收集了原始的X射线衍射数据,但将这些类似罗夏的模式转化为结构需要一些关于蛋白质形状的信息。获取这些信息的技巧以及其他预测工具都失败了。Lupas说:427组的模型在半小时内就给了研究人员结构,而此前研究人员花了十年时间尝试了所有的方法,"DeepMind的联合创始人兼首席执行官Demis Hassabis表示,该公司计划让AlphaFold变得有用,以便其他科学家可以采用它。该公司此前公布了AlphaFold第一版的细节,以便其他科学家复制这种方法。AlphaFold可能需要几天的时间才能得出预测的结构,其中包括对蛋白质不同区域可靠性的估计。Hassabis补充说:研究人员刚刚开始了解生物学家会想要什么,他认为药物发现和蛋白质设计是潜在的应用。2020年初,该公司发布了对少数SARS-CoV-2蛋白结构的预测,这些蛋白的结构尚未通过实验确定。加利福尼亚大学伯克利分校的分子神经生物学家Stephen Brohawn说,DeepMind对一种名为Orf3a的蛋白质的预测最终与后来通过冷冻EM确定的蛋白质非常相似,他的团队在6月份发布了该结构。真实世界的影响AlphaFold不太可能关闭Brohawn等使用实验方法解决蛋白质结构的实验室。但这可能意味着,质量较低、更容易收集的实验数据将成为获得良好结构的全部需求。一些应用,如蛋白质的进化分析,将蓬勃发展,因为现有基因组数据的海啸现在可能会被可靠地转化为结构。英国欣克斯顿欧洲分子生物学实验室-欧洲生物信息学研究所的结构生物学家、过去的CASP评估员Janet Thornton说:这是一个使他开始认为在有生之年不会得到解决的问题。她希望这种方法能够帮助阐明人类基因组中数千种未解决的蛋白质的功能,并理解人与人之间不同的致病基因变异。AlphaFold的表现也是DeepMind的一个转折点。该公司最著名的是挥舞人工智能掌握围棋等游戏,但其长期目标是开发能够实现广泛的、类似人类的智能的程序。Hassabis说,应对宏大的科学挑战,比如蛋白质结构预测,是其人工智能能够做出的最重要应用之一。他认为这是DeepMind所做的最重要的事情在现实世界的影响方面。
今天给大家介绍华中科技大学人工智能与自动化学院Xueming Liu课题组、哈佛医学院Joseph Loscalzo团队和伦斯勒理工学院Jianxi Gao课题组合作发表在 Nature Communication上的一篇文章“Robustness and lethality in multilayer biological molecular networks”。作者构建了人体多层生物分子网络模型并提出了一个框架来理解基因、蛋白质和代谢物之间的相互作用如何决定一个异质生物网络的鲁棒性。1研究背景鲁棒性定义为系统在外界扰动或内在噪声存在的情况下仍保持自身功能的能力,这对大多数生物体的生存至关重要。以往的相关研究大多集中在孤立的分子网络上,如基因调控网络、蛋白质相互作用网络和代谢网络等。据生物体内的“中心法则”可知,不同生物分子之间联系紧密,共同决定着细胞的功能,如基因编码蛋白质,蛋白质调控基因的调控并参与代谢反应。如何整合多源数据并构建一个更能反应细胞内分子机制的多层生物分子网络模型并揭示其内在鲁棒机制是一个亟待解决的关键问题。针对该问题,论文构建了人体多层生物分子网络模型,根据分子间的影响关系提出了鲁棒性分析框架,并发现多层生物分子网络中对模型鲁棒性重要的基因更倾向于是生物上的关键基因,敲除基因调控网络中代谢疾病相关基因会对代谢网络鲁棒性造成较大伤害,验证了模型的有效性。图 1多层生物分子网络模型中的级联失效过程2研究方法2.1构建多层生物网络作者分别构建了基因调控网络、蛋白质网络、代谢网络三层网络,根据基因与蛋白质的编码关系将基因调控网络中的基因与蛋白质相互作用网络中的蛋白质连接,从而在基因调控网络和蛋白质相互作用网络之间产生了双向的层间连接,最后通过挖掘数据库中大量代谢物与蛋白质的关系实现了蛋白质相互作用网络与代谢网络之间的互连,从而构建了三层有联系的异构网络。2.2模拟多层生物网络的功能和鲁棒性为了模拟多层生物网络的功能和鲁棒性,作者定义了一种模拟网络中扰动影响的级联失效机制。从分子角度来看,级联反应对应于一个过程,即一些受干扰的转录因子失去了调节其目标的能力,导致一些基因在调控网络中处于不受调控的状态,最终影响它们在蛋白质相互作用网络中编码的蛋白质的表达。这些蛋白质表达的改变反过来破坏新陈代谢的反应。3数据基因调控网络有两种类型:一般的基因调控网络和三种组织特异性基因调控网络。作者使用Cheng et al等人建立的综合人类交互体构建蛋白质相互作用网络,由15906个蛋白质组成,有213874个边。代谢网络是通过挖掘来自STITCH数据库的生化-生化(代谢物-代谢物)相互作用,然后映射到人类代谢物数据库(HMDB)中的代谢物来构建的。基因调控网络和蛋白质相互作用网络之间有10255个双向层间连接。蛋白质和代谢物网络,有141283个层间连接将12039个蛋白质与1211个代谢物连接起来。4实验在耦合的基因调控网络与蛋白质相互作用网络模型中,根据敲除基因调控网络中某基因对蛋白质相互作用网络鲁棒性的影响,定义了该基因的影响力分数。通过基因富集性分析发现,影响力分数更大的基因在关键基因和癌症基因中富集。并且通过与孤立的蛋白质相互作用网络对比,耦合模型中的富集性更高,表明影响力分数在识别参与关键细胞过程的基因方面具有更高的敏感性。图2 耦合和非耦合情况的比较在多层生物分子网络模型中,敲除基因调控网络中的基因会影响到蛋白质相互作用网络,从而进一步影响代谢网络。作者评估了敲除基因调控网络中基因对代谢层鲁棒性的影响,发现移除基因层中代谢疾病相关基因会对代谢层的鲁棒性造成更大的破坏。通过与度保留的随机删除实验对比,验证了该结果的统计有效性。图 2针对与血脂异常相关的基因(红)比随机攻击(蓝)对代谢网络造成更大的破坏为了确定真实生物分子网络的鲁棒性程度,作者考虑了多种版本的随机模型:(1)层内随机模型,即随机化过程发生在基因调控层、PPI层或代谢层内;(2)层间随机模型,基因-蛋白质或蛋白质-代谢物被随机重新连接。结果发现真实网络模型比随机模型具有更强的鲁棒性。图 3比较真实生物多层网络和随机模型的鲁棒性模拟大规模生物分子网络中基因失效的过程往往复杂且耗时,作者根据生成函数和渗流理论提出了一个解析框架,通过对里面公式的数值计算,可快速有效预测大鲁棒性规模生物分子网络中的级联失效过程合最终的鲁棒性大小,该预测结果与与仿真实验结果一致,验证了该框架的有效性。图 4从一般基因调节网络(a)和特异性网络(b)中随机去除1 - p部分基因后,多层分子网络中最终功能节点的大小5结论作者提出了一个包含调节、蛋白质和代谢相互作用的多层分子网络的极简模型,并为分析系统的鲁棒性建立了一个理论框架。设计了一个模拟的扰动过程来表征每个基因对整个系统的鲁棒性的贡献,发现有影响的基因在基本基因和癌症基因中丰富。预示了代谢层在代谢疾病相关的基因受到干扰时更容易受到影响。此外,发现实际网络比预期的鲁棒性更强。最后,从层内和层间的度分布出发,分析推导出多层生物网络的鲁棒性。这些结果可帮助理解遗传扰动后细胞内动力演化过程,验证了在复杂生物系统模型中包括相互作用的不同层次之间的耦合的重要性。
今天给大家介绍瑞士苏黎世联邦理工学院化学与应用生物科学系 Gisbert Schneider等人在Nature Machine Intelligence上发表的文章“Drug discovery with explainable artificial intelligence”。本文综述总结了可解释人工智能最突出的算法概念,并预测了未来的机会、潜在的应用以及一些剩余的挑战。希望能为可解释人工智能技术的发展和接受做出更多的努力。过去的几年里人工智能(AI)的各种概念已被成功地应用到计算辅助药物发现中。这种进步主要归功于深度学习算法,即具有多个处理层的人工神经网络,能够对复杂的非线性输入输出关系进行建模,并从低级数据表示中进行模式识别和特征提取。某些深度学习模型在药物发现方面的性能已被证明可以媲美甚至超过人们熟悉的现有机器学习和定量构效关系(QSAR)方法。此外,深度学习还提升了计算机辅助发现的潜力,拓宽了其适用范围,如分子设计、化学合成设计、蛋白质结构预测和大分子靶点识别等方面。捕捉输入数据和相关的输出之间复杂的非线性关系的能力通常是以结果模型的可理解性有限为代价的。尽管一直在努力在算法的解释和分子描述符的分析来解释QSAR,深层神经网络模型臭名昭著地躲避人类的直接访问。特别是在药物化学中,"经验法则 "的可用性与物理化学特性相关联的生物效应,强调了在某些情况下,愿意牺牲准确性,更好地贴合人的直觉。因此,模糊 "两个QSARs"(即机器学习上可解释的模型与高度精确的模型)之间的界限,可能是用AI加速药物发现的关键。对医学和化学知识进行自动分析,以人类可理解的格式提取和表示特征,可以追溯到20世纪90年代,但由于神经网络在化学和医疗保健领域的重新出现,越来越受到关注。鉴于目前人工智能在药物发现和相关领域的发展速度,对帮助研究人员理解和解释底层模型方法的需求将越来越大。为了缓解某些机器学习模型缺乏可解释性的问题,并增强人类的推理和决策能力,可解释的人工智能(xAI)方法受到关注。提供数学模型的同时,提供信息解释的目的是:(1)使潜在的决策过程透明化("可理解");(2)避免因错误的原因做出正确的预测(所谓聪明的汉斯效应;(3)避免不公平的偏见或不道德的歧视;(4)弥合机器学习界和其他科学学科之间的差距。此外,有效的xAI还能帮助科学家们跨越 "认知谷",让他们在研究过程中磨练自己的知识和信念。虽然xAI的确切定义仍在争论中,但作者认为xAI的几个方面在药物设计应用中肯定是可取的:透明度,知道系统如何得出一个特定的答案。理由,阐明为什么模型提供的答案是可以接受的。信息性,为人类决策者提供新的信息。不确定性,估计量化预测的可靠性。一般来说,xAI产生的解释可以分为全局性的或局部性的。此外,xAI可以依赖于底层模型,也可以是不可知的,这反过来又会影响每种方法的潜在适用性。在这个框架中,不存在一个放之四海而皆准的xAI方法。未来的人工智能辅助药物发现存在许多特定领域的挑战,例如反馈给所述方法的数据表示。与深度学习已被证明擅长的许多其他领域(如自然语言处理和图像识别)相比,没有天然适用的、完整的、"原始 "的分子表示。毕竟,分子正如科学家们所设想的那样, 本身就是模型。因此,这种从低阶模型建立高阶模型的'归纳'方法在哲学上是值得商榷的。分子 "表征模型 "的选择成为结果人工智能模型的可解释性和性能的限制因素,因为它决定了所保留的化学信息的内容、类型和可解释性。药物设计不是简单的。它由于存在错误、非线性和看似随机的事件而有别于明确的工程。必须承认人们对分子病理学的不完全理解,以及无法为药物作用制定无懈可击的数学模型和相应的解释。在这种情况下,xAI承担着增强人类的直觉和技能,以设计具有理想特性的新型生物活性化合物的潜力。新药的设计体现在是否可以从分子结构中推导出药理活性,以及这种结构中哪些元素是相关的问题。多目标设计提出了更多的挑战,有时会出现一些不好解决的问题,导致分子结构往往是折衷方案。实用的方法旨在限制寻找和优化新的命中化合物和先导化合物所需的合成和检测次数,特别是在进行精心和昂贵的测试时。xAI辅助药物设计有望帮助克服其中的一些问题,通过采取明智的行动,同时考虑药物化学知识、模型逻辑和对系统局限性的认识。xAI将促进药物化学家、化学信息学家和数据科学家之间的合作。事实上,xAI已经可以实现药物作用的机理解释,并有助于药物安全性的提升,以及有机合成设计。如果长期成功,xAI将为分析和解读日益复杂的化学数据,以及提出新的药理假说提供基础支持,同时避免人为偏见。迫于压力的药物发现挑战,如冠状病毒大流行,可能会促进应用定制的xAI方法的发展,以迅速应对与人类生物学和病理生理学相关的特定科学问题。xAI领域仍处于起步阶段,但正以快速的步伐向前发展,预计在未来几年内,它的相关性将会增加。本篇综述中,研究人员旨在对近期的xAI研究进行全面概述,强调其在药物发现方面的优势、局限性和未来机会。接下来的内容中,在对最相关的xAI方法进行结构化的概念分类介绍后,将介绍现有的和一些潜在的药物发现应用。最后,讨论了当代xAI的局限性,并指出了为促进这些技术在药物研究中的实际应用所需的潜在方法改进。技术现状和未来的方向本节旨在简明扼要地概述现代xAI方法,并举例说明其在计算机视觉、自然语言处理和离散数学中的应用。然后,将重点介绍药物发现中的部分案例研究,并提出xAI在药物发现中的潜在未来领域和研究方向。下文中,在不失一般性的前提下,f将表示一个模型;x∈X将用来表示描述给定实例的特征集,这些特征被f用来进行预测y∈Y。特征归因方法 …给定回归或分类模型 F:X ∈[Rķ→ R (哪里 [R指实数集,而K(作为[R)是指实数的k维集),特征归因方法是一个函数 Ë:X ∈[Rķ→[Rķ它接受模型输入并产生一个输出,该输出的值表示每个输入要素对于用f计算的最终预测的相关性。特征归因方法可分为以下三类(基于梯度的特征归因。代理模型特征归因。基于扰动的方法旨在修改或删除部分输入,以测量其在模型输出中的相应变化;然后,此信息将用于评估功能的重要性。过去的几年中,特征归因方法一直是xAI系列技术中最常用于基于配体和结构的药物发现的技术。应该注意的是,特征归因方法的可解释性受到原始特征集的限制。特别是在药物发现中,使用复杂或“不透明”的输入分子描述符通常会妨碍解释性。当使用特征归因方法时,建议选择可理解的分子描述符或模型构建模型。xAI用于细胞色素P450介导的新陈代谢 …该工作实例展示了xAI提供了一个图形解释,在分子基序方面,被认为是相关的神经网络模型预测药物与细胞色素P450的相互作用。综合梯度特征归因法与图卷积神经网络相结合,用于预测药物与CYP3A4相互作用。该网络模型用一组公开的CYP3A4底物和抑制剂进行训练。显然,xAI捕获了涉及CYP3A4介导的生物转化和大多数已知代谢位点的化学亚结构。还确定了与代谢有关的其他通用特征。基于实例的方法 …基于实例的方法计算相关特征的子集,这些特征必须存在才能保留给定模型的预测。实例可以是真实的,也可以是为了方法的目的而生成的。有人认为,基于实例的方法为人类提供了 "自然 "的模型解释,因为它们类似于反事实推理 。锚算法提供了分类器模型的可解释性解释。反事实实例搜索。对比解释方法通过生成“相关肯定”和“相关否定”集合来提供分类器的基于实例的解释性。药物发现中,基于实例的方法通过突出需要保证或改变模型预测的分子特征而必须存在或不存在,对于提高模型的透明度可能是有价值的。此外,反事实推理通过为人类决策者公开有关模型和基础训练数据的潜在新信息,进一步提高了信息量。据作者所知,基于实例的方法尚未应用于药物发现。作者认为,他们在从头分子设计的几个领域都充满希望。基于图卷积的方法 …分子图是分子拓扑结构的自然数学表示,节点和边分别代表原子和化学键。自20世纪70年代末以来,它们在化学信息学和数学化学中的使用已经很普遍。因此,在这些领域中,目睹新型图卷积神经网络的应用越来越多并不令人惊讶,它正式属于神经消息传递算法的范畴。一般来说,卷积指的是对两个函数进行数学运算,产生第三个函数,表达一个函数的形状如何被另一个函数修改。这个概念被广泛应用于图像分析的卷积神经网络中。图卷积自然地将通常用于计算机视觉或自然语言处理应用中的卷积运算扩展到任意大小的图上。药物发现的背景下,图卷积已经被应用于分子属性预测和新药设计的生成模型中。探索用图卷积架构训练的模型的可解释性是当前特别活跃的研究主题。本文基于图卷积的xAI方法分为以下两类。子图识别方法旨在识别图的一个或多个部分,这些部分负责给定的预测。基于注意力的方法。图卷积神经网络的解释可以受益于注意力机制,注意力机制取自自然语言处理领域,在自然语言处理领域,它们的使用已成为标准。基于图卷积的方法由于与化学家直观的表示具有直接和自然的联系,因此在药物发现中代表了强大的工具。此外,与知识结合使用时,突出显示与特定预测相关的原子的可能性可以改善模型论证以及其对基础生物学和化学的信息性流程。由于其与分子的二维表示的直观联系,基于图卷积的xAI具有可应用于药物发现中其他几种常见建模任务的潜力。在作者看来,用于图卷积的xAI可能最有利于旨在找到相关分子基序的应用,例如结构警报识别和反应性或代谢预测的位点。自我解释方法 …到目前为止引入的xAI方法产生了深度学习模型的后验解释。尽管这种事后解释已被证明是有用的,但有些人认为,理想情况下,xAI方法应自动提供人类可解释的解释以及其预测。这样的方法将促进验证和错误分析,并且可以与领域知识直接链接。虽然自解释一词是为了指代特定的神经网络体系结构而提出的,但在本综述中,该术语的广义含义是指以可解释性为设计核心的方法。不言自明的xAI方法可以分为以下几类。基于原型的推理是指根据特别有用的已知数据点预测未来事件的任务。自我解释的神经网络旨在将输入或潜在特征与语义概念相关联。可人类解释的概念学习是指从数据中学习一类概念的任务,旨在实现类似于人类的概括能力。用概念激活向量进行的测试计算层相对于其输入朝着概念方向的激活的方向导数。这样的导数量化了后者与特定分类相关的程度。自然语言解释生成。可以将深度网络设计为以监督方式生成人类可理解的解释。自我解释的方法具有xAI的多个理想方面,但作者特别强调了它们的固有透明性。通过将可解释的解释纳入其设计的核心,避免了事后解释方法的普遍需求。所产生的难以理解的解释也可能会为所提供的预测的合理性提供自然的见解。自解释式深度学习尚未应用于化学或药物设计。通过设计包括可解释性可以帮助弥合机器表示和人类对药物发现中许多类型问题的理解之间的鸿沟。不确定性评估 …不确定性估计,即预测中误差的量化,构成了模型解释的另一种方法。虽然一些机器学习算法,如高斯过程,提供了内置的不确定性估计,但深度神经网络以不擅长量化不确定性而闻名。这也是为什么已经有一些努力致力于专门量化基于神经网络的预测中的不确定性的原因之一。不确定性估计方法可以归纳为以下几类。集成方法。模型集成改善了整体预测质量,并已成为不确定性估计的标准。概率方法旨在估计某个模型输出的后验概率或执行事后校准。其他方法。下上限估计(LUBE)方法训练具有两个输出的神经网络,这两个输出分别对应于预测的上限和下限。可用软件鉴于深度学习应用目前受到的关注,已经开发了一些软件工具来促进模型解释。一个突出的例子是Captum,它是PyTorch深度学习和自动区分软件包的扩展,为本工作中描述的大多数特征归因技术提供支持。另一个流行的包是Alibi,它为某些用scikit-learn或TensorFlow包训练的模型提供特定实例的解释。实现的一些解释方法包括锚点、对比性解释和反事实实例。结论与展望药物发现的背景下,深度学习模型的完全可理解性可能很难实现,尽管提供的预测仍然可以证明对从业者有用。在努力寻求与人类直觉相匹配的解释时,认真设计一套控制实验来验证机器驱动的假说并提高其可靠性和客观性将是至关重要的。鉴于适用于某项任务的可能解释和方法的多样性,目前的xAI也面临着技术挑战。大多数方法并不是现成的、"开箱即用 "的解决方案,而是需要针对每个应用进行定制。此外,对领域问题的深刻了解对于确定哪些模型决策需要进一步的解释,哪些类型的答案对用户有意义,哪些是琐碎的或预期的是至关重要的。对于人类决策来说,用xAI生成的解释必须是非琐碎的、非人工的,并且对各自的科学界有足够的信息量。至少在目前,找到这样的解决方案需要深度学习专家、化学信息学家和数据科学家、化学家、生物学家和其他领域专家的共同努力,以确保xAI方法达到预期目的并提供可靠的答案。进一步探索既有的化学语言在表示这些模型的决策空间方面的机会和局限性将是特别重要的。前进的一步是建立在可解释的 "低级 "分子表征上,这些表征对化学家有直接的意义,并且适合机器学习。最近的许多研究依赖于成熟的分子描述符,它们捕捉了先验定义的结构特征。通常情况下,分子描述符在与后续建模相关的同时,还能捕获复杂的化学信息。因此,当追求xAI时,有一种可以理解的倾向,即采用分子表征,可以更容易地用已知的化学语言进行合理化。模型的可解释性取决于所选择的分子表示和所选择的机器学习方法。考虑到这一点,开发用于深度学习的新型可解释的分子表征将构成未来几年的关键研究领域,包括开发自我解释方法,通过在提供足够准确的预测的同时提供类似人类的解释来克服不可解释但信息丰富的描述符的障碍。由于目前缺乏包含所概述的xAI所有理想特征的方法,在短期和中期将由协商一致的方法发挥主要作用,这些方法结合了单个(X)AI方法的优势并提高了模型的可靠性。从长远来看,xAI方法通过依靠不同的算法和分子表示将构成一种对建模的生化过程提供多方位有利点的方法。目前,药物发现中的大多数深度学习模型都没有考虑适用性域限制,即满足统计学习假设的化学空间区域。在作者看来,这些限制应该被视为xAI的一个组成部分,因为事实证明,对这些限制的评估和对模型准确性的严格评价比建模方法本身更有利于决策。知道什么时候应用哪种特定的模型,可能将有助于解决深度学习模型对错误预测的高置信度问题,同时避免不必要的推断。沿着这些思路,在时间和成本敏感的场景中,如药物发现,深度学习从业者有责任谨慎地检查和解释他们的建模选择所得出的预测。考虑到目前xAI在药物发现中的可能性和局限性,研究人员有理由认为,继续发展混合方法和更容易理解、计算能力更强的替代模型不会失去其重要性。目前,药物发现中的xAI缺乏一个开放的社区平台,通过不同科学背景的研究人员的协同努力,共享和改进软件、模型解释和各自的训练数据。像MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery,melloddy.eu)这样的倡议,在制药公司之间进行分散的、联合的模型开发和安全的数据处理,是朝着正确方向迈出的第一步。这种合作将有望促进xAI和这些工具提供的相关解释的发展、验证和接受。
今天给大家介绍的是清华大学的Zhen Yang等人在KDD 2020发表的文章“Understanding Negative Sampling in Graph Representation Learning”。作者在文章中分析负采样的作用,从理论上证明在优化目标函数和减小方差时负采样与正采样同等重要,得到负采样分布应与正采样分布正相关且呈次线性相关的结论,并提出了一个统一的负采样策略MCNS优化各种网络表示学习算法 。1背景近年来,图表示学习逐渐成为数据挖掘研究的热点。主流的图表示学习算法包括传统的网络嵌入方法(如DeepWalk,LINE)和图神经网络(如GCN,GraphSAGE)。大量的网络嵌入工作已经研究出正节点对采样的良好标准。然而,很少有论文系统地分析或讨论图表示学习中的负采样。在这篇文章中,作者证明了负采样与正采样一样重要。同时考虑负采样,可以确定优化目标并减少真实图形数据中估计值的方差。文章提出负采样分布应与正采样分布正相关且呈次线性相关的理论,并基于此理论提出了一种有效且可扩展的负采样策略,即马尔可夫链蒙特卡洛负采样(MCNS),该策略将理论应用于基于当前嵌入的近似正分布。为了降低时间复杂度,利用特殊的Metropolis-Hastings算法进行采样。2方法2.1负采样原理为了确定特定正分布的适当负分布,可能需要权衡目标的合理性(最佳嵌入在何种程度上适合下游任务)和预期损失(训练嵌入偏离最佳嵌入的程度)。一个简单的解决方案是对负节点进行正采样,并与其正采样分布呈次线性相关。2.2 自对比估计虽然推导出正采样与负采样的关系,但实际正分布是未知的,并且通常会隐式定义其近似值。因此,作者提出了一种自对比估计(self-contrast approximation)方法,用基于当前编码器的内积代替正分布,即作者提出的MCNS通过改编的Metropolis-Hastings算法解决了采样耗时问题。2.3 Metropolis-Hastings算法Metropolis-Hastings算法构造了一个相对于遍历且静止的马尔可夫链这意味着2.4 马尔可夫链负采样MCNS的主要想法是应用Metropolis-Hastings算法,对中的每个节点v从自对比估计分布中采样。为了解决Metropolis-Hastings具有相对较长的老化期的缺点,作者提出通过深度优先搜索(DFS)遍历图,并继续从最后一个节点的马尔可夫链生成负样本(如图1)。图1 MCNS的一个运行示例DFS遍历中心节点,每个节点通过马尔可夫链使用Metropolis-Hastings算法对三个负上下文节点进行采样。此外作者将二元交叉熵损失替换为γ偏斜铰链损失其中(u,v)是正节点对,( x,v)是负节点对。γ是一个超参数。算法2总结了MCNS。图2 MCNS算法流程3实验实验是在3个代表性任务、3个图表示学习算法和5个数据集总共19个实验设置下进行了评估,这些数据集涵盖了广泛的下游图形学习任务,包括链接预测,节点分类和个性化推荐。为了验证MCNS对不同类型的图表示学习算法的适应性,作者对DeepWalk,GCN,GraphSAGE三种算法进行了实验。实验设置基于度的负采样,难例负采样,基于GAN负采样作为基准,这些相对全面的实验结果证明了其鲁棒性和优越性。表1 任务和数据集的统计数据3.1个性化推荐表2 在三个数据集上使用各种编码器的MCNS的推荐结果结果表明,难例负采样通常会超过基于度的策略,MRR的性能会提高5%到40%。基于GAN的负采样策略的性能更高,这是因为不断发展的生成器更准确地挖掘了难例负采样。根据实验理论,提出的MCNS在最佳基准上可实现2%到13%的显著增益。3.2链接预测表3 Arxiv数据集上不同负采样策略的链接预测结果在Arxiv数据集上,MCNS的各种图表示学习方法均优于所有基线。3.3 节点分类表4 BlogCatalog数据集上的多标签分类的Micro F1分数不管训练集比率TR如何,MCNS都会稳定地胜过所有基线。Macro-F1的趋势相似,由于空间限制而被省略。3.4分析图3 度数和MCNS的比较与度数的比较 图3中每条红线表示在此设置下MCNS的性能,蓝色曲线表示不同β的度数的性能,基于度的策略的表现一直低于MCNS,这表明MCNS在基于度的策略的表达能力之外学习了更好的负分布。此外,最佳β在数据集之间会有所不同,并且似乎很难在实验前确定,而MCNS自然会适应不同的数据集。图4 MCNS在阿里巴巴上的性能参数分析 为了定量测试MCNS的鲁棒性,作者通过更改两个最重要的超参数(嵌入尺寸和边距γ)来可视化MCNS的MRR曲线。图5 运行时间比较效率比较 为了比较不同的负采样方法的效率,作者在图5的推荐任务中报告了MCNS和带有GraphSAGE编码器的硬采样或基于GAN的策略(PinSAGE,WARP,DNS,KBGAN)的运行时间。4总结作者在文章中从理论上分析了负采样在图表示学习的作用,并得出结论:负采样分布和正采样分布同等重要,并且应与正采样分布正相关且呈次线性相关。基于此理论,作者提出了MCNS,通过自对比估计逼近正采样分布,并通过Metropolis-Hastings算法加速计算。大量的实验表明,无论底层的图表示学习方法如何,MCNS的性能均优于8种负采样策略。
今天给大家介绍的是康奈尔大学医学院(Weill Cornell Medicine)健康科学系(Department of Population Health Sciences)的博士后研究助理臧承熙于2020年4月发表在ACM SIGKDD的一篇论文,这篇文章提出一种新的基于流的深度图生成模型MoFlow,用于分子图的生成,是同类的第一个不仅可以一次通过可逆映射有效地生成分子图,而且还具有化学有效性保证的流模型。1背景药物发现是一个漫长、成本高昂以及失败率高的过程,而深度生成模型的出现以数据驱动的方式探索较大的化学空间很好地加快了药物发现的过程。这些模型通常是对分子图进行编码来学习一个连续的潜空间,由目标特性引导通过对学习的潜空间解码生成新分子,包括基于变分自编码器的,基于生成对抗网络的以及基于自回归的模型,但是使得生成的新分子具有化学有效性是十分困难的,因为在保证生成的原子和键是多类型的同时,还要满足化学键价的约束。近年来基于流的模型相继出现,例如NICE,RealNVP以及Glow模型,用于分子图生成的主要包括GraphAF,GraphNVP和GRF,GraphAF模型是基于自回归流的模型,在分子图生成中达到了最先进的性能。GraphAF通过添加每个新原子或键,然后进行有效性检查,以顺序方式生成分子。GraphNVP和GRF也用于生成分子图,但是无法保证化学有效性,因此在产生有效且新颖的分子方面表现不佳。不过值得注意的是,基于流的模型是唯一可以记住并精确重建所有输入数据的模型,同时具有生成更多新颖,独特和有效分子的潜力。作者基于流模型又提出了一种新的称为MoFlow的分子图生成模型,其主要贡献在于该模型不仅通过可逆映射一次性生成分子图,而且具有化学有效性保证,并且提出了Glow模型的变体来生成键(边),以及通过新的图条件流生成给定键的原子,然后将它们组装成有效的分子图,并且MoFlow与目前最先进的基于VAE的模型,基于自回归的模型和三个基于流的模型相比,在分子图的生成,重构,优化等方面获得了最优性能。2模型将分子图视为由原子作节点,键作边组成的无向图,其数学符号可记为其中,集合有n个原子,k种原子类型,A(i,k)=1代表节点i是k型原子,集合代表键(边),键有c种类型,B(c,i,j)=1代表原子i和j之间以c类型的键连接。该模型的目标函数如下:上述式子是利用条件概率,将整个模型分成两个部分,一部分是学习在给定键下的原子(节点)的条件分布和另外一部分学习键(边)的分布。我们知道在生成模型中一个重要的目标是得到数据的概率分布和学习数据内部的隐藏结构,而途径之一是学习数据表示,所以首先利用图条件流学习原子的表示。假设是给定键下的原子数据的表示,为映射,为了可以直接采用且不丢失信息,这要求是可逆的,一旦我们得到了的分布,便可以从中抽样,利用逆映射得到A|B,并且利用雅克比矩阵给出A|B的概率分布,下述公式为其对数形式:和基于流的RealNVP、Glow模型一样,为了得到可逆映射,都引入了仿射耦合层,只不过由于MoFlow是在图上的模型,所以需要依靠图卷积操作来完成,这里的图卷积是利用关系图卷积网络(R-GCN)来完成的,而且仿照RealNVP引入mask操作,将输入分割成两个部分A1和A2。将上述式子求逆,即可得到A1和A2。在学习原子表示的时候,为了保证数据稳定性,最后还加入了Glow模型提出的ActNorm层,来取代BN层,方法为利用初始的batch的均值和方差去初始化两个参数,具体做法是,类似于NICE模型中的尺度变换。在学习键的数据表示上,采用了基于Glow的思想,和上述学习原子表示的步骤相似,并且为了数据稳定性,同样引入了Glow模型中的1*1卷积操作。最后是进行化学有效性验证,主要是对原子和键组合后是否符合化学上键价的约束,采用的公式如下:其中,c为键的类型(单键,双键,三键),与其他的模型不同,作者加入了形式电荷Ch的约束,这种效应可能为带电原子引入额外的键。例如,铵[NH4]+的N可能具有4个键,而不是3。类似地,S+和O+的可能具有3个键而不是2。3实验作者从以下四点出发进行全方面的验证MoFlow的性能,主要包括1)分子图生成和重建;2)可视化连续潜空间;3)生成具有优化特性的新式分子图;4)化学相似性。同时作者与JT-VAE、GCPN、MolecularRNN、GraphNVP、GRF、GraphAF这6个模型在数据集QM9和ZINC250K进行了比较。分子图生成和重建作者想通过实验验证MoFlow是否可以记忆和重建所有训练分子数据集以及是否可以生成尽可能多的新颖,独特和有效的分子,实验证明在QM9和ZINC250k数据集上,MoFlow在所有六个指标上均优于最新模型。由于基于流的模型具有可逆性,MoFlow建立了从输入分子M到其对应的潜向量Z的一对一映射,从而实现了100%的重建率。可视化连续潜空间该实验验证了MoFlow是否可以将分子图嵌入到连续潜空间中,并具有合理的化学相似性,上图可发现潜空间非常平滑,并且两个潜在点之间的插值仅稍微改变了分子图,在MoFlow学习到的这样一个连续的潜空间中进行搜索是分子特性优化和约束优化的基础。生成具有优化特性的新式分子图此项实验意为验证MoFlow是否可以生成具有优化特性的新分子图,结果表明MoFlow生成了比所有基线都具有最佳QED值的新分子。化学相似性作者验证了MoFlow能否生成具有优化特性的新颖分子图的同时尽可能保持化学相似性,结果表明MoFlow发现了最相似的新分子,与最新的VAE模型JT-VAE相比, MoFlow具有更高的相似性评分和更好的性能。4总结作者提出了一种用于分子图生成的新型深度图生成模型MoFlow。MoFlow是最早的基于流的模型之一,该模型不仅通过可逆映射一次性生成分子图,而且具有化学有效性保证。MoFlow包含用于键的Glow模型的变体,用于给定键的原子的新型图条件流,然后将它们和有效性校正相结合。MoFlow在分子生成,重建和优化方面达到了最先进的性能。对于将来的工作,作者尝试结合顺序生成模型和一次性生成模型的优点来生成化学上可行的分子图。
今天给大家介绍的是被誉为“欧陆第一名校”苏黎世联邦理工学院(ETH Zurich)化学与应用生物科学系博士生Francesca Grisoni和制药行业顾问Gisbert Schneider教授于2020年6月发表在Journal of Chemical Information and Modeling的一篇论文,作者受双向RNN和SMILES本身的结构特性启发,提出一种可用于SMILES生成和数据增强的新的双向RNN分子生成模型——BIMODAL。该模型通过交替学习进行双向分子设计,并且该模型与其他双向RNN,单向RNN模型对比,在分子新颖性,骨架多样性和生成分子的化学生物相关性方面表明了基于SMILES的分子de novo设计双向方法是可取的,并显示了优越的实验结果。1背景小型有机分子的化学空间包含的化学结构众多,并且药物设计主要目标之一是找到能够以所需方式调节给定靶标(通常是蛋白质),使得化学家们在分子的de novo设计这一问题上需要解决一个复杂的多元优化任务。之前传统的方法大部分都需要先验知识,例如需要知道结构-活性关系,化学转化规则等,所以很自然地想到利用可以生成图像或者生成文本的深度生成模型来生成分子。大多模型例如RNN,VAE都建立在分子的文本表示形式上,例如使用SMILES字符串,并在无需显式提出设计规则直接进行采样。因为使用的输入数据形式为文本形式的SMILES字符串,很多实验结果表明RNN在基于序列的方法上(即GAN+RL、AAE等)且在匹配结构和生物特征训练数据分布任务上性能最佳。RNN经常以前向方式(从左到右)训练读取和产生SMILES,然而SMILES能够从非氢原子开始并沿任何方向进行生成,它的非唯一性和无向性启发了作者进行探索双向序列生成的新方法,即前向和后向(从右到左)读取和生成SMILES均可,作者将两种已经提出的双向RNN——同步双向RNN(FB-RNN)和神经自回归分布估计器(NADE)进行结合,将两者优点进行结合提出BIMODAL模型,实验结果表明其可以作为未来分子从头设计的候选方法。2方法双向RNN通常由两个RNN组成以同时进行正向和反向预测,然而,使用RNN进行双向字符串生成并非易事,主要是由于缺少“过去”和“未来”的上下文信息以及难以组合计算出概率。所以,作者借用NLP领域两种双向方法(同步FB-RNN和NADE),提出了一种新的双向RNN模型BIMODAL。同步FB-RNN: 给定句子中任意位置m的词作为起始词,预测该起始词上文和下文的词,FB-RNN按以下方式估算前向和后向的条件概率分布:(上图b)从上述公式可以看出,FB-RNN通过同时使用从左到右(前向)和从右到左(后向)信息,每侧只能交替预测一个token(上图b)。NADE: NADE最初被提议用于重建序列中的缺失值,在第t个位置有一个丢失的token,该模型旨在通过读取前后部分来重建缺失值,并使用此信息来替换丢失的token。条件概率估计如下:该模型缺少的虚设令牌(“M”)将被替换为朝向字符串中心或以随机方式的有效SMILES字符,直到序列中不再有缺失值为止(上图d)。BIMODAL: 结合了NADE和FB-RNN模型的功能。BIMODAL由两个RNN组成,一个用于读取每个方向(前向和后向)的序列,然后将其组合以提供联合预测,其前向和后向条件概率估计如下:3实验实验数据选自CHEMBL22数据库中的27914个活性化合物,并且将核酸和多肽去除,只保留长度在34到74之间的SMILES字符串,并将其规范化。实验的评估标准在于1.结构唯一性,有效性和新颖性;2.骨架多样性和新颖性;3.生物化学相关性;作者评估了训练期间起始token位置(固定或者随机),RNN网络规模和引入数据增强对于实验性能的影响。(1)起始位置根据上图,能够看出在固定起始token情况下,单向正向RNN的各方面性能最佳,对于BIMODAL来说,起始位置随机对分子的新颖性性能有所提高。(2)网络规模从上图能够看出,大多数双向RNN的性能都不如带512个隐藏层单元的单向正向RNN,但增加网络规模对BIMODAL的性能有正向影响。(3)数据增强为了研究新型数据增强策略的效果,作者测试了两个增强级别(五倍和十倍)。除NADE之外,数据增强导致所生成分子的独特性和新颖性增加。BIMODAL表现出最大的性能提升,达到94%的新型分子具有10倍的扩增,超过了前向RNN(89%)。(4)骨架多样性和新颖性除了起点固定的NADE之外,双向模型性能均优于正向RNN。(5)生物和化学相关性30000个SMILES用于从训练集分子中计算FCD距离。FCD越低,就结构和生物学特性而言,生成的分子越接近训练集,并且作者仅使用新颖而独特的分子,而不是奖励能够复制训练集分子的模型。具有512个隐藏单元且没有数据增强,前向RNN产生的FCD值最小,其次是BIMODAL和具有固定起点的FB-RNN。4总结这项研究的结果证实了双向RNN在从头分子设计中的潜力。从生成的化学实体的特征,即它们的化学和生物学相关性及其骨架多样性来看,BIMODAL方法似乎特别适合于分子设计。FB-RNN结果中等,并且NADE不适用于所有测试。引入的数据增强技术使得模型更准确地学习训练数据分布并增加了设计的新颖性。综上所述,这些结果都显示了可以对从头分子设计进行双向生成(尤其是BIMODAL)的进一步探索,需要进行后续研究以确定各种类型的分子表示形式(例如随机SMILES表示形式)和数据增强的潜力,以进一步改善BIMODAL的性能。由于两个相互作用的RNN,BIMODAL运行时间较长。因此,可以在GitHub上获得预训练的模型权重,以用于对新型分子进行采样,而无需重新训练。
高大的柚子 · Java记事本-阿里云 1 年前 |