今天给大家介绍的是2020年1月在Drug Discovery Today上发表的综述“Frequent hitters: nuisance artifacts in high-throughput screening”。高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”(Frequent hitters)。本综述针对频繁命中化合物的主要分类:胶体聚集化合物(Aggregators)、光学干扰物(Spectroscopic interference compounds)、化学易反应化合物(Chemical reactive compounds)和混乱成键化合物(Promiscuous compounds)进行简单介绍,同时对现常用的模型或规则和其未来发展方向进行讨论分析。

高通量筛选是药物研发的一个重要手段,然而研究中发现一些化合物在不同类型靶点筛选中均表现出阳性结果,这类化合物称为“频繁命中化合物”(Frequent hitters)。根据筛选结果的有效性,频繁命中化合物可以大致分为两类,一是能与许多不同类型靶点成键结合的混乱化合物(Promiscuous compound);二是通过干扰实验条件而在多个实验中呈现出阳性结果的假阳性化合物(False positive)。虽然混乱化合物可能成为多药理作用的研究起点,但考虑其低选择性容易与其他蛋白发生反应从而导致潜在的毒副作用,因此这类化合物通常不作为新药物研发的首选;而假阳性化合物产生机制较为复杂,根据现有的研究主要可以分为:胶体聚集化合物、自荧光化合物、荧光酶抑制剂和化学易反应化合物(图1)。

为了避免频繁命中化合物对实验干扰,许多实验方法,例如采用qHTS、ADP-Glo等更先进高通量筛选方法,或者采用交互实验验证等用于增强筛选结果可行度。此外,随着更多晶体结构发现分享和生物实验数据库整理,频繁命中化合物的探索变得更加可行。最为人熟知且广泛使用的就是PAINS(Pan-assay interference compounds)筛选规则。这是Baell等人在2010年基于六个不同靶点高通量筛选实验结果,并将其中频繁出现(≥4次)的化合物和相关结构总结为包含480个子结构的筛选规则。但这类规则主要针对的是化学易反应化合物,且PAINS规则本身也有很大局限性,因此,频繁命中化合物相关筛选预测工具的开发仍然是现今研究热点。在2017年,一篇由九名美国化学学会杂志主编联名发表的文章“The Ecstasy and Agony of Assay Interference Compounds”中强调了实验干扰引起的假阳性化合物的危害,告诫研究人员对筛选得出的阳性结果真实性需要反复确认,对潜在的假阳性结果需要提高警惕。为了更深入的了解频繁命中化合物和相关机制,本文对现有的胶体聚集化合物、光学干扰物、化学易反应化合物和混乱成键化合物相关筛选规则和模型进行了一个回顾分析,同时对未来的发展方向进行了讨论。

胶体聚集化合物

胶体聚集化合物是频繁命中化合物的重要组成。Ferreira et al.在对假阳性背后机制的研究中发现,88%的假阳性结果是由于胶体聚集化合物引起的。而在另一个针对β-lactamase实验中发现,胶体聚集化合物引起的假阳性结果高达95%,而试验中的真阳性结果只占整体结果的5%。此外,胶体聚集化合物不仅高频率出现在有机化合物筛选结果中,其在天然产物中也十分常见。Duan等人发现有14个研究文献达上百篇的“潜力天然产物分子”都是胶体聚集化合物,其中8个化合物临界聚集浓度甚至低于10μM,其中包括研究数目超过6,000项、研究经费高达百万的天然产物姜黄素。胶体聚集化合物是由小分子在溶液中聚集形成的半径60—300 nm的聚集体,其能够与蛋白表面非特异性结合,诱导蛋白质发生部分折叠,从而使得蛋白质失活(图2A)。常用的实验检测手段是在溶液中加入0.01-0.1% Triton X-100 或其他非离子型表面活性剂,但部分化合物在加入后仍能发生胶体聚集现象。关于现有的计算机筛选模型,Irwin等人收集12,600个胶体聚集化合物并建立一个基于聚集化合物结构相似性和脂水分配系数来预测胶体聚集化合物的规则Aggregator Advisor,但是由于建模方法较简单,这些规则预测结果的准确性受到限制。针对Aggregator Advisor的不足,作者所在课题组采用RandomForest和XGBoost算法结合多种描述符建立一个高效准确的预测模型,并开发成为网页预测工具ChemAGG,并总结一套胶体聚集化合物筛选规则:logD 大于6,芳香性三级碳大于14,羟基数目大于3,与至少三个原子相连的硫原子数目大于2的化合物在溶液中聚集的可能性更高。

荧光酶抑制剂

荧光酶检测技术,主要是利用生物荧光酶探测实验中ATP浓度从而判断酶的活性高低,是高通量筛选中的重要检测手段。2019年在PubChem登记检测方法的约4400个高通量筛选实验中,14%的实验是基于生物荧光酶进行检测,49%的实验是基于荧光基团进行检测。然而,荧光酶抑制剂出现导致生物荧光酶探测中假阳性结果频频发生,更重要的是,这些干扰化合物在数据库中普遍存在。荧光酶检测干扰主要分为两类:特异性抑制(即对荧光酶的特异性抑制,图2B)和非特异性干扰(使酶失活或通过光吸收衰减光信号)。常见的荧光酶抑制剂包括苯并噻唑类化合物,例如2-芳基取代苯并-[d]噻唑、2-芳基取代苯并-[d]-咪唑和2-芳基取代苯并-[d]-恶唑等。此外,喹诺酮类化合物也是常见的荧光酶抑制剂。研究发现,对于苯并噻唑和喹诺酮类抑制剂而言,呈现出平面和平坦结构特点的化合物比呈现出复杂空间、多支链特点的化合物抑制作用更强(图3A)。值得注意的是,如果不提前进行有效鉴别,荧光酶类抑制剂作为假阳性化合物会成为后续药物研究的潜在威胁。例如,白藜芦醇 (resveratrol)是一类在癌症、糖尿病和阿尔茨海默病患者中显示出有潜在治疗价值的化合物。然而在2006年,白藜芦醇被确定为是一种FLuc抑制剂(Ki = 2μM)。在这此前,许多以FLuc荧光酶作为探测手段,浓度为微摩尔级别以上的白藜芦醇活性结果的真实性均受到质疑。为了防止荧光抑制剂产生的假阳性结果,常用的实验检测手段是双荧光酶检测方法(例如FLuc和RLuc组合检测)、交互实验或选择其他不同检测方法。关于现有的计算机筛选模型,Li等人收集390个荧光酶抑制剂结合SVM方法构建一个针对潜在生物荧光酶抑制剂的筛选模型,但是由于原始数据量的限制,该模型实际应用非常受限。Chen等人基于1551个荧光酶抑制剂建立MIEC-GBDT预测模型,实现90%的预测准确率。Ghosh等人采用不同的机器学习方法建模预测荧光素酶抑制剂,其中神经网络方法建成模型表现最好,相关预测模型Luciferase Advisor在OCHEM平台开放使用。

自荧光化合物

通过荧光基团检测相关生物分子浓度是高通量筛选中另一重要检测手段。根据激发波长和发射波长范围,可以将常用的荧光基团分为四类:(1)紫外和低波长可视区:4-methyl umbelliferone (4-MU) and Alexa Fluor 350 (ex = 340 nm,em = 450 nm);(2) 绿光可视区:fluorescein and Alexa Fluor 488 (ex = 480 nm,em = 540 nm); (3) 红光可视区:Rhodamine, Resorufin, and Texas Red (ex = 540 nm, em = 600 nm); (4) 远红端可视区:Alexa Fluor 647 (ex = 570 nm, em = 671 nm)。然而,一些化合物由于自荧光性在荧光检验中造成假阳性结果(图2C)。Simeonov等人在针对一个70,000个分子数据库的筛选中发现,有3,500个化合物表现出比十个微摩尔的荧光剂4-methylumbelliferone (4-MU)更高的荧光强度。虽然仅占数据库的5%,但这类化合物在后续筛选中却占比近50%的阳性结果。常见的自荧光化合物例如喹喔啉4,9-二氧化物,蒽恶唑-6-酮,二氢蒽-9,10二酮,嘧啶三嗪二酮等化合物(图3B)。现较常用的实验手段是采用远红端荧光剂或增加荧光强度;对于自荧光化合物筛选模型,Su等人收集五种不同吸收和发射波长的荧光基团的自荧光化合物并构建决策树模型,建立了14条筛选规则。

化学易反应化合物

化学易反应化合物指要是指通过对靶点蛋白残基或对实验中亲核试剂进行氧化还原反应而呈现出阳性结果的化合物。这类化合物主要指带一些含有例如硫酯类、磺酰基、氮杂环丙烷类等强亲电基团的易反应化合物(图3C)和能通过氧化循环产生过氧化氢的化合物。前一类化合物易与实验环境中试剂发生反应,后一类化合物则能通过产生过氧化氢将靶点蛋白中的半胱氨酸残基氧化从而使得蛋白质失活(图2D)。例如,异喹啉-1,3,4-三酮衍生物由于能抑制半胱氨酸蛋白酶-3活性,被认为是治疗与细胞凋亡相关疾病的潜力药物,然而后续研究发现,异喹啉-1,3,4-三酮衍生物抑制机制主要是通过生成过氧化氢,从而将半胱氨酸中的巯基氧化成磺酸基,进一步导致蛋白质失活。这类易反应化合物不作为首要药物研发的原因,一方面是因为其不稳定性和易反应性使得其在体内吸收代谢过程容易失控,另一方面是因为其特异性低使得化合物在实际应用时往往伴随着不期望的副反应甚至导致严重的毒性反应。

为了避免化学易反应化合物引起的假阳性结果,实验中一般会加入DDT试剂或者进行HRP-PR实验检验。关于计算机预测模型,1997年,Rishton等人总结出一套含有19个易反应子结构用于筛选潜在的假阳性结果。2004年,Hajduk等人通过一种核磁共振技术检测硫醇反应化合物,并将这些易反应化合物中的子结构总结成一套ALARM NMR筛选规则。2010年, Baell等人基于六个不同靶点高通量筛选实验结果,总结一套包含480个子结构的筛选规则PAINS。在2012年,Lilly公司基于多年药物研发数据,结合药物化学家研究经验,总结出共275个子结构筛选规则,其中有116个子结构是针对化学易反应化合物(酰化剂(51种规则)、醛酮(29种规则)、烷基化剂(29种规则)和氧化还原循环剂(7种规则))。

混乱化合物

混乱化合物指能与许多不同靶点特异性成键的化合物,由于其在物化性质和结构方面都展示出高度变化性,实际数据完整度较低,其预测的难度较高。Yang等人发现一些FH具有相同或相似的骨架,例如2-氨基噻唑骨架化合物发现在测试的14个实验中均表现为阳性结果,之后其基于PubChem数据库中大量实验数据开发一种通过分子骨架预测化合物为FH可能性的方法Badapple,并根据预测分数将化合物分为非混乱化合物、低混乱化合物和高混乱化合物。除了骨架外,一些化合物在子结构的改变也可能会导致化合物混乱度发生改变,称为“混乱度悬崖”(Promiscuity Cliff)。Jurgen等人在对不同来源的分子以及激酶抑制剂进行关于子结构-混乱度的分子对分析,相关数据在ZENODO可以获得。Stork等人针对混乱化合物进行分析建模,并建立了相关预测网站HitDexter2.0。有趣的是,另一项研究关注在高通量筛选中从未击中的化合物,称为DCM(dark chemical matter)。这类化合物与混乱化合物相反,在超过100次不同靶点的筛选中都未表现出活性。鉴于这类化合物的高度选择性,DCM常被用作频繁命中化合物建模中的负集或外部测试集。

另一方面,混乱化合物并不是一无是处。多药理机制(Polypharmacology)是老药新用以及药物拯救的基础。实际上,药物选择性的定义随着时间发生着变化,研究表明现有的药物分子普遍含有2~6个靶点;其次,一些疾病的治疗,例如癌症或神经相关疾病,需要多靶点化合物作用。化合物多靶点预测网站,例如Similarity Ensemble Approach (SEA), SwissTargetPrediction,HitPick,TargetNet,PPB2等也逐渐被广泛应用。类似网站对于正确了解混乱化合物也有着重要作用。

讨论及结论

在这篇综述,作者主要讨论了频繁命中化合物的机制和其现有的发展,总结相关常用实验检测方法(表1)和计算机筛选工具(表2)。现有的计算机筛选工具仍有许多可以改进的方面:(1) 频繁命中化合物筛选工具应该被用作标记特征,而不是严格的筛选过滤器。其中一个原因是主要因为现有筛选工具初始数据限制。因此对应用域进行评估或用外部数据集检验过的模型可信度更高;(2)对于不同机制的频繁命中化合物,应该采取不同的策略对待,也是因为其意义不同,机制分明清晰的频繁命中化合物模型具有更高的应用价值。更多频繁命中化合物机制,例如细胞膜干扰物(例如羟苯基腙)和金属螯合物(例如紫草碱)等待进一步探索。为推动频繁命中化合物筛选更进一步发展,作者将现有的频繁命中化合物相关数据和数据源附在文章附加材料,希望通过合理应用频繁命中化合物筛选模型,药物化学家和相关研究者能够避免假阳性结果,真正实现有效且低成本的药物研发。

Manuscript availability

https://www.sciencedirect.com/science/article/pii/S1359644620300404

Ziyi Yang, Junhong He et al. Frequent hitters: nuisance artifacts in high-throughput screening. Drug Discovery Today 2020.

https://doi.org/10.1016/j.drudis.2020.01.014

网络药理学:5、零基础复现一篇生信文章:预测成分靶点+转化靶点为基因名+取靶点交集做韦恩图、PharmMapper、SwissTargetPrediction+UniProt数据库使用教程
论文题目:Generating focused molecule libraries for drug dis covery with recurrent neural networks scholar 引用:203 页数:12 发表时间:2017.12 发表刊物:ASC(American Chemical Society) Central Science 作者:Marwin H. S. ...
原文标题:Molecular design in drug dis covery : a comprehensive review of deep generative models Briefings in Bioinformatics2021 | 药物挖掘分子设计--生成模型综述
Abstract Motivation: Traditional drug dis covery approaches identify a target for a dis ease and find a compound that binds to the target. In this approach, structures... 新药研究属于高科技领域,世界各国对新药研究的投入逐年增加。据统计,1981年全世界对R&D投入为52亿美元,至1996 年已达到450亿美元。虽然新药研究开发的投入逐年增加,但每年上市的新的一类新药(NCE)却逐年减少,60年代初期,每年上市的NCE约100 个,1996年仅40个,由此可见,平均每一个新药的成本亦大幅度的增加。 人类基因组计划的完成以及后续功能基因组(结构基因组、... weixin_53775587: 你好,我在命令行输入import center_of_mass后,输出结果为PyMOL>import center_of_mass File "D:\download\python\Lib\center_of_mass.py", line 1 Python 3.11.8 (tags/v3.11.8:db85d51, Feb 6 2024, 22:03:32) [MSC v.1937 64 bit (AMD64)] on win32 SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers 请问这个该怎么解决呢 RDKit | 基于RDKit的氨基酸序列转换为SMILES 支持批量读取吗 RDKit | 基于RDKit的氨基酸序列转换为SMILES 最后一句绘制多肽到哪里了呢?