SMILESynergy：基于Transformer预训练模型的抗癌药物协同作用预测

SMILESynergy: Anticancer drug synergy prediction based on Transformer pre-trained model

立强张 , ^1, ² 玉芳秦 , ^1, ^2, ^* and 明陈 ^1, ²

立强张

玉芳秦

明陈

上海海洋大学信息学院（上海 201306）, College of Information, Shanghai Ocean University, Shanghai 201306, P. R. China 农业农村部渔业信息重点实验室（上海 201306）, Key Laboratory of Fisheries Information, Ministry of Agriculture and Rural Affairs, Shanghai 201306, P. R. China 上海海洋大学信息学院（上海 201306）, College of Information, Shanghai Ocean University, Shanghai 201306, P. R. China 农业农村部渔业信息重点实验室（上海 201306）, Key Laboratory of Fisheries Information, Ministry of Agriculture and Rural Affairs, Shanghai 201306, P. R. China

Corresponding author.

玉芳秦: nc.ude.uohs@niqfy

秦玉芳，Email： nc.ude.uohs@niqfy

其中 equation M1 代表位置编码（position encoding）， equation M2 表示药物分子在药物序列中的位置，当 equation M3 为偶数时使用正弦函数进行编码，当 equation M4 为奇数时使用余弦函数进行编码。 equation M5 代表词嵌入向量的维度， equation M6 代表位于0到第 equation M7 每一维元素都需要对输入序列进行编码。于是根据上述公式，我们可以得到药物序列中第 equation M8 位置药物分子的 equation M9 维位置向量。

注意力机制是对药物分子不同特征之间的相互作用进行编码的模块，它将一个 Query 和一组 Key 、 Value 键值对映射到一个输出，其中 Query 表示待预测的药物分子的查询向量，用于捕获其在特定任务中的特征表示； Key 表示其他药物分子的键向量，用于计算待预测药物与其他药物之间的相似性； Value 表示其他药物分子的值向量，用于加权计算其他药物与待预测药物的相似性得分。注意力的计算公式如下：

其中 equation M10 是药物特征矩阵， equation M11 , equation M12 , equation M13 分别对应 Query 、 Key 和 Value 的权重矩阵。 equation M14 是一个缩放因子， Z 是注意力层的输出。

2.3. SMILES Transformer模型架构

我们的预训练模型采用4层Encoder-Decoder的Transformer模型，模型整体架构如图3a 所示，输入的药物序列首先经过Embedding变为词向量，并将位置编码添加到词嵌入向量中，随后进入由4个编码器与4个解码器构成的Transformer结构。Transformer编码器和解码器内部细节如图3b 所示，Embedding后的药物数据经过位置编码进入到编码器，编码器由多个相同的层组成，每层包括一个多头注意力层和一个全连接网络层。解码器也由多个相同的层组成，每层包括三个子层：多头自注意力子层、编码器-解码器注意力子层和全连接前馈神经网络子层。最终模型输出1 024维的药物fingerprint文件。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-40-3-544-3.jpg

Open in a separate window

图 3

SMILES Transformer model

SMILES Transformer模型

a. 模型整体架构；b. 模型内部细节

a. overall architecture of the model; b. internal details of the model

我们对ChEMBL24数据集（药物化学和药理学的数据集 ^{[

23

]} ）中861 000个无标签的SMILES随机抽取进行预训练，其架构参数及训练超参数来自文献[ 12 ]。在训练中，使用Adam优化器最小化输入SMILES和输出概率之间的交叉熵。训练过程中损失值逐渐下降，同时困惑度也在不断减小，训练了5个epoch后，模型达到收敛状态，困惑度达到了1.0左右，表明模型能够很好地预测出药物组合序列中的每个药物分子。相比原始Transformer ^{[

10

]} ，SMILES Transformer模型的参数由6 500万下降至400万左右，模型的收敛速度得到了提升。在下游任务中，我们利用SMILES Transformer编码生成药物的1 024维fingerprint数据输入MLP，MLP的迭代次数max_iter设置为1 000，其他默认超参数与Scikit-learn ^{[

24

]} 相同。随后将数据集按4∶1随机拆分为训练集和测试集，进行最终的回归训练。SMILESynergy模型的伪代码详见附件1。

3. 结果与讨论

3.1. SMILESynergy在O’Neil数据集的性能评估

我们从回归性能和分类性能两方面对模型进行评估。回归性能分析的主要指标是平均平方误差（mean square error，MSE）、平均绝对误差（mean absolute error ，MAE）、可释方差值（explained variation score，EVS）、皮尔逊相关系数（Pearson）和 R ²（ r -squared）。表1 中给出了SMILESynergy模型在39个细胞系中的预测结果。

表 1

SMILESynergy regression performance metrics on O’Neil

SMILESynergy在O’Neil 数据集上回归性能指标

指标	MAE	MSE	R ²	EVS	Pearson
平均值	4.39	51.34	0.90	0.90	0.95
最小值	2.71	16.32	0.80	0.80	0.90
中位数	3.81	33.40	0.91	0.91	0.95
最大值	9.01	199.60	0.96	0.96	0.98

Open in a separate window

由表1 可以看出，MSE的平均值降低到了100以内，在测试的39个细胞系中，各评价指标的中位数都非常接近平均值，说明我们的模型在大多数的细胞系中都具有良好的稳定性。但MSE的最小值与最大值相差约180，为了探究这一原因，根据器官组织分布，我们将细胞系的MSE包点图和箱型图进行了可视化，如图4a 所示，可以看出在乳腺（BREAST）、卵巢（OVARY）与肺（LUNG）三个组织中出现了三个异常值；导致MSE相差较大的异常情况主要出现在前列腺组织（PROSTATE）中，而前列腺组织涉及的细胞系只有两个，因此数据平均值产生了较大的偏差。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-40-3-544-4.jpg

Open in a separate window

图 4

SMILESynergy regression performance analysis on the O’Neil dataset

SMILESynergy在O’Neil数据集上回归性能分析

a. 各器官组织对应细胞系的MSE包点图和箱型图；b. 大肠、前列腺与肺组织的所有细胞系的协同值散点图

a. MSE beeswarm plots and box plots of corresponding cell lines for each organ tissue; b. scatter plots of synergy values of all cell lines for large intestine, prostate and lung tissues

为了进一步分析不同细胞系下预测结果的差异，我们选取图4a 中预测效果最好的大肠组织（LARGE_INTESTINE），以及预测效果较差的前列腺组织（PROSTATE）和肺组织（LUNG），对三个组织中所有细胞系对应的药物组合协同作用值进行了可视化，得到散点图4b 。从图4b 可以看出，前列腺组织的LNCAP细胞系和肺组织的NCIH2122、NCIH23细胞系上的药物组合协同作用值的分布较为分散，相较于其他细胞系有大量的数据分布在―100以下，药物组合之间协同作用值的离散程度比较大，导致模型在训练过程中无法有效学习药物组合数据的特征规律，使得整体的MSE出现了较大范围的波动。

在分类方面，我们采用准确率（accuracy，ACC）、精确率（precision，PREC）、敏感性（sensitivity，SENS）、特异性（specificity，SPEC）、F1分数（F1）、受试者工作特征曲线下的面积（area under curve of receiver operating characteristic，ROC_AUC）来衡量模型的分类性能。

从表2 可以看到本文模型的平均准确率达到了0.97，特异性的平均值达到了0.98。同时注意到敏感性出现了一定幅度的波动，敏感性的最大值为0.93，小于特异性的最小值0.97，这说明SMILESynergy在学习预测药物组合数据是否有协同作用的均衡性上有所欠缺。于是我们对O’Neil数据集中各组织药物组合的类别数量分布进行了可视化（数据图见附件2），发现O’Neil数据集中药物组合具有协同作用和无协同作用的数据分布不均衡，无协同作用的药物组合数量远远大于具有协同作用的药物组合数量，导致敏感性与特异性出现了差异。

表 2

SMILESynergy classification performance indicators on O’Neil

SMILESynergy 在O’Neil 数据集上的分类性能指标

指标	ACC	PREC	SENS	SPEC	F1	ROC_AUC
平均值	0.97	0.81	0.76	0.98	0.78	0.87
最小值	0.92	0.65	0.47	0.97	0.55	0.73
最大值	0.98	0.93	0.93	0.99	0.90	0.95

Open in a separate window

3.2. SMILESynergy 在NCI-ALMANAC数据集的性能评估

我们在NCI-ALMANAC数据集上对本文模型SMILESynergy进一步进行验证，获得了令人满意的结果（详见表3 、表4 ）。在回归方面，MAE和MSE的中位数均小于其平均值， R ²、EVS和Pearson的中位数均高于平均值。在分类方面，ACC的中位数与平均值接近，而其他指标的中位数均高于平均值，这表明SMILESynergy在NCI-ALMANAC数据集的大多数细胞系上表现出了良好的稳定性。

表 3

SMILESynergy regression performance metrics on NCI-ALMANAC

SMILESynergy 在NCI-ALMANAC数据集上的回归性能指标

指标	MAE	MSE	R ²	EVS	Pearson
平均值	6.87	88.98	0.73	0.74	0.86
中位数	6.55	75.39	0.74	0.74	0.86

Open in a separate window

表 4

SMILESynergy classification performance indicators on NCI-ALMANAC

SMILESynergy在NCI-ALMANAC 数据集上的分类性能指标

指标	ACC	PREC	SENS	SPEC	F1	ROC_AUC
平均值	0.87	0.82	0.81	0.90	0.81	0.85
中位数	0.87	0.83	0.81	0.91	0.81	0.86

Open in a separate window

为了探究SMILESynergy在NCI-ALMANAC数据集中的预测性能，我们绘制了全局绝对误差热力图（见附件3）。我们发现不同细胞系下的药物组合数量存在差异，且大部分细胞系下的药物组合的绝对误差集中分布在10以内，这与实验结果中MAE的平均值和中位数皆在10以内相一致。

在HL-60(TB)、SR、MOLT-4和CCRF-CEM这四个细胞系中，绝对误差的波动相对较为明显。我们对这四个细胞系及热图中预测效果较好的HOP-92、SF-268、RXF 393和OVCAR-4四个细胞系数据分布进行可视化分析，如图5 所示。结果显示HL-60(TB)、SR、MOLT-4和CCRF-CEM四个细胞系的细胞生长率分布较为分散，使得模型难以学习药物组合数据的特征规律，从而导致整体绝对误差波动较大。

An external file that holds a picture, illustration, etc. Object name is swyxgcxzz-40-3-544-5.jpg

Open in a separate window

图 5

Scatter plot of cell growth rate percentage for selected cell lines in the NCI-ALMANAC dataset

NCI-ALMANAC 数据集中部分细胞系的细胞生长率百分比散点图

3.3. 方法对比

为了验证SMILESynergy模型的预测性能，我们在O’Neil数据集上与DeepSynergy模型 ^{[

5

]} 和MulinputSynergy模型 ^{[

8

]} 进行实验对比。我们的模型将药物转换成SMILES文件作为输入数据。DeepSynergy计算了药物三种不同类型的化学特征：首先使用jCompoundMapper ^{[

25

]} 生成半径为6（ECFP_6）的扩展连接指纹计数，然后利用ChemoPy ^{[

26

]} 计算药物的物理化学性质，最后从文献[ 27 ]中收集到一组亚结构毒团特征。MulinputSynergy则使用软件alvaDesc计算药物化合物的分子描述符，包括功能组、片段计数和药效团等。

三个模型详细的比较结果列于表5 和表6 。从表5 中可以看出，SMILESynergy模型在预测抗癌药协同作用的回归任务中，相对于MulinputSynergy和DeepSynergy模型，具有更小的MSE和MAE，以及更高的EVS、Pearson和 R ² 指标，这表明SMILESynergy模型能够更准确地预测抗癌药协同作用的强度，并且预测结果与实际值之间的相关性更强。从表6 中可以看出，SMILESynergy模型在预测抗癌药协同作用的分类任务中，相对于MulinputSynergy和DeepSynergy模型，具有更高的ACC、PREC、SENS、F1和ROC_AUC指标，这表明SMILESynergy模型不仅能够准确地预测抗癌药协同作用的类别，还能够在预测结果的精度和召回率之间做到更好的平衡。

表 5

Comparison of regression performance metrics of SMILESynergy and other models

SMILESynergy与其他模型的回归性能指标对比

模型	MSE	MAE	EVS	Pearson
SMILESynergy	51.34±0.00	4.39±1.55	0.89±0.03	0.94±0.01	0.89±0.03
MulinputSynergy	176.69±3.09	8.77±0.12	0.58±0.01	0.76±0.00	0.57±0.01
DeepSynergy	197.14±1.63	9.48±0.04	0.53±0.01	0.73±0.00	0.53±0.00

Open in a separate window

表 6

Comparison of classification performance metrics of SMILESynergy and other models

SMILESynergy与其他模型的分类性能指标对比

模型	ACC	PREC	SENS	F1	ROC_AUC
SMILESynergy	0.97±0.01	0.81±0.07	0.76±0.10	0.78±0.07	0.87±0.05
MulinputSynergy	0.95±0.00	0.63±0.02	0.58±0.01	0.52±0.01	0.94±0.00
DeepSynergy	0.95±0.00	0.57±0.01	0.53±0.01	0.50±0.02	0.93±0.00

Open in a separate window

3.4. SMILES Enumeration消融实验

我们将SMILESynergy模型进行消融实验研究来分析SMILES Enumeration模块对抗癌药物协同作用预测的影响，分别评估了无SMILES Enumeration以及加入SMILES Enumeration后的影响，对比结果如表7 所示，各指标皆为两模型在各自细胞系上的平均值。由表7 可以看出，在加入SMILES Enumeration之后，模型在两个数据集上的回归与分类性能都得到了一定程度的提升。原因可能是经过SMILES Enumeration之后使得模型对药物组合数据的特征进行了更多的训练与学习，从而提升了自身的鲁棒性。

表 7

SMILES Enumeration ablation experiments of regression and classification

SMILES Enumeration 消融实验回归及分类指标

模型	数据集	回归		分类
模型	数据集	MSE	Pearson	ACC	ROC-AUC
无SMILES Enumeration	O’Neil	244.58	0.77	0.93	0.77
SMILESynergy	O’Neil	51.34	0.95	0.97	0.87
无SMILES Enumeration	NCI-ALMANAC	202.64	0.55	0.67	0.58
SMILESynergy	NCI-ALMANAC	88.98	0.86	0.87	0.85

Open in a separate window

4. 结论

我们提出了一种新的抗癌药物协同作用预测模型SMILESynergy。模型以药物的SMILES作为输入，并利用异构体数据进行数据增强，然后采用预训练的Transformer模型编码药物组合数据，最后通过连接MLP完成对药物组合协同作用的预测。在O’Neil数据集上，SMILESynergy优于其他模型，具有更好的预测性能，可帮助研究人员快速筛选最优药物组合，提高癌症治疗效果。数据及工程文件可在https://github.com/unclestrong/SMILESynergy获取。

重要声明

利益冲突声明：本文全体作者均声明不存在利益冲突。

作者贡献声明：张立强主要负责实验方案设计、代码编写与调试、实验结果分析与论文撰写，秦玉芳主要负责算法咨询与建议、实验结果分析、论文撰写与指导，陈明作者为论文提供了资助和支持。

本文附件见本刊网站的电子版本（biomedeng.cn）。

Funding Statement

国家自然科学基金（61702325）；江苏现代农业产业关键技术创新（CX（20）2028）

References

1. Abeshouse A, Ahn J, Akbani R, et al The molecular taxonomy of primary prostate cancer. Cell. 2015; 163 (4):1011–1025. doi: 10.1016/j.cell.2015.10.025. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

2. Housman G, Byler S, Heerboth S, et al Drug resistance in cancer: an overview. Cancers. 2014; 6 (3):1769–1792. doi: 10.3390/cancers6031769. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

3. Chou T C Theoretical basis, experimental design, and computerized simulation of synergism and antagonism in drug combination studies. Pharmacol Rev. 2006; 58 (3):621–681. doi: 10.1124/pr.58.3.10. [ PubMed ] [ CrossRef ] [ Google Scholar ]

4. Bajorath J Integration of virtual and high-throughput screening. Nat Rev Drug Discov. 2002; 1 (11):882–894. doi: 10.1038/nrd941. [ PubMed ] [ CrossRef ] [ Google Scholar ]

5. Preuer K, Lewis R P I, Hochreiter S, et al DeepSynergy: predicting anti-cancer drug synergy with deep learning. Bioinformatics. 2018; 34 (9):1538–1546. doi: 10.1093/bioinformatics/btx806. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

6. O’neil J, Benita Y, Feldman I, et al An unbiased oncology compound screen to identify novel combination strategies. Mol Cancer Ther. 2016; 15 (6):1155–1162. doi: 10.1158/1535-7163.MCT-15-0843. [ PubMed ] [ CrossRef ] [ Google Scholar ]

7. Zhang T, Zhang L, Payne P R O, et al Synergistic drug combination prediction by integrating multiomics data in deep learning models. Methods Mol Biol. 2021; 2194 :223–238. [ PubMed ] [ Google Scholar ]

8. 陈希, 秦玉芳, 陈明, 等. 基于多输入神经网络的药物组合协同作用预测. 生物医学工程学杂志, 2020, 37(4): 676-682, 691.

9. Sun Z, Huang S, Jiang P, et al DTF: deep tensor factorization for predicting anticancer drug synergy. Bioinformatics. 2020; 36 (16):4483–4489. doi: 10.1093/bioinformatics/btaa287. [ PubMed ] [ CrossRef ] [ Google Scholar ]

10. Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need// 31st Conference on Neural Information Processing Systems (NIPS 2017). Long Beach: NIPS, 2017: 6000-6010.

11. Schwaller P, Laino T, Gaudin T, et al Molecular Transformer: a model for uncertainty-calibrated chemical reaction prediction. ACS Cent Sci. 2019; 5 (9):1572–1583. doi: 10.1021/acscentsci.9b00576. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

12. Wang S, Guo Y, Wang Y, et al. Smiles-Bert: Large scale unsupervised pre-training for molecular property prediction// BCB '19: Proceedings of the 10th ACM International Conference on Bioinformatics, Computational Biology and Health Informatics. Niagara Falls: Association for Computing Machinery, 2019: 429-436.

13. Tetko I V, Karpov P, Van Deursen R, et al State-of-the-art augmented NLP transformer models for direct and single-step retrosynthesis. Nat Commun. 2020; 11 (1):5575. doi: 10.1038/s41467-020-19266-y. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

14. Honda S, Shi S, Ueda H R. Smiles transformer: pre-trained molecular fingerprint for low data drug discovery. arXiv preprint arXiv, 2019: 1911.04738.

15. He J, You H, Sandstrm E, et al Molecular optimization by capturing chemist's intuition using deep neural networks. J Cheminform. 2021; 13 (1):26. doi: 10.1186/s13321-021-00497-0. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

16. Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans: Association for Computational Linguistics, 2018: 2227-2237.

17. Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv, 2018: 1810.04805.

18. Weininger D SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules. J Chem Inf Comput Sci. 1988; 28 (1):31–36. [ Google Scholar ]

19. Liu Q, Xie L TranSynergy: Mechanism-driven interpretable deep neural network for the synergistic prediction and pathway deconvolution of drug combinations. PLoS Comput Biol. 2021; 17 (2):e1008653. doi: 10.1371/journal.pcbi.1008653. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

20. Di Veroli G Y, Fornari C, Wang D, et al Combenefit: an interactive platform for the analysis and visualization of drug combinations. Bioinformatics. 2016; 32 (18):2866–2868. doi: 10.1093/bioinformatics/btw230. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

21. Holbeck S L, Camalier R, Crowell J A, et al The national cancer institute ALMANAC: a comprehensive screening resource for the detection of anticancer drug pairs with enhanced therapeutic activity. Cancer Res. 2017; 77 (13):3564–3576. doi: 10.1158/0008-5472.CAN-17-0489. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

22. Landrum G. RDKit: A software suite for cheminformatics, computational chemistry, and predictive modeling. (2013) [2022-09-20]. http: //www.rdkit.org/RDKit_Overview.pdf.

23. Gaulton A, Hersey A, Nowotka M, et al The ChEMBL database in 2017. Nucleic Acids Res. 2017; 45 (D1):D945–D954. doi: 10.1093/nar/gkw1074. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

24. Pedregosa F, Varoquaux G, Gramfort A, et al Scikit-learn: Machine learning in Python. J Mach Learn Res. 2011; 12 :2825–2830. [ Google Scholar ]

25. Hinselmann G, Rosenbaum L, Jahn A, et al jCompoundMapper: An open source Java library and command-line tool for chemical fingerprints. J Cheminform. 2011; 3 (1):3. doi: 10.1186/1758-2946-3-3. [ PMC free article ] [ PubMed ] [ CrossRef ] [ Google Scholar ]

26. Cao D S, Xu Q S, Hu Q N, et al ChemoPy: freely available python package for computational biology and chemoinformatics. Bioinformatics. 2013; 29 (8):1092–1094. doi: 10.1093/bioinformatics/btt105. [ PubMed ] [ CrossRef ] [ Google Scholar ]

27. Singh P K, Negi A, Gupta P K, et al Toxicophore exploration as a screening technology for drug design and discovery: techniques, scope and limitations. Arch Toxicol. 2016; 90 (8):1785–1802. doi: 10.1007/s00204-015-1587-5. [ PubMed ] [ CrossRef ] [ Google Scholar ]

Articles from Sheng Wu Yi Xue Gong Cheng Xue Za Zhi = Journal of Biomedical Engineering are provided here courtesy of West China Hospital of Sichuan University

SMILESynergy：基于Transformer预训练模型的抗癌药物协同作用预测

SMILESynergy: Anticancer drug synergy prediction based on Transformer pre-trained model

立强 张

玉芳 秦

明 陈

2.3. SMILES Transformer模型架构

3. 结果与讨论

3.1. SMILESynergy在O’Neil数据集的性能评估

表 1

表 2

3.2. SMILESynergy 在NCI-ALMANAC数据集的性能评估

表 3

表 4

3.3. 方法对比

表 5

表 6

3.4. SMILES Enumeration消融实验

表 7

4. 结论

Funding Statement

References

立强张

玉芳秦

明陈