现有的联合用药预测研究大多利用基于深度神经网络的方法,能够获得较高的整体预测性能。然而, 联合用药数据集存在固有的类别不均衡问题 ,负样本(非协同药物组合)的数量通常是正样本(协同组合)数量的十倍以上。现有大多算法的整体预测性能由多数类的分类结果主导,偏向于将更多的多数类(负样本)预测正确,而忽略了对少数类(正样本)样本的学习。此外,已有研究仅利用结构与理化性质表征药物,忽略了药物与肿瘤细胞系之间的生物联系。一 旦应用包含更多信息的生物属性数据,样本的特征维度将增加,样本数量将减少。 基于深度神经网络的算法通常依赖大规模的训练数据集,在中小型规模数据集上难以保持预测精度。

为了解决上述问题,本研究提出了一个包含药物物理、化学、生物信息的跨领域特征数据集。而后,设计基于深度森林的ForSyn算法实现二分类任务,在深度森林框架中引入基于AP聚类的分层下采样随机森林、基于数据复杂度降维的极限树森林单元,很好地缓解了类别不均衡、特征维度高、样本数量少给分类过程带来的不利影响 (图1) 。通过与12种领域SOTA方法对比,ForSyn在八个数据集、四种指标上排名第一,展示出了优异的分类性能,显著提高了对于少数类样本(协同药物组合)的预测精度。细胞增殖实验结果验证了ForSyn预测出的四种新型抗肿瘤联合用药疗法的潜力。

图2 ForSyn的可解释性分析结果

综上,本研究提出了基于深度森林框架的预测算法,缓解了生物医学数据集中类别不均衡、特征维度高、样本数量少的固有问题,不仅预测出了有潜力的联合用药疗法,而且为药物发现领域的其他研究提供了潜在的技术途径。此外,通过可解释性分析发现了在预测过程中具有关键作用的基因,为联合用药作用机制的实验研究提供了理论线索。

作者简介

天津大学博士生 武连莲 、福建医科大学助理研究员 高捷 、军事医学研究院博士后 张艺馨 为该论文的共同第一作者,军事医学研究院 伯晓晨 研究员、 何松 副研究员、厦门大学 刘昆宏 教授为该论文的共同通讯作者。

伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案,在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。

刘昆宏教授课题组一直致力于研究机器学习、深度学习的理论与应用研究,在IEEE Transactions on Multimedia,Briefings in Bioinformatics等期刊以及IJCAI、BIBM等顶会发表多篇论文。

两课题组长期招收硕士、博士研究生及博士后,欢迎感兴趣的同学加入或来函咨询。

简历投递 (有意者请将个人简历等材料发至):

https://jinshuju.net/f/ZqXwZt 扫描二维码投递简历

图片

Lianlian Wu, Jie Gao, Yixin Zhang, Binsheng Sui, Yuqi Wen, Qingqiang Wu, Kunhong Liu, Song He, and Xiaochen Bo, A hybrid deep forest-based method for predicting synergistic drug combinations, Cell Reports Methods, 2023, https://doi.org/10.1016/j.crmeth.2023.100411.

制版人:十一

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
打开网易新闻,阅读体验更佳