现有的联合用药预测研究大多利用基于深度神经网络的方法,能够获得较高的整体预测性能。然而,
联合用药数据集存在固有的类别不均衡问题
,负样本(非协同药物组合)的数量通常是正样本(协同组合)数量的十倍以上。现有大多算法的整体预测性能由多数类的分类结果主导,偏向于将更多的多数类(负样本)预测正确,而忽略了对少数类(正样本)样本的学习。此外,已有研究仅利用结构与理化性质表征药物,忽略了药物与肿瘤细胞系之间的生物联系。一
旦应用包含更多信息的生物属性数据,样本的特征维度将增加,样本数量将减少。
基于深度神经网络的算法通常依赖大规模的训练数据集,在中小型规模数据集上难以保持预测精度。
为了解决上述问题,本研究提出了一个包含药物物理、化学、生物信息的跨领域特征数据集。而后,设计基于深度森林的ForSyn算法实现二分类任务,在深度森林框架中引入基于AP聚类的分层下采样随机森林、基于数据复杂度降维的极限树森林单元,很好地缓解了类别不均衡、特征维度高、样本数量少给分类过程带来的不利影响
(图1)
。通过与12种领域SOTA方法对比,ForSyn在八个数据集、四种指标上排名第一,展示出了优异的分类性能,显著提高了对于少数类样本(协同药物组合)的预测精度。细胞增殖实验结果验证了ForSyn预测出的四种新型抗肿瘤联合用药疗法的潜力。
图2 ForSyn的可解释性分析结果
综上,本研究提出了基于深度森林框架的预测算法,缓解了生物医学数据集中类别不均衡、特征维度高、样本数量少的固有问题,不仅预测出了有潜力的联合用药疗法,而且为药物发现领域的其他研究提供了潜在的技术途径。此外,通过可解释性分析发现了在预测过程中具有关键作用的基因,为联合用药作用机制的实验研究提供了理论线索。
作者简介
天津大学博士生
武连莲
、福建医科大学助理研究员
高捷
、军事医学研究院博士后
张艺馨
为该论文的共同第一作者,军事医学研究院
伯晓晨
研究员、
何松
副研究员、厦门大学
刘昆宏
教授为该论文的共同通讯作者。
伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案,在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。
刘昆宏教授课题组一直致力于研究机器学习、深度学习的理论与应用研究,在IEEE Transactions on Multimedia,Briefings in Bioinformatics等期刊以及IJCAI、BIBM等顶会发表多篇论文。
两课题组长期招收硕士、博士研究生及博士后,欢迎感兴趣的同学加入或来函咨询。
简历投递
(有意者请将个人简历等材料发至):
https://jinshuju.net/f/ZqXwZt
或
扫描二维码投递简历
图片
Lianlian Wu, Jie Gao, Yixin Zhang, Binsheng Sui, Yuqi Wen, Qingqiang Wu, Kunhong Liu, Song He, and Xiaochen Bo, A hybrid deep forest-based method for predicting synergistic drug combinations, Cell Reports Methods, 2023, https://doi.org/10.1016/j.crmeth.2023.100411.
制版人:十一
被外资吃干抹净,谁还记得它的辉煌与凄凉
谁在掌控我的脑子?病毒比你的父母更希望你从一个社恐成为一个社交达人丨奇点上新
《自然》:颠覆认知!科学家首次发现,毛囊中的黑色素干细胞竟会上下移动,还能逆生长,或有望让白发变黑丨科学大发现
救命!因为嫉妒,他偷偷往同门培养基里倒酒精,整个实验室被拖垮,同门惨遭延毕
张立祥:我们究竟为什么如此依赖便利店?|一席
不出所料,自动驾驶向ChatGPT下手了!
太缺德!他偷走同门实验记录本,敲诈未果后举报造假,导致对方 Science 论文被撤
惊天乌龙!靠一个错误的实验结果获得诺奖,他误导了学界 39 年
研究生忘关实验室空调被永久禁止使用实验室!几乎断送读研之路
2023款欧拉芭蕾猫上市,14.98万元起,价格下探近5万
秦刚:中国的土地收回来了,就绝不会再失去