• School of Information Science and Technology, ShanghaiTech University, Shanghai 201210, China.
  • Molecular Oncology Group, Cancer Research UK Manchester Institute, The University of Manchester, Alderley Park, Manchester, UK.
  • 单细胞蛋白质丰度是表征细胞状态的基本信息类型。然而,由于成本高和技术障碍,蛋白质的直接定量很困难。单细胞 RNA 测序(scRNA-seq)数据作为单细胞蛋白质组学的低成本替代品,由于测量误差、噪声、转录后和翻译调控等因素,可能无法准确反映蛋白质表达水平。新兴的单细胞多模态组学数据,例如 CITE-seq 和 REAP-seq,可以同时分析单细胞中的 RNA 和蛋白质丰度,为监督学习框架中的预测建模提供标记数据。基于深度神经网络的迁移学习方法已应用于从单细胞转录组数据估算表面蛋白质丰度。然而,目前还不清楚人工神经网络是否是最好的模型,希望提高机器学习模型的预测性能(例如准确性、可解释性)。在本文中,我们将几种基于树的集成学习方法与神经网络模型进行了比较,发现集成学习通常比神经网络表现得更好,而随机森林(RF)总体上表现最好。此外,我们使用来自 RF 的特征重要性分数来解释预测的生物学机制。我们的研究证明了使用单细胞多模态组学数据进行可靠蛋白质丰度预测的集成学习的有效性,并通过大规模挖掘单细胞多组学数据为知识发现铺平了道路。并且希望提高机器学习模型的预测性能(例如准确性、可解释性)。在本文中,我们将几种基于树的集成学习方法与神经网络模型进行了比较,发现集成学习通常比神经网络表现得更好,而随机森林(RF)总体上表现最好。此外,我们使用来自 RF 的特征重要性分数来解释预测的生物学机制。我们的研究证明了使用单细胞多模态组学数据进行可靠蛋白质丰度预测的集成学习的有效性,并通过大规模挖掘单细胞多组学数据为知识发现铺平了道路。并且希望提高机器学习模型的预测性能(例如准确性、可解释性)。在本文中,我们将几种基于树的集成学习方法与神经网络模型进行了比较,发现集成学习通常比神经网络表现得更好,而随机森林(RF)总体上表现最好。此外,我们使用来自 RF 的特征重要性分数来解释预测的生物学机制。我们的研究证明了使用单细胞多模态组学数据进行可靠蛋白质丰度预测的集成学习的有效性,并通过大规模挖掘单细胞多组学数据为知识发现铺平了道路。我们将几种基于树的集成学习方法与神经网络模型进行了比较,发现集成学习通常比神经网络表现更好,而随机森林 (RF) 整体表现最好。此外,我们使用来自 RF 的特征重要性分数来解释预测的生物学机制。我们的研究证明了使用单细胞多模态组学数据进行可靠蛋白质丰度预测的集成学习的有效性,并通过大规模挖掘单细胞多组学数据为知识发现铺平了道路。我们将几种基于树的集成学习方法与神经网络模型进行了比较,发现集成学习通常比神经网络表现更好,而随机森林 (RF) 整体表现最好。此外,我们使用来自 RF 的特征重要性分数来解释预测的生物学机制。我们的研究证明了使用单细胞多模态组学数据进行可靠蛋白质丰度预测的集成学习的有效性,并通过大规模挖掘单细胞多组学数据为知识发现铺平了道路。 Single-cell protein abundance is a fundamental type of information to characterize cell states. Due to high cost and technical barriers, however, direct quantification of proteins is difficult. Single-cell RNA sequencing (scRNA-seq) data, serving as a cost-effective substitute of single-cell proteomics, may not accurately reflect protein expression levels due to measurement error, noise, post-transcriptional and translational regulation, etc. The recently emerging single-cell multimodal omics data, e.g. CITE-seq and REAP-seq, can simultaneously profile RNA and protein abundances in single cells, providing labeled data for predictive modeling in a supervised learning framework. Deep neural network-based transfer learning method has been applied to imputation of surface protein abundance from single-cell transcriptomic data. However, it is unclear if the artificial neural network is the best model, and it is desirable to improve the prediction performance (e.g. accuracy, interpretability) of machine learning models. In this paper, we compared several tree-based ensemble learning methods with neural network models, and found that ensemble learning often performed better than neural network, and Random Forest (RF) performed the best overall. Moreover, we used the feature importance scores from RF to interpret biological mechanisms underlying the prediction. Our study demonstrates the effectiveness of ensemble learning for reliable protein abundance prediction using single-cell multimodal omics data, and paves the way for knowledge discovery by mining single-cell multi-omics data in large scale.