译文Deep Learning in Bioinformatics --深度学习在生物信息学领域的应用(2)

深度学习在生物信息学领域的应用(2)

原文链接:https://arxiv.org/abs/1903.00342

深层神经网络

DNNs的基本结构由一个输入层、多个隐含层和一个输出层组成(图4),一旦将输入数据给DNNs,则沿着网络的各个层依次计算输出值。在每一层,由下一层各单元的输出值组成的输入向量乘以当前层各单元的权向量,得到加权和。然后,将一个非线性函数,如sigmoid、双曲正切或整流线性单元(recfied linear unit, ReLU)[67]应用于加权和,计算该层的输出值。每一层中的计算将下面一层中的表示转换为稍微抽象的表示[8]。根据神经网络中使用的层类型和相应的学习方法,神经网络可以分为MLP、SAE或DBN。

MLP的结构与通常的神经网络相似,但包含更多的层叠层。它以一种纯粹监督的方式进行训练,只使用带标签的数据。由于训练方法是一个高维参数空间的优化过程,所以当有大量带标记的数据可用时,通常使用MLP。

SAE和DBN分别使用AEs和RBMs作为体系结构的构建块。它们与MLP的主要区别在于,培训分两个阶段执行:无监督预培训和监督微调。首先,在无监督的预训练中(图5),层按顺序堆叠,并使用未标记的数据以分层方式作为AE或RBM进行训练。然后,在监督微调过程中,对输出分类器层进行叠加,利用标记数据进行再训练,对整个神经网络进行优化。因为SAE和DBN利用未标记的数据,可以帮助避免过度拟合,即使标记数据不足(这在现实世界中很常见),研究人员也能够获得相当正则化的结果[68]。

DNNs以适合分析高维数据而闻名。由于生物信息学数据的复杂性和高维性,DNNs在生物信息学研究中具有广阔的应用前景。我们相信DNNs作为一种分层表示学习方法,能够发现以前未知的高度抽象的模式和关联,从而提供更好地理解数据本质的洞察力。然而,我们意识到,DNNs的能力尚未得到充分利用。虽然DNNs的关键特征是层次特征只从数据中学习,但是人类设计的特征常常作为输入而不是原始数据形式给出。我们希望DNNs在生物信息学领域的未来发展将来自于对原始数据编码方法的研究,并从中学习合适的特征。

卷积神经网络

CNNs被设计用来处理多种数据类型,特别是二维图像,并直接受到大脑视觉皮层的启发。在视觉皮层中,有两种基本细胞类型的层次结构:简单细胞和复杂细胞[69]。简单细胞对视觉刺激子区域的原始模式做出反应,而复杂细胞则通过合成简单细胞的信息来识别更复杂的形式。由于视觉皮层是一个强大而自然的视觉处理系统,因此CNNs被用来模拟三个关键的概念:局部连接、对位置的不变性和对局部过渡[8]的不变性。

神经网络的基本结构包括卷积层、非线性层和池化层(图6)。为了使用高度相关的数据子区域,通过计算局部块和称为滤波器的权重向量之间的卷积,在每个卷积层获得局部加权和的组,称为特征图feature maps。此外,由于无论数据中的位置如何,都可能出现相同的模式,因此过滤器在整个数据集中重复应用,这也通过减少要学习的参数数量提高了训练效率。然后非线性层增加了特征图的非线性性质。在每个池化层上,对特征图中不重叠区域进行最大或平均子采样。这种非重叠的子抽样使CNNs能够处理稍微不同但语义相似的特性,从而聚合本地特性来识别更复杂的特性。

由于CNNs具有出色的空间信息分析能力,是目前最成功的深度学习体系结构之一。由于他们在目标识别领域的发展,我们相信生物信息学的主要研究成果将来自生物医学影像领域。尽管普通成像和生物医学成像的数据特征不同,但与其他领域相比,CNN将提供直接的应用。事实上,CNNs在生物组学和生物医学信号处理方面也有很大的潜力。CNNs的三个关键思想不仅可以应用于一维网格中,发现具有小方差的有意义的重复模式,如基因组序列基序,还可以应用于二维网格中,如组学数据中的相互作用和生物医学信号的时频矩阵。因此,我们相信和承诺CNN在生物信息学应用中的普及将在未来几年继续。

循环神经网络

设计用于利用时序信息的RNNs具有循环连接的基本结构(图7)。由于输入数据是按顺序处理的,所以在存在循环连接的隐藏单元中执行循环计算。因此,过去的信息隐式地存储在称为状态向量的隐藏单元中,并且考虑到使用这些状态向量[8]的所有以前的输入,计算当前输入的输出。由于在很多情况下,过去和未来的输入都会影响当前输入的输出(例如在语音识别中),因此双向递归神经网络(BRNNs)[70]也得到了广泛的设计和应用(图8)。

虽然从层数上看,RNNs似乎不像DNNs或CNNs那么深,但如果随着时间的推移,它们可以被认为是更深的结构(图7)。因此,长期以来,研究人员在训练RNNs的同时,一直在与逐渐消失的梯度问题作斗争,而学习数据之间的长期依赖性是比较困难的。幸运的是,用LSTM[36,37]或GRU[19]等更复杂的单元替换简单的感知器隐藏单元,这些单元的功能就像记忆细胞一样,这极大地帮助避免了这个问题。最近,RNNs在许多领域都得到了成功的应用,包括自然语言处理[16,17]和语言翻译[18,19]。

尽管相对于DNNs和CNNs, RNNs的研究较少,但它们仍然为序列信息提供了非常强大的分析方法。由于生物组学数据和生物医学信号通常是顺序的,通常被认为是自然语言,因此RNNs将可变长度的输入序列映射到另一个序列或固定大小的预测的能力在生物信息学研究中很有前景。在生物医学影像方面,RNNs目前并不是许多研究者的首选。然而,我们认为动态CT和MRI的传播[71,72]将导致RNNs和CNNs的结合,并在长期内提高其重要性。此外,我们希望他们在自然语言处理方面的成功将导致RNNs应用于生物医学文本分析[73],而使用注意机制[74-77]将提高性能并从生物信息学数据中提取更多相关信息。

新兴架构是指除DNN,CNN和RNN之外的深度学习架构。在本综述中,我们介绍了三种新兴架构(即DST-NN,MD-RNN和CAE)及其在生物信息学中的应用。

DST-NNs[38]是通过逐步细化来学习多维输出目标的。DST-NNs的基本结构由多维隐层构成(图9)。该结构的关键方面是渐进式细化,考虑了局部相关性,并通过每个层的输入特征组合(空间特征和时间特征)来实现。空间特征是指整个DST-NN的原始输入,在每一层都是相同的。然而,时间特征是逐渐改变,以进步到上层。除第一层外,为了计算当前层中的每一个隐藏单元,只使用与下一层坐标相同的相邻隐藏单元,使局部相关性逐步反映。

MD-RNNs[39]被设计用来将RNNs的功能应用于非顺序多维数据,将它们作为顺序数据组处理。例如,二维数据被视为水平和垂直序列数据的组。与一维数据中在两个方向使用上下文的BRNNs类似,MD-RNNs在多维数据中在所有可能的方向使用上下文(图10)。以二维数据集为例,隐层中每个位置的四个隐单元的计算反映了四个随数据处理顺序变化的上下文。隐藏单元连接到单个输出层,并考虑所有可能的上下文计算最终结果。

CAEs[40,41]利用AE和CNNs的优点,学习反映空间信息的数据的良好层次表示,并通过无监督训练得到良好的正则化(图11)。在AEs的训练中,采用编码器和解码器分别从输入数据中提取特征向量,再从特征向量中重建数据,使重构误差最小。在CNNs中,卷积和池化层可以看作是一种编码器。因此,将反卷积和反池层构成的CNN编解码器集成成CAE,并按照与AE相同的方式进行训练。

深度学习是一个快速发展的研究领域,大量新的深度学习体系结构正在被提出,但在生物信息学中有待广泛应用。新提出的体系结构具有不同于现有体系结构的优点,因此我们希望它们在各个研究领域都能取得有前景的成果。例如,DST-NNs的逐步细化符合蛋白质的动态折叠过程,可以有效地用于蛋白质结构预测[38]; MD-RNNs的能力适合于生物医学图像的分割,因为分割需要解释局部和全局上下文;CAEs中考虑空间信息的无监督表示学习在发现有限且不平衡的生物信息学数据中的重复模式方面具有很大的优势。

表4:深度学习应用生物信息学研究途径与输入数据

在组学研究中,基因组、转录组和蛋白质组数据等遗传信息被用来解决生物信息学中的问题。组学中一些最常见的输入数据是原始的生物序列(即随着下一代测序技术的发展,这些基因变得相对便宜,也更容易获得。此外,从序列中提取特征,如位置特定评分矩阵(PSSM)[78]、理化性质[79,80]、Atchley因子[81]、一维结构性质[82,83]常作为深度学习算法的输入,以缓解复杂生物数据的困难,提高结果。此外,还根据感兴趣的特性,使用蛋白质接触图(在三维结构中表示氨基酸对的距离)和微阵列基因表达数据。我们将组学中感兴趣的主题分为四组(表4)。蛋白质结构预测是目前研究最多的问题之一,其目的是预测蛋白质的二级结构或接触图[84-92]。基因表达调控[93-107],包括剪接连接或RNA结合蛋白,以及蛋白质分类[108-110],包括超家族或亚细胞定位,也得到了积极的研究。此外,异常分类[111]方法已被用于组学数据检测癌症。

DNNs在蛋白质结构预测中得到了广泛的应用[84-87]。由于三维空间的完全预测是复杂和具有挑战性的,一些研究使用了更简单的方法,如预测蛋白质的二级结构或扭转角。例如Heffernan等[85]将SAE应用于蛋白质氨基酸序列,解决了二级结构、扭转角和可达表面积的预测问题。在另一项研究中,Spencer等[86]将DBN与PSSM和Atchley因子一起应用于氨基酸序列预测蛋白质二级结构。DNNs在基因表达调控方面也表现出了巨大的能力[93-98]。例如,Lee等[94]将DBN应用于了解基因表达的主要研究途径splice junction prediction[112]中,提出了一种新的DBN训练方法,即对不平衡数据进行增强对比发散训练,对DNA序列稀疏性进行新的正则化处理; 他们的工作不仅显著提高了性能,而且能够检测细微的非正则剪接信号。此外,Chen等[96]将MLP应用于微阵列和RNA-seq表达数据中,从仅有的1000个标志性基因中推断出多达21000个目标基因的表达。在蛋白质的分类中,Asgari等[108]采用skip-gram模型中,一个众所周知的方法在自然语言处理中,可以认为是延时的变体,和表明,它可以有效地学习生物序列与通用的分布式表示使用很多组学的应用,包括蛋白质家族的分类。在异常分类方面,Fakoor等[111]利用主成分分析(PCA)[113]降低微阵列基因表达数据的维数,应用SAE对急性髓系白血病、乳腺癌、卵巢癌等多种癌症进行分类。

利用CNNs解决涉及生物序列的问题,特别是基因表达调控问题的研究相对较少[99-104];尽管如此,他们还是介绍了CNNs的强大优势,显示了他们对未来研究的巨大前景。首先,初始卷积层可以有力地捕获局部序列模式,并且可以被认为是仅从数据而不是硬编码学习PSSM的主题检测器。CNN的深度使得能够学习更复杂的模式,并且可以捕获更长的图案,整合观察到的图案的累积效应,并最终学习复杂的监管规范[114]。 此外,CNN适合利用多任务联合学习的好处。 通过训练CNN同时预测密切相关的因素,具有预测优势的特征可以更有效地学习并在不同任务之间共享。

例如,Denas等[99]将ChIP-seq数据预处理成以行为每个基因转录因子活性谱的二维矩阵,并利用类似于图像处理的二维CNN作为早期方法。近年来,越来越多的研究集中在直接利用一维CNNs和生物序列数据。Alipanahi等[100]和Kelley等[103]分别提出了基于cnn的转录因子结合位点预测方法和164种细胞特异性DNA可达性多任务预测方法; 两组人都提出了疾病相关基因变异鉴定的下游应用。此外,曾等[102]对CNN结构用于转录因子结合位点的预测,表明卷积滤波器的数量比基于基序任务的层数更重要。Zhou等[104]开发了一个基于cnn的算法框架DeepSEA,该框架可以执行染色质因子的多任务联合学习。,转录因子结合,DNase I敏感性,组织学标记谱),并根据预测优先表达定量特征位点和疾病相关的基因变异。

由于生物序列具有可变的长度和序列信息的重要性,因此RNNs被认为是一种合适的深度学习结构。已有多项研究将RNNs应用于蛋白质结构预测[88-90],基因表达调控[105-107],以及蛋白质分类[109,110]。在早期研究中,Baldi等人[88]在蛋白质二级结构预测中使用具有感知器隐藏单位的BRNN。 此后,LSTM隐藏单元的改进性能得到了广泛的认可,因此Sønderby等人 [110]应用具有LSTM隐藏单元的BRNN,并且一维卷积层允许来自氨基酸序列的表示并且对蛋白质的亚细胞位置进行分类。此外,Park等[105]和Lee等[107]利用LSTM隐藏单元的RNNs对microRNA进行识别和目标预测,相对于最先进的方法,获得了显著提高的准确性,证明了RNNs具有分析生物序列的高能力。

新兴架构已被用于蛋白质结构预测研究[91,92],特别是在接触图预测中。Di Lena等[91]利用蛋白质二级结构、定向概率、排列概率等空间特征应用DST-NNs。此外,Baldi等[92]将MD-RNNs应用于氨基酸序列、相关图谱和蛋白质二级结构。

生物医学影像

生物医学影像[115]是另一个积极研究的领域,深度学习在一般图像相关任务中有着广泛的应用。大多数用于临床治疗患者的生物医学图像-磁共振成像(MRI)[116, 117],影像学[118,119],正电子发射断层扫描(PET)[120],组织病理学成像[121]-已被用作深度学习算法的输入数据。我们将生物医学成像的研究途径分为四类(表4),其中研究最多的问题之一是异常分类[122-132],用于诊断癌症或精神分裂症等疾病。与一般图像相关的任务一样,分割 133-141 和识别[142-147](即在生物医学成像中,细胞核或手指关节的检测是研究的热点。流行的高含量筛选研究[148]涉及对细胞生物学的微观图像进行量化,属于前一类[128,134,137]。此外,颅磁共振成像已被用于大脑解码[149,150],以解释人类行为或情绪。

在生物医学成像方面,DNNs已应用于异常分类[122-124]、分割[133]、识别[142,143]、脑解码[149,150]等多个研究领域。Plis等[122]使用dbn对脑MRIs中的精神分裂症患者进行分类,Xu等[142]使用SAE从组织病理学图像中检测细胞核。有趣的是,与手写数字图像识别相似,Van Gerven等人[149]使用DBN对手写数字图像进行分类,不是通过分析图像本身,而是通过间接分析正在查看数字图像的参与者的间接功能磁共振成像。

在生物医学成像方面进行的研究最多,因为这些途径类似于一般的图像相关任务。在异常分类[125-132]中,Roth等[125]将CNNs应用于三种不同的CT图像数据集,对巩膜转移瘤、淋巴结和结肠息肉进行分类。此外,Ciresan等[128]使用CNNs检测乳腺癌组织病理学图像中的有丝分裂,这是癌症诊断和评估的重要方法。Ypsilantis等[129]使用食管癌PET图像预测新辅助化疗的反应。CNNs的其他应用可以在分割中找到[134-140]和认可[144-147]。例如Ning等[134]利用显微图像研究了细胞壁、细胞质、核膜、细胞核和外部介质的像素级分割模式,Havaei等[139]提出了一种利用局部和全局上下文特征的级联CNN结构,并利用MRIs对脑肿瘤进行分割。在识别方面,Cho等[144]研究了CT图像之间的解剖结构识别,Lee等[145]提出了一种基于cnn的手指关节检测系统finger
net,该系统对于骨龄、生长障碍和类风湿关节炎的医学检查是至关重要的一步[151]。

传统上,图像被认为是包含内部关联或空间信息的数据,而不是序列信息。将生物医学图像作为非序列数据处理,大多数生物医学成像研究都选择了包括DNNs或CNNs而不是RNNs的方法。

利用增强RNN结构将RNNs的独特功能应用于图像数据的尝试仍在继续。MD-RNNs[39]已从二维图像扩展到三维图像。例如,Stollenga等[141]将MD-RNNs应用于三维电子显微镜图像,MRIs应用于神经元结构的分割。

生物医学信号处理

生物医学信号处理[115]是研究人员利用人体记录的电活动来解决生物信息学问题的一个领域。脑电图的各种数据[152]、皮质电图(ECoG)[153]、心电图(ECG)[154]、肌电图(EMG)[155]、眼电图(EOG)[156,157]等均已被应用,目前研究多集中活跃在EEG方面。由于所记录的信号通常是有噪声的,并且含有许多伪影,因此原始信号在被用作深度学习算法的输入之前,常常被分解成小波或频率分量。此外,一些研究使用了人为设计的特征,如归一化衰减和峰值变化来改进结果。我们将生物医学信号处理的研究途径分为两组(表4):脑解码[158-170]和异常分类[171-178]诊断疾病。

由于生物医学信号通常包含噪声和伪影,因此分解后的特征比原始信号更常用。在脑解码中[158-163],An等[159]将DBN应用于脑电图信号的频率分量,对左右运动成像技能进行分类。此外,Jia等[161]和Jirayucharoensak等[163]分别使用DBN和SAE进行情绪分类。Huanhuan等人[171-175]在《异常分类》[171]中发表了为数不多的将DBN应用于心电信号的研究之一,并将每个跳动分为正常跳动和异常跳动。一些研究使用原始的脑电图信号。

Wulsin等[172]使用原始脑电图信号和提取特征作为输入的DBN分析个体的第二长波形异常,而Zhao等[174]仅使用原始脑电图信号作为输入的DBN诊断老年痴呆症。

在脑解码[164-167]和异常分类中分析了原始脑电图信号[176]通过执行一维卷积的CNNs。例如,Stober等人 [165]对参与者听过的音乐的节奏类型和类型进行了分类,并且Cecotti等[167]对参与者观看的角色进行了分类。Mirowski等[176]报道了另一种将CNNs应用于生物医学信号处理的方法,他们提取了锁相同步和小波相干等特征,并将它们编码为像素颜色,以形成二维模式。然后,像用于生物医学成像的普通二维CNNs被用来预测癫痫发作。

由于生物医学信号代表自然序列数据,因此RNNs是一种适合分析数据的深度学习体系结构,有望产生有前途的结果。为了介绍一些脑解码[168]和异常分类[177,178]的研究,Petrosian等[177]将感知器RNNs应用于原始脑电图信号和相应的小波分解特征预测癫痫发作。此外,Davidson等[178]利用LSTM RNNs对脑电图对数功率谱特征进行检测。

CAE已经在一些脑解码研究中得到了应用[169,170]。Wang等[169]使用原始ECoG信号进行手指屈曲和扩展分类。此外,Stober等人[170]对参与者用原始脑电图信号听的音乐节奏进行了分类。

考虑到神经网络中大量权重参数优化的必要性,大多数深度学习算法都假设有足够均衡的数据。然而,不幸的是,对于生物信息学中的问题,这通常是不正确的。复杂而昂贵的数据采集过程限制了生物信息学数据集的大小。此外,此类过程通常显示出明显不平等的类分布,其中一个类的实例显著高于其他类的实例[179]。例如,在临床或与疾病相关的病例中,来自治疗组的数据必然少于来自正常组(控制组)的数据。由于隐私限制和道德要求,前者也很少向公众披露,从而造成可用数据的进一步失衡[180]。

一些评估指标已经被用来清楚地观察有限和不平衡的数据如何可能损害深度学习的性能[181]。虽然准确度常常会给出误导人的结果,但F-measure(精度和回忆的调和平均值)提供了更具洞察力的性能评分。为了测量不同类别分布下的性能,通常使用接收机工作特性曲线(AUC)下的面积和精确回忆曲线(AUC-PR)下的面积。这两个度量是紧密相关的,因此当且仅当曲线在另一个度量中占主导地位时,曲线在其中一个度量中占主导地位。然而,与AUC-PR相比,AUC对性能的看法可能更为乐观,因为如果类呈负偏态,接收机工作特性曲线的假阳性率无法捕捉到假阳性率的较大变化[182]。

针对有限和不平衡数据的解决方案可以分为三大类[181,183]:数据预处理、对成本敏感的学习和算法修改。数据预处理通常通过采样或基本特征提取提供更好的数据集。采样方法平衡了不平衡数据的分布,提出了几种方法,包括知情欠采样[184]、综合少数过采样技术[185]和基于簇的采样[186]。例如,Li等[127]和Roth等[146]通过随机移位、旋转等空间形变对CT图像进行富集分析。虽然基本的特征提取方法偏离了深度学习的概念,但它们偶尔被用来减少从有限和不平衡的数据中学习的困难。利用人类设计的特征作为输入数据的生物信息学研究,如基因组序列的PSSM或脑电图信号的小波能量,可以在相同的上下文中理解[86,92,172,176]。

对成本敏感的学习方法定义了从单个类中对数据示例进行错误分类的不同成本,以解决有限且不平衡的数据问题。成本敏感性可以显式或隐式地应用于神经网络的目标损失函数[187]。例如,我们可以显式地替换客观损失函数来反映班级的不平衡,或者在训练过程中根据数据实例类隐式地修改学习率。

算法修改方法适应学习算法,以提高其对有限和不平衡数据的适用性。一种简单而有效的方法是采用培训前培训。无监督的预培训可以极大地帮助学习每个类的表示,并产生更加规范化的结果[68]。此外,迁移学习具有很大的优势,它包括使用来自相似但不同领域的足够数据进行预训练,并使用真实数据进行微调[24,188]。例如,Lee等[107]提出了一种基于RNN AE的无监督预训练的microRNA目标预测方法,与现有方法相比,该方法的F-measure提高了>25%。Bar等[132]使用ImageNet数据库中的自然图像作为训练前数据进行转移学习[189],并与胸部x线图像进行微调,以识别胸部病理,对健康和异常图像进行分类。除了预训练,还执行了复杂的训练方法。 Lee等[94]建议DBN提高分类RBM,Havaei等[139]建议CNN采用两阶段训练,结合欠采样和预训练的思路。

批评反对深度学习的一个主要原因是,它被用作一个黑匣子:尽管它能产生出色的结果,但我们对这种结果是如何在内部产生的知之甚少。在生物信息学,特别是生物医学领域,仅仅产生好的结果是不够的。由于许多研究都与患者的健康有关,因此将黑盒转换为白盒至关重要,就像临床医生为医疗提供逻辑推理一样。

从黑盒子到白盒子的深度学习的转换还处于早期阶段。最广泛使用的方法之一是通过可视化一个训练有素的深度学习模型来进行解释。在图像输入方面,针对特定的CNNs输入,提出了一种反卷积网络来重构和可视化层次表示[190]。

此外,为了使广义类代表图像可视化而不依赖于特定输入,通过反向传播到输入(参见反向传播到权重)的输入空间中的梯度上升优化提供了另一种有效的方法[191,192]。在基因组序列输入方面,已经提出了几种方法来从训练过的模型中推断PSSMs,并使用热图或序列标识来可视化相应的基序。例如,Lee等[94]通过在DBN的第一层中选择最具类辨别力的权向量来提取基序;DeepBind[100]和DeMo[101]分别通过计算每个特征图的高激活值的正输入子序列的核苷酸频率和反向传播到输入的核苷酸频率,从训练过的CNNs中提取基序。

针对转录因子结合位点预测,Alipanahi等[100]开发了一种可视化方法,即突变图,用于说明基因变异对CNNs预测的结合评分的影响。突变图由热图和输入序列徽标组成,热图显示每个突变对绑定得分的影响程度,输入序列徽标中每个碱基的高度按比例缩放为所有可能的突变中绑定得分的最大降幅。Kelley等[103]进一步用折线图补充了突变图,显示了预测得分的最大增加和最大减少。除了通过可视化进行解释外,还在研究旨在明确聚焦于要点的注意机制[74-77],以及深度学习背后的数学原理[193,194]。

选择合适的深度学习体系结构对深度学习的正确应用至关重要。为了获得鲁棒和可靠的结果,除了输入数据特征和研究目标外,还必须了解每个深度学习体系结构的能力,并根据能力进行选择。然而,到目前为止,每种体系结构的优点还只是大致了解;例如,DNNs适合分析高维数据的内部相关性,CNNs适合分析空间信息,RNNs适合分析序列信息[7]。实际上,选择最合适或“最适合”的深度学习架构的详细方法仍然是未来需要研究的挑战。

即使选择了深度学习体系结构,也有许多超参数需要研究人员设置——层数、隐藏单元数、权重初始化值、学习迭代,甚至学习速度,所有这些都会显著影响结果[195]。多年来,超参数调优很少是系统的,而是留给了人类机器学习专家。然而,旨在自动优化超参数的机器学习研究的自动化正在不断发展[196]。已经提出了一些算法,包括基于序列模型的全局优化[197],基于高斯过程先验的贝叶斯优化[198]和随机搜索方法[199]。

多模态深度学习(Multimodal deep learning)[200]是一种利用多个输入源的信息进行深度学习的方法,是一种很有前途的研究方向。特别是生物信息学,由于它是一个各种类型的数据可以被自然地吸收的领域,预计将大有裨益[201]。不仅组学数据、图像、信号、药物反应和电子医疗记录可以作为输入数据,而且x射线、CT、MRI和PET形式也可以从单个图像中获得。一些生物信息学研究已经开始使用多模态深度学习。例如,Suk等[124]利用脑脊液和MRI、PET扫描形式的脑图像研究阿尔茨海默病分类,Soleymani等[168]利用脑电图信号和人脸图像数据进行情感检测研究。

随着越来越多的深度学习模型参数和训练数据的可用,可以获得更好的学习性能。然而,与此同时,这不可避免地导致训练时间的急剧增加,强调了加速深度学习的必要性[7,25]。

加速深度学习的方法可以分为三类:高级优化算法、并行和分布式计算以及专用硬件。由于训练时间长的主要原因是通过简单SGD进行参数优化耗时过长,因此已有几项研究将重点放在了先进的优化算法上[202]。为此,一些被广泛应用的算法包括Adagrad[48]、Adam[49]、batch normalization[55]和无hessian优化[203]。并行计算和分布式计算可以显著加快完成的时间,并使许多深度学习研究成为可能[204-208]。这些方法利用了使用图形处理单元的扩展方法和使用分布式环境中的大规模集群的扩展方法。一些深度学习框架,包括最近发布的DeepSpark[209]和TensorFlow[210]提供了并行和分布式计算能力。尽管用于深度学习的专用硬件的开发还处于初级阶段,但它将提供主要的加速,并在长期内变得更加重要[211]。目前,基于现场可编程门阵列的处理器正在开发中,从大脑中建模的神经形态芯片作为一种有前途的技术被寄予厚望[212-214]。

传统深度学习体系结构的网络化是未来的发展趋势。例如,与注意模型集成的CNNs和RNNs联合网络被应用于图像字幕[75]、视频摘要[215]和图像问答[216]。还进行了一些关于增强RNN结构的研究。 神经图灵机[217]和存储器网络[218]在RNN中采用了可寻址的外部存储器,并且对于需要复杂推理的任务(例如算法学习和复杂的问答)显示了很好的结果。

最近,对抗性的例子越来越受到机器学习社区的关注,这些例子通过微小的人类察觉不到的干扰降低了性能[219,220]。由于神经网络的对抗性训练可以导致正则化以提供更高的性能,我们期望在这一领域进行更多的研究,包括对抗性生成网络[221]和多种正则化网络[222]。

在学习方法上,半监督学习和强化学习也受到重视。半监督学习利用未标记和标记数据,并提出了一些算法。例如,梯形网络[223]将跳过连接添加到MLP或CNNs中,同时最小化监督和非监督代价函数的和,从而在模型的每一层对表示进行降噪。强化学习利用行为而不是正确标记的数据所产生的奖励结果信号。由于强化学习最接近于人类实际的学习方式, 此这种方法对于人工一般智能有很大的应用前景[224]。目前,其应用主要集中在游戏[4]和机器人上[225]。

随着我们进入大数据时代,深度学习正成为国际学术和商业兴趣的中心。在生物信息学领域,传统的机器学习已经取得了很大的进步,深度学习有望产生有前途的结果。在这篇综述中,我们从输入数据、研究目标和已建立的深度学习体系结构的特点等方面,对应用深度学习的生物信息学研究进行了广泛的综述。我们进一步讨论了该方法的局限性和未来的研究方向。

虽然深度学习有希望,但它不是一颗银弹,不能在特定的生物信息学应用中提供巨大的结果。仍然存在许多潜在的挑战,包括有限或不平衡的数据、对深度学习结果的解释以及选择合适的体系结构和超参数。此外,为了充分发挥深度学习的能力,需要进一步研究深度学习的多模态性和加速性。因此,我们相信,对本文讨论的问题的审慎准备是未来生物信息学深度学习方法成功的关键。我们相信这篇综述将提供有价值的见解,并作为在未来研究中应用深度学习促进生物信息学的起点。

图标题(按图中标示)

  • 图1:每年发表的深度学习文章数量。文章数量基于http://www.scopus.com的搜索结果,其中包含两个查询:“深度学习”、“深度学习”和“bio*”。

  • 图2:深度学习在生物信息学研究中的应用。(A)载有输入数据和研究目标的概览图。(B)组学领域的研究实例。利用深度神经网络预测DNA序列数据中的剪接连接[94]。©生物医学成像的研究实例。利用卷积神经网络从x射线图像中检测手指关节[145]。(D)生物医学信号处理方面的研究实例。失效检测的脑电图信号具有递归神经网络[178]。

  • 图3:人工智能、机器学习、表示学习和深度学习的关系和高级示意图。

  • 图4:DNNs的基本结构,输入单位为x,每层隐藏h1、h2、h3三个单位,输出单位为y[26]。在每一层,计算其输入的加权和和非线性函数,从而得到分层表示。

  • 图5: SAE和DBN中无监督的分层预训练过程[29]。 首先,在第一隐藏层中的输入单元x和隐藏单元h1之间训练权重向量W1作为RBM或AE。 在训练W1之后,堆叠另一个隐藏层,并且在h1中获得的表示用于在隐藏单元h1和h2之间训练W2作为另一个RBM或AE。 对所需数量的层重复该过程。

  • 图6:CNNs的基本结构,包括卷积层、非线性层和池化层[32]。CNNs的卷积层使用多个学习滤波器来获取多个检测底层滤波器的滤波器映射,然后池化层将它们组合成更高层次的特征。

  • 图7:带有输入单元x、隐藏单元h和输出单元y的RNNs的基本结构[8]。存在循环连接,以便隐藏单元中的计算接收来自前一个时间步的隐藏单元和来自当前时间步的输入单元的输入。如果及时展开RNNs,则可以更明确地表示递归计算。每个符号的索引表示时间步长。这样,ht接收来自xt和ht-1的输入,然后将计算结果传播到yt和ht+1。

  • 图11:CAEs的基本结构,包括作为编码器的卷积层和池化层,作为解码器的反褶积层和反池化层[41]。其基本思想类似于AE, AE通过重构输入数据来学习层次表示,而CAE通过集成卷积来利用空间信息。

版权声明:本文为博主原创文章,未经博主允许不得转载。

译文Deep Learning in Bioinformatics --深度学习在生物信息学领域的应用(1)深度学习在生物信息学领域的应用(1)原文链接:https://arxiv.org/abs/1903.00342深层神经网络DNNs的基本结构由一个输入层、多个隐含层和一个输出层组成(图4),一旦将输入数据给DNNs,则沿着网络的各个层依次计算输出值。在每一层,由下一层各单元的输出值组...
基于 深度学习 生物信息学 聚类方法 ”期刊的“”中发表的论文“基于 深度学习 生物信息学 聚类方法”的代码和补充材料。 此仓库将定期更新。 特别是,将添加更完整的Jupyter笔记本。 在本文中,我们回顾了基于 深度学习 的聚类分析方法,包括网络训练,表示学习,参数优化和制定聚类质量指标。 我们还讨论了在不同的场景(例如 生物 成像,基因表达聚类)中,基于不同的自动编码器体系结构(例如,香草,变异,LSTM和卷积)的表示学习如何比基于ML的方法(例如,PCA)更有效。 ,以及将 生物 医学文本聚类。 基于 深度学习 的无监督/聚类方法,链接到论文和代码 我们提供了基于 深度学习 的无监督/聚类方法,论文链接和代码的列表。 此外,还将列出提出新方法和论文的文章。 敬请期待! 会议/期刊 卷积自动编码器(DCEC)的深度聚类 ICONIP'2017 用于一致性培训(UDA)的无监督数据增强
很棒的 生物信息学 格式 生物信息学 格式和出版物的精选清单。 这里并不是每种格式本身都是“很棒的”,但是如果您正在考虑创建一种新格式,那么这可能是您首先查看潜在的现有格式的地方。 我们还包括并非特定于 生物信息学 的格式,但应将其用于 生物信息学 应用 程序。 请随时自己的。 EDAM是 生物信息学 和计算 生物 学中普遍存在的,已建立的熟悉概念的综合本体,包括数据类型和数据标识符,数据格式,操作和主题。 EDAM提供了一组带有首选术语和同义词,定义以及一些其他 信息 的概念-组织成简单直观的层次结构以方便使用。 是针对 生物信息学 数据(包括格式)的更详尽且已建立的本体。 它不打算替代EDAM,也不包含与EDAM一样多的 信息 ,请参考包括该可在内的大量资源以获取更多 信息 。 我们要求您尽可能以任何格式链接到EDAM本体。 如果您的格式不可用,那么这也是为EDAM做出贡献的绝佳机会。
生物 深度学习 的十个快速提示 这是针对的社区撰写文章的手稿。 深度学习 正Swift普及,并越来越多地 应用 生物 数据分析。 但是,由于大多数 生物 学家很少(或根本没有)接受数据科学培训,因此正确使用 深度学习 可能是一项艰巨的任务。 我们将尝试解决该问题。 通过将社区知识分解为十个快速提示,我们希望增加使用DL的 生物 学研究人员的数量(使其更具吸引力)和研究质量(通过帮助他们避免常见错误)。 加入我们! 我们现在在哪里 目前,我们正在完成文件草稿的定稿。 该期刊已经,我们几乎可以提交了! 手稿的原始文本存储在。 渲染稿件可以被看作是HTML或PDF。 您将如何提供帮助 任何形式的帮助都将受到高度赞赏。 想介入但不确定如何吗? 帮助我们将写成。 认识任何可能感兴趣的人吗? 有Twitter关注者吗? 关于该项目的推文! 有关更多 信息 ,请参阅贡献准则。 所有捐款均受行为准则约束。
Janggu-基因组学的 深度学习 Janggu是一个Python软件包,可促进在基因组学方面的 深度学习 。 该软件包可根据GPL-3.0许可免费获得。 特别是,该软件包可轻松访问典型的Genom ics 数据格式和开箱即用的评估(特别是针对keras模型),因此您可以集中精力设计神经网络体系结构,以快速测试 生物 学假设。 提供全面的文档。 长谷的标志: Janggu提供了特殊的Genom ics 数据集,使您可以访问FASTA,BAM,BIGWIG,BED和GFF文件格式的原始数据。 支持各种规范化程序来处理基因组数据集,包括“ TPM”,“ zscore”或自定义规范化器。 可以用更高阶的序列特征来表示 生物 学特征,例如基于二核苷酸的特征。 数据集对象可直接与神经网络一起使用,例如使用或(请参见此存储库中的src / examples)。 keras模型的Numpy格式输出可以转换为代表
精选的 生物信息学 基准测试论文和资源。 这种格式的功劳是肖恩·戴维斯(Sean Davis)的资料库,而 Ming Tang)的资料库。 如果您的基准研究尚未包含在此列表中,请提出。 收录论文规则 论文必须是3种或更多工具/方法的客观比较。 论文一定很棒。 此列表并不是要编入历史记录,而只是列出那些特别广泛,做得好和/或提供独特见解的基准研究。 通常不应从作者那里发表论文来说明为什么他们的工具/方法比其他方法更好。 基准测试数据应该公开可用,或者模拟代码/方法必须有充分的文档证明和可复制性。 可以根据需要添加其他准则/规则。 格式与组织 添加论文时,请包括以下 信息 。 期刊 信息 : 比较的工具/方法: 附加链接(可选): 每个部分中的论文都应按发布日期排序,而最新的论文则排在首位。 工具/方法部分 :由Tidyverse和其他许多东西的开发者Hadley Wickham撰写 :学习先进的方法以进行基因组可视化,可再现的分析,数据架构以及探索云规模的财团生成的基因组数据(免费edX课程) :Hadley Wickham的高级课程 : 生物 导体培训资源概述 Python 指向YouTube视频的链接的集合; 滚动到底部。
1. 什么是序列比对 所谓的序列比对,就是两个或者多个序列按照碱基排列进行比较,从而反映片段之间的相似性和阐明序列的同源性。这里主要是将未知功能的序列与已知序列进行比对,从而确定序列分析。序列比对的基本思想是,基于 生物 学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现 生物 序列中的功能、结构和进化的 信息 2. 引入序列比对的原因 对于两种相似的序列,DNA复制一共有三种情况可能导致两个序列不同: (1)SNP(单核苷酸多态性),