二循环神经网络简介

2.1 深度神经网络

传统的机器学习算法非常依赖人工提取的特征，在的图像识别、语音识别以及自然语言处理等领域存在特征提取的瓶颈。而基于全连接神经网络的方法也存在着参数过多、无法基于数据中的时序信息进行特征提取的问题。

循环神经网络通过挖掘时序数据中的时域信息，刻画相关的深度表达能力，在语音识别、语言模型、机器翻译等方面取得的重大的突破。

全连接神经网络或者卷积神经网络的模型结构特点， 都是从输入层到隐含层再到输出层，层与层之间是全连接或者部分连接，但是每层之间是无连接的 。

考虑到这样一个问题，如果要预测句子的下一个单词是什么的时候，一般是需要使用到当前单词以及以前的单词，因为句子中的前后单词是有逻辑关系存在的。比如，当前单词是“非常”，如果前一个单词是“算法”，那么下一个单词大概率是“卷”，上下文之间有逻辑关联。这种情况下全连接神经网络与卷积神经网络就不合适，而循环神经网络就非常适合这种情景，并且它独特的网络结构-隐层的节点之间是有连接的，进而深度刻画一个时序当前的输出与之前信息的关系。

2.2 循环神经网络

有图真香 ，请看到下图

通过上图先对RNN的结构有一定的理解， 整个RNN的网络结构由输入层、隐藏层与输出层组成，并且在隐藏层之间有相互的连接 。

下面我们详细分析下RNN的网络结构中的 循环体 ：

网络结构 - 循环体 ：通过上图左侧与右侧（按照时间展开）的观察，整个的网络结构类似一个循环体，同时循环体内部又包含两个全连接层比如

S_t和O_t

输入层 ：X是一个向量，它表示 输入层 的值，并且与隐藏层之间不是全连接，而是按照时刻进行与隐藏层之间进行对齐连接。

隐藏层 ：S是一个向量，它表示 隐藏层 的值（节点数与向量S的维度相同）；

输出层 ：O是一个向量，它表示 输出层 的值；

模型参数 ：U是输入层到隐藏层的 权重矩阵 ，V是隐藏层到输出层的 权重矩阵 ，W是隐藏层到隐藏层的 权重矩阵 ，并且 各个时刻的U、V、W矩阵共享参数 。

下面我们详细分析下RNN的 算法流程 ：

假设目前的网络处于t时刻， 先分析一个循环体的运行过程，多个循环体就是单个的重复 。

循环体的输入与普通的全连接不一样的是，他有两路输入，需要将两路输入合并，合并后就与普通的全连接网络没啥两样 ，那么此时的输入是

输入层时刻t值 $X_t$

隐藏层上一时刻值 $S_{t-1}$

计算时刻t的隐藏层的值，同时也是下一个时刻的输入值

$S_t = f(X_t * U + S_{t-1} * W)$

计算时刻t的输出层的值

$O_t = g(S_{t} * V)$

至此一个循环体的全连接过程计算完毕，然后后续的

S_{t+1}、S_{t+1} ....

下面，我们通过示例构造一个RNN的网络来进一步讲解与分析RNN的网络结构。

假设隐藏层的状态的维度是2，输入层与输出层的维度都是1，并且循环体中的用于计算隐层状态的全连接层的参数

W_s(U ⊕ W)

$\begin{bmatrix} 0.1&0.2 \\ 0.3&0.4 \\0.5& 0.6\end{bmatrix}\quad$

假设循环体中的用于计算隐层状态的全连层的偏置项为 $b_s = [0.1, -0.1]$

假设循环体中的用于计算输出层的全连接层的权重是：

$\begin{bmatrix} 1.0 \\ 2.0 \end{bmatrix}\quad$

假设循环体中的用于计算输出层的全连接层的偏置项为

b_s = [0.1]

假设初始状态为[0, 0]，在

t_0

$tanh \left[[0,0,1] \times \begin{bmatrix} 0.1 &0.2 \\0.3&0.4\\0.5&0.6\end{bmatrix}\quad + [0.1, -0.1]\right] = tanh([0.6, 0.5]) = [0.537, 0.462]$

那么用于 计算输出层 $O_t$ ：

$[0.537, 0.462] \times \begin{bmatrix} 1.0\\2.0\end{bmatrix}\quad = 1.56$

类似的推导，我们可以得到

t_1

通过上面的讲解与分析，相信大家对RNN应该已经有了全面的理解，下面附上代码，大家可以通过代码再进行下加深理解。

#coding=utf-8
#简单的RNN网络前向传播结构实现
import numpy as np
#定义输入以及初始状态，后面的状态都是动态计算
X=[1,2]
state = [0.0,0.0]
#分开定义参数，便于计算
w_cell_state = np.asarray([[0.1,0.2],[0.3,0.4]])
w_cell_input = np.asarray([0.5,0.6])
b_cell = np.asarray([0.1,-0.1])
w_output=np.asarray([[1.0],[2.0]])
b_output = np.asarray([0.1])
for i in range(len(X)):
    before_activation = np.dot(state,w_cell_state)+X[i]*w_cell_input+b_cell
    state = np.tanh(before_activation)
    final_output = np.dot(state,w_output)+b_output
    print("before activation: ",before_activation)
    print("state",state)
    print("output:",final_output)
github地址：github.com/dubaokun/co…
五 番外篇
个人介绍：杜宝坤，隐私计算行业从业者，从0到1带领团队构建了京东的联邦学习解决方案9N-FL，同时主导了联邦学习框架与联邦开门红业务。
框架层面：实现了电商营销领域支持超大规模的工业化联邦学习解决方案，支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。
业务层面：实现了业务侧的开门红业务落地，开创了新的业务增长点，产生了显著的业务经济效益。
个人比较喜欢学习新东西，乐于钻研技术。基于从全链路思考与决策技术规划的考量，研究的领域比较多，从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流，邮箱：baokun06@163.com
六 公众号导读
自己撰写博客已经很长一段时间了，由于个人涉猎的技术领域比较多，所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、密码安全、隐私计算、联邦学习、大数据等都有涉及。主导过多个大项目包括零售的联邦学习，博哥与社区做过多次分享，另外自己坚持写原创文章，多篇文章有过万的阅读。公众号大家可以按照话题进行连续阅读，里面的章节我都做过按照学习路线的排序，话题就是公众号里面下面的标红的这个，大家点击去就可以看本话题下的多篇文章了，比如下图（话题分为：一、隐私计算 二、联邦学习 三、机器学习框架 四、机器学习算法 五、高性能计算 六、广告算法 七、程序人生），知乎号同理关注专利即可。
一切有为法，如梦幻泡影，如露亦如电，应作如是观。
  
 
   相关推荐
   
        rink1t
      
    【线性代数】向量
 文章内容 向量组及其线性相关性 向量组的秩 深入理解矩阵的秩 内积、正交性、线性空间 向量组及其线性相关性 向量组
  199
 
 
        亚马逊云开发者
      
    机器学习洞察 | 挖掘多模态数据机器学习的价值
 在过去的数年里，我们见证了机器学习和计算机科学领域的很多变化。人工智能应用也愈趋广泛，正在加速融入人们的日常生活之中。机器学习作为技术核心，也在持续地发展进化，在更多领域发挥出越来越重要的作用。**机
  544
 
 
        ShowMeAI
        ChatGPT
      
    AI工程师岗位的崛起；一线创业者的观察与预测；微软生成式AI技能专业证书；使用ChatGPT创建App | ShowMeAI日报
 Tortoise 全球人工智能指数；李开复大模型创业公司「零一万物」亮相；构筑大语言模型应用：应用开发与架构设计……点击阅读全文
  3481
 
 
        托儿所夜十三
      
    艺术会在云和人工智能的世界中消亡吗？
 第四次工业革命正在改变我们生活的各个领域，包括娱乐、金融、医疗保健、交通、公共服务，艺术界也不例外。
  1201




    
 
 
        shop大雨
        three.js
      
    3D数字孪生 - Three.js 项目实战之相机控制器（五）
 机器学习 oz@0xozram 9号在twitter上发了这样的一个短视频： 当然，这属于机器学习领域的内容，也就是大名鼎鼎的 google 在2015开源的 tensorflow，TensorFlo
  865
 
 
      
    【APFN】从大佬论文中探索如何分析改进金字塔网络
 在计算机视觉领域，金字塔网络是一种经典而有效的图像处理方法，旨在实现**多尺度的特征提取和图像分析。通过构建不同尺度的图像金字塔，金字塔网络能够从粗糙到精细地分析图像内容，为许多视觉任务提供了强大的基
  452
 
 
        亚马逊云开发者
      
    机器学习洞察 | 分布式训练让机器学习更加快速准确
 机器学习能够基于数据发现一般化规律的优势日益突显，我们看到有越来越多的开发者关注如何训练出更快速、更准确的机器学习模型，而分布式训练 (Distributed Training) 则能够大幅加速这一进
  220
 
 
        汀丶人工智能
      
    金融时间序列预测方法合集：CNN、LSTM、随机森林、ARMA预测股票价格（适用于时序问题）、相似度计算、各类评判指标绘图（数学建模科研适用）
 金融时间序列预测方法合集：CNN、LSTM、随机森林、ARMA预测股票价格（适用于时序问题）、相似度计算、各类评判指标绘图（数学建模科研适用） 1.使用CNN模型预测未来一天的股价涨跌-CNN（卷积神
  471
 




    
 
        亚马逊云开发者
      
    机器学习洞察 | 降本增效，无服务器推理是怎么做到的？
 2022 年，无服务器推理受到了越来越多的关注。常见的推理方式包括实时推理、批量转换和异步推理： 实时推理：具有低延迟、高吞吐、多模型部署的特点，能够满足 A/B 测试的需求 批量转换：能够基于任务 
  436
 
 
        ChatGPT
      
    ChatGPT Plus 最新开通攻略：美区App Store方案（20230529更新）
 如果你的 ChatGPT Plus 账号被 OpenAI 封禁，这篇文章适合你继续阅读，本文主要内容是通过支付宝购买美区 App Store 礼品卡来完成 Plus 账号付费
  7783
 
 
        Python
      
    深度学习100例 | 第37天：人脸表情识别
 🏡 我的环境： 语言环境：Python3.10.11 编译器：Jupyter Notebook 深度学习框架：TensorFlow2.4.1 显卡（GPU）：NVIDIA GeForce RTX 40
  669
 
 
        DolphinDB
      
    DolphinDB +机器学习，预测地震波形数据
 在地震波形数据异常检测场景中，通常需要使用多种工具和方法来提高检测精度和鲁棒性，点击文章看看 DolphinDB 是如何实现地震波形数据预测的~
  3772
 
 
        隔壁正在装修真羡慕
      
    Tubi 时间序列 KPI 的异常值检测
 作为全球最大的流媒体服务之一，Tubi 保持稳定增长，并始终关注对业务发展至关重要的前沿趋势。基于此，Tubi 数据科学团队创建了一套全新警报对 KPI 异常值和趋势进行检测。
  381
 




    
 
      
    深度学习如何入门？
 深度学习是一种强大的机器学习方法，它在各个领域都有广泛应用。如果你是一个新手，想要入门深度学习，下面是一些步骤和资源，可以帮助你开始学习和实践深度学习。 1. 学习基本概念 在开始深度学习之前，你需要
  696
 
 
        数据可视化
      
    高级可视化神器：cufflinks
 cufflinks是一个基于Python的数据可视化库，它建立在Plotly库之上，为用户提供了一种简单而强大的方式来创建交互式的、美观的图表和可视化。它的设计旨在使绘图过程变得简单且具有灵活性，无需
  1798
 
 
        秃顶的码农
      
    BloomFilter详解（布隆过滤器）
 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。
  2413
 
 
        秃顶的码农
        TensorFlow
      
    深度学习框架Tensorflow系列之（一）开发环境部署
 Tensorflow安装部署，本文主要介绍深度学习框架Tensorflow的安装与部署，版本使用1.15
  1633
 
 
        秃顶的码农
        TensorFlow
      
    深度学习框架TensorFlow系列之（三）基础概念之框架载体之数据载体张量Tensor
 ensorFlow来说，支持声明式的编程，灵活高效，支持预编译等机制，那么他是如何做到的呢。其实大家在上大学的时候，我们学计算机知道程序 = 数据结构 + 算法。
  1596
 
 
        秃顶的码农
      
    隐私计算加密技术基础系列（中）-RSA加密解析
 1 隐私计算基座-密码学 1.1 隐私计算背景 隐私计算（Privacy-preserving computation）是指在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算的一系列信息技术，
  1484
 
 
        秃顶的码农
      
    白话机器学习之（四）逻辑回归
 前面讲述了线性回归，线性回归的模型 y=w T +b。模型的预测值逼近真实标记y。那么可否令模型的预测值逼近真实标记y的衍生物呢。比如说模型的预测值逼近真实标记的对数函数。下面引入逻辑回归的知识。
  1316
 
 
    秃顶的码农
        算法工程师 @ 京东
      
   私信

二循环神经网络简介

2.1 深度神经网络

2.2 循环神经网络

五番外篇

六公众号导读

二 循环神经网络简介

2.1 深度神经网络

2.2 循环神经网络

五 番外篇

六 公众号导读

二循环神经网络简介

五番外篇

六公众号导读