GRU和LSTM的区别

GRU使用门控机制学习长期依赖关系的基本思想和 LSTM 一致，但还是有一些关键区别：

1、GRU 有两个门（重置门与更新门），而 LSTM 有三个门（输入门、遗忘门和输出门）。
2、GRU 并不会控制并保留内部记忆（c_t），且没有 LSTM 中的输出门。
3、LSTM 中的输入与遗忘门对应于 GRU 的更新门，重置门直接作用于前面的隐藏状态。
4、在计算输出时并不应用二阶非线性。

如何选择？

由于 GRU 参数更少，收敛速度更快，因此其实际花费时间要少很多，这可以大大加速了我们的迭代过程。而从表现上讲，二者之间孰优孰劣并没有定论，这要依据具体的任务和数据集而定，而实际上，二者之间的 performance 差距往往并不大，远没有调参所带来的效果明显，我通常的做法，首先选择GRU作为基本的单元，因为其收敛速度快，可以加速试验进程，快速迭代，而我认为快速迭代这一特点很重要。如果实现没其余优化技巧，才会尝试将 GRU 换为 LSTM，看看有没有变化。

实战——使用GRU预测股票

制作数据集

数据的下载地址： quotes.money.163.com/trade/lsjys…
首先选择查询数据的范围，然后选择下载数据：
点击下载数据后，弹出个框，这个框里可以看到起止日期，数据的列，默认勾选全部，然后单击下载。
将下载后的数据放到工程的根目录下面，然后做一些处理。
第一步读入csv文件，编码方式设置为gbk。
第二步将日期列转为“年-月-日”这样的格式。
第三步根据日期排序，数据默认是从降序，改为升序。
最后保存到“sh.csv”中。
代码如下：

import pandas as pd
df = pd.read_csv("000001.csv", encoding='gbk')
df["日期"] = pd.to_datetime(df["日期"], format="%Y-%m-%d")
df.sort_values(by=["日期"], ascending=True)
df = df.sort_values(by=["日期"], ascending=True)
df.to_csv("sh.csv", index=False, sep=',')
到这里数据集制作完成了
读入数据集，构建时序数据。

generate_df_affect_by_n_days函数，通过一个序列来生成一个矩阵（用于处理时序的数据）。就是把当天的前n天作为参数，当天的数据作为label。

readData中的文件名为：sh.csv ，参数column，代表选用的数据，本次预测只用了一列数据，列名就是column，参数n就是之前模型中所说的n，代表column前n天的数据。train_end表示的是后面多少个数据作为测试集。
import pandas as pd
import matplotlib.pyplot as plt
import datetime
import torch
import torch.nn as nn
import numpy as np
from torch.utils.data import Dataset, DataLoader
def generate_df_affect_by_n_days(series, n, index=False):
    if len(series) <= n:
        raise Exception("The Length of series is %d, while affect by (n=%d)." % (len(series), n))
    df = pd.DataFrame()
    for i in range(n):
        df['c%d' % i] = series.tolist()[i:-(n - i)]
    df['y'] = series.tolist()[n:]
    if index:
        df.index = series.index[n:]
    return df
def readData(column='收盘价', n=30, all_too=True, index=False, train_end=-300):
    df = pd.read_csv("sh.csv", index_col=0, encoding='utf-8')
    df.fillna(0, inplace=True)
    df.replace(to_replace="None", value=0)
    del df["股票代码"]
    del df["名称"]
    df.index = list(map(lambda x: datetime.datetime.strptime(x, "%Y-%m-%d").date(), df.index))
    df_column = df[column].copy()
    df_column_train, df_column_test = df_column[:train_end], df_column[train_end - n:]
    df_generate_from_df_column_train = generate_df_affect_by_n_days(df_column_train, n, index=index)
    print(df_generate_from_df_column_train)
    if all_too:
        return df_generate_from_df_column_train, df_column, df.index.tolist()
    return df_generate_from_df_column_train
模型见RNN类，采用GRU+全连接。隐藏层设置64，GRU的输出是64维的，所以设置全连接也是64。

TrainSet是数据读取类，将输出数据的最后一列做标签，前面的列做输入，类的写法是Pytorch的固定模式。
class RNN(nn.Module):
    def __init__(self, input_size):
        super(RNN, self).__init__()
        self.rnn = nn.GRU(
            input_size=input_size,
            hidden_size=64,
            num_layers=1,
            batch_first=True,
        self.out = nn.Sequential(
            nn.Linear(64, 1),
        self.hidden = None
    def forward(self, x):
        r_out, self.hidden = self.rnn(x)  # None 表示 hidden state 会用全0的 state
        out = self.out(r_out)
        return out
class TrainSet(Dataset):
    def __init__(self, data):
        # 定义好 image 的路径
        self.data, self.label = data[:, :-1].float(), data[:, -1].float()
    def __getitem__(self, index):
        return self.data[index], self.label[index]
    def __len__(self):
        return len(self.data)
训练与测试

n为模型中的n

LR是模型的学习率

EPOCH是多次循环

train_end这个在之前的数据集中有提到。（注意是负数）

n = 30

LR = 0.0001

EPOCH = 100

train_end = -500

loss选用mse

预测的数据选择“收盘价”
n = 10
LR = 0.0001
EPOCH = 100
train_end = -500
# 数据集建立
df, df_all, df_index = readData('收盘价', n=n, train_end=train_end)
df_all = np.array(df_all.tolist())
plt.plot(df_index, df_all, label='real-data')
df_numpy = np.array(df)
df_numpy_mean = np.mean(df_numpy)
df_numpy_std = np.std(df_numpy)
df_numpy = (df_numpy - df_numpy_mean) / df_numpy_std
df_tensor = torch.Tensor(df_numpy)
trainset = TrainSet(df_tensor)
trainloader = DataLoader(trainset, batch_size=16, shuffle=True)
rnn = RNN(n)
optimizer = torch.optim.Adam(rnn.parameters(), lr=LR)  # optimize all cnn parameters
loss_func = nn.MSELoss()
for step in range(EPOCH):
    for tx, ty in trainloader:
        output = rnn(torch.unsqueeze(tx, dim=0))
        loss = loss_func(torch.squeeze(output), ty)
        optimizer.zero_grad()  # clear gradients for this training step
        loss.backward()  # back propagation, compute gradients
        optimizer.step()
    print(step, loss)
    if step % 10:
        torch.save(rnn, 'rnn.pkl')
torch.save(rnn, 'rnn.pkl')
generate_data_train = []
generate_data_test = []
test_index = len(df_all) + train_end
df_all_normal = (df_all - df_numpy_mean) / df_numpy_std
df_all_normal_tensor = torch.Tensor(df_all_normal)
for i in range(n, len(df_all)):
    x = df_all_normal_tensor[i - n:i]
    x = torch.unsqueeze(torch.unsqueeze(x, dim=0), dim=0)
    y = rnn(x)
    if i < test_index:
        generate_data_train.append(torch.squeeze(y).detach().numpy() * df_numpy_std + df_numpy_mean)
    else:
        generate_data_test.append(torch.squeeze(y).detach().numpy() * df_numpy_std + df_numpy_mean)
plt.plot(df_index[n:train_end], generate_data_train, label='generate_train')
plt.plot(df_index[train_end:], generate_data_test, label='generate_test')
plt.legend()
plt.show()
plt.cla()
plt.plot(df_index[train_end:-400], df_all[train_end:-400], label='real-data')
plt.plot(df_index[train_end:-400], generate_data_test[:-400], label='generate_test')
plt.legend()
plt.show()
本实例数据集使用上证的收盘价，构建时序数据集，使用GRU对数据预测，从结果上来看，走势有一定的滞后性，由于只是用了价格预测价格，还是太简单了，可以考虑加入更多的特征去优化这一算法。
import pandas as pd
import matplotlib.pyplot as plt
import datetime
import torch
import torch.nn as nn
import numpy as np
from torch.utils.data import Dataset, DataLoader
import os
os.environ['KMP_DUPLICATE_LIB_OK'] = 'TRUE'
def generate_df_affect_by_n_days(series, n, index=False):
    if len(series) <= n:
        raise Exception("The Length of series is %d, while affect by (n=%d)." % (len(series), n))
    df = pd.DataFrame()
    for i in range(n):
        df['c%d' % i] = series.tolist()[i:-(n - i)]
    df['y'] = series.tolist()[n:]
    if index:
        df.index = series.index[n:]
    return df
def readData(column='收盘价', n=30, all_too=True, index=False, train_end=-300):
    df = pd.read_csv("sh.csv", index_col=0, encoding='utf-8')
    df.fillna(0, inplace=True)
    df.replace(to_replace="None", value=0)
    del df["股票代码"]
    del df["名称"]
    df.index = list(map(lambda x: datetime.datetime.strptime(x, "%Y-%m-%d").date(), df.index))
    df_column = df[column].copy()
    df_column_train, df_column_test = df_column[:train_end], df_column[train_end - n:]
    df_generate_from_df_column_train = generate_df_affect_by_n_days(df_column_train, n, index=index)
    print(df_generate_from_df_column_train)
    if all_too:
        return df_generate_from_df_column_train, df_column, df.index.tolist()
    return df_generate_from_df_column_train
class RNN(nn.Module):
    def __init__(self, input_size):
        super(RNN, self).__init__()
        self.rnn = nn.GRU(
            input_size=input_size,
            hidden_size=64,
            num_layers=1,
            batch_first=True,
        self.out = nn.Sequential(
            nn.Linear(64, 1),
        self.hidden = None
    def forward(self, x):
        r_out, self.hidden = self.rnn(x)  # None 表示 hidden state 会用全0的 state
        out = self.out(r_out)
        return out
class TrainSet(Dataset):
    def __init__(self, data):
        # 定义好 image 的路径
        self.data, self.label = data[:, :-1].float




    
(), data[:, -1].float()
    def __getitem__(self, index):
        return self.data[index], self.label[index]
    def __len__(self):
        return len(self.data)
n = 10
LR = 0.0001
EPOCH = 100
train_end = -500
# 数据集建立
df, df_all, df_index = readData('收盘价', n=n, train_end=train_end)
df_all = np.array(df_all.tolist())
plt.plot(df_index, df_all, label='real-data')
df_numpy = np.array(df)
df_numpy_mean = np.mean(df_numpy)
df_numpy_std = np.std(df_numpy)
df_numpy = (df_numpy - df_numpy_mean) / df_numpy_std
df_tensor = torch.Tensor(df_numpy)
trainset = TrainSet(df_tensor)
trainloader = DataLoader(trainset, batch_size=64, shuffle=True)
rnn = RNN(n)
optimizer = torch.optim.Adam(rnn.parameters(), lr=LR)  # optimize all cnn parameters
loss_func = nn.MSELoss()
for step in range(EPOCH):
    for tx, ty in trainloader:
        output = rnn(torch.unsqueeze(tx, dim=0))
        loss = loss_func(torch.squeeze(output), ty)
        optimizer.zero_grad()  # clear gradients for this training step
        loss.backward()  # back propagation, compute gradients
        optimizer.step()
    print(step, loss)
    if step % 10:
        torch.save(rnn, 'rnn.pkl')
torch.save(rnn, 'rnn.pkl')
generate_data_train = []
generate_data_test = []
test_index = len(df_all) + train_end
df_all_normal = (df_all - df_numpy_mean) / df_numpy_std
df_all_normal_tensor = torch.Tensor(df_all_normal)
for i in range(n, len(df_all)):
    x = df_all_normal_tensor[i - n:i]
    x = torch.unsqueeze(torch.unsqueeze(x, dim=0), dim=0)
    y = rnn(x)
    if i < test_index:
        generate_data_train.append(torch.squeeze(y).detach().numpy() * df_numpy_std + df_numpy_mean)
    else:
        generate_data_test.append(torch.squeeze(y).detach().numpy() * df_numpy_std + df_numpy_mean)
plt.plot(df_index[n:train_end], generate_data_train, label='generate_train')
plt.plot(df_index[train_end:], generate_data_test, label='generate_test')
plt.legend()
plt.show()
plt.cla()
plt.plot(df_index[train_end:-400], df_all[train_end:-400], label='real-data')
plt.plot(df_index[train_end:-400], generate_data_test[:-400], label='generate_test')
plt.legend()
plt.show()
 
 
   相关推荐
    TypeChat 入门指南
 TypeChat 是一个革命性的库，它简化了使用 TypeScript 构建自然语言模型界面的过程。 它抹平了自然语言和结构化数据之间的差距，使开发人员更容易将自然语言界面集成到他们的应用程序中。
   
                superZidan
            ChatGPT
            OpenAI
          
 
 
  
   【法医奇遇记】法医破案之HTTP协议状态码探秘
 法医收到一封神秘的邮件，一个名叫网络乐园的虚拟世界中，发生了一系列神秘的事件。法医被派往调查此案，如何破解这个谜题成为了他的挑战，而这一切都与HTTP协议的状态码有关
   
            
  17.8w
 
 
          
 
 
     在 React Router 中使用 JWT
 本篇文章将探讨 JWT 身份校验与 React 和 React-router 的无缝集成。 我们还将学习如何处理公共路由、受校验保护路由，以及如何利用 axios 库通过身份验证令牌发出 API 请求
   
                superZidan
            
  16.4w
 
 
            JavaScript
            React.js
          
 
 
     预测2024年之后的前端开发模式
 大家好，我卡颂。 最近AIGC（AI Generated Content，利用AI生成内容）非常热，技术圈也受到了很大冲击。目前来看，利用LLM（Large Language Model，大语言模型）
   
                魔术师卡颂
            ChatGPT
            JavaScript
          
 




    
 
  
   总是跳转到国内版(cn.bing.com)？New Bing使用全攻略
 你是否想要使用强大的（被削后大嘘）New Bing？ 你是否已经获得了New Bing的使用资格？ 你是否在访问www.bing.com/new时提示页面不存在？ 你是否在访问www.bing.com
   
            
  38.2w
 
 
          
 
   
   为什么很多公司都开始使用Go语言了？
 越来越多的互联网大厂开始使用Go语言了，譬如腾讯、美团、滴滴、百度、Google、bilibili... 还有最初使用`Python`的字节跳动，甚至已经全面拥向Go了。 这是为什么呢？
   
                Ciusyan
            
  12.5w
 
 
            青训营笔记
          
 
   
   手把手教你注册和使用ChatGPT
 ChatGPT 是一个基于 GPT-3 模型的对话系统，它主要用于处理自然语言对话。通过训练模型来模拟人类的语言行为。本文给出了 ChatGPT 的详细注册及使用教程，称得上是保姆级别的丰富图文教程。
   
                嵌入式视觉
            
  38.5w
 
 
            掘金·日新计划
            ChatGPT
          
 
   
   ChatGPT保姆级教程，一分钟学会使用ChatGPT！
 最近ChatGPT大火！微软退出首款ChatGPT搜索引擎，阿里等国内巨头也纷纷爆出自家产品，一夜之间，全球最大的科技公司仿佛都回到了自己年轻时的样子！ 然而，ChatGPT这么火，这么好玩的东西，国
   
                程序员老鱼
            
  73.2w
 
 
            掘金·日新计划
            ChatGPT
            OpenAI
          
 
   
   2023 年 8 大 Web 开发趋势预测
 单页应用 (SPA) 及相关框架（例如 React.js、Vue.js、Svelte.js）都已经存在了很多年。然而，随着这些解决方案之上的元框架的兴起，可以看到应用从客户端渲染（CSR）转向服务端渲
   
                CUGGZ
            JavaScript
            Vue.js
          
 
 
  
   Tensorflow 2.8 实现 GRU 文本生成任务
 本文使用 cpu 的 tensorflow 2.8 来完成 GRU 文本生成任务。如果想要了解文本生成的相关概念，可以参考我之前写的文章：https://juejin.cn/post/69735677
   
                我是王大你是谁
            掘金·金石计划
          
 
 
  
   大屏图表，ECharts 从“熟练”到入门
 ECharts，作为大屏开发最主流的图表组件，为什么大家都觉得自己“熟练使用”它？它具有那些特质？？
   
                摸鱼的春哥
            JavaScript
            Vue.js
          
 
 
  
   【超详细】Zod 入门教程
 Zod 是一个以 TypeScript 为首的模式声明和验证库 ，弥补了 TypeScript 无法在运行时进行校验的问题 ，既可以用在服务端也可以运行在客户端，以保障 Web Apps 的类型安全
   
                superZidan
            
  13.9w
 
 
            JavaScript
            TypeScript
            Node.js
          
 
   
   WebRTC 从实战到未来！迎接风口，前端必学的技术🔥
 拍照，抠图，分享屏幕，录制屏幕，虚拟背景，实时音视频通话，新开了一个专栏《WebRTC 从实战到未来！》
   
            JavaScript
            WebRTC
          
 
 
  
   用pytorch写个 GRU 门控循环单元
 持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动详情 注意： 我一共要写两篇文章来讲解两种写GRU的方法，一种是手写实现，一种是直接调用pytorch自带的G
   
            掘金·日新计划
          
 
 
  
   Canvas 从入门到劝朋友放弃（图解版）
 ✨ 在前端领域，如果只是懂 `Vue` 或者 `React` ，未来在职场的竞争力可能会比较弱。 根据我多年在家待业经验来看，前端未来在 `数据可视化` 和 `AI` 这两个领域会比较香。
   
                德育处主任
            Canvas
          
 
 
  
 友情链接：
 
        团宠小锦鲤三岁半
        嫁给喻先生
        死亡游戏：今天又把游戏刷破产了
        特种兵：读书就变强
        js商标设计大全
        你是不是也有个“你”？曾
        护发精油的使用方法有哪些
        影后她想反攻免费阅读
        影后婚后的那点事讲的什么
        影后来袭：盛总，你节操掉了
        算法 @ 北京数原
      文章被阅读
         186,955
      GRU和LSTM的区别
      如何选择？
      实战——使用GRU预测股票
      制作数据集
      读入数据集，构建时序数据。
      训练与测试