【挖坑】深度学习模型的可复现性_深度模型的可重复性

随机种子设置

import torch
torch.manual_seed(0)

GPU训练

当使用一组新的参数调用 cudnn卷积算子时，cudnn会去所有操作路径中找到最快的一个。因此由于benchmark噪音下，即使是在同一台机器上在后续运行中cudnn会选择不同的算法路径。

import torch
import numpy as np
import random
seed=0
random.seed(seed)
np.random.seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)
torch.manual_seed(seed)
torch.cuda.manual_seed(seed)
torch.cuda.manual_seed_all(seed)
# Remove randomness (may be slower on Tesla GPUs) 
# https://pytorch.org/docs/stable/notes/randomness.html
if seed == 0:
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

类似的Batchsize都必须保证相同，Batch Size决定了要学习多少次样本后，进行一次反向传播。dropout 可能也会、多 GPU 并行训练都会带来随机性。

DataLoader

DataLoader 多进程加载数据中中按照随机性重新设置随机种子。使用 worker_init_fn() 和生成器来保证可复现

def seed_worker(worker_id):
    worker_seed = torch.initial_seed() % 2**32
    numpy.random.seed(worker_seed)
    random.seed(worker_seed)
g = torch.Generator()
g.manual_seed(0)
DataLoader(
    train_dataset,
    batch_size=batch_size,
    num_workers=num_workers,
    worker_init_fn=seed_worker,
    generator=g,
对于在线增强中，经常会以一定的概率进行随机增强，这样会导致每次运行得到的训练样本可能是不一致的，这也就造成了模型的不可复现。 
多线/进程计算 
可以通过在 PyTorch 中设置 DataLoader 中的 num_worker 参数为 0，或者直接不使用 GPU，指定使用 CPU 可以避免程序使用多线程。因为任何并行操作都可能会引入问题，因为并行操作中求和等操作会将导致 FP16 / 32 的精度损失，从而执行的顺序和线程数将对结果产生影响。 
总的来说，采用以上操作后，除了一些pytorch底层计算一定会带来随机性的操作外，基本能够保证前10个epoch模型训练是能够复现了。
                    众所周知，深度学习是个黑盒，每次training都像在抽奖，但是对于模型落地，以及作为工程师来说，不可复现=没有意义。那么对于Pytorch如何能够尽可能的保证模型训练结果能够复现呢。本文收集整理了可能导致模型难以复现的原因，虽然不可能完全避免随机因素，但是可以通过一些设置尽可能降低模型的随机性训练层面Pytorch官方有提及到复现的问题Reproducibility - PyTorch 1.11.0 documentationPytorch不保证跨不同PyTorch 版本或不同平台的下的模型可
				在进行神经网络反复训练试验后发现，每次的训练结果都有微小的波动，根据查阅相关资料，总结了神经网络模型代码复现的主要注意的几点：
首先强调，自己用的试验平台是PyTorch 1.9 GPU版本，CUDA为10.2版本，显卡为GTX1050Ti。
1，首先要固定代码里的所有的随机状态，包括torch自身的，这方面可以参考博主的帖子：
PyTorch的可重复性问题 （如何使实验结果可复现）_hyk_1996的博客-CSDN博客_pytorch复现
2，明确PyTorch的GPU版本与CPU版本的训练结果不
				在做研究的时候，通常我们希望同样的样本，同样的代码能够得到同样的实验效果，但由于代码中存在一些随机性，导致虽然是同样的样本和程序，但是得到的结果不一致。在pytorch的官方文档中为此提供了一些建议，原文档：REPRODUCIBILITY。下面我们来看看看具体的内容。pytorch在一些操作具有随机性，如：，我们可以使用设置随机数种子来使得所有的设备（CPU和GPU）的随机性一致（本质来说现有的随机函数都是伪随机，都是通过随机数种子确定）。如：
python中的随机性
当然有时候我们的程序中可能还会使用py
模型简介
我们常说的LeNet应该是指1998年 LeCun 发表的论文中的LeNet-5，它是CNN卷积神经网络的开山之作，至此之后卷积神经网络遍地开花，各种基于卷积神经网络的巧妙网络结构不断地被创造出来并取得了良好的效果。
输入均为32 *32pixel的黑白色手.
				Awesome Deep Learning Models
🤩Learning and reproducing classic deep learning models by using PyTorch.
🛠This repository is not a library, it’s just some learning resource about catching the tricks of calssical models. You can get some details you need here.
3 随机dropout
以上等等，会使得模型具有一定的随机性，其实也并非完全算作坏事
因为模型性能的抖动能够让模型性能更高一些，可以报告跑出来的最高性能，是吧。
但是在某些阶段时，我们必须使得性能稳定，这样才可以明显的对比。
1 调整一些超参数
2 改进模型结构
3 优化算法
等等上述情况时候，会需要稳定模型。因为改进模型结
				深度学习开源代码复现是指将已有的深度学习模型或算法的实现代码重新编写或复现出来。这样做的目的是为了验证原始论文中的算法，并且使其能够在不同的平台和框架上运行。通常，深度学习开源代码复现的过程需要参考原始论文，并借助于深度学习框架（如TensorFlow、PyTorch等）提供的工具和库来实现。
在深度学习开源社区中，有许多优秀的开源项目专门用于复现和实现各种深度学习模型和算法。这些项目提供了丰富的代码资源，方便研究人员和开发者进行学习和实践。例如，deeplearning-models是一个开源项目，其中包含了许多常见的深度学习模型和算法的复现代码，涵盖了传统机器学习、多层感知机、卷积神经网络（CNNs）、度量学习、Autoencoders、GANs、RNNs等内容，并提供了对应的TensorFlow和PyTorch的代码实现。
通过深度学习开源代码复现，学生可以更加深入地理解和学习深度学习的各个方面，锻炼自己在TensorFlow和PyTorch等深度学习框架中的编码能力和技巧。此外，对于刚入门的学生或者希望学习其他方向的学生来说，这些开源代码也提供了很好的学习资源和参考。
				【PyBind11+anaconda+opencv+windows11+cmake+wsl+vscode】从入门到跑通。构建基于opencv c++的python package
					37085
                【PyBind11+anaconda+opencv+windows11+cmake+wsl+vscode】从入门到跑通。构建基于opencv c++的python package
                    子韵如初: 
                    代码里有除了字符串和字节流的其他错误类型
                Tensorflow各种推理格式转换以及代码
                    子韵如初: 
                    看起来是cuda没安装正确，cpu数据拷贝不上显卡
                Tensorflow各种推理格式转换以及代码
                    普通网友: 
                    大佬有问题可以请教一下吗？tensorflow实时推理一直报错，I tensorflow/stream_executor/stream.cc:1247] [stream=000001943687A160,impl=00000194400D74F0] did not wait for [stream=000001943687A0D0,impl=00000194400D7310]
2023-11-25 17:43:49.275828: E tensorflow/stream_executor/cuda/cuda_driver.cc:1175] failed to enqueue async memcpy from host to device: CUDA_ERROR_LAUNCH_TIMEOUT: the launch timed out and was terminated; GPU dst: 0x7087c8b00; host src: 0x1950e31d7c0; size: 504000=0x7b0c0，怎么办呀
                【PyBind11+anaconda+opencv+windows11+cmake+wsl+vscode】从入门到跑通。构建基于opencv c++的python package
                    123dou: 
                    运行python setup.py build_ext --inplace报错TypeError: expected string or bytes-like object是为啥呢？
                【ONNXRuntime+visual studio+CMake+cuda环境搭建】
                    pzb19841116: 
                    您好，执行Env env = Env(ORT_LOGGING_LEVEL_ERROR, "DBNet");时，报出如下错误，跟您提到的问题一一样。
引发了异常: 读取访问权限冲突。
Ort::GetApi(...) 返回 nullptr。
请问我这边是不是也是需要一个onnx文件？是您提到的model.onnx文件吗？还是其他什么文件？刚学啊，不是很懂。