Win10 RTX2070 super Anaconda安装Tensorflow-GPU

先说环境:

  • 系统:Win10 x64 1903
  • 显卡:RTX2070 super
    刚配的一台个人主机,主要拿来学(you)习(xi),自然而然需要配置深度学习环境。首先安装Tensorflow-GPU版本。
  • 过程中遇到的坑:

    之前看网上的安装教程,都是安装9.0的CUDA版本,然而我安装完之后,发现GPU根本不工作,并且 tensorflow.python.client.device_lib.list_local_devices() 不显示我的GPU,一直是以CPU版本在工作。排查了很久,tensorflow装又删了好几遍,最后发现RTX 2070 super似乎不支持CUDA9.0,卸载CUDA之后用conda安装cuda 10.1,成功解决。

    * RTX 2070 SUPER 至少安装CUDA 10.1以上 ,cuDNN与CUDA配套即可

  • cuda与驱动版本的对应查看 CUDA对应的NVIDIA驱动版本对照表
  • 能用conda装的尽量用conda ( CUDA和cuDNN也能用conda装,并且是装在虚拟环境内,不影响原来的系统 ),简单快捷省事并且基本能保证兼容性
  • 如果你的GPU不起作用,那么多半是你的CUDA或cuDNN与你的硬件、系统、python版本、tensorflow版本不配套
  • 1.安装Anaconda

    Windows下安装Anaconda较为简单,前往官网下载安装包,双击安装即可。下载网址: https://www.anaconda.com/distribution/
    因为Anaconda官方服务器在国外,由于众所周知的原因,下载可能较慢,推荐去清华镜像下载: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
    我这里选择的是5.2.0版本的anaconda,自带的python版本是3.6(这个版本不重要,后面我们会建立虚拟环境)。
    上图是安装过程中需要注意的:

  • 红色箭头所指表示是否将Anaconda加入Path环境变量中,这样可以在命令行中直接使用conda命令(我一般勾选,但据说存在问题,因人而异)。勾选这一项的效果参考 这篇文章

  • 蓝色箭头所指表示是否将Anaconda注册为系统默认的Python 3.6,如果你想使用别的python版本作为系统默认,不要勾选。因为我没有安装其它python,所以这里我勾选上

  • 安装完成之后,还需要对Anaconda进行添加国内清华源(因为国外源实在太慢)。 参考我的另一篇文章 Anaconda切换国内高速源

    这里有个概念需要区分,conda、Anaconda、Miniconda是什么:

    conda是一种 通用包管理系统 ,旨在构建和管理任何语言和任何类型的软件。举个例子:包管理与pip的使用类似,环境管理则允许用户方便地安装不同版本的python并可以快速切换。
    Anaconda则是一个 pytho发行版 ,里面预装好了conda、某个版本的python、众多packages、科学计算工具等等,就是把很多常用的不常用的库都给你装好了。
    Miniconda,顾名思义,它 只包含最基本的内容 ——python与conda,以及相关的必须依赖项,对于空间要求严格的用户,Miniconda是一种选择。就只包含最基本的东西,其他的库得自己装。

    本节参考阅读: Anaconda介绍、安装及使用教程

    2.创建虚拟环境

    首先创建一个名为python36tfgpu的虚拟环境,且指定版本为python3.6.5。执行

    conda create -n python36tfgpu python=3.6.5
    conda会自行解析依赖,判断需要安装哪些包,并提示是否继续

    可以看到,所有tensorflow-gpu需要的包,包括CUDA、cuDNN、tensorflow本身、numpy、scipy等包,conda都帮我们准备好安装了。
    输入y确定安装。之后进入python环境,执行以下代码

    import os
    from tensorflow.python.client import device_lib
    print(device_lib.list_local_devices())
    

    进行测试。测试结果:
    可以看到CPU:0和GPU:0,表明cpu和gpu版的tensorflow都可以运行了。
    注:这里可能会有Warning,参考我的另一篇文章解决FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future ver...

    接下来可以执行测试程序测试一下:

    # coding=utf8
    import tensorflow as tf
    import numpy as np
    # 使用 NumPy 生成假数据(phony data), 总共 100 个点.
    x_data = np.float32(np.random.rand(2, 100)) # 随机输入
    y_data = np.dot([0.100, 0.200], x_data) + 0.300
    # 构造一个线性模型
    b = tf.Variable(tf.zeros([1]))
    W = tf.Variable(tf.random_uniform([1, 2], -1.0, 1.0))
    y = tf.matmul(W, x_data) + b
    # 最小化方差
    loss = tf.reduce_mean(tf.square(y - y_data))
    optimizer = tf.train.GradientDescentOptimizer(0.5)
    train = optimizer.minimize(loss)
    # 初始化变量
    init = tf.initialize_all_variables()
    # 启动图 (graph)
    sess = tf.Session()
    sess.run(init)
    # 拟合平面
    for step in range(0, 201):
        sess.run(train)
        if step % 20 == 0:
            print (step, sess.run(W), sess.run(b))