如何使用SLURM？

风影忍着

提交SBATCH脚本

在HPC上运行任务的主要方法是通过sbatch命令提交一个脚本。例如：

sbatch MyJobScript.sh

在MyJobScript.sh中的命令会在第一个被找到的、可用的、满足资源要求的compute node上进行运算，sbatch会在提交任务后立刻返回一个信息。提交的命令不会作为前台进程运行，并且也不会在断开HPC连接之后停止运行。

编写SBATCH脚本

通常来说，一个sbatch脚本分为3个部分：

#!/bin/bash 这一行使得脚本可以作为一个bash script运行；
以#SBATCH开头的行理论上是bash命令，但是它们实际上设置了SLURM调度程序的各种参数；
要运行的命令。

注意，我们应当把所有的#SBATCH开头的行放在一起，同时放在脚本的顶部。必须在所有的#SBATCH行结束之后才能写bash code和变量设置。

一个典型的任务提交脚本如下所示：

#!/bin/bash
#SBATCH -n 1 # 指定核心数量
#SBATCH -N 1 # 指定node的数量
#SBATCH -t 0-5:00 # 运行总时间，天数-小时数-分钟， D-HH:MM
#SBATCH -p debug # 提交到哪一个分区
#SBATCH --mem=2000 # 所有核心可以使用的内存池大小，MB为单位
#SBATCH -o myjob.o # 把输出结果STDOUT保存在哪一个文件
#SBATCH -e myjob.e # 把报错结果STDERR保存在哪一个文件
#SBATCH --mail-type=ALL # 发送哪一种email通知：BEGIN,END,FAIL,ALL
#SBATCH --mail-user=netid@nyu.edu # 把通知发送到哪一个邮箱
#SBATCH --constraint=2630v3  # the Features of the nodes, using command " showcluster " could find them.
#SBATCH --gres=gpu:n # 需要使用多少GPU，n是需要的数量