上周自己有使用Kaggle平台运行项目的需求,查阅了一些文章,结合自己的实践经验写了此文章,将使用Kaggle平台运行项目并查看下载日志文件的过程详细记录了下来,一些注意事项也写了,希望能够帮助到大家。

一、上传项目

第一步:创建notebook

第二步:上传项目和数据集

第三步:进行设置,打开GPU

第四步:运行项目

二、查看运行结果、下载日志文件

第一步:更改日志文件保存路径

​第二步:查看日志文件

第三步:下载日志文件

一、上传项目

第一步:创建notebook

1、点击左上角 File

2、点击 New Notebook ,就可以创建一个新的notebook了。

第二步:上传项目和数据集

(建议将项目和数据集分开上传,因为无法在kaggle平台上实时更改代码,上传之后代码是只读形式的,想要修改代码只能在平台以外修改,改完之后再重新上传。为了节省上传时间,可以把数据集放到单独一个文件夹里,这样修改代码之后只上传代码就行啦~)

1、点击右上角 Add data ,出现下图。

2、点击第一行右边的 Upload ,出现下图。将项目文件夹或者zip文件拖动过来,等待上传就好了。 (需要搭梯子才能上传成功) 上传完成之后,需要命名, 要注意名字之前不能使用过。

3、上传完成之后,点击右下角的 Create

如果之前上传过这个项目,更改部分代码之后再次上传,会出现一些重复文件,此时上传完成之后右下角不是 Create 了,而是 Skip duplicates ,如图所示,如果不再想要重复的文件,直接点击 Skip duplicates 即可,上传之后整个项目的文件数量会减少。如果不想跳过重复文件, 点击右下角的方块 ,选择第二个“Include duplicates”,这样就把更改代码之后的整个项目上传上去了。

第三步:进行设置,打开GPU

1、打开右侧一栏的Settings,在Accelerator中选择GPU,即将CPU打开。

如果是第一次使用kaggle平台,Settings里面没有这一项,需要先添加。

注意到下面有个GPU Quota,是显示已经使用了GPU的时长。一个账号每个星期有36小时的使用时间,超过这个时间就不能用了。

另外还有限制,只能连续跑9个小时,项目没有跑完也会中断,中断之后就没有输出结果了,前面等于白跑。 如果项目运行时间会超过9小时,建议将epoch缩小,如果一共要跑100轮,可以分成两次,一次跑50轮,第一次跑完之后保存模型,再接着跑50轮,就能解决连续运行项目时长不够的问题了。

第四步:运行项目

路径非常重要!!!

1、编写运行语句。

!python '../input/pointnet1649/wjypointnet2/train_cls.py'

‘’里面是训练文件的路径。在右侧找到文件,可以直接复制文件路径。 一定要注意更改代码里调用的模型路径,否则运行会报错。

下图是我的项目目录。

下图是我训练文件中更改的模型路径。

2、点击右上角Save Version,出现下图。

3、点击右下角Save,程序即可运行。

一定要选择Save&Run All, 将模型保存下来,这样才能继续训练,并且查看日志文件。

二、查看运行结果、下载日志文件

第一步:更改日志文件保存路径

一定要更改代码里的日志文件保存路径,将其放到/kaggle/working/下。

下图是我训练文件代码,代码第二行更改了路径,其他都没有改。

下图是运行完成的项目,从Home里右侧Your Datasets里可以找到所有保存运行的项目。点击项目名称,进入项目主页,点击Code->Your Work,出现项目,点击进入下图页面。可以看到右侧Output中已经存在输出日志了。如果路径不正确,Output中就没有文件。

第二步:查看日志文件

1、在上图页面点击Notebook,往下滑即可看到日志文件。

第三步:下载日志文件

1、在上图页面点击Logs,出现下图。

2、点击右侧Download Logs,即可下载日志文件。

上周自己有使用Kaggle平台运行项目的需求,查阅了一些文章,结合自己的实践经验写了此文章,将使用Kaggle平台运行项目并查看下载日志文件的过程详细记录了下来,一些注意事项也写了,希望能够帮助到大家。一、上传项目第一步:创建notebook 1、点击左上角File 2、点击New Notebook,就可以创建一个新的notebook了。第二步:上传项目和数据集 (建议将项目和数据集分开上传,因为无法在kaggle平台上实时更改... 1.每次上传dataset都要上传rar 文件 ,且上传后无法编辑修改源 文件 ,想修改只能再次完整上传。 2.注意用pip安装其他版本的软件包时(如scipy由1.7.1到1.2.1).应先安装包再 查看 版本,否则 查看 的版本还是原来未重新安装时的版本。 3.整个 文件 目录为: 如何保存训练好的模型 通过tf.saved_model.save(netwok, path) 其中network代表你的模型的实例化,path自己定义路径,(记住path保存没有 文件 格式,只需要给出路径,例如“./model\my_model” tf.saved torch.save(model.state_dict(),'./model_best.pth') 一般情况下,以上语句保存的模型在 kaggle 的output/ kaggle /working 文件 夹下 建议将效果较好的模型下载保存,否则网页休眠之后之前训练的结果就都么得了 我这里使用的模型是经过预训练的resnet50 model = torchvision.models.segmentation.fcn_resnet50(pretrained= False,progress= True
最近想训练一个模型,奈何自己电脑的GPU太拉胯根本带不动,用cpu跑跑一整天才跑完一个epoch,真的心累,于是乎,我把目光投向了云GPU。然后 kaggle 的云GPU瞬间吸引了我的目光,好家伙,不要钱还好操作,这波羊毛难道不薅?!冲冲冲!!! kaggle 官网: 地址 (一)注册 虽说薅羊毛很快乐,但是刚开始薅的时候还是要花点儿功夫的,注册的时候我就折腾了一会儿。 1.点击右上角“Register”注册 2.选择邮箱 3.人机验证 这里一直让我填写验证码:Captcha must be filled out
使用 GPU 加速深度学习的训练是很关键的,对于缺少计算资源的人来说,在 Kaggle 上使用 GPU 训练模型是一个相对不错的体验。但是,如果,你的 输出结果 是图片,那该如下将训练后的图片下载到本地呢?   我尝试了很多办法,最终想到一个相对不错的点子:将输出的图片打包为 ZIP 文件 。具体操作如下:   上传需要训练的模型与数据(以 ZIP 的形式):https://www. kaggle ...