在Kaggle平台运行自己的项目经常遇到9小时就中断的问题,很多时候到9小时项目并没有跑完,导致前面的时间都浪费了,没能能到最终结果。
有一个解决方案是分开运行项目。如果一共需要跑200轮,则拆分成两次跑,一次100轮。(这100轮要保证能够在9小时内跑完。)
注意:1、前100轮的epoch=100,后100轮的epoch=200!千万不要设置错了。
2、运行的时候要选择 Save&Run All,将模型保存下来,这样才能继续训练,并且查看日志文件。
3、前100轮跑完之后,更改代码中的epoch值,更改模型读取保存模型的路径。路径一定要仔细查看,弄错了就没法使用之前保存好的模型了。保存下来的模型一般都是保存到/kaggle/working中,和日志文件的根路径一样。代码更改完之后重新上传后运行,运行过程如下图所示,前一次的epoch=1,第二次设置为3,可以看到使用了之前的模型,从第二轮开始跑的。这样就能解决9小时限制的问题啦!
下图标注出的地方是我训练代码里更改的路径。先将之前训练好的模型下载下来,加入到项目中,再重新上传项目。代码里加上一句,把之前训练好的模型加入到现在的日志文件中。
重磅!!
kaggle
训练, 终于不用怕断网了
https://www.cnblogs.com/zgqcn/p/14160093.html
选择 save version,保存生成的最后结果!!!!
sw-
kaggle
关于
kaggle
问题的解答与优化
主要工作:可视化分析不同特征与存活率的关系, 类别特征one-hot编码,数值特征分段处理,pipeline预处理数据, 使用LR, RF等进行投票分类,最终排名top10%
主要工作:多分类问题,给定手写数字,进行0-9识别。分别使用numpy,tensorflow搭建ANN, CNN进行训练,识别率98%
主要工作:使用nltk, sklearn,构建关于问题特征的向量进行相似性判断,采用lightgbm进行训练,完成相似问题判断。
个人工作:
主要工作:针对全书每一章节进行分词,tf-idf文档向量化,分别使用监督和无监督进行训练预测, 并与其它名著对比结果。
[拉勾和Boss直聘关于机器学习岗位的简单分析]
主要工作:在两个不同的求职
平台
,分别以 机器学习 为关键字, 进行搜索,获取全部结果,对其进行简单分析,代码和分析见
import torch
print(torch.cuda.is_available())
device = torch.device("cuda:0" if (torch.cuda.is_available() and 1> 0) else "cpu")
print(device)
print(torch.cuda.get_device_name(
由于自己手头没有GPU资源,所以只能靠免费的GPU勉强做实验。之前使用的是Google Colab,但是用多用久了以后,就特别容易断,断开以后,基本上就寄了。所以又转向了
Kaggle
。
Kaggle
的好处就在于不用fq就能上传文件、
运行
代码,所以更稳定一点,目前我没有遇到跑着跑着突然断了的情况。这篇博客就记录下使用
Kaggle
的问题。
博主的博客园、CSDN
kaggle
和colab都是谷歌的机器学习
平台
,都提供了gpu和tpu,但都有一定时间限制。对于没有gpu又不想花钱的朋友来说,是一个不错的选择。
kaggle
不需要科学上网,colab很好用,但是需要科学上网。
kaggle
和colab对比: kaggelg官网:https://www.
kaggle
.com/ colab官网:https://colab.research.goo...
数据工程师都喜欢Jupyter Notebook,但是有时候您需要处理非常大的数据集和/或复杂的模型,而您的计算机却无法胜任。好消息来了,您可以将Jupyter Notebook文件导入
Kaggle
。如果您是数据科学的新手,那么...
最近用自己的电脑跑bert代码有点点吃力,cpu占用率100%这种,真的很心疼我的小电脑,所以开始探索机器学习线上训练
平台
,其他的不知道,反正
kaggle
还是挺好用的,在此记录几点跑代码过程中的问题和
解决
办法,大家一起进步吧!