相关文章推荐
奔放的包子  ·  python 包 降级 ...·  11 月前    · 
任性的滑板  ·  Processing Data with ...·  1 年前    · 
飘逸的肉夹馍  ·  Troubleshooting Azure ...·  1 年前    · 

XGBoost训练时间似乎太长了

2 人关注

我正在尝试使用xgboost包在Python中训练一个XGBoost分类器。我对分类器的所有参数都使用了默认值,我的训练集大约有16000个元素,每个元素有18万个特征。我没有使用gpu来训练模型,但训练过程已经花了五个多小时,而且还在继续。我有32GB的内存和6核英特尔I7。我在想,以我所拥有的数据量,这是否是训练这个分类器的正常时间,因为我听说有人在几分钟内就训练好了模型。

5 个评论
AMC
似乎该库提供了一些必须启用的并行编程功能,你是否已经这样做了?
@AMC .谢谢你的回答。我已经将nthread参数设置为-1,以便在训练期间使用所有可用的内核。我不确定这是否是你的意思,但即使所有的核心都被使用,它还是超级慢。我不知道这是否有帮助,但我的内存使用率在训练期间是99%。
AMC
我对这个库不熟悉,你是否可以尝试在一小部分数据上运行你的程序?这样你就可以弄清楚程序是否只是慢了,还是有问题/挂起了。
@AMC .当然,我试着用50和100个样本的子集来训练模型。每个人分别需要40秒和80秒。我做了计算,整个训练集应该最多只需要4个小时,然而,即使在5个小时后也没有结束。
AMC
我已经做了计算 什么数学?不过这很好,至少我们可以很确定这个程序没有坏。
python
machine-learning
xgboost
training-data
3michelin
3michelin
发布于 2020-01-06
1 个回答
Priya
Priya
发布于 2020-01-07
已采纳
0 人赞同