与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:
LightGBM 相关知识理解
boosting / boost / boosting_type
用于指定弱学习器的类型,默认值为 ‘gbdt’,表示使用基于树的模型进行计算。还可以选择为 ‘gblinear’ 表示使用线性模型作为弱学习器。
可选的参数值有:
-
‘gbdt’,使用梯度提升树
-
‘rf’,使用随机森林
-
‘dart’,不太了解,官方解释为 Dropouts meet Multiple Additive Regression Trees
-
‘goss’,使用单边梯度抽样算法,速度很快,但是可能欠拟合。
推荐设置为 'gbdt’
objective / application
用于指定学习任务及相应的学习目标,常用的可选参数值如下:
-
“regression”,使用L2正则项的回归模型(默认值)。
-
“regression_l1”,使用L1正则项的回归模型。
-
“mape”,平均绝对百分比误差。
-
“binary”,二分类。
-
“multiclass”,多分类。
num_class
用于设置多分类问题的类别个数。
min_child_samples
叶节点样本的最少数量,默认值20,用于防止过拟合。
learning_rate / eta
LightGBM 不完全信任每个弱学习器学到的残差值,为此需要给每个弱学习器拟合的残差值都乘上取值范围在(0, 1] 的 eta,设置较小的 eta 就可以多学习几个弱学习器来弥补不足的残差。
推荐的候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]
max_depth
指定树的最大深度,默认值为-1,表示不做限制,合理的设置可以防止过拟合。
推荐的数值为:[3, 5, 6, 7, 9, 12, 15, 17, 25]
。
num_leaves
指定叶子的个数,默认值为31,此参数的数值应该小于
feature_fraction / colsample_bytree
构建弱学习器时,对特征随机采样的比例,默认值为1。
推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]
bagging_fraction / subsample
默认值1,指定采样出 subsample * n_samples 个样本用于训练弱学习器。注意这里的子采样和随机森林不一样,随机森林使用的是放回抽样,而这里是不放回抽样。 取值在(0, 1)之间,设置为1表示使用所有数据训练弱学习器。如果取值小于1,则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差,即防止过拟合,但是会增加样本拟合的偏差,因此取值不能太低。
注意: bagging_freq 设置为非0值时才生效。
推荐的候选值为:[0.6, 0.7, 0.8, 0.9, 1]
bagging_freq / subsample_freq
数值型,默认值0,表示禁用样本采样。如果设置为整数 z ,则每迭代 k 次执行一次采样。
lambda_l1
L1正则化权重项,增加此值将使模型更加保守。
推荐的候选值为:[0, 0.01~0.1, 1]
lambda_l2
L2正则化权重项,增加此值将使模型更加保守。
推荐的候选值为:[0, 0.1, 0.5, 1]
min_gain_to_split / min_split_gain
指定叶节点进行分支所需的损失减少的最小值,默认值为0。设置的值越大,模型就越保守。
**推荐的候选值为:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1] **
min_sum_hessian_in_leaf / min_child_weight
指定孩子节点中最小的样本权重和,如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束,默认值为1。
推荐的候选值为:[1, 3, 5, 7]
metric
用于指定评估指标,可以传递各种评估方法组成的list。常用的评估指标如下:
-
‘mae’,用于回归任务,效果与 ‘mean_absolute_error’, ‘l1’ 相同。
-
‘mse’,用于回归任务,效果与 ‘mean_squared_error’, ‘l2’ 相同。
-
‘rmse’,用于回归任务,效果与 ‘root_mean_squared_error’, ‘l2_root’ 相同。
-
‘auc’,用于二分类任务。
-
‘binary’,用于二分类任务。
-
‘binary_logloss’,用于二分类任务。
-
‘binary_error’,用于二分类任务。
-
‘multiclass’,用于多分类。
-
‘multi_logloss’, 用于多分类。
-
‘multi_error’, 用于多分类。
seed / random_state
指定随机数种子。
以lightgbm.train为主,参数及默认值如下:
lightgbm.train(params, train_set, num_boost_round=100, valid_sets=None, valid_names=None, fobj=None, feval=None, init_model=None, feature_name='auto', categorical_feature='auto', early_stopping_rounds=None, evals_result=None, verbose_eval=True, learning_rates=None, keep_training_booster=False, callbacks=None)
1,params
字典类型,用于指定各种参数,例如:{‘booster’:‘gbtree’,‘eta’:0.1}
2,train_set
用于训练的数据,通过给下面的方法传递数据和标签来构造:
train_data = lgb.Dataset(train_x, train_y)
3,num_boost_round
指定最大迭代次数,默认值为10
4,valid_sets
列表类型,用于指定训练过程中用于评估的数据及数据的名称。例如:[train_data, valid_data]
train_data = lgb.Dataset(train_x, train_y)
valid_data = lgb.Dataset(valid_x, valid_y, reference=train)
5,fobj
可以指定二阶可导的自定义目标函数。
6,feval
自定义评估函数。
7,categorical_feature
指定哪些是类别特征。
8,early_stopping_rounds
指定迭代多少次没有得到优化则停止训练,默认值为None,表示不提前停止训练。
注意:valid_sets 必须非空才能生效,如果有多个数据集,则以最后一个数据集为准。
9,verbose_eval
可以是bool类型,也可以是整数类型。如果设置为整数,则每间隔verbose_eval次迭代就输出一次信息。
10,init_model
加载之前训练好的 lgb 模型,用于增量训练。
predict(data, num_iteration=None)
参数说明:
- data:string, numpy array, pandas DataFrame
- num_iteration:选择第几次迭代用于预测,如果使用了 early_stopping_rounds,那么最佳的一次迭代将被使用
注意,对于分类问题,predict 方法返回的是属于各个类别的概率,需要执行下面的语句才能获取到预测的类别:
y_pred = model.predict(X_test)
y_pred = np.argmax(y_pred, axis=1)
代码如下:
from lightgbm import plot_importance
plot_importance(lgb_model, max_num_features)
plt.show()
from sklearn.datasets import load_iris
import lightgbm as lgb
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123457)
params = {
'booster': 'gbtree',
'objective': 'multiclass',
'num_class': 3,
'num_leaves': 31,
'subsample': 0.8,
'bagging_freq': 1,
'feature_fraction ': 0.8,
'slient': 1,
'learning_rate ': 0.01,
'seed': 0
dtrain = lgb.Dataset(X_train,y_train)
dtest = lgb.Dataset(X_test,y_test)
num_rounds = 500
model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest],
verbose_eval=100, early_stopping_rounds=100)
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, np.argmax(y_pred, axis=1))
print('accuarcy:%.2f%%'%(accuracy*100))
plot_importance(model)
plt.show()
输出结果:
Training until validation scores don't improve for 100 rounds.
[100] training's multi_logloss: 0.0200407 valid_1's multi_logloss: 0.16259
Early stopping, best iteration is:
[58] training's multi_logloss: 0.0522685 valid_1's multi_logloss: 0.113599
accuarcy:96.67%
from sklearn.datasets import load_boston
import lightgbm as lgb
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
boston = load_boston()
X,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
params = {
'booster': 'gbtree',
'objective': 'regression',
'num_leaves': 31,
'subsample': 0.8,
'bagging_freq': 1,
'feature_fraction ': 0.8,
'slient': 1,
'learning_rate ': 0.01,
'seed': 0
dtrain = lgb.Dataset(X_train,y_train)
dtest = lgb.Dataset(X_test,y_test)
num_rounds = 500
model = lgb.train(params,dtrain, num_rounds, valid_sets=[dtrain, dtest],
verbose_eval=100, early_stopping_rounds=100)
y_pred = model.predict(X_test)
print('mse:', mean_squared_error(y_test, y_pred))
plot_importance(model)
plt.show()
Training until validation scores don't improve for 100 rounds.
[100] training's l2: 1.98858 valid_1's l2: 22.4685
[200] training's l2: 0.76671 valid_1's l2: 21.9116
Early stopping, best iteration is:
[141] training's l2: 1.29078 valid_1's l2: 21.7546
mse: 21.754638427136342
LGBMClassifier的引入以及重要参数的默认值如下:
from lightgbm import LGBMClassifier
lgb_model = LGBMClassifier(
boosting_type='gbdt',
num_leaves=31,
max_depth=-1,
learning_rate=0.1,
n_estimators=100,
objective='binary',
min_split_gain=0.0,
min_child_samples=20,
subsample=1.0,
subsample_freq=0,
colsample_bytree=1.0,
reg_alpha=0.0,
reg_lambda=0.0,
random_state=None,
silent=True
其中绝大多数的参数在上文已经说明,不再赘述。
与原生的LightGBM相比,LGBMClassifier并不是调用train方法进行训练,而是使用fit方法:
lgb_model.fit(
X,
y,
eval_set=None,
eval_metric=None,
early_stopping_rounds=None,
verbose=True
预测的方法有两种:
lgb_model.predict(data)
lgb_model.predict_proba(data)
from lightgbm import LGBMClassifier
from sklearn.datasets import load_iris
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
model = LGBMClassifier(
max_depth=3,
learning_rate=0.1,
n_estimators=200,
objective='multiclass',
num_class=3,
booster='gbtree',
min_child_weight=2,
subsample=0.8,
colsample_bytree=0.8,
reg_alpha=0,
reg_lambda=1,
seed=0
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)],
verbose=100, early_stopping_rounds=50)
y_pred = model.predict(X_test)
model.predict_proba
accuracy = accuracy_score(y_test,y_pred)
print('accuracy:%3.f%%'%(accuracy*100))
plot_importance(model)
plt.show()
Training until validation scores don't improve for 50 rounds.
Early stopping, best iteration is:
[42] training's multi_logloss: 0.0831629 valid_1's multi_logloss: 0.183711
accuracy: 97%
XGBRegressor与XGBClassifier类似,其引入以及重要参数的默认值如下:
from lightgbm import LGBMRegressor
lgb_model = LGBMRegressor(
boosting_type='gbdt',
num_leaves=31,
max_depth=-1,
learning_rate=0.1,
n_estimators=100,
objective='regression',
min_split_gain=0.0,
min_child_samples=20,
subsample=1.0,
subsample_freq=0,
colsample_bytree=1.0,
reg_alpha=0.0,
reg_lambda=0.0,
random_state=None,
silent=True
其 fit 方法、predict方法与 LGBMClassifier几乎相同,不再重复说明。
from lightgbm import LGBMRegressor
from lightgbm import plot_importance
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error
boston = load_boston()
X ,y = boston.data,boston.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0)
model = LGBMRegressor(
boosting_type='gbdt',
num_leaves=31,
max_depth=-1,
learning_rate=0.1,
n_estimators=100,
objective='regression',
min_split_gain=0.0,
min_child_samples=20,
subsample=1.0,
subsample_freq=0,
colsample_bytree=1.0,
reg_alpha=0.0,
reg_lambda=0.0,
random_state=None,
silent=True
model.fit(X_train,y_train, eval_set=[(X_train, y_train), (X_test, y_test)],
verbose=100, early_stopping_rounds=50)
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test,y_pred)
print('mse', mse)
plot_importance(model)
plt.show()
Training until validation scores don't improve for 50 rounds.
[100] training's l2: 1.99687 valid_1's l2: 24.4987
Did not meet early stopping. Best iteration is:
[100] training's l2: 1.99687 valid_1's l2: 24.4987
mse 24.498696726728348
(1)选择较高的学习率,例如0.1,这样可以减少迭代用时。
(2)然后对 max_depth, num_leaves, min_data_in_leaf, min_split_gain, subsample, colsample_bytree 这些参数进行调整。
其中,num_leaves <
2max_depth。而 min_data_in_leaf 是一个很重要的参数, 也叫min_child_samples,它的值取决于训练数据的样本个树和num_leaves. 将其设置的较大可以避免生成一个过深的树, 但有可能导致欠拟合。
其他参数的合适候选值为:
- max_depth:[3, 5, 6, 7, 9, 12, 15, 17, 25]
- min_split_gain:[0, 0.05 ~ 0.1, 0.3, 0.5, 0.7, 0.9, 1]
- subsample:[0.6, 0.7, 0.8, 0.9, 1]
- colsample_bytree:[0.6, 0.7, 0.8, 0.9, 1]
(3)调整正则化参数 reg_lambda , reg_alpha,这些参数的合适候选值为:
- reg_alpha:[0, 0.01~0.1, 1]
- reg_lambda :[0, 0.1, 0.5, 1]
(4)降低学习率,继续调整参数,学习率合适候选值为:[0.01, 0.015, 0.025, 0.05, 0.1]
from sklearn.datasets import load_iris
import lightgbm as lgb
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
iris = load_iris()
X,y = iris.data,iris.target
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=12343)
train_x, valid_x, train_y, valid_y = train_test_split(X, y, test_size=0.333, random_state=0)
train = lgb.Dataset(train_x, train_y)
valid = lgb.Dataset(valid_x, valid_y, reference=train)
parameters = {
'max_depth': [15, 20, 25, 30, 35],
'learning_rate': [0.01, 0.02, 0.05, 0.1, 0.15],
'feature_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],
'bagging_fraction': [0.6, 0.7, 0.8, 0.9, 0.95],
'bagging_freq': [2, 4, 5, 6, 8],
'lambda_l1': [0, 0.1, 0.4, 0.5, 0.6],
'lambda_l2': [0, 10, 15, 35, 40],
'cat_smooth': [1, 10, 15, 20, 35]
gbm = LGBMClassifier(max_depth=3,
learning_rate=0.1,
n_estimators=200,
objective='multiclass',
num_class=3,
booster='gbtree',
min_child_weight=2,
subsample=0.8,
colsample_bytree=0.8,
reg_alpha=0,
reg_lambda=1,
seed=0
gsearch = GridSearchCV(gbm, param_grid=parameters, scoring='accuracy', cv=3)
gsearch.fit(train_x, train_y)
print("Best score: %0.3f" % gsearch.best_score_)
print("Best parameters set:")
best_parameters = gsearch.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
print("\t%s: %r" % (param_name, best_parameters[param_name]))
参考文章:
Parameters
lightgbm.LGBMClassifier
lightgbm.LGBMRegressor
LightGBM核心解析与调参
文章目录一、LightGBM 原生接口重要参数训练参数预测方法绘制特征重要性分类例子回归例子二、LightGBM 的 sklearn 风格接口LGBMClassifier基本使用例子LGBMRegressor基本使用例子三、LightGBM 调参思路四、参数网格搜索与 xgboost 类似,LightGBM包含原生接口和 sklearn 风格接口两种,并且二者都实现了分类和回归的功能。如果想了解一些理论性的内容,可以看看之前的文章:LightGBM 相关知识理解一、LightGBM 原生接口重要参数
lightGBM可以用来解决大多数表格数据问题的
算法。有很多很棒的功能,并且在kaggle这种该数据比赛中会经常使用。
但我一直对了解哪些
参数对性能的影响最大以及我应该如何调优
lightGBM参数以最大限度地利用它很感兴趣。
我想我应该做一些研究,了解更多关于
lightGBM的
参数…并分享我的旅程。
我希望读完这篇文章后,你能回答以下问题:
LightGBM中实现了哪些梯度增强
方法,它们有什么区别?
一般来说,哪些
参数是
重要的?
哪些正则化
参数需要调整?
如何调整
lightGBM参数在
python?
LightGBM的
参数详解以及如何调优_deephub-CSDN博客_
lightgbm 参数
lightGBM可以用来解决大多数表格数据问题的
算法。有很多很棒的功能,并且在kaggle这种该数据比赛中会经常使用。
但我一直对了解哪些
参数对性能的影响最大以及我应该如何调优
lightGBM参数以最大限度地利用它很感兴趣。
我想我应该做一些研究,了解更多关于
lightGBM的
参数…并分享我的旅程。
我希望读完这篇文章后,你能回答以下问题:
LightGBM中实现了哪些梯度增强
方法,它们有什么区别?
# use bayes_opt
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score,KFold
from bayes_opt import BayesianOptimization
import numpy as np
# 产生随机分类数据集,10个特征,
lightgbm是xgboost的加强升级版.
LightGBM=XGBoost+Histogram+GOSS+EFB
其中,Histogram算法是直方图算法,作用:减少后选分类点的算法
GOSS是基于梯度的单边采样算法,作用减少样本数量
EFB算法是互斥特征捆绑算法,作用是减少特征数量
基于以上三个算法,LightGBM生产一片叶子需要的复杂度大大降低了,从而极大节约了计算时间。同时Histogram算法还将特征浮点数转换成0~255位的证书进行存储,从而集打节约了内存存储空间。
代码举例:
impor
参考:lgbm的github:
https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst
代码来源参见我另一篇博客:
https://blog.csdn.net/ssswill/article/details/85217702
网格搜索寻找超参数:
from sklearn.model_selection impor...
参考:https://www.freesion.com/article/76441004344/#LightGBM__sklearn__329
https://blog.csdn.net/qq_39777550/article/details/109277937
LightGBM的优点
lightgbm是xgboost的加强升级版.
LightGBM=XGBoost+Histogram+GOSS+EFB
其中,Histogram算法是直方图算法,作用:减少后选分类点的算法
GOSS是基于梯度的单边采样算法
文章目录lightgbm use_and_tuningusedata interface设置参数训练、预测tuning**ref:****note:**针对 Leaf-wise (最佳优先) 树的参数优化针对更快的训练速度针对更好的准确率处理过拟合
lightgbm use_and_tuning
zh_doc python包的相关介绍
data interface
LightGBM Python 模块能够使用以下几种方式来加载数据:
libsvm/tsv/csv txt format file(l
在kaggle比赛中,经常需要提交log loss,对数损失是经常用到的一个评价指标。其定义为给定概率分类器预测的真实
标签的负对数似然率。
每一个样本的对数损失就是在给定真实样本标签的条件下,分类器的负对数似然函数:
-log P(yt|yp) = -(yt log(yp) + (1 - yt) log(1 - yp))
当某个样本的真实标签y=1时,loss=-log
海棠听风~:
【CTR模型】TensorFlow2.0 的 DCN(Deep & Cross Network) 实现与实战(附代码+数据)
ObitoZZ: