Như tôi đã tăng số lượng cây trong scikit học 's GradientBoostingRegressor
, tôi nhận được những dự đoán tiêu cực hơn, mặc dù không có giá trị tiêu cực trong đào tạo hoặc kiểm tra thiết lập của tôi. Tôi có khoảng 10 tính năng, hầu hết là nhị phân.
Một số tham số mà tôi đã điều chỉnh là:
- số lượng cây / lần lặp;
- học sâu;
- và tỷ lệ học tập.
Tỷ lệ phần trăm của các giá trị âm dường như tối đa ở mức ~ 2%. Độ sâu học tập của 1 (gốc cây) dường như có% giá trị âm lớn nhất. Tỷ lệ này dường như cũng tăng lên với nhiều cây hơn và tỷ lệ học tập nhỏ hơn. Bộ dữ liệu là từ một trong những cuộc thi sân chơi kaggle.
Mã của tôi là một cái gì đó như:
from sklearn.ensemble import GradientBoostingRegressor
X_train, X_test, y_train, y_test = train_test_split(X, y)
reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01)
reg.fit(X_train, y_train)
ypred = reg.predict(X_test)