Gói caret có thể giúp bạn tối ưu hóa lựa chọn tham số cho vấn đề của bạn. Họa tiết caretTrain cho thấy cách điều chỉnh các tham số gbm bằng cách sử dụng xác thực chéo lặp lại 10 lần - các phương pháp tối ưu hóa khác có sẵn, tất cả đều có thể chạy song song bằng cách sử dụng gói foreach. Sử dụng vignette("caretTrain", package="caret")
để đọc tài liệu.
Các gói phần mềm hỗ trợ điều chỉnh shrinkage
, n.trees
và interaction.depth
các thông số cho mô hình GBM, mặc dù bạn có thể thêm riêng bạn.
Đối với heuristic, đây là cách tiếp cận ban đầu của tôi:
shrinkage
: Nhỏ như bạn có thời gian cho (hướng dẫn gbm có nhiều hơn về điều này, nhưng nói chung bạn có thể không đi sai với giá trị nhỏ hơn). Tập dữ liệu của bạn nhỏ nên có thể tôi sẽ bắt đầu bằng 1e-3
n.trees
: Tôi thường phát triển một mô hình ban đầu thêm nhiều cây hơn cho đến khi gbm.perf
tôi nói rằng tôi có đủ (thực tế, thường là 1,2 lần giá trị đó) và sau đó sử dụng nó làm hướng dẫn để phân tích thêm.
interaction.depth
: bạn đã có một ý tưởng về điều này. Hãy thử các giá trị nhỏ hơn là tốt. Giá trị tối đa là sàn (sqrt (NCOL (dữ liệu)).
n.minobsinnode
: Tôi thấy nó thực sự quan trọng để điều chỉnh biến này. Bạn không muốn nó quá nhỏ đến mức thuật toán tìm thấy quá nhiều tính năng giả.