Vai trò của tham số n.minobsinnode của GBM trong R [đã đóng]


21

Tôi muốn biết tham số n.minobsinnode có nghĩa là gì trong gói GBM. Tôi đọc hướng dẫn, nhưng không rõ nó làm gì. Con số đó nên nhỏ hay lớn để cải thiện kết quả?


9
"Câu hỏi này không có khả năng giúp bất kỳ du khách nào trong tương lai". Tôi là một khách truy cập trong tương lai và tôi thấy nó hữu ích.
Flounderer

1
Tôi cũng thấy nó hữu ích.
oaxacamatt

Câu trả lời:


25

Ở mỗi bước của thuật toán GBM, một cây quyết định mới được xây dựng. Câu hỏi khi trồng cây quyết định là 'khi nào nên dừng lại?'. Việc xa nhất bạn có thể đi là phân chia từng nút cho đến khi chỉ có 1 quan sát trong mỗi nút thiết bị đầu cuối. Điều này sẽ tương ứng với n.minobsinnode = 1. Ngoài ra, việc phân chia các nút có thể chấm dứt khi một số lượng quan sát nhất định ở mỗi nút. Mặc định cho gói R GBM là 10.

Giá trị tốt nhất để sử dụng là gì? Nó phụ thuộc vào tập dữ liệu và liệu bạn đang thực hiện phân loại hay hồi quy. Vì dự đoán của mỗi cây được lấy là trung bình của biến phụ thuộc của tất cả các đầu vào trong nút đầu cuối, nên giá trị 1 có thể sẽ không hoạt động tốt cho hồi quy (!) Nhưng có thể phù hợp để phân loại.

Giá trị cao hơn có nghĩa là cây nhỏ hơn để làm cho thuật toán chạy nhanh hơn và sử dụng ít bộ nhớ hơn, đây có thể là một điều cần cân nhắc.

Nói chung, các kết quả không nhạy cảm lắm với tham số này và do tính chất ngẫu nhiên của hiệu suất GBM, thực sự có thể khó xác định chính xác giá trị nào là 'tốt nhất'. Độ sâu tương tác, độ co ngót và số lượng cây nói chung sẽ có ý nghĩa hơn nhiều.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.