Tôi muốn biết tham số n.minobsinnode có nghĩa là gì trong gói GBM. Tôi đọc hướng dẫn, nhưng không rõ nó làm gì. Con số đó nên nhỏ hay lớn để cải thiện kết quả?
Tôi muốn biết tham số n.minobsinnode có nghĩa là gì trong gói GBM. Tôi đọc hướng dẫn, nhưng không rõ nó làm gì. Con số đó nên nhỏ hay lớn để cải thiện kết quả?
Câu trả lời:
Ở mỗi bước của thuật toán GBM, một cây quyết định mới được xây dựng. Câu hỏi khi trồng cây quyết định là 'khi nào nên dừng lại?'. Việc xa nhất bạn có thể đi là phân chia từng nút cho đến khi chỉ có 1 quan sát trong mỗi nút thiết bị đầu cuối. Điều này sẽ tương ứng với n.minobsinnode = 1. Ngoài ra, việc phân chia các nút có thể chấm dứt khi một số lượng quan sát nhất định ở mỗi nút. Mặc định cho gói R GBM là 10.
Giá trị tốt nhất để sử dụng là gì? Nó phụ thuộc vào tập dữ liệu và liệu bạn đang thực hiện phân loại hay hồi quy. Vì dự đoán của mỗi cây được lấy là trung bình của biến phụ thuộc của tất cả các đầu vào trong nút đầu cuối, nên giá trị 1 có thể sẽ không hoạt động tốt cho hồi quy (!) Nhưng có thể phù hợp để phân loại.
Giá trị cao hơn có nghĩa là cây nhỏ hơn để làm cho thuật toán chạy nhanh hơn và sử dụng ít bộ nhớ hơn, đây có thể là một điều cần cân nhắc.
Nói chung, các kết quả không nhạy cảm lắm với tham số này và do tính chất ngẫu nhiên của hiệu suất GBM, thực sự có thể khó xác định chính xác giá trị nào là 'tốt nhất'. Độ sâu tương tác, độ co ngót và số lượng cây nói chung sẽ có ý nghĩa hơn nhiều.