Việc triển khai RandomForest không cho phép lấy mẫu vượt quá số lượng quan sát, ngay cả khi lấy mẫu bằng thay thế. Tại sao lại thế này?
Hoạt động tốt:
rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE)
rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE)
Những gì tôi muốn làm:
rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE)
Error in randomForest.default(m, y, ...) :
sampsize can not be larger than class frequency
Lỗi tương tự không có mẫu phân tầng:
rf <- randomForest(Species ~ ., iris, sampsize=151, replace=TRUE)
Error in randomForest.default(m, y, ...) : sampsize too large
Vì tôi đã mong đợi phương thức lấy mẫu bootstrap khi được thay thế = TRUE trong cả hai trường hợp, tôi không mong đợi giới hạn này.
Mục tiêu của tôi là sử dụng điều này với tùy chọn lấy mẫu phân tầng, để vẽ một mẫu đủ lớn từ một lớp tương đối hiếm.