Tôi đang áp dụng thuật toán rừng ngẫu nhiên làm phân loại trên bộ dữ liệu microarray được chia thành hai nhóm được biết đến với 1000 tính năng. Sau lần chạy đầu tiên, tôi xem xét tầm quan trọng của các tính năng và chạy lại thuật toán cây với các tính năng quan trọng nhất 5, 10 và 20. Tôi thấy rằng đối với tất cả các tính năng, top 10 và 20 ước tính tỷ lệ lỗi của OOB là 1,19% trong khi đối với 5 tính năng hàng đầu thì nó là 0%. Điều này có vẻ phản trực giác đối với tôi, vì vậy tôi đã tự hỏi liệu bạn có thể giải thích liệu tôi đang thiếu thứ gì đó hay tôi đang sử dụng sai số liệu.
Tôi sử dụng gói RandomForest trong R với ntree = 1000, odesize = 1 và mtry = sqrt (n)