Câu hỏi của tôi: Tại sao rừng ngẫu nhiên xem xét các tập hợp con ngẫu nhiên của các tính năng để phân tách ở cấp nút trong mỗi cây thay vì ở cấp cây ?
Bối cảnh: Đây là một cái gì đó của một câu hỏi lịch sử. Tin Kam Ho đã xuất bản bài báo này về việc xây dựng "rừng quyết định" bằng cách chọn ngẫu nhiên một tập hợp các tính năng để sử dụng để trồng từng cây vào năm 1998. Vài năm sau, vào năm 2001, Leo Breiman đã xuất bản bài báo Rừng ngẫu nhiên , trong đó tập hợp tính năng là ngẫu nhiên được chọn tại mỗi nút trong mỗi cây, không phải ở mỗi cây. Trong khi Breiman trích dẫn Ho, ông không giải thích cụ thể việc chuyển từ lựa chọn tính năng ngẫu nhiên ở cấp độ cây sang cấp nút.
Tôi đang tự hỏi điều gì đặc biệt thúc đẩy sự phát triển này. Có vẻ như việc chọn tập hợp tính năng ở cấp độ cây vẫn sẽ hoàn thành việc giải mã mong muốn của cây.
Lý thuyết của tôi: Tôi chưa thấy điều này được khớp nối ở nơi khác, nhưng có vẻ như phương pháp không gian con ngẫu nhiên sẽ kém hiệu quả hơn về mặt ước tính tầm quan trọng của tính năng. Để có được ước tính về tầm quan trọng khác nhau, đối với mỗi cây, các tính năng được hoán vị ngẫu nhiên từng cái một và sự gia tăng phân loại sai hoặc tăng lỗi đối với các quan sát ngoài túi được ghi lại. Các biến mà phân loại sai hoặc tăng lỗi xuất phát từ hoán vị ngẫu nhiên này là cao là những biến có tầm quan trọng lớn nhất.
Nếu chúng ta sử dụng phương thức không gian con ngẫu nhiên, đối với mỗi cây, chúng ta chỉ xem xét của các tính năng p . Có thể mất vài cây để xem xét tất cả các dự đoán p dù chỉ một lần. Mặt khác, nếu chúng ta xem xét một tập hợp con m i khác nhau của các tính năng p tại mỗi nút , chúng tôi sẽ xem xét từng tính năng nhiều lần sau khi cây ít hơn, cho chúng ta một ước tính mạnh mẽ hơn về tầm quan trọng đặc trưng.
Những gì tôi đã xem xét cho đến nay: Cho đến nay, tôi đã đọc bài viết của Breiman và bài báo của Ho, và thực hiện một tìm kiếm trực tuyến rộng rãi để so sánh các phương pháp mà không tìm thấy câu trả lời dứt khoát. Lưu ý rằng một câu hỏi tương tự đã được hỏi trước đó. Câu hỏi này đi xa hơn một chút bằng cách bao gồm suy đoán / công việc của tôi hướng tới một giải pháp khả thi. Tôi sẽ quan tâm đến bất kỳ câu trả lời, trích dẫn có liên quan hoặc nghiên cứu mô phỏng so sánh hai phương pháp. Nếu không có gì sắp tới, tôi dự định chạy mô phỏng của riêng mình so sánh hai phương pháp.