Chủ đề cũ, nhưng tôi không đồng ý với một tuyên bố về chăn rằng cộng tuyến không phải là vấn đề với các mô hình rừng ngẫu nhiên. Khi tập dữ liệu có hai (hoặc nhiều) tính năng tương quan, sau đó theo quan điểm của mô hình, bất kỳ tính năng tương quan nào cũng có thể được sử dụng làm công cụ dự đoán, không có ưu tiên cụ thể nào so với các tính năng khác.
Tuy nhiên, một khi chúng được sử dụng, tầm quan trọng của những thứ khác sẽ giảm đáng kể vì hiệu quả của tạp chất mà chúng có thể loại bỏ đã bị loại bỏ bởi tính năng đầu tiên.
Kết quả là, họ sẽ có tầm quan trọng được báo cáo thấp hơn. Đây không phải là vấn đề khi chúng tôi muốn sử dụng lựa chọn tính năng để giảm tình trạng thừa, vì việc loại bỏ các tính năng hầu hết bị trùng lặp bởi các tính năng khác, nhưng khi diễn giải dữ liệu , có thể dẫn đến kết luận không chính xác rằng một trong các biến là một yếu tố dự báo mạnh mẽ trong khi những người khác trong cùng nhóm là không quan trọng, trong khi thực tế họ rất gần gũi về mối quan hệ của họ với biến trả lời.
Hiệu ứng của hiện tượng này có phần giảm đi nhờ lựa chọn ngẫu nhiên các tính năng tại mỗi lần tạo nút, nhưng nói chung, hiệu ứng này không bị loại bỏ hoàn toàn.
Trên đây chủ yếu là giường cũi từ đây: Chọn các tính năng tốt
multicollinearity
KHÔNG có ảnh hưởng đến mô hình rừng ngẫu nhiên. Ví dụ, ở đây , câu trả lời được đánh giá cao nhất nói rằng "không có phần nào của mô hình rừng ngẫu nhiên bị tổn hại bởi các biến cộng tuyến cao". Điều này có bất kỳ giá trị?