Các biến tương quan cao trong độ chính xác của rừng ngẫu nhiên và lựa chọn tính năng?


32

Theo hiểu biết của tôi, các biến tương quan cao sẽ không gây ra các vấn đề đa cộng tuyến trong mô hình rừng ngẫu nhiên (Vui lòng sửa lại cho tôi nếu tôi sai). Tuy nhiên, theo một cách khác, nếu tôi có quá nhiều biến chứa thông tin tương tự, liệu mô hình có quá nhiều trọng lượng trên tập hợp này hơn là các biến khác không?

Ví dụ, có hai bộ thông tin (A, B) có cùng khả năng dự đoán. Biến , X 2 , ... X 1000 đều chứa thông tin A và chỉ Y chứa thông tin B. Khi các biến lấy mẫu ngẫu nhiên, hầu hết các cây sẽ phát triển dựa trên thông tin A và kết quả là thông tin B không được ghi lại đầy đủ?X1X2X1000

Câu trả lời:


19

Điều đó là chính xác, nhưng do đó, trong hầu hết các mẫu phụ có sẵn biến Y, nó sẽ tạo ra sự phân chia tốt nhất có thể.

Bạn có thể cố gắng tăng mtry, để đảm bảo điều này xảy ra thường xuyên hơn.

Bạn có thể thử cắt tỉa tương quan đệ quy, lần lượt loại bỏ một trong hai biến có cùng tương quan cao nhất. Một ngưỡng hợp lý để ngăn chặn việc cắt tỉa này có thể là bất kỳ cặp tương quan (pearson) nào thấp hơn R2<.7

Bạn có thể thử cắt tỉa tầm quan trọng của biến đệ quy, lần lượt loại bỏ, ví dụ 20% với mức độ quan trọng của biến thấp nhất. Hãy thử ví dụ rfcv từ gói RandomForest.

Bạn có thể thử một số phân tách / tổng hợp các biến dư thừa của bạn.


3
Trong một số nguồn, tôi đã thấy multicollinearityKHÔNG có ảnh hưởng đến mô hình rừng ngẫu nhiên. Ví dụ, ở đây , câu trả lời được đánh giá cao nhất nói rằng "không có phần nào của mô hình rừng ngẫu nhiên bị tổn hại bởi các biến cộng tuyến cao". Điều này có bất kỳ giá trị?
Hunle

5
Tôi nghĩ rằng bạn đang đọc KHÔNG quá theo nghĩa đen. Các mô hình RF xử lý các biến tương quan / dự phòng khá tốt, vâng. Nhưng điều đó không có nghĩa là mô hình của bạn nhất thiết được hưởng lợi từ việc tích trữ các biến không liên quan hoặc hoàn toàn dư thừa (ví dụ như tái hợp tuyến tính), nó cũng không sụp đổ. Tôi chỉ ủng hộ lựa chọn biến khiêm tốn, để mong đợi sự cải thiện khiêm tốn của hiệu suất mô hình được xác thực chéo.
Soren Havelund Welling

24

Chủ đề cũ, nhưng tôi không đồng ý với một tuyên bố về chăn rằng cộng tuyến không phải là vấn đề với các mô hình rừng ngẫu nhiên. Khi tập dữ liệu có hai (hoặc nhiều) tính năng tương quan, sau đó theo quan điểm của mô hình, bất kỳ tính năng tương quan nào cũng có thể được sử dụng làm công cụ dự đoán, không có ưu tiên cụ thể nào so với các tính năng khác.

Tuy nhiên, một khi chúng được sử dụng, tầm quan trọng của những thứ khác sẽ giảm đáng kể vì hiệu quả của tạp chất mà chúng có thể loại bỏ đã bị loại bỏ bởi tính năng đầu tiên.

Kết quả là, họ sẽ có tầm quan trọng được báo cáo thấp hơn. Đây không phải là vấn đề khi chúng tôi muốn sử dụng lựa chọn tính năng để giảm tình trạng thừa, vì việc loại bỏ các tính năng hầu hết bị trùng lặp bởi các tính năng khác, nhưng khi diễn giải dữ liệu , có thể dẫn đến kết luận không chính xác rằng một trong các biến là một yếu tố dự báo mạnh mẽ trong khi những người khác trong cùng nhóm là không quan trọng, trong khi thực tế họ rất gần gũi về mối quan hệ của họ với biến trả lời.

Hiệu ứng của hiện tượng này có phần giảm đi nhờ lựa chọn ngẫu nhiên các tính năng tại mỗi lần tạo nút, nhưng nói chung, hiệu ứng này không bị loại bỏ hoàn toàn.

Trên đây chủ yếu là giường cũi từ đây: Chọn các tính năng tốt


3
Đây là bài viết của tôi để lựa chọn tính năng với RF, vì tầm quan trọng của biến thường được sử dụng như số liệu bmcbioinformatics.biomedcentral.com/articles/10.1186/. Từ hai năm trước, tôi đã trở nên nghi ngờ hơn về lựa chọn tính năng. -validation nếu không được thực hiện trong một vòng xác nhận chéo bên ngoài thích hợp. Nếu được thực hiện đúng cách, tôi thường không thấy hoặc chỉ tối ưu hóa hiệu suất dự đoán. Bây giờ tôi chủ yếu sử dụng lựa chọn tính năng để đơn giản hóa các máy dự đoán trong sản xuất hoặc để làm cho một mô hình cuối cùng minh bạch hơn.
Soren Havelund Welling

@SorenHavelundWelling - Bạn nói rằng "Lựa chọn tính năng mang lại xác thực chéo quá mức nếu không được thực hiện trong một vòng xác thực chéo bên ngoài thích hợp". Bạn có thể giải thích điều đó, hoặc tham khảo một nguồn giải thích điều đó? Nó đi ngược lại mọi thứ tôi đã đọc cho đến nay ...
Jack Fleeting

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.