Biến quan trọng ngẫu nhiên Giá trị âm


10

Tôi tự hỏi mình có nên loại bỏ các biến đó với giá trị quan trọng của biến âm ("% IncMSE") trong bối cảnh hồi quy hay không. Và nếu nó cho tôi một dự đoán tốt hơn? Bạn nghĩ sao?

Câu trả lời:


5

Tầm quan trọng thay đổi trong rừng ngẫu nhiên được tính như sau:

  1. Ban đầu, MSE của mô hình được tính toán với các biến ban đầu
  2. Sau đó, các giá trị của một cột được hoán vị và MSE được tính lại. Ví dụ: Nếu một cột (Col1) lấy các giá trị 1,2,3,4 và hoán vị ngẫu nhiên của các giá trị dẫn đến 4,3,1,2. Điều này dẫn đến một MSE1. Sau đó, sự gia tăng của MSE, tức là MSE1 - MSE, sẽ biểu thị tầm quan trọng của biến.

  3. Chúng tôi hy vọng sự khác biệt là tích cực, nhưng trong trường hợp số âm, nó biểu thị rằng hoán vị ngẫu nhiên hoạt động tốt hơn. Có thể suy ra rằng biến không có vai trò trong dự đoán, nghĩa là không quan trọng.

Hi vọng điêu nay co ich!

Vui lòng tham khảo các liên kết sau đây để được giải thích chi tiết!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean


3

Đây có thể chỉ là một biến động ngẫu nhiên (ví dụ nếu bạn có ntree nhỏ).

Nếu không, nó có thể cho thấy rằng bạn có một số nghịch lý nghiêm trọng trong dữ liệu của mình, tức là các cặp đối tượng có các yếu tố dự đoán gần như giống hệt nhau và kết quả rất khác nhau. Trong trường hợp này, tôi sẽ kiểm tra hai lần nếu mô hình thực sự có ý nghĩa và bắt đầu suy nghĩ làm thế nào tôi có thể nhận được nhiều thuộc tính hơn để giải quyết chúng.


2
Bạn có thể nói rõ hơn một chút về "nghịch lý trong dữ liệu" thêm một chút không? Tôi không hoàn toàn làm theo và muốn hiểu những gì bạn đang giải thích.
JEquihua
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.