Trong một khu rừng ngẫu nhiên,% IncMSE lớn hơn tốt hơn hay xấu hơn?


17

Khi tôi đã xây dựng mô hình rừng ngẫu nhiên (hồi quy) trong R, cuộc gọi rf$importancecung cấp cho tôi hai biện pháp cho mỗi biến dự đoán %IncMSEIncNodePurity. Là sự giải thích rằng các biến dự đoán có %IncMSEgiá trị nhỏ hơn quan trọng hơn các biến dự đoán có %IncMSEgiá trị lớn hơn ?

Còn về IncNodePurity?

Câu trả lời:


29

% IncMSE là biện pháp mạnh mẽ và nhiều thông tin nhất. Đó là sự gia tăng của các dự đoán (ước tính với túi ngoài CV) do kết quả của biến j được hoán vị (các giá trị được xáo trộn ngẫu nhiên).

  1. trồng rừng hồi quy. Tính toán OOB-mse, đặt tên này là mse0.
  2. cho 1 đến j var: hoán vị các giá trị của cột j, sau đó dự đoán và tính toán OOB-mse (j)
  3. % IncMSE của j'th là (mse (j) -mse0) / mse0 * 100%

số càng cao, càng quan trọng

IncNodePurity liên quan đến chức năng mất mà phân chia tốt nhất được chọn. Hàm mất là mse cho hồi quy và tạp chất gini để phân loại. Các biến hữu ích hơn đạt được mức tăng cao hơn về độ tinh khiết của nút, đó là tìm một phân chia có nút 'phương sai' cao và nút nhỏ 'phương sai'. IncNodePurity bị sai lệch và chỉ nên được sử dụng nếu thời gian tính toán thêm của tính toán% IncMSE là không thể chấp nhận được. Vì chỉ mất ~ 5-25% thời gian để tính% IncMSE, điều này gần như không bao giờ xảy ra.

Một câu hỏi và câu trả lời tương tự

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.