Các biện pháp quan trọng khác nhau trong rừng ngẫu nhiên


40

Tôi đã chơi xung quanh với các khu rừng ngẫu nhiên để hồi quy và đang gặp khó khăn trong việc tìm ra chính xác hai biện pháp quan trọng có nghĩa là gì và chúng nên được giải thích như thế nào.

Các importance()chức năng cung cấp cho hai giá trị cho mỗi biến: %IncMSEIncNodePurity. Có giải thích đơn giản cho 2 giá trị này?

Đối với IncNodePurityđặc biệt là này chỉ đơn giản là số tiền tăng RSS sau việc loại bỏ các biến đó?


1
Bạn đã nhìn ?importancechưa Có một lời giải thích về ý nghĩa của cả hai biện pháp ...
Nick Sabbe

2
@Nick Sabbe, tôi có, và đang cố quấn đầu quanh họ. Tôi đã tự hỏi nếu có bất kỳ giải thích trực quan tốt đẹp cho họ.
dcl

Câu trả lời:


42

Cái đầu tiên có thể được 'diễn giải' như sau: nếu một yếu tố dự đoán quan trọng trong mô hình hiện tại của bạn, thì việc gán các giá trị khác cho dự đoán đó một cách ngẫu nhiên nhưng 'thực tế' (nghĩa là: cho phép các giá trị của dự đoán này vào tập dữ liệu của bạn), sẽ có ảnh hưởng tiêu cực về dự đoán, nghĩa là: sử dụng cùng một mô hình để dự đoán từ dữ liệu giống nhau ngoại trừ một biến, sẽ đưa ra dự đoán tồi tệ hơn.

Vì vậy, bạn thực hiện một biện pháp dự đoán (MSE) với bộ dữ liệu ban đầu và sau đó với bộ dữ liệu 'được thẩm thấu' và bạn so sánh chúng bằng cách nào đó. Một cách, đặc biệt là vì chúng tôi hy vọng MSE ban đầu luôn nhỏ hơn, sự khác biệt có thể được thực hiện. Cuối cùng, để làm cho các giá trị có thể so sánh được với các biến, chúng được chia tỷ lệ.

Đối với cách thứ hai: tại mỗi lần phân tách, bạn có thể tính toán mức phân chia này làm giảm tạp chất nút (đối với cây hồi quy, thực sự, sự khác biệt giữa RSS trước và sau khi phân tách). Điều này được tổng hợp trên tất cả các phân chia cho biến đó, trên tất cả các cây.

Lưu ý: một bài đọc tốt là Các yếu tố của việc học thống kê của Hastie, Tibshirani và Friedman ...


3
Chúc mừng, tôi thực sự đã mở cuốn sách đó ngay bây giờ :)
dcl

RSS có nghĩa là gì?
DavideChicco.it


10

Các số liệu về tầm quan trọng của Rừng ngẫu nhiên được triển khai trong gói RandomForest trong R có các điểm kỳ lạ trong đó các yếu tố dự đoán tương quan có giá trị quan trọng thấp.

http://bioinformatics.oxfordjournals.org/content/early/2010/04/12/bioinformatics.btq134.full.pdf

Tôi đã triển khai sửa đổi các khu rừng ngẫu nhiên trên CRAN, thực hiện phương pháp ước tính giá trị p thực nghiệm và tỷ lệ phát hiện sai của họ ở đây

http://cran.r-project.org/web/packages/pRF/index.html


1
Điều này có giải thích đầu ra khác nhau về tầm quan trọng của biến nếu bạn sử dụng RandomForest với gói caret như thế nào không caret::train(method="rf", importance = TRUE, ...)??
Đậu Agile
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.