tính năng quan trọng thông qua rừng ngẫu nhiên và hồi quy tuyến tính là khác nhau


9

Áp dụng Lasso để xếp hạng các tính năng và nhận được kết quả sau:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Lưu ý rằng bộ dữ liệu có 3 nhãn. Xếp hạng của các tính năng cho các nhãn khác nhau là như nhau.

Sau đó, áp dụng rừng ngẫu nhiên vào cùng một tập dữ liệu:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Lưu ý rằng xếp hạng rất khác so với xếp hạng do Lasso sản xuất.

Làm thế nào để giải thích sự khác biệt? Liệu nó ngụ ý mô hình cơ bản vốn là phi tuyến?


Thứ hạng của một tính năng không thực sự dịch giữa các phân loại khác nhau. Để kiểm tra xem mô hình có phải là phi tuyến hay không, hãy xem tại đây, ví dụ: stats.stackexchange.com/questions353893/ợi
Alex R.

1
Các tính năng quan trọng chỉ là một gợi ý dựa trên "heuristic". Họ có thể không đáng tin cậy đôi khi. Tôi thường tin tưởng rừng ngẫu nhiên hơn Lasso.
Gerenuk

Câu trả lời:


6

Vì vậy, truy vấn của bạn là so sánh hồi quy tuyến tính với tầm quan trọng của các biến được lấy từ mô hình rừng ngẫu nhiên.

R2

Một cách tiếp cận phổ biến khác là tính trung bình theo thứ tự (LMG, 1980). LMG hoạt động như thế này:

  • SSmột/SStotmộttôiR2một
  • một,b,cb,một,cb,c,một
  • Tìm trung bình của các mối tương quan bán một phần cho mỗi đơn hàng này. Đây là mức trung bình trên thứ tự.

Thuật toán rừng ngẫu nhiên phù hợp với nhiều cây, mỗi cây trong rừng được xây dựng bằng cách chọn ngẫu nhiên các tính năng khác nhau từ bộ dữ liệu. Các nút của mỗi cây được xây dựng bằng cách chọn và tách để đạt được giảm phương sai tối đa. Trong khi dự đoán trên tập dữ liệu thử nghiệm, đầu ra của từng cây được lấy trung bình để có được đầu ra cuối cùng. Mỗi biến được hoán vị giữa tất cả các cây và sự khác biệt trong lỗi mẫu của trước và sau khi hoán vị được tính toán. Các biến có chênh lệch cao nhất được coi là quan trọng nhất và các biến có giá trị thấp hơn ít quan trọng hơn.

Phương pháp mà mô hình phù hợp với dữ liệu huấn luyện rất khác nhau đối với mô hình hồi quy tuyến tính so với mô hình rừng ngẫu nhiên. Nhưng cả hai mô hình không chứa bất kỳ mối quan hệ cấu trúc giữa các biến.

Về truy vấn của bạn về tính phi tuyến tính của biến phụ thuộc: Lasso về cơ bản là một mô hình tuyến tính sẽ không thể đưa ra dự đoán tốt cho các quy trình phi tuyến tính cơ bản, so với các mô hình dựa trên cây. Bạn sẽ có thể kiểm tra điều này bằng cách xác minh hiệu suất của các mô hình qua một bộ kiểm tra dành riêng, nếu rừng ngẫu nhiên hoạt động tốt hơn, quy trình cơ bản có thể không tuyến tính. Ngoài ra, bạn có thể bao gồm các hiệu ứng tương tác biến và các biến bậc cao hơn được tạo bằng a, b và c trong mô hình Lasso và xác minh xem mô hình này có hoạt động tốt hơn so với lasso chỉ với sự kết hợp tuyến tính của a, b và c. Nếu có, thì quá trình cơ bản có thể là phi tuyến tính.

Người giới thiệu:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.