Sử dụng LASSO trên rừng ngẫu nhiên


14

Tôi muốn tạo một khu rừng ngẫu nhiên bằng quy trình sau:

  • Xây dựng cây trên một mẫu ngẫu nhiên của dữ liệu và tính năng bằng cách sử dụng thông tin để xác định phân tách
  • Chấm dứt một nút lá nếu vượt quá độ sâu được xác định trước HOẶC bất kỳ sự phân tách nào sẽ dẫn đến số lượng lá nhỏ hơn mức tối thiểu được xác định trước
  • Thay vì chỉ định nhãn lớp cho mỗi cây, hãy gán tỷ lệ các lớp trong nút lá
  • Dừng xây dựng cây sau khi một số được xác định trước đã được xây dựng

Điều này mang lại quá trình rừng ngẫu nhiên truyền thống theo hai cách. Một, nó sử dụng các cây được cắt tỉa để gán tỷ lệ thay vì nhãn lớp. Và hai, tiêu chí dừng là số lượng cây được xác định trước chứ không phải là một số ước tính lỗi ngoài túi.

Câu hỏi của tôi là:

Đối với quá trình trên mà kết quả đầu ra N cây, có thể tôi sau đó phù hợp với một mô hình sử dụng logistic hồi quy với lựa chọn Lasso? Có ai có kinh nghiệm phù hợp với trình phân loại Rừng ngẫu nhiên và xử lý hậu kỳ với LASSO hậu cần không?

Khung ISLE đề cập đến việc sử dụng LASSO như một bước xử lý hậu kỳ cho các vấn đề hồi quy nhưng không phải là vấn đề phân loại. Hơn nữa, tôi không nhận được bất kỳ kết quả hữu ích nào khi googling "Lasso rừng ngẫu nhiên".


Lasso rất giỏi trong việc tìm kiếm / cân các tính năng hữu ích khi có nhiều chất lượng khác nhau. Các cây riêng lẻ trong rừng của bạn có thể sẽ không tốt hơn hoặc kém hơn các cây khác, vì vậy tôi không nghĩ rằng Lasso sẽ giúp bạn nhiều.
rrenaud

Bằng cách lấy mẫu một phần nhỏ mà không thay thế và giới hạn độ sâu của cây, sự đa dạng lớn hơn được giới thiệu vì vậy tôi nghĩ rằng một số hình thức chính quy được bảo hành.
Zelazny7

Bạn có thể cụ thể hơn về cách bạn dự định phù hợp với mô hình logistic không? Chính xác các biến dự đoán là gì? Ngoài ra - động lực của bạn để xử lý hậu kỳ là gì? Nếu bạn đang cố gắng thực hiện lựa chọn biến, có những phương pháp khác để xem xét.
Alex Williams

Bằng cách xuất ra các dự đoán của mỗi cây, một bộ dữ liệu dự đoán mới được tạo ra. Bộ dữ liệu này có thể được sử dụng trong hồi quy LASSO để đi đến sự kết hợp thưa thớt của các dự đoán cây. Động lực là sản xuất các mô hình ngắn gọn hơn và chạy nhanh hơn trong sản xuất.
Zelazny7

Gần đây tôi đã gặp phải những vấn đề tương tự và tôi đã tìm thấy trong bài báo gốc của Friedman rằng ông đã thiết kế một hàm mất đặc biệt cho các vấn đề phân loại nhị phân. Hy vọng rằng sẽ hữu ích. Bên cạnh đó, bạn có ý tưởng nào về cách mở rộng nó sang các vấn đề phân loại đa lớp không? Hoặc cách tiếp cận của bạn đối với các vấn đề phân loại nhiều lớp?
Quan

Câu trả lời:


5

Điều này nghe có vẻ giống như tăng cường cây dốc. Ý tưởng của việc thúc đẩy là tìm ra sự kết hợp tuyến tính tốt nhất của một lớp các mô hình. Nếu chúng ta khớp một cây với dữ liệu, chúng ta đang cố gắng tìm cây giải thích rõ nhất biến kết quả. Thay vào đó, nếu chúng ta sử dụng boosting, chúng ta đang cố gắng tìm ra sự kết hợp tuyến tính tốt nhất của cây.

Tuy nhiên, sử dụng boosting chúng tôi hiệu quả hơn một chút vì chúng tôi không có bộ sưu tập cây ngẫu nhiên, nhưng chúng tôi cố gắng xây dựng những cây mới hoạt động dựa trên các ví dụ mà chúng tôi chưa thể dự đoán tốt.

Để biết thêm về điều này, tôi khuyên bạn nên đọc chương 10 về các yếu tố của học thống kê: http://statweb.stanford.edu/~tibs/ElemStatLearn/

Mặc dù đây không phải là câu trả lời hoàn chỉnh cho câu hỏi của bạn, tôi hy vọng nó có ích.


3
Cảm ơn. Vì ban đầu tôi đã đăng câu hỏi này nên tôi đã trở nên rất quen thuộc với gói GBM của R. Quá trình của tôi bây giờ liên quan đến việc xây dựng mô hình GBM gồm 10.000 cây và sau đó chạy tất cả 10.000 cây thông qua GLMnet để thực hiện hồi quy LASSO trên cây. Điều này dẫn đến một mô hình GBM được nén với hiệu suất ít hoặc không giảm (đôi khi là tăng).
Zelazny7

@ Zelazny7 Điều gì về việc giữ dữ liệu thử nghiệm / dữ liệu khó khăn Liệu nó có dự đoán tốt không?
Josh

Có, tất cả các thử nghiệm của tôi đều được thực hiện mà không thông báo cho sự phát triển dưới bất kỳ hình thức nào. Hiệu suất không suy giảm trong hầu hết các trường hợp. Đôi khi nó là một chút tồi tệ, đôi khi nó thậm chí còn cải thiện.
Zelazny7

1
@ Zelazny7 Tôi cũng đạt được quy trình tương tự (ở công việc cuối cùng của tôi), với cùng kinh nghiệm.
Matthew Drury

Bạn phải tiếp tục với một cái gì đó ... Bản thân Hastie đề xuất các cây xử lý hậu kỳ từ rừng ngẫu nhiên hoặc tăng cường sử dụng LASSO. Ông đã đề cập là trong video này lúc 30:10.
Jonathan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.