Giới hạn đối với các phương pháp tập hợp dựa trên cây trong các vấn đề nhỏ n, p lớn?


10

Các phương pháp tập hợp dựa trên cây như Rừng ngẫu nhiên và các dẫn xuất tiếp theo (ví dụ, rừng có điều kiện), tất cả các mục đích đều hữu ích trong các vấn đề được gọi là "nhỏ n , p lớn ", để xác định tầm quan trọng của biến tương đối. Thật vậy, điều này dường như là trường hợp, nhưng câu hỏi của tôi là khả năng này có thể được thực hiện bao xa? Một người có thể có, nói 30 quan sát và 100 biến? Điểm đột phá của một cách tiếp cận như vậy là gì, và có bất kỳ quy tắc ngón tay cái nào tồn tại? Tôi thích và sẽ chấp nhận câu trả lời được hỗ trợ bởi các liên kết đến bằng chứng thực tế (không phải phỏng đoán), bằng cách sử dụng bộ dữ liệu mô phỏng hoặc dữ liệu thực. Tôi đã không tìm thấy nhiều về sau này ( ở đâyở đây), vì vậy những suy nghĩ / lời khuyên của bạn / (về chủ đề) đề xuất tham khảo được hoan nghênh nhất!

Câu trả lời:


3

Tôi nghi ngờ sẽ không có câu trả lời dứt khoát cho câu hỏi này cho đến khi một số nghiên cứu mô phỏng được tiến hành. Trong thời gian đó, tôi tìm thấy Rừng ngẫu nhiên của Genuer và cộng sự : một số hiểu biết về phương pháp đã giúp đưa ra một số quan điểm cho câu hỏi này, ít nhất là về mặt kiểm tra RF đối với nhiều bộ dữ liệu "thấp n, cao p". Một vài trong số các bộ dữ liệu này có> 5000 dự đoán và <100 quan sát !!


3

Chế độ thất bại bạn sẽ gặp là, với đủ các tính năng ngẫu nhiên, sẽ tồn tại các tính năng liên quan đến mục tiêu trong các mẫu được đóng gói được sử dụng cho mỗi cây nhưng không nằm trong bộ dữ liệu lớn hơn. Một vấn đề tương tự như đã thấy trong nhiều thử nghiệm.

Quy tắc ngón tay cái cho điều này rất khó phát triển vì điểm chính xác mà điều này xảy ra phụ thuộc vào mức độ nhiễu và cường độ của tín hiệu trong dữ liệu. Ngoài ra còn tồn tại các phương thức giải quyết vấn đề này bằng cách sử dụng nhiều giá trị p đã hiệu chỉnh thử nghiệm làm tiêu chí phân tách, thực hiện bước chọn tính năng dựa trên mức độ quan trọng khác nhau và / hoặc so sánh các tính năng quan trọng với các tính năng tương phản nhân tạo được tạo ra bằng cách sử dụng ngẫu nhiên tính năng thực tế, sử dụng hết trường hợp túi để xác nhận lựa chọn phân chia và các phương pháp khác. Đây có thể là cực kỳ hiệu quả.

Tôi đã sử dụng các khu rừng ngẫu nhiên (bao gồm một số chỉnh sửa phương pháp ở trên) trên các tập dữ liệu với ~ 1000 trường hợp và 30.000-1.000.000 tính năng. (Tập dữ liệu trong di truyền học của con người với mức độ lựa chọn tính năng hoặc kỹ thuật khác nhau). Chúng chắc chắn có thể có hiệu quả trong việc khôi phục tín hiệu mạnh (hoặc hiệu ứng bó) trong dữ liệu đó nhưng không kết hợp tốt một thứ gì đó giống như một căn bệnh có nguyên nhân không đồng nhất khi lượng biến đổi ngẫu nhiên vượt qua từng tín hiệu


0

Nó cũng sẽ phụ thuộc vào tín hiệu và tiếng ồn trong dữ liệu của bạn. Nếu biến phụ thuộc của bạn được giải thích khá tốt bởi sự kết hợp của các biến trong mô hình của bạn hơn tôi nghĩ bạn có thể thoát khỏi với tỷ lệ n / p thấp hơn.

Tôi nghi ngờ một số lượng tối thiểu n tuyệt đối cũng sẽ được yêu cầu để có được một mô hình phong nha ngoài tỷ lệ.

Một cách để xem xét đó là mỗi cây được xây dựng bằng cách sử dụng khoảng biến SQRT (p) và nếu số đó lớn và số điểm là cây nhỏ có thể được trang bị mà không thực sự có mô hình thực sự ở đó. Do đó rất nhiều cây được trang bị quá mức như vậy sẽ cho tầm quan trọng của biến sai.

Thông thường nếu trong biểu đồ mức độ quan trọng của biến, tôi thấy rất nhiều biến số hàng đầu với mức độ quan trọng gần như giống nhau, tôi kết luận rằng nó chỉ mang lại cho tôi tiếng ồn.


Trường hợp SQRT (p) đến từ đâu?
LauriK

Trong RandomForest, mỗi cây được xây dựng bằng cách sử dụng một mẫu các biến. Theo mặc định (ít nhất trong gói R RandomForest), giá trị mà nó nhận được là số gần nhất nhỏ hơn hoặc bằng SQRT (p) trong đó p là số cột.
DeepakML
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.