Random Forest có phù hợp với các tập dữ liệu rất nhỏ không?


13

Tôi có bộ dữ liệu bao gồm 24 hàng dữ liệu hàng tháng. Các tính năng là GDP, đến sân bay, tháng, và một vài thứ khác. Biến phụ thuộc là số lượng khách đến một điểm du lịch nổi tiếng. Rừng ngẫu nhiên sẽ thích hợp cho một vấn đề như vậy?

Dữ liệu không công khai nên tôi không thể đăng mẫu.


Thông thường, một hạn chế đối với rừng ngẫu nhiên là số lượng tính năng của bạn phải khá lớn - bước đầu tiên của RF là chọn các tính năng 1 / 3n hoặc sqrt (n) để xây dựng cây (tùy theo nhiệm vụ, hồi quy / phân loại). Vì vậy, nếu bạn có khá nhiều tính năng, hãy sử dụng RF ngay cả trên tập dữ liệu nhỏ - không có thuật toán nào hoạt động thực sự tốt trên các tập dữ liệu nhỏ để bạn không mất gì.
Đức Demidov

Bạn đang ở trong phạm vi thấp. RF sẽ hoạt động, nhưng có lẽ sẽ không học được nhiều thứ phức tạp hơn nhiều so với những gì bạn có thể nhận ra khi nhìn vào dữ liệu thô. Nó giúp, nếu dữ liệu của bạn là tiếng ồn rất thấp. Từ 40-50 mẫu nó bắt đầu tốt hơn. 500 tốt. 5000 tuyệt vời.
Soren Havelund Welling

đối với hồi quy, độ sâu của cây có thể bị giới hạn bởi minnode = 5, do đó, các mẫu của bạn trung bình sẽ không bị chia quá 2 lần [[24 -> (1) 12 -> (2) 6.]] Bao gồm giới hạn mtry, mô hình sẽ có một thời gian khó nắm bắt bất kỳ hiệu ứng tương tác hoặc thậm chí hiệu ứng phi tuyến tính đơn giản. Bạn có thể sử dụng minnode và mtry, nhưng bạn chỉ nên làm điều đó nếu dữ liệu của bạn thực tế ít nhiễu hơn. Tiềm năng trên các kết luận được trang bị sẽ là flipside. Cấu trúc mô hình bạn thu được sẽ trông giống như một hàm bước được làm nhẵn.
Soren Havelund Welling


Đối với tập dữ liệu nhỏ, sử dụng kỹ thuật Xác thực chéo. Để biết thêm thông tin, stats.stackexchange.com/questions/19048/ từ
Asif Khan

Câu trả lời:


4

Rừng ngẫu nhiên về cơ bản là thay đổi kích thước và đào tạo cây quyết định trên các mẫu, vì vậy câu trả lời cho câu hỏi của bạn cần giải quyết hai vấn đề đó.

Bootstrap resamplingkhông phải là một chữa bệnh cho mẫu nhỏ . Nếu bạn chỉ có hai mươi bốn quan sát trong tập dữ liệu của mình, thì mỗi mẫu được lấy thay thế từ dữ liệu này sẽ bao gồm không quá hai mươi bốn giá trị riêng biệt. Xáo trộn các trường hợp và không vẽ một số trong số chúng sẽ không thay đổi nhiều về khả năng của bạn để tìm hiểu bất cứ điều gì mới về phân phối cơ bản. Vì vậy, một mẫu nhỏ một vấn đề cho bootstrap.

Cây quyết định được đào tạo bằng cách phân chia dữ liệu có điều kiện trên các biến dự đoán, một biến tại một thời điểm, để tìm ra các mẫu con có sức mạnh phân biệt đối xử lớn nhất. Nếu bạn chỉ có hai mươi bốn trường hợp, thì hãy nói rằng nếu bạn may mắn và tất cả các phần tách đều có kích thước, thì với hai phần tách, bạn sẽ kết thúc với bốn nhóm sáu trường hợp, với phần tách cây, với tám nhóm ba phần. Nếu bạn tính toán phương tiện có điều kiện trên các mẫu (để dự đoán giá trị liên tục trong cây hồi quy hoặc xác suất có điều kiện trong cây quyết định), bạn sẽ chỉ dựa vào kết luận của mình trong vài trường hợp đó! Vì vậy, các mẫu phụ mà bạn sẽ sử dụng để đưa ra quyết định thậm chí còn nhỏ hơn dữ liệu ban đầu của bạn.

Với các mẫu nhỏ, thường là khôn ngoan khi sử dụng các phương pháp đơn giản . Hơn nữa, bạn có thể bắt kịp mẫu nhỏ bằng cách sử dụng các linh mục thông tin trong môi trường Bayes (nếu bạn có bất kỳ kiến ​​thức ngoài dữ liệu hợp lý nào về vấn đề này), vì vậy bạn có thể cân nhắc sử dụng một số mô hình Bayes phù hợp.


1

Một mặt, đây là một tập dữ liệu nhỏ và rừng ngẫu nhiên là dữ liệu đói.

Mặt khác, có lẽ một cái gì đó tốt hơn không có gì. Không có gì để nói hơn là "Hãy thử và xem." Bạn có thể quyết định liệu bất kỳ mô hình cụ thể nào là "tốt;" hơn nữa, chúng tôi không thể cho bạn biết liệu bất kỳ mô hình nào phù hợp cho một mục đích cụ thể (bạn cũng không muốn chúng tôi - chúng tôi sẽ không mất chi phí nếu chúng tôi sai!).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.