Các tham số tối ưu cho phân loại Rừng ngẫu nhiên là gì?


14

Hiện tại tôi đang sử dụng hộp công cụ RF trên MATLAB cho một vấn đề phân loại nhị phân

Tập dữ liệu: 50000 mẫu và hơn 250 tính năng

Vì vậy, số lượng cây và tính năng được chọn ngẫu nhiên trên mỗi phân chia để trồng cây là gì? bất kỳ tham số khác có thể ảnh hưởng lớn đến kết quả?

Câu trả lời:


8

250logMlog2

Tôi muốn nói rằng xác thực chéo thường là chìa khóa để tìm các tham số tối ưu, nhưng tôi không biết đủ về các khu rừng ngẫu nhiên.


Breiman đã sử dụng 1+đăng nhập2Mđặc trưng. Tôi đang để lại nhận xét ở đây, vì liên kết của bạn không hoạt động :)
Antoine

Cảm ơn, tôi đã cập nhật các liên kết. Bây giờ, nó là trực tiếp đến Berkeley.
Chảo

12

Số cây càng to thì càng tốt. Bạn gần như không thể vượt quá với tham số này, nhưng tất nhiên giới hạn trên phụ thuộc vào thời gian tính toán bạn muốn dành cho RF.
Ý tưởng tốt là tạo một khu rừng dài trước và sau đó xem (tôi hy vọng nó có sẵn trong triển khai MATLAB) khi độ chính xác của OOB hội tụ.

Số thuộc tính đã thử mặc định là căn bậc hai của toàn bộ số thuộc tính, nhưng thông thường, khu rừng không nhạy cảm lắm về giá trị của tham số này - thực tế nó hiếm khi được tối ưu hóa, đặc biệt là vì khía cạnh ngẫu nhiên của RF có thể đưa ra các biến thể lớn hơn.


7

Số cây càng to thì càng tốt: đồng ý.

Số lượng thuộc tính đã thử sẽ phụ thuộc. Nếu bạn đã có một số ưu tiên về cách thông tin lan truyền hoặc không trong số các tính năng. Nếu thông tin được chia sẻ bởi nhiều tính năng, kết quả tốt hơn sẽ đưa ra giá trị nhỏ hơn của tham số đó. Mặt khác, nếu chỉ có một vài tính năng mang thông tin, bạn nên sử dụng các giá trị lớn hơn. Nói cách khác, với nhiều biến có liên quan: giá trị nhỏ hơn sẽ tốt hơn và với nhiều biến không liên quan: giá trị lớn hơn sẽ tốt hơn.


1
Trong khi yêu cầu của bạn về số lượng thuộc tính đã thử có ý nghĩa, bạn có trích dẫn cho điều này không?
James Owers

Tôi khuyên bạn nên đọc luận án này: github.com/glouppe/phd-thesis cũng như bài này: orbi.ulg.ac.be/handle/2268/25737
0asa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.