Câu trả lời:
Tôi muốn nói rằng xác thực chéo thường là chìa khóa để tìm các tham số tối ưu, nhưng tôi không biết đủ về các khu rừng ngẫu nhiên.
Số cây càng to thì càng tốt. Bạn gần như không thể vượt quá với tham số này, nhưng tất nhiên giới hạn trên phụ thuộc vào thời gian tính toán bạn muốn dành cho RF.
Ý tưởng tốt là tạo một khu rừng dài trước và sau đó xem (tôi hy vọng nó có sẵn trong triển khai MATLAB) khi độ chính xác của OOB hội tụ.
Số thuộc tính đã thử mặc định là căn bậc hai của toàn bộ số thuộc tính, nhưng thông thường, khu rừng không nhạy cảm lắm về giá trị của tham số này - thực tế nó hiếm khi được tối ưu hóa, đặc biệt là vì khía cạnh ngẫu nhiên của RF có thể đưa ra các biến thể lớn hơn.
Số cây càng to thì càng tốt: đồng ý.
Số lượng thuộc tính đã thử sẽ phụ thuộc. Nếu bạn đã có một số ưu tiên về cách thông tin lan truyền hoặc không trong số các tính năng. Nếu thông tin được chia sẻ bởi nhiều tính năng, kết quả tốt hơn sẽ đưa ra giá trị nhỏ hơn của tham số đó. Mặt khác, nếu chỉ có một vài tính năng mang thông tin, bạn nên sử dụng các giá trị lớn hơn. Nói cách khác, với nhiều biến có liên quan: giá trị nhỏ hơn sẽ tốt hơn và với nhiều biến không liên quan: giá trị lớn hơn sẽ tốt hơn.