Phương pháp mà tôi quen thuộc với việc xây dựng một khu rừng ngẫu nhiên như sau: (từ http: //www.stat.ber siêu.edu / ~breiman/RandomForests/cc_home.htmlm )
Để xây dựng một cái cây trong rừng, chúng tôi:
- Bootstrap một mẫu có kích thước N trong đó N là kích thước của tập huấn luyện của chúng tôi. Sử dụng mẫu bootstrapping này làm tập huấn luyện cho cây này.
- Tại mỗi nút của cây, chọn ngẫu nhiên m các tính năng M của chúng tôi. Chọn các tính năng tốt nhất của m để phân chia. (trong đó m là một tham số của Khu rừng ngẫu nhiên của chúng tôi)
- Trồng từng cây đến mức lớn nhất có thể - tức là không cắt tỉa.
Mặc dù thuật toán này có ý nghĩa ở cấp độ thủ tục và chắc chắn tạo ra kết quả tốt, tôi không rõ động cơ lý thuyết đằng sau các bước 1, 2 và 3. Ai đó có thể giải thích điều gì thúc đẩy ai đó đưa ra thủ tục này và tại sao nó làm việc rất tốt
Ví dụ: tại sao chúng ta cần thực hiện bước 1? Có vẻ như chúng tôi không khởi động cho mục đích thông thường là giảm phương sai.