Tôi đang sử dụng rừng ngẫu nhiên trên dữ liệu được nhóm theo chiều cao (50 biến đầu vào số) có cấu trúc chữ tượng hình. Dữ liệu được thu thập với 6 lần sao chép tại 30 vị trí của 70 đối tượng khác nhau dẫn đến 12600 điểm dữ liệu, không độc lập.
Dường như rừng ngẫu nhiên quá khớp dữ liệu, vì lỗi oob nhỏ hơn nhiều so với lỗi chúng ta gặp phải khi để dữ liệu từ một đối tượng ra ngoài trong quá trình huấn luyện và sau đó dự đoán kết quả của đối tượng bị bỏ qua với rừng ngẫu nhiên được đào tạo. Hơn nữa tôi có số dư tương quan.
Tôi nghĩ rằng việc quá mức được gây ra do rừng ngẫu nhiên đang mong đợi dữ liệu độc lập. Có thể nói rừng ngẫu nhiên về cấu trúc phân cấp của dữ liệu? Hoặc có một phương pháp tập hợp hoặc co rút mạnh mẽ khác có thể xử lý dữ liệu được nhóm theo chiều cao với cấu trúc tương tác mạnh?
Bất kỳ gợi ý làm thế nào tôi có thể làm tốt hơn?