Tôi có một nền tảng khoa học máy tính nhưng tôi đang cố gắng dạy cho mình khoa học dữ liệu bằng cách giải quyết các vấn đề trên internet.
Tôi đã làm việc về vấn đề này trong vài tuần qua (khoảng 900 hàng và 10 tính năng). Ban đầu tôi sử dụng hồi quy logistic nhưng bây giờ tôi đã chuyển sang rừng ngẫu nhiên. Khi tôi chạy mô hình rừng ngẫu nhiên trên dữ liệu đào tạo của mình, tôi nhận được giá trị thực sự cao cho auc (> 99%). Tuy nhiên, khi tôi chạy cùng một mô hình trên dữ liệu thử nghiệm thì kết quả không được tốt lắm (Độ chính xác xấp xỉ 77%). Điều này khiến tôi tin rằng tôi quá phù hợp với dữ liệu đào tạo.
Các thực hành tốt nhất liên quan đến việc ngăn chặn phù hợp trong rừng ngẫu nhiên là gì?
Tôi đang sử dụng r và rstudio làm môi trường phát triển của mình. Tôi đang sử dụng randomForest
gói và đã chấp nhận mặc định cho tất cả các tham số