Tôi tự hỏi nên chọn loại xác thực chéo mô hình nào cho vấn đề phân loại: lấy mẫu ngẫu nhiên hoặc lấy mẫu ngẫu nhiên (lấy mẫu bootstrap)?
Dự đoán tốt nhất của tôi là sử dụng 2/3 bộ dữ liệu (có ~ 1000 mục) để đào tạo và 1/3 để xác thực.
Trong trường hợp này, K-Fold chỉ cung cấp ba lần lặp (nếp gấp), không đủ để thấy lỗi trung bình ổn định.
Mặt khác, tôi không thích tính năng lấy mẫu phụ ngẫu nhiên: một số mục sẽ không được chọn để đào tạo / xác nhận và một số mục sẽ được sử dụng nhiều lần.
Các thuật toán phân loại được sử dụng: rừng ngẫu nhiên & hồi quy logistic.