Tất nhiên, bạn cũng phải quyết định về tỷ lệ chia tách để lấy lại (gấp đôi) ...
Tuy nhiên, việc lấy mẫu lại thường hoạt động với một tỷ lệ phân chia khá rộng, nếu bạn lưu ý
- không được nghỉ một lần nếu điều đó sẽ làm giảm số lần chạy khác biệt có thể
- để lại đủ các trường hợp đào tạo trong tập huấn luyện trong cùng để thuật toán traing có cơ hội tốt để tạo ra một mô hình hữu ích.
- những trường hợp độc lập hơn bạn có, những cân nhắc ít quan trọng hơn.
Và nếu bạn đang làm việc ở dữ liệu quy mô lớn hơn (nhưng không phải dữ liệu lớn) là 10000 <N <1000000 thì sao?
Những gì bạn có thể làm nếu bạn không chắc chắn việc lấy lại mẫu là cần thiết là: lấy mẫu lại một vài lần. Đủ để bạn có thể đo xem việc lấy mẫu lại có cần thiết hay không.
- kiểm tra sự ổn định của dự đoán của bạn
- kiểm tra tính ổn định của các tham số mô hình của bạn
Với những kết quả này, bạn có thể quyết định xem bạn có nên thêm nhiều lần lặp lại mô hình hay không hoặc liệu mọi thứ có ổn như chúng không.