Hỏi một nhà thống kê bất kỳ câu hỏi và câu trả lời của họ sẽ là một dạng "nó phụ thuộc".
Nó phụ thuộc . Ngoài loại mô hình (cbeleites điểm tốt!), Số lượng điểm tập huấn và số lượng dự đoán? Nếu mô hình là để phân loại, sự mất cân bằng lớp lớn sẽ khiến tôi tăng số lần lặp lại. Ngoài ra, nếu tôi lấy mẫu lại một quy trình lựa chọn tính năng, tôi sẽ thiên vị cho nhiều mẫu hơn.
Đối với bất kỳ phương pháp lấy mẫu lại nào được sử dụng trong ngữ cảnh này, hãy nhớ rằng (không giống như bootstrapping cổ điển), bạn chỉ cần đủ số lần lặp để có được ước tính "đủ chính xác" về giá trị trung bình của phân phối. Đó là chủ quan nhưng bất kỳ câu trả lời sẽ được.
Bám sát phân loại với hai lớp trong một giây, giả sử bạn mong đợi / hy vọng độ chính xác của mô hình là khoảng 0,80. Kể từ khi quá trình resampling được lấy mẫu dự toán chính xác (nói p
), sai số chuẩn sẽ là sqrt[p*(1-p)]/sqrt(B)
nơi B
là số resamples. Đối với B = 10
, lỗi tiêu chuẩn của độ chính xác là khoảng 0,13 và với B = 100
nó là khoảng 0,04. Bạn có thể sử dụng công thức đó như một hướng dẫn sơ bộ cho trường hợp cụ thể này.
Cũng xem xét rằng, trong ví dụ này, phương sai của độ chính xác được tối đa hóa khi bạn càng tiến gần đến 0,5 nên một mô hình chính xác sẽ cần ít bản sao hơn vì sai số chuẩn phải thấp hơn các mô hình là người học yếu.
HTH
Tối đa