Bao nhiêu lần chúng ta nên lặp lại một CV gấp?

17

Tôi đã bắt gặp chủ đề này xem xét sự khác biệt giữa bootstrapping và xác thực chéo - nhân tiện, câu trả lời và tài liệu tham khảo tuyệt vời. Những gì tôi đang tự hỏi là bây giờ, nếu tôi là để thực hiện lặp đi lặp lại CV nói 10 lần để tính toán chính xác của phân loại, bao nhiêu lần n tôi nên lặp lại nó?

Có n phụ thuộc vào số lần gấp không? Về cỡ mẫu? Có quy tắc nào cho việc này không?

(Trong trường hợp của tôi, tôi có các mẫu lớn tới 5000 và nếu tôi chọn bất cứ thứ gì lớn hơn n = 20 thì máy tính của tôi mất quá nhiều thời gian để thực hiện phép tính.)

cross-validation

— Neodyme
nguồn

9

Yếu tố ảnh hưởng là mức độ ổn định của mô hình của bạn - hay chính xác hơn là: các dự đoán của người thay thế.

Nếu các mô hình hoàn toàn ổn định, tất cả các mô hình thay thế sẽ mang lại dự đoán tương tự cho cùng một trường hợp thử nghiệm. Trong trường hợp đó, việc lặp lại / lặp lại là không cần thiết và chúng không mang lại bất kỳ cải tiến nào.

Như bạn có thể đo lường sự ổn định của các dự đoán, đây là những gì tôi sẽ làm:

Thiết lập toàn bộ quy trình theo cách lưu kết quả của mỗi lần lặp lại / lặp lại xác thực chéo, ví dụ như vào đĩa cứng
Bắt đầu với một số lượng lớn các lần lặp
Sau một vài lần lặp lại, hãy tìm nạp các kết quả sơ bộ và xem xét sự ổn định / thay đổi trong kết quả cho mỗi lần chạy.
Sau đó quyết định có bao nhiêu lần lặp lại mà bạn muốn tinh chỉnh kết quả.
Tất nhiên bạn có thể quyết định chạy, giả sử, 5 lần lặp và sau đó quyết định số lần lặp cuối cùng bạn muốn làm.

(Lưu ý bên lề: Tôi thường sử dụng> khoảng 1000 mô hình thay thế, vì vậy điển hình không có sự lặp lại / lặp lại sẽ vào khoảng 100 - 125).

— cbeleites hỗ trợ Monica
nguồn

13

Hỏi một nhà thống kê bất kỳ câu hỏi và câu trả lời của họ sẽ là một dạng "nó phụ thuộc".

Nó phụ thuộc . Ngoài loại mô hình (cbeleites điểm tốt!), Số lượng điểm tập huấn và số lượng dự đoán? Nếu mô hình là để phân loại, sự mất cân bằng lớp lớn sẽ khiến tôi tăng số lần lặp lại. Ngoài ra, nếu tôi lấy mẫu lại một quy trình lựa chọn tính năng, tôi sẽ thiên vị cho nhiều mẫu hơn.

Đối với bất kỳ phương pháp lấy mẫu lại nào được sử dụng trong ngữ cảnh này, hãy nhớ rằng (không giống như bootstrapping cổ điển), bạn chỉ cần đủ số lần lặp để có được ước tính "đủ chính xác" về giá trị trung bình của phân phối. Đó là chủ quan nhưng bất kỳ câu trả lời sẽ được.

Bám sát phân loại với hai lớp trong một giây, giả sử bạn mong đợi / hy vọng độ chính xác của mô hình là khoảng 0,80. Kể từ khi quá trình resampling được lấy mẫu dự toán chính xác (nói p), sai số chuẩn sẽ là sqrt[p*(1-p)]/sqrt(B)nơi Blà số resamples. Đối với B = 10, lỗi tiêu chuẩn của độ chính xác là khoảng 0,13 và với B = 100nó là khoảng 0,04. Bạn có thể sử dụng công thức đó như một hướng dẫn sơ bộ cho trường hợp cụ thể này.

Cũng xem xét rằng, trong ví dụ này, phương sai của độ chính xác được tối đa hóa khi bạn càng tiến gần đến 0,5 nên một mô hình chính xác sẽ cần ít bản sao hơn vì sai số chuẩn phải thấp hơn các mô hình là người học yếu.

HTH

Tối đa

— topepo
nguồn

2

Tôi cực kỳ cảnh giác khi áp dụng bất kỳ loại tính toán lỗi tiêu chuẩn nào trong ngữ cảnh này, bởi vì có 2 nguồn phương sai ở đây (tính không ổn định của mô hình + tập hợp các trường hợp kiểm tra hữu hạn) và tôi nghĩ rằng việc xác thực lại mẫu sẽ không vượt qua được kiểm tra hữu hạn thiết lập phương sai: xem xét xác nhận chéo. Trong mỗi lần chạy, tất cả các trường hợp kiểm tra được kiểm tra chính xác một lần. Do đó, phương sai giữa các lần chạy CV lặp lại phải do sự không ổn định. Bạn sẽ không quan sát (cũng không giảm!) Phương sai do thử nghiệm hữu hạn được đặt theo cách này, nhưng tất nhiên kết quả vẫn phải tuân theo.

— cbeleites hỗ trợ Monica