Câu hỏi rất thú vị, tôi sẽ phải đọc các giấy tờ bạn đưa ra ... Nhưng có lẽ điều này sẽ bắt đầu cho chúng tôi theo hướng trả lời:
Tôi thường giải quyết vấn đề này theo một cách rất thực tế: Tôi lặp lại xác nhận chéo k-lần với các phân tách ngẫu nhiên mới và tính hiệu suất như bình thường cho mỗi lần lặp. Các mẫu thử nghiệm tổng thể sau đó giống nhau cho mỗi lần lặp và sự khác biệt đến từ các phân chia dữ liệu khác nhau.
Điều này tôi báo cáo, ví dụ như phần trăm thứ 5 đến 95 của wrt hiệu suất quan sát được. trao đổi lên đến mẫu cho các mẫu mới và thảo luận về nó như một thước đo cho sự không ổn định của mô hình.nk- 1
Lưu ý bên lề: Dù sao tôi cũng không thể sử dụng các công thức cần cỡ mẫu. Vì dữ liệu của tôi được phân cụm hoặc phân cấp theo cấu trúc (nhiều phép đo tương tự nhưng không lặp lại của cùng một trường hợp, thường là một vài [trăm] vị trí khác nhau của cùng một mẫu) Tôi không biết cỡ mẫu hiệu quả.
so sánh với bootstrapping:
Lặp lại sử dụng phân chia ngẫu nhiên mới.
sự khác biệt chính là lấy mẫu lại bằng (bootstrap) hoặc không có (cv) thay thế.
chi phí tính toán là như nhau, vì tôi không chọn các lần lặp của cv không có các lần lặp bootstrap / k, tức là tính tổng số không có mô hình.≈
bootstrap có lợi thế hơn cv về một số thuộc tính thống kê (không chính xác về mặt triệu chứng, có thể bạn cần ít lần lặp hơn để có được ước tính tốt)
tuy nhiên, với cv bạn có lợi thế là bạn được đảm bảo rằng
- số lượng mẫu đào tạo riêng biệt là giống nhau cho tất cả các mô hình (quan trọng nếu bạn muốn tính toán các đường cong học tập)
- mỗi mẫu được kiểm tra chính xác một lần trong mỗi lần lặp
Một số phương pháp phân loại sẽ loại bỏ các mẫu lặp đi lặp lại, vì vậy bootstrapping không có ý nghĩa
Phương sai cho hiệu suất
câu trả lời ngắn gọn: có ý nghĩa khi nói về phương sai trong tình huống chỉ tồn tại kết quả {0,1}.
Hãy xem phân phối nhị thức (k = thành công, n = kiểm tra, p = xác suất thành công thực sự = trung bình k / n):
σ2( k ) = n p ( 1 - p )
pp^
- Fleiss: Phương pháp thống kê tỷ lệ và tỷ lệ
- Forthofer và Lee: Biostatistic có phần giới thiệu rất hay.
p^= kn
σ2( p^) = p ( 1 - p )n
Điều này có nghĩa là độ không đảm bảo để đo hiệu suất phân loại chỉ phụ thuộc vào hiệu suất p thực của mô hình được thử nghiệm và số lượng mẫu thử.
Trong xác nhận chéo bạn giả định
rằng các mô hình k "thay thế" có hiệu suất thực sự giống như mô hình "thực" mà bạn thường xây dựng từ tất cả các mẫu. (Sự đổ vỡ của giả định này là xu hướng bi quan nổi tiếng).
rằng các mô hình k "thay thế" có cùng hiệu suất thực (tương đương, có dự đoán ổn định), vì vậy bạn được phép gộp kết quả của các thử nghiệm k.
Tất nhiên sau đó, không chỉ các mô hình k "thay thế" của một lần lặp của cv có thể được gộp chung mà các mô hình ki của các lần lặp của cv k-Fold.
Tại sao lặp lại?
Điều chính mà các phép lặp nói với bạn là sự không ổn định của mô hình (dự đoán), tức là phương sai của các dự đoán của các mô hình khác nhau cho cùng một mẫu.
p^
Và vâng, đây là thông tin quan trọng.
nb o o t s t r a pk ⋅ ni t e r . c v n - 1 ≈ nσ2( p^) = p ( 1 - p )n
pknp^n
Nếu bạn quan sát sự không ổn định của mô hình, trung bình gộp là ước tính tốt hơn về hiệu suất thực sự. Phương sai giữa các lần lặp là một thông tin quan trọng và bạn có thể so sánh nó với phương sai tối thiểu dự kiến cho một tập kiểm tra có kích thước n với hiệu suất trung bình hiệu suất thực trên tất cả các lần lặp.