Thủ tục xác nhận chéo Monte Carlo có hợp lệ không?

Tôi nghĩ rằng xác thực chéo K-Fold bao gồm các bước sau.

Chia dữ liệu ngẫu nhiên thành các khối $K$
Phù hợp với khối . $K-1$
Dự đoán trên chunk còn lại. Giữ dự đoán.
Lặp lại 2-3 cho tất cả các kết hợp của các khối mà bỏ qua 1 khối. $K-1$ $K$
Đánh giá thống kê tổn thất so sánh tất cả các dự đoán với giá trị thực.

Bây giờ tôi đã thấy ( xbarttrong gói dbarts ) thủ tục sau đây:

Chia dữ liệu ngẫu nhiên thành các khối $K$
Phù hợp với khối . $K-1$
Dự đoán trên chunk còn lại. Đánh giá thống kê tổn thất và giữ.
Lặp lại 1-3 lần. $N$
Trung bình các thống kê mất hoặc nhóm theo một cách khác. $N$

Lưu ý sự khác biệt trong bước 4 và 5.

Thủ tục đầu tiên là tiêu chuẩn và được đề nghị trong sách giáo khoa lớn. Thủ tục thứ hai có vẻ mới. Tôi không thể thấy ngay tại sao không làm điều đó, nhưng có vẻ như không tối ưu về phương sai. Có tranh luận ủng hộ hoặc chống lại thủ tục thứ hai?

Cách tiếp cận thứ hai được thực hiện trong gói trích dẫn ở trên và tôi tự hỏi nếu điều này là sai để làm.

machine-learning cross-validation

— cà chua
nguồn

Nếu tổn thất của bạn được xác định trên mỗi lần quan sát (lỗi bình phương eq cho một lần quan sát cụ thể), thì tổn thất trung bình sẽ giống nhau. Tôi tự hỏi sau đó trong đó các tình huống mất không được xác định cho mỗi quan sát mà là một chức năng của toàn bộ các quan sát cùng một lúc. Có lẽ lỗi trung bình trên mỗi chunk? Sau đó, người ta sẽ cần phải suy nghĩ về sự khác biệt giữa hai kịch bản.

— Richard Hardy

@RichardHardy Không chắc chắn. Có lẽ các ước tính dựa trên tỷ lệ như diện tích theo thống kê của ROC (AUC)? Lỗi trung vị cho chắc chắn.

— tomka

@RichardHardy Ngay cả trong trường hợp đơn giản, thủ tục 1 dường như là cách hiệu quả, vì có vẻ như

N

$N$ cần phải lớn (như trong bootstrap) để kiểm soát phương sai của ước tính tổn thất, do đó đòi hỏi nhiều mô hình phù hợp hơn. Hay tôi đi sai ở đâu đó?

— tomka

Hãy nghĩ về trường hợp đơn giản nhất: mất bình phương là hàm mất, 2 lần và 2 lần quan sát mỗi lần:

(x_{1, 1}, x_{1, 2})

$(x_{1,1},x_{1,2})$ ,

(x_{21,}, x_{2, 2})

$(x_{21,},x_{2,2})$ và các lỗi dự báo tương ứng

e_{i j}

$e_{ij}$ . Không quan trọng tôi sử dụng thủ tục nào trong cả hai trường hợp tôi nhận được

MSE = \frac{1}{2} (\frac{1}{2} (e_{1, 1}^{2} + e_{1, 2}^{2}) + \frac{1}{2} (e_{2, 1}^{2} + e_{2, 2}^{2})) = \frac{1}{4} (e_{1, 1}^{2} + e_{1, 2}^{2} + e_{2, 1}^{2} + e_{2, 2}^{2})

$\text{MSE}=\frac{1}{2}(\frac{1}{2}(e_{1,1}^2+e_{1,2}^2)+\frac{1}{2}(e_{2,1}^2+e_{2,2}^2))=\frac{1}{4}(e_{1,1}^2+e_{1,2}^2+e_{2,1}^2+e_{2,2}^2)$ .

— Richard Hardy

@tomka 1) Tôi có hiểu chính xác rằng sự khác biệt nằm ở điểm 4 và 5 không? 2) Thống kê tổn thất nào được phép trong xbart? Phương pháp này chắc chắn không chính xác đối với RMSE, nó là phụ.

— Jim

Câu trả lời ngắn gọn: nó không sai cũng không mới.

Chúng ta đã thảo luận về sơ đồ xác nhận này dưới tên "xác thực" ≈ 15 trước đây khi chuẩn bị một bài báo *, nhưng cuối cùng không bao giờ thực sự đề cập đến nó vì chúng ta không thấy nó được sử dụng trong thực tế.

Wikipedia đề cập đến cùng một sơ đồ xác nhận như xác thực lấy mẫu ngẫu nhiên lặp lại hoặc xác thực chéo Monte Carlo

Từ quan điểm lý thuyết, khái niệm này được chúng tôi quan tâm bởi vì

đó là một cách giải thích khác cho cùng một số thường được gọi là giữ (chỉ mô hình ước tính được sử dụng là khác nhau: ước tính giữ lại được sử dụng làm ước tính hiệu suất cho chính xác mô hình được kiểm tra, xác thực này hoặc xác thực Monte Carlo xử lý (các) mô hình được thử nghiệm như (các) mô hình thay thế và diễn giải cùng một số với ước tính hiệu suất cho một mô hình được xây dựng trên toàn bộ tập dữ liệu - vì nó thường được thực hiện với xác thực chéo hoặc ước tính xác thực ngoài bootstrap)
và nó ở đâu đó ở giữa
- các kỹ thuật xác thực chéo phổ biến hơn (lấy mẫu lại bằng thay thế, diễn giải như ước tính cho toàn bộ mô hình dữ liệu),
- giữ (xem ở trên, cùng một số tính toán + số, thường không có N lần lặp / lặp lại, mặc dù và cách hiểu khác nhau)
- và out-of-bootstrap (N lặp đi lặp lại / lặp lại là điển hình cho out-bootstrap, nhưng tôi chưa bao giờ thấy điều này được áp dụng cho việc giữ chỗ và điều này [không may] hiếm khi được thực hiện với xác nhận chéo).

* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, MG Phương sai giảm trong việc ước tính lỗi phân loại bằng cách sử dụng bộ dữ liệu thưa thớt, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
Lỗi "thiết lập xác thực" cho N = 1 được ẩn trong hình. 6 (nghĩa là độ lệch + phương sai của nó có thể được cấu trúc lại từ dữ liệu đã cho nhưng không được cung cấp rõ ràng.)

nhưng có vẻ không tối ưu về phương sai. Có tranh luận ủng hộ hoặc chống lại thủ tục thứ hai?

Vâng, trong bài báo trên, chúng tôi đã tìm thấy tổng lỗi (bias² + phương sai) của lỗi khởi động và lặp lại / lặp đi lặp lại $k$ - xác thực chéo nhiều lần khá giống nhau (với oob có phương sai thấp hơn một chút nhưng độ lệch cao hơn - nhưng chúng tôi đã không theo dõi để kiểm tra xem / bao nhiêu sự đánh đổi này là do lấy lại / không thay thế và bao nhiêu là do tỷ lệ phân chia khác nhau khoảng 1: 2 cho oob).
Mặc dù vậy, hãy nhớ rằng tôi đang nói về độ chính xác trong các tình huống cỡ mẫu nhỏ, trong đó người đóng góp chi phối cho độ không đảm bảo phương sai là giống nhau cho tất cả các sơ đồ lấy mẫu lại: số lượng mẫu thực sự hạn chế để thử nghiệm và điều đó cũng tương tự đối với oob , xác nhận chéo hoặc xác thực thiết lập. Lặp lại / lặp lại cho phép bạn giảm phương sai gây ra bởi sự không ổn định của các mô hình (thay thế), nhưng không phải là độ không đảm bảo của phương sai do tổng kích thước mẫu bị giới hạn.
Như vậy, giả định rằng bạn thực hiện một số cách đầy đủ lớn lặp lại / lặp lại N, tôi không mong đợi khác biệt thực tế có liên quan trong việc thực hiện các chương trình xác nhận.

Mặc dù vậy, một lược đồ xác nhận có thể phù hợp hơn với kịch bản bạn cố gắng mô phỏng bằng cách lấy mẫu lại.

— cbeleites không hài lòng với SX
nguồn