Xác thực chéo lồng nhau - nó khác với lựa chọn mô hình qua kprint CV trên tập huấn luyện như thế nào?


10

Tôi thường thấy mọi người nói về xác nhận chéo 5x2 là một trường hợp đặc biệt của xác thực chéo lồng nhau .

Tôi giả sử số thứ nhất (ở đây: 5) đề cập đến số lần gấp trong vòng lặp bên trong và số thứ hai (ở đây: 2) đề cập đến số lần trong vòng ngoài? Vì vậy, điều này khác với cách tiếp cận lựa chọn và đánh giá mô hình "truyền thống" như thế nào? Theo "truyền thống", ý tôi là

  • chia tập dữ liệu thành một khóa đào tạo riêng (ví dụ: 80%) và tập kiểm tra
  • sử dụng xác thực chéo k-Fold (ví dụ: k = 10) để điều chỉnh siêu tham số và lựa chọn mô hình trên tập huấn luyện
  • đánh giá hiệu suất tổng quát hóa của mô hình đã chọn bằng cách sử dụng bộ kiểm tra

Không phải 5x2 giống hệt nhau ngoại trừ tập kiểm tra và huấn luyện có kích thước bằng nhau nếu k = 2?


1
Bạn đã đúng, trong trường hợp này là như vậy, ngoại trừ việc nó sử dụng phân chia 50/50 ở vòng ngoài thay vì 80/20. Nói chung, nó đưa ra ước tính tốt hơn về hiệu suất tổng quát hóa và nên được ưu tiên, đặc biệt với các cỡ mẫu tương đối nhỏ. Từ kinh nghiệm của tôi, ngay cả đối với CV lồng nhau, ước tính hiệu suất thay đổi rất nhiều. Thường thì tốt hơn là thực hiện CV lồng nhau nhiều lần để có được ước tính tốt về hiệu suất tổng quát hóa.
George

Cảm ơn, có ý nghĩa! Tuy nhiên, đối với các bộ huấn luyện nhỏ, có lẽ tôi sẽ tăng số lần gấp trong các vòng bên trong và bên ngoài; có thể làm giảm phương sai nhưng cũng làm tăng độ lệch mặc dù

Nói chung, thay vì thực hiện CV lồng nhau 5x2, tôi thường thực hiện xk (k-1), với k = 5 hoặc 10. Trong trường hợp có ít mẫu, thay vì tăng số lần tôi sẽ lấy các giá trị nhỏ hơn của k .
George

1
Tôi nghĩ rằng bạn đã có nó ngược hơn là hoàn toàn sai, nhưng câu trả lời được chấp nhận có thể không đồng ý với nguồn mà tôi sắp đề cập. Trong Python Machine Learning của Raschka, ông đề cập đến một "loại xác thực chéo lồng nhau cụ thể còn được gọi là xác thực chéo 5x2". Có một hình ảnh bao gồm trong đó ông cho thấy rằng 2 đề cập đến vòng lặp bên trong để điều chỉnh tham số siêu và 5 liên quan đến vòng lặp bên ngoài để ước tính hiệu suất mô hình không thiên vị. Một bản sao màu của đồ họa có thể được tìm thấy trong Kịch bản 3 tại đây: sebastianraschka.com/faq/docs/evalu-a-model.html
Austin

Câu trả lời:


12

5x2cv theo như tôi đã thấy trong các tài liệu, luôn luôn đề cập đến 5 lần lặp lại của 2 lần. Không có tổ nào cả. thực hiện chia 2 lần (chia 50/50 giữa tàu và kiểm tra), lặp lại 4 lần nữa. 5x2cv đã được phổ biến bởi bài kiểm tra thống kê gần đúng để so sánh các thuật toán học phân loại có giám sát của Dietterich như một cách để không chỉ ước tính tốt về lỗi tổng quát mà còn ước tính tốt về phương sai của lỗi đó (để thực hiện kiểm tra thống kê )


Cảm ơn! Bạn có biết mọi người thường làm gì nếu các vòng bên trong chọn các mô hình khác nhau, ví dụ: nếu tham số chính quy "tối ưu" là lambda = 100 trong một lựa chọn mô hình và lambda = 1000 cho mô hình kia không? Trong trường hợp này, việc tính toán hiệu suất mô hình trung bình sẽ hơi kỳ lạ, phải không!? Bạn sẽ loại bỏ các mô hình là "không ổn định"?

3
Vòng lặp bên trong rất có thể sẽ dẫn đến việc lựa chọn các siêu đường kính khác nhau. Bạn không sử dụng xác thực chéo lồng nhau để chọn các siêu đường kính, chỉ để có được ước tính tốt về lỗi tổng quát hóa (với các siêu đường kính tốt nhất có thể). Cv lồng nhau được sử dụng để quyết định giữa một hoặc một thuật toán khác. Xem stats.stackexchange.com/questions/136296/... hoặc stats.stackexchange.com/questions/65128/... (trong số những người khác)
Jacques Wainer

Ồ, tôi hiểu rồi, điều đó hoàn toàn có ý nghĩa! Tôi nghĩ mọi người đang sử dụng nó khác nhau. Tôi nghĩ rằng chúng ta có thể đóng câu hỏi sau đó.

2

2 lần lặp lại ở vòng ngoài có nghĩa là bạn lặp lại CV 5 lần 2 lần trên toàn bộ tập tàu. Mỗi lần phân chia thành các nếp gấp sẽ khác nhau.

Điều này chủ yếu được sử dụng để ước tính hiệu suất mô hình tốt hơn, như chạy các kiểm tra thống kê về việc liệu một mô hình có thực hiện tốt hơn đáng kể về mặt thống kê so với mô hình khác hay không.

CV lồng nhau không quan trọng lắm nếu bộ dữ liệu của bạn lớn và không có ngoại lệ. Nếu dữ liệu của bạn có các ngoại lệ, thì hiệu suất xác thực chéo có thể khác nhau đáng kể tùy thuộc vào mức độ gấp / gấp của các ngoại lệ này. Do đó, bạn lặp lại CV nhiều lần.


Điểm tốt. Theo cách tiếp cận truyền thống (tách thử nghiệm / đào tạo và sau đó là k-gấp CV trên tập huấn luyện), bạn chỉ có 1 lần để đánh giá mô hình trong khi ở 5x2 CV, hiệu suất trung bình có thể được tính từ 2 lần gấp khác nhau.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.