Số lần tối ưu trong xác thực chéo


47

Bỏ qua các cân nhắc về sức mạnh, có lý do nào để tin rằng việc tăng số lần trong xác thực chéo dẫn đến lựa chọn / xác nhận mô hình tốt hơn (nghĩa là số lần gấp càng cao càng tốt)?

Đưa ra lập luận đến mức cực đoan, việc xác thực chéo một lần có nhất thiết dẫn đến các mô hình tốt hơn so với xác thực chéo -Fold không?K

Một số nền tảng cho câu hỏi này: Tôi đang giải quyết một vấn đề với rất ít trường hợp (ví dụ 10 tích cực và 10 tiêu cực), và tôi sợ rằng các mô hình của tôi có thể không khái quát tốt / sẽ phù hợp với quá ít dữ liệu.


1
Một chủ đề có liên quan trở lên: Lựa chọn K K lần qua xác nhận .
amip nói phục hồi Monica

Câu hỏi này không phải là một bản sao vì nó giới hạn các bộ dữ liệu nhỏ và "Xem xét sức mạnh tính toán sang một bên". Đây là một hạn chế nghiêm trọng, làm cho câu hỏi không thể áp dụng cho những người có bộ dữ liệu lớn và thuật toán đào tạo với độ phức tạp tính toán ít nhất là tuyến tính trong số lượng phiên bản (hoặc dự đoán ít nhất là căn bậc hai của số lượng phiên bản).
Serge Rogatch

Câu trả lời:


46

Xác thực chéo một lần thường không dẫn đến hiệu suất tốt hơn so với K-Fold và có nhiều khả năng tệ hơn , vì nó có phương sai tương đối cao (nghĩa là giá trị của nó thay đổi nhiều hơn đối với các mẫu dữ liệu khác nhau so với giá trị cho xác nhận chéo k-gấp). Điều này không tốt trong tiêu chí lựa chọn mô hình vì nó có nghĩa là tiêu chí lựa chọn mô hình có thể được tối ưu hóa theo cách chỉ khai thác biến thể ngẫu nhiên trong mẫu dữ liệu cụ thể, thay vì thực hiện các cải tiến chính xác về hiệu suất, nghĩa là bạn có nhiều khả năng phù hợp hơn tiêu chí lựa chọn mô hình. Lý do xác thực chéo một lần được sử dụng trong thực tế là đối với nhiều mô hình, nó có thể được đánh giá rất rẻ như một sản phẩm phụ của việc lắp mô hình.

Nếu chi phí tính toán không phải là vấn đề chủ yếu, thì cách tiếp cận tốt hơn là thực hiện xác nhận chéo k-lặp lại, trong đó quy trình xác thực chéo k-lặp được lặp lại với các phân vùng ngẫu nhiên khác nhau thành các tập con k rời nhau mỗi lần. Điều này làm giảm phương sai.

Nếu bạn chỉ có 20 mẫu, rất có thể bạn sẽ gặp phải sự phù hợp với tiêu chí lựa chọn mô hình, đó là một cạm bẫy bị lãng quên nhiều trong thống kê và học máy (phích cắm không biết xấu hổ: xem bài viết của tôi về chủ đề này). Bạn có thể tốt hơn nên chọn một mô hình tương đối đơn giản và cố gắng không tối ưu hóa nó rất tích cực, hoặc áp dụng cách tiếp cận Bayes và trung bình trên tất cả các lựa chọn mô hình, được cân nhắc bởi tính hợp lý của chúng. Tối ưu hóa IMHO là gốc rễ của mọi tội lỗi trong thống kê, vì vậy tốt hơn hết là không tối ưu hóa nếu bạn không phải và tối ưu hóa một cách thận trọng bất cứ khi nào bạn làm.

Cũng lưu ý nếu bạn định thực hiện lựa chọn mô hình, bạn cần sử dụng một cái gì đó như xác thực chéo lồng nhau nếu bạn cũng cần một ước tính hiệu suất (nghĩa là bạn cần xem xét lựa chọn mô hình như một phần không thể thiếu của quy trình khớp mô hình và xác thực chéo cũng).


8
+1. Tôi thích thông điệp "tối ưu hóa là gốc rễ của mọi tội lỗi trong thống kê" ...
S. Kolassa - Tái lập Monica

5
Cảm ơn @DikranMarsupial. Tôi không hoàn toàn làm theo. Tại sao các mô hình được học với bỏ qua một lần có phương sai cao hơn so với xác nhận chéo k thường xuyên ? Trực giác của tôi nói với tôi rằng, vì qua các nếp gấp, chúng tôi chỉ thay đổi một điểm dữ liệu, các tập huấn trên các nếp gấp chồng chéo lên nhau, vì vậy tôi sẽ thấy có ít sự khác biệt giữa các mô hình. Hoặc đi theo hướng khác, trong K-Fold, nếu K thấp, các bộ huấn luyện cho mỗi lần gấp sẽ khá khác nhau và các mô hình kết quả có nhiều khả năng sẽ khác nhau. Tôi có lầm không?
Amelio Vazquez-Reina

Đó là một câu hỏi rất hay theo đúng nghĩa của nó, vì vậy tôi khuyên bạn nên hỏi nó như một câu hỏi mới, và tôi sẽ có một suy nghĩ về cách trả lời nó!
Dikran Marsupial

Cảm ơn bạn @DikranMarsupial Tôi đã làm theo lời khuyên của bạn và bắt đầu một câu hỏi riêng ở đây .
Amelio Vazquez-Reina

1
@DikranMarsupial Tôi nghĩ rằng tôi sẽ đề cập ở đây rằng tôi đã bắt đầu thêm một chủ đề lấy cảm hứng từ nhận xét "tối ưu hóa trong thống kê" của bạn trong câu trả lời này. Nhận xét của bạn khiến tôi nhìn vào quá mức từ một quan điểm rộng hơn mà tôi đã quen.
Amelio Vazquez-Reina

8

Chọn số K gấp bằng cách xem xét đường cong học tập

K

K

Tóm lại, nếu đường cong học tập có độ dốc đáng kể ở kích thước tập huấn đã cho, xác thực chéo năm hoặc mười lần sẽ đánh giá quá cao lỗi dự đoán thực. Việc thiên vị này có phải là một nhược điểm trong thực tế hay không phụ thuộc vào mục tiêu. Mặt khác, xác thực chéo một lần có độ lệch thấp nhưng có thể có phương sai cao.

Một hình ảnh trực quan bằng cách sử dụng một ví dụ đồ chơi

Để hiểu được lập luận này một cách trực quan, hãy xem xét ví dụ đồ chơi sau đây trong đó chúng ta đang khớp một đa thức bậc 4 với một đường cong hình sin ồn ào:

nhập mô tả hình ảnh ở đây

1±

nhập mô tả hình ảnh ở đây

Thảo luận về lập luận

Hiệu suất của mô hình cải thiện đáng kể khi kích thước đào tạo tăng lên 50 quan sát. Việc tăng số lượng hơn nữa lên 200 chẳng hạn chỉ mang lại lợi ích nhỏ. Hãy xem xét hai trường hợp sau:

  1. 5K

  2. 505K

nhập mô tả hình ảnh ở đây

[Cập nhật] - Nhận xét về phương pháp luận

Bạn có thể tìm thấy mã cho mô phỏng này ở đây . Cách tiếp cận như sau:

  1. sin(x)+ϵϵ
  2. iN
  3. i
    • K
    • Lưu trữ lỗi bình phương trung bình (MSE) trên các nếp gấp K
  4. iiK
  5. K{5,...,N}

Một cách tiếp cận khác là không lấy mẫu lại một tập dữ liệu mới ở mỗi lần lặp và thay vào đó, chia sẻ lại cùng một tập dữ liệu mỗi lần. Điều này dường như cho kết quả tương tự.



1MSE1112

MSE=Var+Bias2ϵU(.5,.5)1/12(ba)21/12
Xavier Bourret Sicotte
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.