Phương sai xác thực chéo bỏ qua một lần


15

Tôi đọc đi đọc lại rằng xác thực chéo "Bỏ qua một lần" có phương sai cao do sự chồng chéo lớn của các nếp gấp đào tạo. Tuy nhiên tôi không hiểu tại sao đó là: Không phải hiệu suất của xác thực chéo sẽ rất ổn định (phương sai thấp) chính xác vì các bộ huấn luyện gần như giống nhau? Hay tôi đang hiểu sai về khái niệm "phương sai" hoàn toàn?

Tôi cũng không hoàn toàn hiểu làm thế nào LOO có thể không thiên vị, nhưng có phương sai cao? Nếu ước tính LOO bằng với giá trị ước tính thực trong kỳ vọng - làm thế nào nó có thể có phương sai cao?

Lưu ý: Tôi biết rằng có một câu hỏi tương tự ở đây: Tại sao phương sai xác thực chéo một lần (LOOCV) về ước tính trung bình cho lỗi cao? Tuy nhiên, người đã trả lời nói sau đó trong các bình luận rằng mặc dù có nhiều ý kiến ​​trái chiều, anh ta đã nhận ra rằng câu trả lời của mình là sai.


2
Tôi là người đó :-) nhưng xin lưu ý rằng, trước tiên, tôi đã cập nhật câu trả lời của mình một thời gian trước để loại bỏ sự nhầm lẫn, và thứ hai, toàn bộ chủ đề được đóng lại như một bản sao của một chủ đề khác: stats.stackexchange.com/ câu hỏi / 61783 . Bạn đã nhìn ở đó? Q của bạn dường như cũng là một bản sao của cái đó. Nếu bạn không hài lòng với câu trả lời được đưa ra ở đó, hãy xem xét việc xây dựng câu hỏi của bạn cụ thể hơn. Ngay bây giờ tôi sẽ bỏ phiếu để đóng, nhưng cứ thoải mái chỉnh sửa Q. của bạn
amoeba nói Phục hồi lại


3
Chà, thật dễ dàng: hãy để giá trị thực của một tham số là . Một công cụ ước tính mang lại 0,49 , 0,51 , 0,49 , 0,51 ... là không thiên vị và có phương sai tương đối thấp, nhưng một công cụ ước tính mang lại 0,1 , 0,9 , 0,1 , 0,9 ... cũng không thiên vị nhưng có phương sai cao hơn nhiều. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
amip nói rằng Phục hồi Monica

5
Về đoạn đầu tiên của bạn: bạn cần suy nghĩ về phương sai trong các lần thực hiện khác nhau của toàn bộ tập dữ liệu . Đối với một tập dữ liệu nhất định, LOOCV thực sự sẽ tạo ra các mô hình rất giống nhau cho mỗi lần phân tách vì các tập huấn luyện giao nhau rất nhiều (như bạn đã nói), nhưng tất cả các mô hình này có thể cách xa mô hình thực sự ; trên các tập dữ liệu, chúng sẽ ở rất xa theo các hướng khác nhau, do đó phương sai rất cao. Đó là cách tôi định tính nó.
amip nói rằng Phục hồi Monica

2
@amoeba, tại sao không biến những bình luận đó thành câu trả lời chính thức?
gung - Phục hồi Monica

Câu trả lời:


10

Câu hỏi này có lẽ cuối cùng sẽ bị đóng lại như là một bản sao của Phương sai và sai lệch trong xác thực chéo: tại sao CV rời đi có phương sai cao hơn? , nhưng trước khi nó xảy ra tôi nghĩ tôi sẽ biến những bình luận của mình thành một câu trả lời.

Tôi cũng không hoàn toàn hiểu làm thế nào LOO có thể không thiên vị, nhưng có phương sai cao?

Hãy xem xét một ví dụ đơn giản. Đặt giá trị thực của một tham số là . Một công cụ ước tính mang lại 0,49 , 0,51 , 0,49 , 0,51 ... là không thiên vị và có phương sai tương đối thấp, nhưng một công cụ ước tính mang lại 0,1 , 0,9 , 0,1 , 0,9 ... cũng không thiên vị nhưng có phương sai cao hơn nhiều.0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

Không nên thực hiện hiệu suất của xác thực chéo là rất ổn định (phương sai thấp) vì các bộ huấn luyện gần như giống nhau?

Bạn cần suy nghĩ về phương sai trong các lần thực hiện khác nhau của toàn bộ dữ liệu. Đối với một tập dữ liệu nhất định, xác thực chéo một lần thực sự sẽ tạo ra các mô hình rất giống nhau cho mỗi lần phân tách vì các tập huấn luyện giao nhau rất nhiều (như bạn đã chú ý chính xác), nhưng tất cả các mô hình này có thể cách xa mô hình thực; trên các tập dữ liệu, chúng sẽ ở rất xa theo các hướng khác nhau, do đó phương sai rất cao.

Ít nhất đó là cách tôi hiểu nó. Vui lòng xem các chủ đề được liên kết để thảo luận thêm và các tài liệu được tham khảo để thảo luận nhiều hơn.


2
Vì vậy, theo tôi hiểu, độ lệch thấp được đưa ra vì tập huấn luyện rất lớn - gần như giống hệt với toàn bộ tập dữ liệu (vì chỉ có một mẫu dữ liệu bị bỏ qua để thử nghiệm). Vì vậy, đối với một tập dữ liệu cụ thể, chúng tôi có thể mong đợi một ước tính rất tốt. Tuy nhiên, do sự tương quan cao của các nếp gấp này (việc định giá chéo gần như được thực hiện trên dữ liệu giống hệt nhau trong các lần lặp của nó), ước tính cũng rất cụ thể cho tập dữ liệu cụ thể này, dẫn đến chênh lệch cao giữa hiệu suất trên các bộ dữ liệu khác nhau từ cùng một phân phối cơ bản . Chính xác?
Pegah

2
Tôi nghĩ rằng nó là chính xác, nhưng người ta nên cẩn thận nói rằng for one particular dataset we can expect a very good estimation. Tôi đoán người ta có thể hiểu nó có nghĩa là ước tính của một số tham số cụ thể của bộ dữ liệu sẽ tốt. Nhưng nói chung, xác thực chéo được cho là để ước tính một tham số dân số: một loại mô hình nhất định có thể đưa ra dự đoán về biến phụ thuộc trong dân số như thế nào; và chúng tôi không thể mong đợi một ước tính rất tốt về nó bởi LOOCV, vì những gì bạn đã viết (ước tính là very specific for this particular dataset).
amip nói rằng Phục hồi lại

1
Tôi nên thêm một lời cảnh báo rằng tất cả những điều đó là sự hiểu biết hiện tại của tôi, nhưng nói chung tôi thấy chủ đề này khá phức tạp và kinh nghiệm của tôi với xác nhận chéo bị hạn chế. Tôi không phải là một chuyên gia.
amip nói rằng Phục hồi lại

1
Tôi có thể hỏi tại sao bạn thấy nó khó khăn? Tôi tò mò vì điều này có thể dạy cho tôi một vài điều về nơi cẩn thận khi nói đến CV hoặc nơi để đào sâu kiến ​​thức của tôi
Pegah

2
Đưa ra câu trả lời được chấp nhận trong chủ đề này , có lẽ bạn không còn cần phải đề cập đến phương sai cao của LOOCV trong câu trả lời này, cụ thể là, do đó phương sai cao ? Tôi đã suy nghĩ về những câu hỏi này trong một thời gian và không thể đưa ra bất kỳ lý do lý thuyết nào cho sự sai lệch cao của LOOCV trong các vấn đề hồi quy liên tục ("liên tục"?), Mặc dù tôi thấy quan điểm của Paul trong các nhận xét trong luồng liên kết mà LOOCV thất bại nếu mẫu của bạn chứa các bản sao của từng điểm.
Richard Hardy

1

Phương sai cao này liên quan đến không gian của các bộ đào tạo. Đây là lý do tại sao LOOCV có phương sai cao: trong LOOCV, chúng tôi nhận được lỗi dự đoán cho mỗi quan sát, giả sử quan sát i, sử dụng toàn bộ dữ liệu quan sát trong tay ngoại trừ quan sát này. Vì vậy, giá trị dự đoán cho tôi rất phụ thuộc vào bộ dữ liệu hiện tại. Bây giờ giả sử chúng tôi quan sát một tập dữ liệu độc lập khác và phù hợp với một mô hình trên tập dữ liệu mới này. Nếu chúng ta sử dụng mô hình mới này để nhận giá trị dự đoán cho quan sát i, giá trị dự đoán có khả năng rất khác so với mô hình được đánh giá bởi LOOCV (mặc dù trung bình đúng (không thiên vị)).

Đây là trực giác đằng sau phương sai dự đoán lỗi cao trong LOOCV.

Tuy nhiên, nếu bạn đang sử dụng LOOCV để so sánh kết quả của một mô hình với các siêu âm khác nhau, tôi tin rằng bạn có thể sử dụng LOOCV một cách an toàn để ước tính các lỗi dự đoán, với điều kiện giá trị thực của lỗi dự đoán không phải là mối quan tâm của bạn, nghĩa là bạn chỉ muốn so sánh các mô hình khác nhau có tập huấn luyện được quan sát và bạn không quan tâm đến lỗi thực sự được ước tính.

Điều đó nói rằng, theo nguyên tắc thông thường, nếu bạn có một mẫu nhỏ, hãy sử dụng LOOCV, nếu không, hãy sử dụng CV gấp k với giá trị nhỏ hơn cho k.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.