Khi nào thì kết quả của Shao khi xác thực chéo một lần áp dụng?

22

Trong bài viết Lựa chọn mô hình tuyến tính bằng cách xác thực chéo , Jun Shao cho thấy rằng đối với vấn đề lựa chọn biến trong hồi quy tuyến tính đa biến, phương pháp xác thực chéo một lần (LOOCV) là 'không nhất quán'. Trong tiếng Anh đơn giản, nó có xu hướng chọn các mô hình có quá nhiều biến. Trong một nghiên cứu mô phỏng, Shao chỉ ra rằng thậm chí chỉ với 40 quan sát, LOOCV có thể hoạt động kém hơn các kỹ thuật xác nhận chéo khác.

Bài viết này có phần gây tranh cãi và có phần bị bỏ qua (10 năm sau khi xuất bản, các đồng nghiệp hóa học của tôi chưa bao giờ nghe về nó và vui vẻ sử dụng LOOCV để lựa chọn biến ...). Cũng có một niềm tin (tôi có tội về điều này), rằng kết quả của nó mở rộng ra ngoài phạm vi giới hạn ban đầu.

Câu hỏi, sau đó: những kết quả này kéo dài bao xa? Chúng có áp dụng cho các vấn đề sau không?

Lựa chọn biến cho hồi quy logistic / GLM?
Lựa chọn biến để phân loại Fisher LDA?
Lựa chọn biến bằng cách sử dụng SVM với không gian nhân hữu hạn (hoặc vô hạn)?
So sánh các mô hình trong phân loại, nói SVM sử dụng các hạt nhân khác nhau?
So sánh các mô hình trong hồi quy tuyến tính, nói so sánh MLR với hồi quy Ridge?
v.v.

classification model-selection cross-validation

— shabbychef
nguồn

Phải có một cái gì đó trong sách hóa học; người đàn ông duy nhất tôi biết sử dụng LOO cũng đang làm điều đó.

14

Bạn cần xác định mục đích của mô hình trước khi bạn có thể nói liệu kết quả của Shao có được áp dụng hay không. Ví dụ, nếu mục đích là dự đoán, thì LOOCV có ý nghĩa tốt và sự không nhất quán của lựa chọn biến không phải là vấn đề. Mặt khác, nếu mục đích là xác định các biến quan trọng và giải thích chúng ảnh hưởng đến biến phản ứng như thế nào, thì kết quả của Shao rõ ràng rất quan trọng và LOOCV không phù hợp.

AIC là tiệm LOOCV và BIC là tiệm tương đương với một leave- out CV nơi --- kết quả BIC chỉ mô hình tuyến tính. Vì vậy, BIC cung cấp lựa chọn mô hình phù hợp. Do đó, một bản tóm tắt ngắn gọn về kết quả của Shao là AIC hữu ích cho dự đoán nhưng BIC rất hữu ích để giải thích. $v$ $v=n[1-1/(\log(n)-1)]$

— Rob Hyndman
nguồn

1

Tôi tin rằng Shao đã chỉ ra rằng CV gấp

không nhất quán nếu

cố định trong khi

phát triển.

k

$k$

n

$n$

— shabbychef

1

BIC có k phát triển với n.

— Rob Hyndman

1

Tôi sẽ chỉ âm thầm nhắc nhở rằng * IC <-> * CV tương ứng từ giấy Shao chỉ hoạt động cho các mô hình tuyến tính và BIC chỉ tương đương với CV gấp k với k nhất định.

Trên thực tế, tôi tin rằng Shao cho thấy CV không nhất quán trừ khi

là

, trong đó

là số lượng mẫu trong bộ thử nghiệm. Do đó

Fold CV luôn không nhất quán cho lựa chọn biến. Có phải tôi đã hiểu lầm? Theo

Fold CV, tôi có nghĩa là chia mẫu thành các nhóm

và đào tạo về

trong số họ, và thử nghiệm trên 1 trong số đó, sau đó lặp lại

lần. Sau đó

CV CV, không bao giờ tiếp cận 1.

n_{v} / n \to 1

$n_v/n \to 1$

n \to inf

$n \to \inf$

n_{v}

$n_v$

k

$k$

k

$k$

k

$k$

k - 1

$k-1$

k

$k$

với

n_{v} / n = 1 / k

$n_v/n = 1/k$

k

$k$

— gấp đôi shabbychef

3

@mbq: Không - bằng chứng AIC / LOO của Stone 1977 không giả sử mô hình tuyến tính. Vì lý do này, không giống như kết quả của Shao, nó được trích dẫn rộng rãi; xem ví dụ, các chương lựa chọn mô hình trong EOSL hoặc Sổ tay thống kê tính toán hoặc thực sự là bất kỳ chương / bài báo hay nào về lựa chọn mô hình. Nó chỉ dài hơn một trang và đáng đọc một chút vì nó hơi gọn gàng đối với cách anh ta tránh phải tính toán thông tin / Điểm số của Fisher để rút ra kết quả.

— ars

7

Bài viết này có phần gây tranh cãi, và hơi bị bỏ qua

Không thực sự, nó được xem xét tốt về lý thuyết lựa chọn mô hình, mặc dù nó chắc chắn bị hiểu sai. Vấn đề thực sự là nó có liên quan như thế nào đến việc thực hành mô hình hóa trong tự nhiên. Giả sử bạn thực hiện các mô phỏng cho các trường hợp bạn đề xuất để điều tra và xác định rằng LOOCV thực sự không nhất quán. Lý do duy nhất bạn có được đó là vì bạn đã biết mô hình "thật" và do đó có thể xác định rằng xác suất khôi phục mô hình "thật" không hội tụ đến 1. Đối với mô hình hóa trong tự nhiên, mức độ thường xuyên này là đúng ( rằng các hiện tượng được mô tả bởi các mô hình tuyến tính và mô hình "đúng" là một tập hợp con của những người đang xem xét)?

Bài viết của Shao chắc chắn rất thú vị để thúc đẩy khung lý thuyết. Nó thậm chí còn cung cấp một số sự rõ ràng: nếu mô hình "thật" thực sự đang được xem xét, thì chúng tôi có kết quả nhất quán để treo mũ của chúng tôi. Nhưng tôi không chắc mô phỏng thực tế thú vị cho các trường hợp bạn mô tả sẽ như thế nào. Đây phần lớn là lý do tại sao hầu hết các cuốn sách như EOSL không tập trung nhiều vào kết quả của Shao, mà thay vào đó là lỗi dự đoán / khái quát hóa như là một tiêu chí để lựa chọn mô hình.

EDIT: Câu trả lời rất ngắn cho câu hỏi của bạn là: Kết quả của Shao có thể áp dụng khi bạn thực hiện ước lượng bình phương nhỏ nhất, hàm mất bậc hai. Không rộng hơn. (Tôi nghĩ rằng có một bài báo thú vị của Yang (2005?) Trong đó điều tra xem liệu bạn có thể có sự nhất quán và hiệu quả hay không, với một câu trả lời phủ định.)

— ars
nguồn

Tôi không nghĩ nó có liên quan cho dù tôi biết mô hình thực sự trong tự nhiên. Nếu có một mô hình 'đúng', tôi sẽ thích một phương pháp có nhiều khả năng tìm thấy nó hơn.

— shabbychef

2

@shabbychef: Tôi không đồng ý. Nhưng lưu ý: "Nếu có một mô hình 'đúng' và nó đang được xem xét .. làm thế nào bạn biết đây là một tiên nghiệm?

— ars

1

Cũng lưu ý rằng đoạn thứ hai của tôi thực sự đưa ra quan điểm trong bình luận của bạn. Đây là một tài sản tốt, nhưng nó không rõ ràng về cách áp dụng nó trong tự nhiên; mặc dù theo một nghĩa nào đó, nó có thể bị nhầm lẫn.

— ars

2

@ars - lưu ý rằng "tuyến tính" của mô hình 'true' không phải là cách duy nhất để khôi phục mô hình 'true' từ mô hình tuyến tính. Nếu thành phần phi tuyến tính của mô hình 'true' có thể được mô hình hóa tốt bằng thuật ngữ nhiễu (ví dụ: các hiệu ứng phi tuyến tính có xu hướng triệt tiêu lẫn nhau) thì chúng ta có thể gọi mô hình tuyến tính là 'true' một cách hợp lý. Điều này tương tự như giả sử phần còn lại trong một chuỗi taylor tuyến tính là không đáng kể.

— xác suất

1

v

$v$

6

$10/10$ $1$

Ngoài các bằng chứng, tôi tự hỏi liệu đã có nghiên cứu mô phỏng về bất kỳ trường hợp nào trong năm trường hợp tôi liệt kê, chẳng hạn.

— shabbychef

Muốn làm một số?

2

Tôi làm; Mặc dù vậy, tôi sẽ phải học nhiều R hơn nữa để chia sẻ kết quả ở đây.

— shabbychef

1

@shabbychef: bao giờ phải làm điều này? Và nhân tiện, nếu bạn vẫn đang đếm các nhà hóa học làm hoặc không sử dụng CV cho lựa chọn biến, bạn có thể đếm tôi về phía những người từ chối làm điều đó, bởi vì a) Tôi chưa có dữ liệu thực được thiết lập với đủ trường hợp (mẫu) để cho phép so sánh một mô hình duy nhất và b) cho dữ liệu phổ của tôi, thông tin liên quan thường được "bôi nhọ" trên các phần lớn của phổ, vì vậy tôi thích không thường xuyên lựa chọn biến cứng.

— cbeleites hỗ trợ Monica

1

1) Câu trả lời của @ars đề cập Yang (2005), "Điểm mạnh của AIC và BIC có thể được chia sẻ không?" . Nói một cách lỏng lẻo, dường như bạn không thể có một tiêu chí lựa chọn mô hình đạt được cả hai tính nhất quán (có xu hướng chọn mô hình chính xác, nếu thực sự có một mô hình chính xác và nó nằm trong số các mô hình được xem xét) và hiệu quả (đạt mức trung bình thấp nhất bình phương lỗi trung bình trong số các mô hình bạn đã chọn). Nếu bạn có xu hướng chọn mô hình phù hợp trung bình, đôi khi bạn sẽ nhận được các mô hình hơi quá nhỏ ... nhưng do thường thiếu một người dự đoán thực sự, bạn lại kém về MSE so với người luôn bao gồm một vài dự đoán giả.

Vì vậy, như đã nói trước đây, nếu bạn quan tâm đến việc đưa ra dự đoán tốt hơn là nhận chính xác các biến, thì bạn vẫn có thể tiếp tục sử dụng LOOCV hoặc AIC.

2) Nhưng tôi cũng muốn chỉ ra hai bài báo khác của mình: Yang (2006) "So sánh các phương pháp học tập để phân loại" và Yang (2007) "Tính nhất quán của kiểm chứng chéo để so sánh các thủ tục hồi quy" . Các bài viết này cho thấy rằng bạn không cần tỷ lệ dữ liệu đào tạo để kiểm tra giảm xuống 0 nếu bạn so sánh các mô hình hội tụ ở tốc độ chậm hơn so với mô hình tuyến tính.

Vì vậy, để trả lời trực tiếp các câu hỏi ban đầu của bạn 1-6: Kết quả của Shao áp dụng khi so sánh các mô hình tuyến tính với nhau. Cho dù là hồi quy hay phân loại, nếu bạn đang so sánh các mô hình không tham số hội tụ ở tốc độ chậm hơn (hoặc thậm chí so sánh một mô hình tuyến tính với một mô hình không tham số), bạn có thể sử dụng hầu hết dữ liệu để đào tạo và vẫn có CV phù hợp với lựa chọn mô hình. .. nhưng vẫn vậy, Yang cho rằng LOOCV quá cực đoan.

— văn minh
nguồn