Xác thực chéo (CV) và thống kê xác thực chéo (GCV) tổng quát


23

Tôi đã tìm thấy các định nghĩa có thể mâu thuẫn đối với thống kê xác thực chéo (CV) và thống kê xác thực chéo (GCV) được liên kết với mô hình tuyến tính (với một vectơ lỗi đồng nhất, bình thường ).εY=Xβ+εε

Một mặt, Golub, Heath & Wahba định nghĩa ước tính GCV là (trang 216)λ^

bộ thu nhỏ của do V \ left (\ lambda \ right) = \ frac {\ frac {1} {n} \ left \ | \ left (I - A \ left (\ lambda \ phải) \ phải) y \ phải \ | ^ 2} {\ left (\ frac {1} {n} \ mathrm {tr} \ left (I - A \ left (\ lambda \ right) \ right) \ right ) ^ 2} trong đó A \ left (\ lambda \ right) = X \ left (X ^ TX + n \ lambda I \ right) ^ {- 1} X ^ T V ( λ ) = 1V(λ)Một(λ)=X(XTX+nλtôi)-1XT

V(λ)=1n(IA(λ))y2(1ntr(IA(λ)))2
A(λ)=X(XTX+nλI)1XT

Mặt khác, Efron định nghĩa khái niệm tương tự như V(0) (trang 24), tuy nhiên, ông cho rằng việc giới thiệu khái niệm này với Craven & Wahba, trong đó định nghĩa của nó (trang 377) về cơ bản là giống nhau như định nghĩa đã đề cập ở trên của Golub, Heath & Wahba.

Điều này có nghĩa là 0 giảm thiểu V(λ) ?

Tương tự, Golub, Heath & Wahba định nghĩa ước tính CV của λ (tr. 217) là tối thiểu hóa

P(λ)=1nk=1n([Xβ(k)(λ)]kyk)2

trong đó β(k)(λ) là ước tính

β^(λ)=(XTX+nλI)1XTy

của β với điểm dữ liệu thứ k y_i bị bỏ qua.kyi

Các tác giả gán phần giới thiệu ước tính CV (còn gọi là ước tính PRESS) cho Allen ("PRESS của Allen", ibid.) Tuy nhiên, trong bài viết của Allen, ước tính PRESS được định nghĩa (tr. 126) là nP(0) (trong bài viết của Efron, nó được định nghĩa là P(0) (trang 24)).

Một lần nữa, điều này có nghĩa là 0 giảm thiểu P(λ) ?


  1. Allen, David M. Mối quan hệ giữa lựa chọn biến và phân tích dữ liệu và phương pháp dự đoán. Kỹ thuật, Tập. 16, số 1 (tháng 2 năm 1974), trang 125-127

  2. Craven, Peter và Wahba, Grace. Làm mịn dữ liệu ồn ào với chức năng Spline. Numerische Mathematik 31, (1979), trang 377-403

  3. Efron, Bradley. Làm thế nào thiên vị là tỷ lệ lỗi rõ ràng của một hồi quy logistic? Báo cáo kỹ thuật số 232. Khoa Thống kê, Đại học Stanford (Tháng 4 năm 1985)

  4. Golub, Gene H., Heath và Grace Wahba. Xác thực chéo tổng quát như một phương pháp để chọn tham số độ dốc tốt. Kỹ thuật, Tập. 21, số 2 (tháng 5 năm 1979), trang 215-223


7
Bạn đã quên đề cập rằng điều này sẽ được trang bị với hồi quy sườn và không phải là hình vuông nhỏ nhất? Tôi đã hoàn toàn bối rối về những gì là cho đến khi tôi nhìn thấy các tiêu đề giấy ở phía dướiλ
Shadowtalker

1
Xóa Xác thực chéo tổng quát trong tiêu đề và thêm Hồi quy độ dốc trong tiêu đề. Dưới đây là những gì GridSearchCV () mặc định cho RidgeCV ():
HoofarLotusX

Câu trả lời:


2

Tôi tin rằng các ý kiến ​​đang chỉ vào câu trả lời, nhưng không nói thẳng ra. Vì vậy, tôi sẽ cùn.

Công thức V được trích dẫn ở đây là cụ thể cho hồi quy sườn tuyến tính. Họ không nói nó giống như PRESS, họ nói rằng đó là phiên bản bất biến xoay vòng của PRESS. Phần "bất biến xoay" là phần tạo nên điều này.

Bài viết của Efron là về hồi quy logistic, được tùy chỉnh theo bối cảnh đó. Nếu bạn muốn xem bản dịch toán giữa hai bối cảnh, cuốn sách phù hợp để đọc là Các yếu tố của học thống kê, 2ed, của Hastie, Tibshirani và Freedman. Họ cung cấp cuốn sách đó miễn phí, trực tuyến: https://web.stanford.edu/~hastie/Papers/ESLII.pdf . Một cách đọc hữu ích khác về GCV là Mô hình phụ gia tổng quát của Simon Wood. Điều trị của ông tích hợp GCV nói chung với các ứng dụng trong hồi quy và hồi quy logistic.

Nếu bạn nhìn vào cuốn sách ESL, trang 244, về cơ bản bạn sẽ thấy cùng một hệ thống ký hiệu. Họ đề cập đến sản phẩm ma trận lớn mà bạn có là ma trận mượt mà hơn (tôi muốn nói đó là ma trận Hat hoặc người anh em họ gần). Họ mô tả Smoother là ánh xạ từ đếnSyy^

y^=Sy

SS

Họ cung cấp một công thức cho xấp xỉ GCV:

GCV(f^)=1Ni=1N[yif^(xi)1trace(S)/N]2

Điều này khá giống với hành vi của AIC trong nhiều mô hình. Dấu là số lượng tham số hiệu quả.traceS

Các mảnh bạn trích dẫn là tổng quát hơn một dấu vết của . Theo như tôi có thể hiểu, trong bản tóm tắt của GCV là một phiên bản gần đúng của việc loại bỏ một giá trị chéo, nhưng trong một số trường hợp, (tôi tin rằng hồi quy sườn), nó là chính xác. Đó là một điểm chính trong bài báo Golub.nλS

Chúc may mắn, viết lại nếu bạn tìm hiểu thêm.


Cảm ơn. Tôi đã đăng câu hỏi của mình hơn 5 năm trước và kể từ đó tôi đã quên hầu hết các tài liệu này, vì vậy tôi không thể đánh giá câu trả lời của bạn để cho biết nó tốt (có vẻ như vậy) hay xấu, và vì lý do này Tôi cũng không thể chấp nhận nó. Cảm ơn cho bài viết, mặc dù. Hy vọng nó sẽ hữu ích cho những người khác có thể đi qua trang này.
Evan Aad
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.