Thống kê PRESS cho hồi quy sườn


9

Trong các bình phương tối thiểu thông thường, hồi quy một vectơ đích so với tập hợp các yếu tố dự đoán X , ma trận mũ được tính làyX

H=X(XtX)1Xt

và PRESS (dự đoán tổng bình phương còn lại) được tính bằng

SSP=i(ei1hii)2

Trong đó là phần dư thứ ih i i là các phần tử đường chéo của ma trận mũ.eiihii

Trong hồi quy sườn núi với hệ số phạt , ma trận mũ được sửa đổi để đượcλ

H=X(XtX+λI)1Xt

Thống kê PRESS có thể được tính theo cùng một cách, sử dụng ma trận mũ được sửa đổi không?

Câu trả lời:


7

vâng, tôi sử dụng phương pháp này rất nhiều cho hồi quy kernel, và đó là một cách tốt để chọn tham số sườn (xem ví dụ như bài báo này [doi , in trước] ).

Việc tìm kiếm tham số sườn tối ưu có thể được thực hiện rất hiệu quả nếu các phép tính được thực hiện ở dạng chính tắc (xem ví dụ như bài báo này ), trong đó mô hình được tham số lại để yêu cầu nghịch đảo của ma trận đường chéo.


Cảm ơn. Theo kinh nghiệm của bạn, nếu bạn sử dụng PRESS để chọn tham số sườn núi, thì lỗi dự đoán thực tế của bạn trên tập kiểm tra so với PRESS đo được của bạn trên tập huấn luyện như thế nào? Có lẽ (PRESS / n) là một đánh giá thấp về lỗi dự đoán, nhưng nó có đáng tin cậy trong thực tế không?
Chris Taylor

1
PRESS xấp xỉ không thiên vị, vấn đề thực sự với nó là phương sai, có nghĩa là có rất nhiều biến thiên tùy thuộc vào mẫu dữ liệu cụ thể được đánh giá. Điều này có nghĩa là nếu bạn tối ưu hóa PRESS trong lựa chọn mô hình, bạn có thể phù hợp quá mức với tiêu chí lựa chọn mô hình và kết thúc với một mô hình kém. Tuy nhiên, đối với loại mô hình mà tôi quan tâm (phương pháp học kernel) thì nó khá hiệu quả và vấn đề phương sai dường như không tệ hơn nhiều so với tiêu chí khác có thể được dự kiến ​​sẽ hoạt động tốt hơn.
Dikran Marsupial

Nếu nghi ngờ, bạn luôn có thể sử dụng đóng bao ngoài hồi quy sườn như một cách tiếp cận "đai và niềng răng" để tránh khớp quá mức.
Dikran Marsupial

Cảm ơn bạn đã giúp đỡ! Tôi có ấn tượng rằng việc đóng bao không mang lại bất kỳ cải tiến nào trong các mô hình tuyến tính, ví dụ như được tuyên bố trong bài viết Wikipedia ? Bạn có thể làm rõ?
Chris Taylor

không vấn đề gì. Tôi nghi ngờ bài viết Wikipedia không chính xác, lựa chọn tập hợp con trong hồi quy tuyến tính là một trong những ví dụ mà Brieman sử dụng trong bài báo gốc về Bagging. Có thể là hồi quy tuyến tính bình phương nhỏ nhất mà không có lựa chọn tập hợp con không bị ảnh hưởng bởi việc đóng gói, nhưng ngay cả khi đó tôi nghi ngờ nó áp dụng cho các mô hình tuyến tính nói chung hơn (như hồi quy logistic).
Dikran Marsupial

0

Cách tiếp cận sau đây có thể được thực hiện để áp dụng chính quy L2 và lấy thống kê PRESS. Phương pháp sử dụng phương pháp tăng dữ liệu.

Giả sử bạn có N mẫu của Y và K biến giải thích X1, X2 ... Xk .... XK

  1. Thêm biến X0 bổ sung có 1 trên N mẫu
  2. Trả trước với K mẫu bổ sung trong đó:
    • Giá trị Y là 0 cho mỗi mẫu K
    • Giá trị X0 là 0 cho mỗi mẫu K
    • Giá trị Xk là SQRT (Lambda * N) * [STDEV (Xk) trên N mẫu] nếu trên đường chéo và 0 khác
  3. Hiện tại có các mẫu N + K và các biến K + 1. Hồi quy tuyến tính bình thường có thể được giải quyết với các đầu vào này.
  4. Vì đây là một hồi quy được thực hiện trong một bước, thống kê PRESS có thể được tính như bình thường.
  5. Đầu vào chính quy Lambda phải được quyết định. Xem xét thống kê PRESS cho các đầu vào khác nhau của Lambada có thể giúp xác định giá trị phù hợp.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.