Tại sao là hồi quy sườn núi gọi là “núi”, tại sao nó cần thiết, và những gì sẽ xảy ra khi


71

Ridge hệ số hồi quy ước lượng β R là những giá trị mà giảm thiểuβ^R

RSS+λj=1pβj2.

Câu hỏi của tôi là:

  1. Nếu , sau đó chúng ta thấy rằng các biểu thức trên làm giảm đến RSS bình thường. Điều gì nếu bước sóng ? Tôi không hiểu lời giải thích trong sách giáo khoa về hành vi của các hệ số.λ=0λ

  2. Để hỗ trợ cho việc hiểu khái niệm đằng sau một thuật ngữ cụ thể, tại sao thuật ngữ này được gọi là Rbridge Regression? (Tại sao sườn núi?) Và điều gì có thể đã sai với hồi quy thông thường / phổ biến rằng cần phải đưa ra một khái niệm mới gọi là hồi quy sườn núi?

Hiểu biết của bạn sẽ là tuyệt vời.

Câu trả lời:


89

Vì bạn hỏi về những hiểu biết , tôi sẽ thực hiện một cách tiếp cận khá trực quan hơn là một chiến thuật toán học hơn:

  1. pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    λxλx0

    λβ

  2. Tôi sẽ cho một cảm giác trực quan về lý do tại sao chúng ta nói về các rặng núi trước tiên (điều này cũng gợi ý tại sao nó cần thiết), sau đó giải quyết một chút lịch sử. Đầu tiên được điều chỉnh từ câu trả lời của tôi ở đây :

    β2logL

    Ridge hồi quy "sửa chữa" các sườn núi - nó sẽ thêm một hình phạt có thể biến các sườn núi thành một đỉnh thoải mái trong không gian khả năng, tương đương một trầm cảm tốt đẹp trong các tiêu chí chúng ta giảm thiểu:

    sườn núi trong LS được biến thành một đỉnh trong hồi quy sườn
    [ Hình ảnh rõ ràng hơn ]

    Câu chuyện thực tế đằng sau cái tên phức tạp hơn một chút. Năm 1959, AE Hoerl [1] đã giới thiệu phân tích sườn núi cho phương pháp phản ứng bề mặt và rất nhanh [2] đã trở nên thích nghi với việc xử lý đa cộng tuyến trong hồi quy ('hồi quy sườn'). Xem ví dụ, cuộc thảo luận của RW Hoerl trong [3], trong đó mô tả việc sử dụng các đường viền của Hoerl (AE chứ không phải RW) của bề mặt phản hồi * trong phần xác định nơi cần tìm tối ưu cục bộ (nơi một người đứng lên cây rơm'). Trong các vấn đề không có điều kiện, vấn đề về sườn núi rất dài phát sinh, và những hiểu biết và phương pháp luận từ phân tích sườn núi được điều chỉnh phù hợp với vấn đề liên quan với khả năng / RSS trong hồi quy, tạo ra hồi quy sườn.

* ví dụ về các ô đường viền bề mặt đáp ứng (trong trường hợp đáp ứng bậc hai) có thể xem tại đây (Hình 3.9-3.12).

XTX

Để biết thêm thông tin về nhu cầu hồi quy sườn núi, hãy xem liên kết đầu tiên trong danh sách mục 2. ở trên.


Người giới thiệu:

[1]: Hoerl, AE (1959). Giải pháp tối ưu của nhiều phương trình biến. Tiến bộ kỹ thuật hóa học , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Các ứng dụng phân tích sườn núi cho các vấn đề hồi quy. Tiến bộ kỹ thuật hóa học , 58 (3) 54-59.

[3] Hoerl, RW (1985). Phân tích sườn núi 25 năm sau. Thống kê người Mỹ , 39 (3), 186-192


2
Điều này là vô cùng hữu ích. Vâng, khi tôi hỏi về những hiểu biết, tôi đã tìm kiếm trực giác. Tất nhiên toán học là quan trọng, nhưng tôi cũng đang tìm kiếm các giải thích về khái niệm, bởi vì có một số phần khi toán học vượt ra ngoài tôi. Cảm ơn một lần nữa.
CGO

Tại sao bạn có từ "có trọng số" trong gạch đầu dòng 1?
amip nói phục hồi Monica

1
Đó là một câu hỏi hay; không cần phải cân nó trừ khi hồi quy ban đầu được tính trọng số. Tôi đã loại bỏ tính từ. Nó cũng có thể viết nó như là một hồi quy gia quyền (mà nếu bạn đã làm hồi quy gia quyền có thể rất nhẹ dễ dàng hơn để đối phó với).
Glen_b

36
  1. λββ=0

(Cập nhật: Vui lòng xem câu trả lời của Glen_b. Đây không phải là lý do lịch sử chính xác!)

  1. β^=(XTX+λI)1XTY.
    λI

n<p

β

ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
vì hoàn toàn đơn điệu và lần lượt này tương đương với log
minβRp||yXβ||2+λβTβ

Mà nhìn khá quen.

Do đó, chúng ta thấy rằng nếu chúng ta đặt một giá trị bình thường trước trung bình 0 và phương sai trên vectơ của chúng ta , thì giá trị của tối đa hóa phía sau là công cụ ước tính sườn núi. Lưu ý rằng điều này coi nhiều hơn như là một tham số thường xuyên vì không có trước nhưng nó không được biết đến, vì vậy đây không hoàn toàn là Bayesian.σ2λββσ2

Chỉnh sửa: bạn đã hỏi về trường hợp . Chúng ta biết rằng một siêu phẳng trong được xác định bởi chính xác điểm . Nếu chúng ta đang chạy hồi quy tuyến tính và thì chúng ta sẽ nội suy chính xác dữ liệu của mình và nhận . Đây là một giải pháp, nhưng nó là một giải pháp tồi tệ: hiệu suất của chúng tôi đối với dữ liệu trong tương lai rất có thể sẽ rất tệ. Bây giờ giả sử : không còn một siêu phẳng duy nhất được xác định bởi các điểm này. Chúng ta có thể phù hợp với vô số siêu phẳng, mỗi siêu thị có 0 bình phương còn lại.n<pRppn=p||yXβ^||2=0n<p

Một ví dụ rất đơn giản: giả sử . Sau đó, chúng tôi sẽ chỉ nhận được một đường giữa hai điểm này. Bây giờ giả sử nhưng . Hình ảnh một mặt phẳng với hai điểm này trong đó. Chúng ta có thể xoay mặt phẳng này mà không thay đổi thực tế là hai điểm này nằm trong đó, do đó, có rất nhiều mô hình có giá trị hoàn hảo của hàm mục tiêu của chúng ta, do đó, ngay cả vấn đề vượt quá nó cũng không rõ là chọn điểm nào.n=p=2n=2p=3

Là một nhận xét cuối cùng (đề xuất của mỗi @ gung), LASSO (sử dụng hình phạt ) thường được sử dụng cho các vấn đề về chiều cao vì nó tự động thực hiện lựa chọn biến (đặt một số ). Đủ thú vị, hóa ra LASSO tương đương với việc tìm chế độ sau khi sử dụng hàm mũ đôi (hay còn gọi là Laplace) trước trên vectơ . LASSO cũng có một số hạn chế, chẳng hạn như bão hòa ở dự đoán và không nhất thiết phải xử lý các nhóm dự đoán tương quan theo kiểu lý tưởng, do đó, lưới đàn hồi (kết hợp lồi của hình phạt và ) có thể được đưa ra.L1βj=0βnL1L2


1
(+1) Câu trả lời của bạn có thể được cải thiện bằng cách xây dựng mối liên hệ giữa Bayesian và hồi quy sườn núi.
Phục hồi Monica

1
Sẽ làm - gõ nó lên bây giờ.
JLD

4
OLS không thể tìm thấy một giải pháp duy nhất khi vì ma trận thiết kế không đầy đủ thứ hạng. Đây là một câu hỏi rất phổ biến; vui lòng tìm kiếm tài liệu lưu trữ để biết mô tả lý do tại sao điều này không hoạt động. n<p
Phục hồi Monica

2
@cgo: giải thích và đề xuất của user777 để tìm kiếm là một cách tốt, nhưng để hoàn thiện, tôi cũng đã thêm một lời giải thích (hy vọng) trực quan.
JLD

5
+1, câu trả lời hay. Xin nhắc lại, bạn có thể đề cập rằng LASSO thường được sử dụng trong trường hợp này & nó có liên quan chặt chẽ với RR.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.