Tại sao ước tính sườn núi trở nên tốt hơn OLS bằng cách thêm một hằng số vào đường chéo?


59

Tôi hiểu rằng ước tính hồi quy sườn núi là giảm thiểu tổng bình phương còn lại và hình phạt đối với kích thước củaββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Tuy nhiên, tôi không hiểu đầy đủ ý nghĩa của thực tế là βridge khác với βOLS bằng cách chỉ thêm một hằng số nhỏ vào đường chéo của XX . Thật,

βOLS=(XX)1Xy
  1. Cuốn sách của tôi đề cập rằng điều này làm cho ước tính ổn định hơn về số lượng - tại sao?

  2. Là sự ổn định về số có liên quan đến độ co về 0 của ước tính sườn núi, hay đó chỉ là sự trùng hợp ngẫu nhiên?

Câu trả lời:


76

Trong một hồi quy không mở rộng, bạn thường có thể có một sườn núi * trong không gian tham số, trong đó nhiều giá trị khác nhau dọc theo sườn núi đều làm tốt hoặc gần như theo tiêu chí bình phương nhỏ nhất.

* (ít nhất, đó là một sườn núi trong chức năng khả năng - chúng thực sự là các thung lũng $ trong tiêu chí RSS, nhưng tôi sẽ tiếp tục gọi nó là một sườn núi, vì điều này dường như là thông thường - hoặc thậm chí, như điểm của Alexis Trong các bình luận, tôi có thể gọi đó là một con thalweg , là đối trọng của thung lũng của một sườn núi)

Với sự hiện diện của một sườn núi trong tiêu chí bình phương nhỏ nhất trong không gian tham số, hình phạt bạn nhận được với hồi quy sườn sẽ loại bỏ các đường vân đó bằng cách đẩy tiêu chí lên khi các tham số đi khỏi gốc:

nhập mô tả hình ảnh ở đây
[ Hình ảnh rõ ràng hơn ]

Trong biểu đồ đầu tiên, một sự thay đổi lớn trong các giá trị tham số (dọc theo sườn núi) tạo ra một sự thay đổi rất nhỏ trong tiêu chí RSS. Điều này có thể gây mất ổn định số; nó rất nhạy cảm với những thay đổi nhỏ (ví dụ: một thay đổi nhỏ trong giá trị dữ liệu, thậm chí là cắt ngắn hoặc làm tròn lỗi). Các ước tính tham số gần như hoàn toàn tương quan. Bạn có thể nhận được ước tính tham số rất lớn về độ lớn.

Ngược lại, bằng cách nâng lên điều mà hồi quy sườn núi giảm thiểu (bằng cách thêm hình phạt ) khi các tham số cách xa 0, các thay đổi nhỏ trong điều kiện (chẳng hạn như lỗi làm tròn hoặc cắt ngắn) không thể tạo ra thay đổi lớn trong kết quả ước tính. Thời hạn phạt dẫn đến co rút về 0 (dẫn đến một số sai lệch). Một lượng nhỏ sai lệch có thể mua một sự cải thiện đáng kể về phương sai (bằng cách loại bỏ sườn núi đó).L2

Độ không đảm bảo của các ước tính được giảm (các lỗi tiêu chuẩn có liên quan nghịch đảo với đạo hàm thứ hai, được làm lớn hơn bằng hình phạt).

Tương quan trong các ước tính tham số được giảm. Bây giờ bạn sẽ không nhận được ước tính tham số có cường độ rất lớn nếu RSS cho các tham số nhỏ sẽ không tệ hơn nhiều.


4
Câu trả lời này thực sự giúp tôi hiểu độ co rút và độ ổn định số. Tuy nhiên, tôi vẫn chưa rõ về cách "thêm một hằng số nhỏ vào " đạt được hai điều này. XX
Heisenberg

4
Thêm một hằng số vào đường chéo * cũng giống như thêm một paraboloid tròn có tâm ở vào RSS (với kết quả được hiển thị ở trên - nó "kéo lên" từ 0 - loại bỏ sườn núi). * (không nhất thiết phải nhỏ, nó phụ thuộc vào cách bạn nhìn vào nó và bạn đã thêm bao nhiêu)0
Glen_b

6
Glen_b từ trái nghĩa của "sườn núi" trong ngôn ngữ tiếng Anh mà bạn đang tìm kiếm (con đường / đường cong dọc theo một thung lũng) là thalweg . Mà tôi mới học được khoảng hai tuần trước và chỉ đơn giản là ngưỡng mộ. Nó thậm chí không âm thanh như một từ tiếng Anh! : D
Alexis

5
@Alexis Điều đó chắc chắn sẽ là một từ tiện dụng, vì vậy cảm ơn vì điều đó. Nó có thể không phát âm tiếng Anh vì đó là một từ tiếng Đức (thực ra thal giống với 'thal' như trong " Neanderthal " = "Neander Valley" và weg = 'way'). [Như vậy, tôi muốn "sườn núi" không phải vì tôi không thể nghĩ nên gọi nó là gì, mà bởi vì mọi người dường như gọi nó là một sườn núi cho dù họ đang xem xét khả năng hay RSS, và tôi đang giải thích mong muốn theo dõi quy ước, mặc dù có vẻ kỳ lạ. Thalweg sẽ là một lựa chọn tuyệt vời cho chỉ một từ đúng, phải chăng tôi đã không tuân theo quy ước kỳ quặc.]
Glen_b

4
X trở nên gần với một ma trận không có thứ hạng đầy đủ (và do đó X'X trở nên gần như duy nhất) chính xác khi một sườn núi xuất hiện trong khả năng. Sườn núi là kết quả trực tiếp của mối quan hệ gần như tuyến tính giữa các cột của , điều này làm cho s (gần như) phụ thuộc tuyến tính. Xβ
Glen_b

28

+1 trên hình minh họa của Glen_b và các nhận xét về số liệu thống kê về công cụ ước tính của Ridge. Tôi chỉ muốn thêm một phép toán thuần túy (đại số tuyến tính) vào hồi quy Ridge để trả lời các câu hỏi OP 1) và 2).

Đầu tiên lưu ý rằng là ma trận bán nguyệt dương đối xứng - lần so với ma trận hiệp phương sai mẫu. Do đó, nó có sự phân hủy bản địaXXp×pn

XX=VDV,D=[d1dp],di0

Bây giờ vì nghịch đảo ma trận tương ứng với đảo ngược các giá trị riêng, công cụ ước tính OLS yêu cầu (lưu ý rằng ). Rõ ràng điều này chỉ hoạt động nếu tất cả các giá trị riêng đều lớn hơn 0, . Đối với điều này là không thể; Đối với thì nói chung là đúng - điều này là do chúng ta thường quan tâm đến tính đa hình .(XX)1=VD1VV=V1di>0pnnp

Là nhà thống kê, chúng tôi cũng muốn biết những nhiễu loạn nhỏ trong dữ liệu thay đổi các ước tính. Rõ ràng là một thay đổi nhỏ trong bất kỳ nào dẫn đến sự thay đổi lớn trong nếu rất nhỏ.Xdi1/didi

Vì vậy, những gì hồi quy Ridge thực hiện là di chuyển tất cả các giá trị riêng ra xa hơn 0

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
hiện có eigenvalues . Đây là lý do tại sao việc chọn tham số hình phạt dương làm cho ma trận không thể đảo ngược - ngay cả trong trường hợp . Đối với hồi quy Ridge, một biến thể nhỏ trong dữ liệu không còn có tác dụng cực kỳ không ổn định đối với ma trận đảo ngược.di+λλ0pnX

Độ ổn định số có liên quan đến độ co về 0 vì cả hai đều là hệ quả của việc thêm hằng số dương vào giá trị riêng: nó làm cho nó ổn định hơn vì nhiễu loạn nhỏ trong không thay đổi nghịch đảo quá nhiều; nó thu nhỏ lại gần bằng kể từ bây giờ thuật ngữ được nhân với gần bằng 0 so với giải pháp OLS với giá trị riêng nghịch đảo .X0V1Xy1/(di+λ)1/d


2
Câu trả lời này trả lời thỏa đáng phần đại số cho câu hỏi của tôi! Cùng với câu trả lời của Glen_b, nó đưa ra lời giải thích đầy đủ về vấn đề này.
Heisenberg

17

Cuộc biểu tình của Glen_b là tuyệt vời. Tôi chỉ nói thêm rằng ngoài nguyên nhân chính xác của vấn đề và mô tả về cách thức hồi quy hình phạt bậc hai hoạt động, có một điểm mấu chốt là hình phạt có tác động ròng của việc thu hẹp các hệ số khác với việc chặn về 0. Điều này cung cấp một giải pháp trực tiếp cho vấn đề quá mức vốn có trong hầu hết các phân tích hồi quy khi kích thước mẫu không lớn so với số lượng ước tính tham số. Hầu như bất kỳ hình phạt nào về 0 đối với các trường hợp không can thiệp đều sẽ cải thiện độ chính xác dự đoán so với mô hình không bị phạt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.