Lucid giải thích cho sự ổn định số của Ma trận đảo ngược Ma trận trong hồi quy sườn và vai trò của nó trong việc giảm sự phù hợp


10

Tôi hiểu rằng chúng ta có thể sử dụng chính quy trong bài toán hồi quy bình phương nhỏ nhất như

w=argminw[(yXw)T(yXw)+λw2]

và rằng vấn đề này có một giải pháp dạng đóng như:

w^=(XTX+λI)1XTy.

Chúng ta thấy rằng trong phương trình 2, chính quy hóa chỉ đơn giản là thêm λ vào đường chéo của XTX , được thực hiện để cải thiện tính ổn định số của nghịch đảo ma trận.

Sự hiểu biết 'thô sơ' hiện tại của tôi về độ ổn định số là nếu một hàm trở nên 'ổn định số' hơn thì đầu ra của nó sẽ ít bị ảnh hưởng bởi nhiễu trong các đầu vào của nó. Tôi đang gặp khó khăn liên quan đến khái niệm về sự ổn định số được cải thiện cho bức tranh lớn hơn về cách nó tránh / giảm vấn đề quá mức.

Tôi đã thử xem Wikipedia và một vài trang web của trường đại học khác, nhưng họ không đi sâu vào giải thích lý do tại sao lại như vậy.


Hồi quy sườn đến với tâm trí. liên kết
EngrStudent

1
Bạn có thể tìm thấy một số giá trị trong cuộc thảo luận (chủ yếu là mô tả / trực quan thay vì đại số) tại sao ước tính sườn núi trở nên tốt hơn OLS bằng cách thêm hằng số vào đường chéo?
Glen_b -Reinstate Monica

Câu trả lời:


2

Trong mô hình tuyến tính , giả sử các lỗi không tương quan với giá trị trung bình bằng 0 và có thứ hạng cột đầy đủ, công cụ ước lượng bình phương nhỏ nhất là công cụ ước lượng không thiên vị cho tham số . Tuy nhiên, công cụ ước tính này có thể có phương sai cao. Ví dụ, khi hai trong số các cột của có mối tương quan cao.Y=Xβ+ϵX(XTX)1XTYβX

Tham số hình phạt làm cho một công cụ ước tính sai lệch của , nhưng nó làm giảm phương sai của nó. Ngoài ra, là kỳ vọng sau của trong hồi quy Bayes với trước . Theo nghĩa đó, chúng tôi đưa một số thông tin vào phân tích nói rằng các thành phần của không nên quá xa không. Một lần nữa, điều này dẫn chúng ta đến một ước tính điểm thiên vị của nhưng làm giảm phương sai của ước tính.λw^βw^βN(0,1λI)βββ

Trong cài đặt có chiều cao, giả sử , bình phương nhỏ nhất phù hợp sẽ khớp với dữ liệu gần như hoàn hảo. Mặc dù không thiên vị, ước tính này sẽ rất nhạy cảm với biến động của dữ liệu vì trong các chiều cao như vậy, sẽ có nhiều điểm có đòn bẩy cao. Trong các tình huống như vậy, dấu hiệu của một số thành phần của có thể được xác định bằng một quan sát duy nhất. Thời hạn phạt có tác dụng thu hẹp các ước tính này về 0, điều này có thể làm giảm MSE của công cụ ước tính bằng cách giảm phương sai.XNpβ^

Chỉnh sửa: Trong phản hồi ban đầu của tôi, tôi đã cung cấp một liên kết đến một bài báo có liên quan và trong sự vội vàng của tôi, tôi đã gỡ bỏ nó. Đây là: http://www.jarad.me/stat615/auge/Ridge_Regression_in_Practice.pdf


1
Trong hình thức hiện tại của nó, đây thực sự là một nhận xét nhiều hơn; Bạn có nghĩ rằng bạn có thể đưa nó vào một câu trả lời thực sự không?
Cá bạc

Đáy của p. 5 bên phải / trên cùng của p. 6 bên trái, liên quan đến Hình 3, chứa các thảo luận chính cho câu hỏi được hỏi trong bài này.
Mark L. Stone

Điều này hoàn toàn chính xác, nhưng tôi không chắc nó trả lời câu hỏi của OP.
amip

amip, xem nhận xét của tôi ở trên, trong đó đề cập đến liên kết đã được chỉnh sửa sau đó từ câu trả lời của Eric Mittman, jarad.me/stat615/ con / Ridge_Regression_in_Practice.pdf .
Mark L. Stone

1

Sự ổn định về số lượng và quá mức trong một số vấn đề có liên quan nhưng khác nhau.

Vấn đề OLS cổ điển:

Hãy xem xét vấn đề bình phương tối thiểu cổ điển:

minimize(over b)(yXb)T(yXb)

Giải pháp là . Một ý tưởng là theo luật số lượng lớn:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

Do đó, ước tính OLS cũng hội tụ thành . (Trong thuật ngữ đại số tuyến tính, đây là phép chiếu tuyến tính của biến ngẫu nhiên lên khoảng tuyến tính của các biến ngẫu nhiên .)b^E[xx]1E[xy]yx1,x2,,xk

Các vấn đề?

Cơ học, những gì có thể đi sai? Vấn đề có thể là gì?

  1. Đối với các mẫu nhỏ, ước tính mẫu của chúng tôi về và có thể kém.E[xx]E[xy]
  2. Nếu các cột của là cộng tuyến (do cộng tuyến vốn có hoặc kích thước mẫu nhỏ), vấn đề sẽ có một giải pháp liên tục! Giải pháp có thể không phải là duy nhất. X
    • Điều này xảy ra nếu bị thiếu thứ hạng.E[xx]
    • Điều này cũng xảy ra nếu bị thiếu thứ hạng do kích thước mẫu nhỏ so với số lượng vấn đề hồi quy.XX

Vấn đề (1) có thể dẫn đến việc quá mức khi ước tính bắt đầu phản ánh các mẫu trong mẫu không có trong quần thể bên dưới. Ước tính có thể phản ánh các mẫu trong và không thực sự tồn tại trong vàb^1nXX1nXyE[xx]E[xy]

Vấn đề (2) có nghĩa là một giải pháp không phải là duy nhất. Hãy tưởng tượng chúng ta đang cố gắng ước tính giá của từng đôi giày nhưng đôi giày luôn được bán cùng nhau. Đây là một vấn đề khó khăn, nhưng hãy nói rằng dù sao chúng ta cũng đang làm điều đó. Chúng tôi có thể tin rằng giá giày bên trái cộng với giá giày bên phải bằng 50 đô la , nhưng làm thế nào chúng tôi có thể đưa ra giá cá nhân? Đặt giá giày trái và giá giày phải ổn không? Làm thế nào chúng ta có thể chọn từ tất cả các khả năng?pl=45pr=5

Giới thiệu hình phạt :L2

Bây giờ hãy xem xét:

minimize(over b)(yXb)T(yXb)+λb2

Điều này có thể giúp chúng tôi với cả hai loại vấn đề. Hình phạt đẩy ước tính của chúng tôi về về không. Hàm này hoạt động hiệu quả như một Bayes trước khi phân phối trên các giá trị hệ số được tập trung xung quanh . Điều đó giúp với quá mức. Ước tính của chúng tôi sẽ phản ánh cả dữ liệu và niềm tin ban đầu của chúng tôi rằng gần bằng không.L2b0b

L2 quy hóa cũng luôn luôn chúng tôi tìm ra một giải pháp độc đáo cho các vấn đề không chính đáng. Nếu chúng ta biết tổng giá của giày trái và phải , thì giải pháp tối thiểu định mức là chọn .$50L2pl=pr=25

Đây có phải là phép thuật không? Không. Chính quy hóa không giống như thêm dữ liệu thực sự sẽ cho phép chúng tôi trả lời câu hỏi. quy hóa trong một số ý nghĩa chấp nhận quan điểm rằng nếu bạn thiếu dữ liệu, hãy chọn ước tính gần hơn .L20

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.