Tại sao co rút hoạt động?


55

Để giải quyết các vấn đề về lựa chọn mô hình, một số phương thức (LASSO, hồi quy sườn, v.v.) sẽ thu nhỏ các hệ số của các biến dự đoán về 0. Tôi đang tìm kiếm một lời giải thích trực quan về lý do tại sao điều này cải thiện khả năng dự đoán. Nếu tác động thực sự của biến thực sự rất lớn, tại sao việc thu nhỏ tham số không dẫn đến dự đoán tồi tệ hơn?

Câu trả lời:


48

Nói một cách đơn giản, có ba nguồn lỗi dự đoán khác nhau:

  1. sự thiên vị của mô hình của bạn
  2. phương sai của mô hình của bạn
  3. phương sai không thể giải thích

Chúng tôi không thể làm bất cứ điều gì về điểm 3 (ngoại trừ việc cố gắng ước tính phương sai không giải thích được và kết hợp nó trong mật độ dự đoán và khoảng dự đoán của chúng tôi). Điều này để lại cho chúng tôi 1 và 2.

Nếu bạn thực sự có mô hình "đúng", thì, giả sử, ước tính tham số OLS sẽ không thiên vị và có phương sai tối thiểu trong số tất cả các ước lượng không thiên vị (tuyến tính) (chúng là BLUE). Dự đoán từ mô hình OLS sẽ là dự đoán không thiên vị tuyến tính tốt nhất (BLUP). Điều đó nghe có vẻ tốt.

Tuy nhiên, hóa ra là mặc dù chúng ta có các dự đoán không thiên vị và phương sai tối thiểu trong số tất cả các dự đoán không thiên vị, phương sai vẫn có thể khá lớn. Quan trọng hơn, đôi khi chúng ta có thể đưa ra sai lệch "một chút" và đồng thời tiết kiệm "rất nhiều" phương sai - và bằng cách đánh đổi vừa phải, chúng ta có thể nhận được lỗi dự đoán thấp hơn với mô hình sai lệch (phương sai thấp hơn) so với không thiên vị ( phương sai cao hơn) một. Đây được gọi là "sự đánh đổi sai lệch thiên vị", và câu hỏi này và câu trả lời của nó đang được khai sáng: Khi nào thì một công cụ ước tính thiên vị thích hợp hơn không thiên vị?

Và chính quy hóa như lasso, hồi quy sườn, lưới đàn hồi và vv làm chính xác điều đó. Họ kéo mô hình về không. (Cách tiếp cận Bayes tương tự - họ kéo mô hình về phía các linh mục.) Vì vậy, các mô hình chính quy sẽ bị sai lệch so với các mô hình không chính quy, nhưng cũng có phương sai thấp hơn. Nếu bạn chọn quyền chính quy của mình, kết quả là dự đoán có lỗi thấp hơn.

Nếu bạn tìm kiếm "chính quy hóa sự đánh đổi sai lệch" hoặc tương tự, bạn sẽ có được một số thực phẩm để suy nghĩ. Bài thuyết trình này, ví dụ, là hữu ích.

EDIT: amip hoàn toàn chỉ ra rằng tôi đang truyền tay nhau về lý do tại sao chính xác hóa mang lại phương sai thấp hơn của các mô hình và dự đoán. Hãy xem xét một mô hình Lasso với tham số chính quy lớn . Nếu , ước tính tham số lasso của bạn sẽ bị thu hẹp về không. Một giá trị tham số cố định bằng 0 có phương sai bằng không. (Điều này không hoàn toàn chính xác, vì giá trị ngưỡng của vượt quá các tham số của bạn sẽ bị thu hẹp về 0 phụ thuộc vào dữ liệu và mô hình của bạn. Nhưng với mô hình và dữ liệu, bạn có thể tìm thấyλλλλsao cho mô hình là mô hình số không. Luôn luôn giữ các bộ định lượng của bạn thẳng.) Tuy nhiên, mô hình zero tất nhiên cũng sẽ có một thiên vị rất lớn. Rốt cuộc, nó không quan tâm đến những quan sát thực tế.

Và điều tương tự cũng áp dụng cho các giá trị không phải là cực trị của (các) tham số chính quy của bạn: các giá trị nhỏ sẽ mang lại ước tính tham số không đều, sẽ ít sai lệch (không thiên vị nếu bạn có mô hình "chính xác"), nhưng có giá trị cao hơn phương sai. Họ sẽ "nhảy lung tung", theo dõi những quan sát thực tế của bạn. Giá trị cao hơn của chính quy hóa sẽ "hạn chế" ước tính tham số của bạn ngày càng nhiều. Đây là lý do tại sao các phương thức có các tên như "lasso" hoặc "lưới đàn hồi": chúng hạn chế sự tự do của các tham số của bạn để di chuyển xung quanh và theo dõi dữ liệu.λ

(Tôi đang viết một bài báo nhỏ về điều này, hy vọng sẽ dễ truy cập hơn. Tôi sẽ thêm một liên kết một khi nó có sẵn.)


4
Dường như phần cốt yếu của câu đố là: tại sao các phương pháp thu nhỏ lại làm giảm phương sai? (Rằng họ giới thiệu một số sai lệch ít nhiều rõ ràng.) Bạn chỉ cần nói rõ rằng họ làm; bạn có thể cung cấp một số trực giác cho điều đó?
amip nói rằng Phục hồi Monica

2
@Stephan Kolassa Vì vậy, việc thêm thuật ngữ hình phạt cho kích thước của các hệ số sẽ thêm một chút sai lệch nhưng làm giảm tính biến thiên vì nó phạt các hệ số lớn, thường sẽ có nhiều biến thiên hơn các hệ số nhỏ hơn. Đúng không? Sau đó, cuối cùng chúng ta không quá quan tâm đến việc nhận giá trị 'chính xác' cho bất kỳ hệ số cụ thể nào, chúng ta chỉ quan tâm đến khả năng dự đoán tổng thể của mô hình?
aspiringstatistician

2
@aspiresstatistician: Câu thứ hai của bạn là đúng trên nhãn hiệu. (Nhắc lại George Box về các mô hình "sai nhưng hữu ích".) Tôi sẽ không lo lắng nhiều về việc liệu các ước tính tham số lớn có bị thu hẹp hơn các mô hình nhỏ hay không. Đầu tiên, điều này sẽ phụ thuộc vào tiêu chuẩn hóa. Thứ hai, nếu các giá trị tham số lớn của bạn được ước tính tốt (nghĩa là có lỗi thấp), thì chúng sẽ không nhất thiết bị thu hẹp rất nhiều. Chính quy hóa "thích" thu nhỏ các tham số được xác định sai, nghĩa là có phương sai cao.
S. Kolassa - Tái lập Monica

3
+1. Chúc may mắn với tờ giấy! @aspiresstatistician: Quan sát rất tốt về co ngót không quan tâm đến việc lấy đúng mô hình; điều này hoàn toàn chính xác (và đáng để suy ngẫm): mô hình được chỉ định chính xác có thể có khả năng dự đoán kém hơn so với mô hình chính quy và "ít đúng" (xem Phụ lục trên trang 307 của bài viết này ).
amip nói rằng Tái lập Monica

7
+1. Chỉ muốn nói thêm rằng, trong khi câu hỏi là về trực giác đằng sau các mô hình chính quy, thì cảm giác hơi không hoàn chỉnh khi không đề cập đến dẫn xuất Bayes của các mô hình này. Ví dụ, khi so sánh hồi quy sườn với MLE đơn giản, trong hầu hết các ứng dụng, tôi nghĩ rằng hiệu ứng được rút ra từ một phân phối bình thường, trái ngược với phân phối thống nhất (không đúng). Vì vậy, việc xem các kỹ thuật này là cả hai trường hợp đặc biệt của ước tính MAP cho thấy rõ lý do tại sao người ta sẽ chọn hồi quy sườn.
jlimahaverford

10

Chỉ cần thêm một cái gì đó vào câu trả lời hay của @ Kolassa, toàn bộ câu hỏi về ước tính hao hụt bị ràng buộc với nghịch lý của Stein . Đối với các quy trình đa biến với , vectơ trung bình mẫu không được chấp nhận. Nói cách khác, đối với một số giá trị tham số, có một công cụ ước tính khác với rủi ro dự kiến ​​thấp hơn. Stein đã đề xuất một công cụ ước tính hao hụt làm ví dụ. Vì vậy, chúng tôi đang đối phó với lời nguyền của chiều, vì co rút không giúp bạn khi bạn chỉ có 1 hoặc 2 biến độc lập.p3

Đọc câu trả lời này để biết thêm. Rõ ràng, nghịch lý của Stein có liên quan đến định lý nổi tiếng rằng quá trình chuyển động của Browian ở 3 chiều trở lên là không tái diễn (đi lang thang khắp nơi mà không quay trở lại nguồn gốc), trong khi Brown 1 và 2 chiều được tái phát.

Nghịch lý của Stein giữ cho dù bạn thu nhỏ về phía nào, mặc dù trong thực tế, sẽ tốt hơn nếu bạn thu nhỏ về phía các giá trị tham số thực. Đây là những gì Bayes làm. Họ nghĩ rằng họ biết tham số thực sự ở đâu và họ thu nhỏ về phía nó. Sau đó, họ tuyên bố rằng Stein xác nhận sự tồn tại của họ.

Nó được gọi là một nghịch lý chính xác bởi vì nó thách thức trực giác của chúng ta. Tuy nhiên, nếu bạn nghĩ về chuyển động Brown, cách duy nhất để có được chuyển động 3D Brownian trở về nguồn gốc là áp dụng hình phạt giảm xóc cho các bước. Một công cụ ước tính co ngót cũng áp đặt một loại giảm xóc trên các ước tính (giảm phương sai), đó là lý do tại sao nó hoạt động.


Bạn có tham khảo cho mối liên hệ giữa các quá trình nghịch lý của Brown và Brown không?
kjetil b halvorsen

1
Theo liên kết của tôi dưới "Đọc câu trả lời này để biết thêm". Có một liên kết trong phản hồi đó với một bài báo tạo ra kết nối.
Placidia

các công cụ ước tính vịnh được chấp nhận bởi định lý lớp hoàn chỉnh: nó không liên quan gì đến công cụ ước tính JS trực tiếp. Tuy nhiên, kết quả mà JS thống trị mẫu có nghĩa là đã khiến mọi người quan tâm hơn đến việc nghiên cứu các công cụ ước tính vịnh. (Tôi phản đối tuyên bố rằng người Bayes "cho rằng Stein xác nhận sự tồn tại của họ.")
user795305
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.