Tại sao co rút thực sự hoạt động, có gì đặc biệt về 0?


15

Đã có một bài đăng trên trang web này nói về cùng một vấn đề: Tại sao co rút hoạt động?

Nhưng, mặc dù câu trả lời là phổ biến, tôi không tin ý chính của câu hỏi thực sự được giải quyết. Rõ ràng là việc đưa ra một số sai lệch trong ước tính mang lại sự giảm phương sai và có thể cải thiện chất lượng ước tính. Tuy nhiên:

1) Tại sao thiệt hại do giới thiệu sai lệch ít hơn so với mức tăng chênh lệch?

2) Tại sao nó luôn hoạt động? Ví dụ trong trường hợp hồi quy Ridge: định lý tồn tại

3) Điều gì thú vị về 0 (nguồn gốc)? Rõ ràng chúng ta có thể thu nhỏ bất cứ nơi nào chúng ta thích (ví dụ như công cụ ước tính Stein ), nhưng nó có hoạt động tốt như nguồn gốc không?

4) Tại sao các sơ đồ mã hóa phổ quát khác nhau thích số bit thấp hơn xung quanh gốc? Là những giả thuyết đơn giản là có thể xảy ra hơn?

Câu trả lời với các tham chiếu đến các định lý đã được chứng minh hoặc kết quả được thiết lập được mong đợi.


@ KarolisKoncevičius, cảm ơn vì đã sửa các liên kết! Tuy nhiên, tôi xin lưu ý rằng chỉnh sửa ngôn ngữ của bạn có thể không hữu ích lắm, ngoại trừ bản chỉnh sửa cuối cùng. Những cái khác dường như thêm một số văn bản dư thừa và do đó làm cho bài viết hơi khó đọc.
Richard Hardy

1
3) "Điều gì thú vị về nguồn gốc?" Làm thế nào để bạn hiểu tuyên bố này? nếu bạn có yếu tố nhóm (ví dụ: quốc gia) và yếu tố cá nhân (ví dụ: thành phố), thì độ co rút sẽ đặt mức trung bình ở cấp quốc gia và sau đó chỉ độ lệch cấp thành phố với đủ dữ liệu sẽ có hệ số) - tức là mô hình của bạn được đẩy lên cấp độ nhóm (quốc gia) trung bình (bằng cách đẩy các hệ số cấp thành phố về 0) ... và tương tự đối với nhiều cấp độ hơn trong hệ thống phân cấp (và nhiều hệ thống phân cấp)
seanv507

Câu trả lời:


6

1) Tại sao thiệt hại do giới thiệu sai lệch ít hơn so với mức tăng chênh lệch?

Nó không phải, nó thường là như vậy. Việc đánh đổi có đáng hay không phụ thuộc vào chức năng mất. Nhưng những điều chúng ta quan tâm trong cuộc sống thực thường tương tự như lỗi bình phương (ví dụ: chúng ta quan tâm nhiều hơn đến một lỗi lớn hơn khoảng hai lỗi bằng một nửa kích thước).

Như một ví dụ - hãy tưởng tượng rằng đối với tuyển sinh đại học, chúng tôi thu nhỏ điểm SAT của mọi người một chút so với SAT trung bình cho nhân khẩu học của họ (tuy nhiên được xác định). Nếu được thực hiện đúng cách, điều này sẽ làm giảm phương sai và có nghĩa là sai số bình phương của các ước tính về khả năng (một số loại) của người đó trong khi đưa ra sự thiên vị. Hầu hết mọi người sẽ IMHO cho rằng một sự đánh đổi như vậy là không thể chấp nhận được.

2) Tại sao nó luôn hoạt động?

3) Điều gì thú vị về 0 (nguồn gốc)? Rõ ràng chúng ta có thể thu nhỏ bất cứ nơi nào chúng ta thích (ví dụ như công cụ ước tính Stein), nhưng nó có hoạt động tốt như nguồn gốc không?

Tôi nghĩ điều này là do chúng ta thường thu nhỏ các hệ số hoặc ước tính hiệu ứng. Có nhiều lý do để tin rằng hầu hết các hiệu ứng không lớn (xem ví dụ của Andrew Gelman ). Một cách để nói rằng một thế giới nơi mọi thứ ảnh hưởng đến mọi thứ với hiệu ứng mạnh mẽ là một thế giới bạo lực khó lường. Vì thế giới của chúng ta đủ dự đoán để cho chúng ta sống lâu và xây dựng các nền văn minh bán ổn định, nên theo sau đó, hầu hết các hiệu ứng không lớn.

Vì hầu hết các hiệu ứng không lớn, rất hữu ích khi thu nhỏ sai một vài hiệu ứng thực sự lớn trong khi cũng thu nhỏ chính xác các hiệu ứng không đáng kể.

Tôi tin rằng đây chỉ là một tài sản của thế giới chúng ta và bạn có thể có thể xây dựng các thế giới tự đồng nhất trong đó sự co ngót không thực tế (rất có thể bằng cách biến lỗi bình phương thành hàm mất mát không thực tế). Nó chỉ không xảy ra là thế giới chúng ta đang sống.

Mặt khác, khi chúng ta nghĩ về co ngót như là một phân phối trước trong phân tích Bayes, có những trường hợp co rút về 0 có hại tích cực trong thực tế.

Một ví dụ là thang đo chiều dài trong Quy trình Gaussian (trong đó 0 có vấn đề), khuyến nghị trong hướng dẫn của Stan là sử dụng mức ưu tiên đặt trọng số không đáng kể gần bằng 0, tức là "thu nhỏ" các giá trị nhỏ từ 0. Tương tự như vậy, các linh mục được đề nghị phân tán trong phân phối nhị thức âm có hiệu quả thu nhỏ từ 0. Cuối cùng nhưng không kém phần quan trọng, bất cứ khi nào phân phối bình thường được tham số hóa với độ chính xác (như trong INLA), sẽ rất hữu ích khi sử dụng nghịch đảo gamma hoặc các phân phối trước khác thu nhỏ từ 0.

4) Tại sao các sơ đồ mã hóa phổ quát khác nhau thích số bit thấp hơn xung quanh gốc? Là những giả thuyết đơn giản là có thể xảy ra hơn?

P(i)P(i+1)i


1
Câu trả lời cho 1) thực sự tốt!
David

Rõ ràng Andrew Gelman đã có những mô hình chuẩn trong tâm trí nơi chúng tôi nhân hệ số với đầu vào. Điều này không nhất thiết phải là trường hợp. Điều gì xảy ra nếu chúng ta hệ số nghịch đảo đi vào mô hình? Rồi 0 sẽ nổ tung mọi thứ.
Cagdas Ozgenc

1
@CowboyTrader Có và có những trường hợp sử dụng trong thế giới thực trong đó 0 có vấn đề và chúng tôi thu nhỏ lại (thêm vào câu trả lời). Vì vậy, tôi tin rằng nó hơi ủng hộ quan điểm rằng co lại về 0 chỉ là một heuristic xảy ra với công việc (trong thực tế) thường xuyên, nhưng không phải là một sự thật toán học cơ bản.
Martin Modrák

1
Xin lỗi vì phản ứng ban đầu của tôi. Câu trả lời của bạn ngày càng có ý nghĩa. Lưu ý rằng co ngót hoạt động dưới các chức năng mất khác, không chỉ dưới tổn thất vuông. Vấn đề thực sự tôi gặp phải là tại sao nó luôn hoạt động? Đối với tham số trung bình / vị trí 0 dường như là một con số kỳ diệu.
Cagdas Ozgenc

σ

0

Sườn, lasso và lưới đàn hồi tương tự như các phương pháp Bayes với các linh mục tập trung vào số 0 - xem, ví dụ, Học thống kê với Sparsity của Hastie, Tibshirani và Wainwright, phần 2.9 Lq Penalties and Bayes Estimates: "Ngoài ra còn có quan điểm của Bayes về những người ước tính này. ... Điều này có nghĩa là ước tính Lasso là công cụ ước tính Bayesian MAP (aposteriori tối đa) sử dụng Laplacian trước đó. "

Một cách để trả lời câu hỏi của bạn ( what's so special about zero?) là các hiệu ứng mà chúng tôi ước tính trung bình bằng 0 và chúng có xu hướng nhỏ (tức là các linh mục của chúng tôi nên tập trung vào khoảng 0). Thu hẹp các ước tính về 0 sau đó là tối ưu theo nghĩa Bayes, và Lasso và sườn và lưới đàn hồi có thể được nghĩ đến thông qua ống kính đó.


3
Thu nhỏ về 0 không có gì đặc biệt (ngoại trừ phương trình đơn giản hơn vì bạn chỉ cần nhân kết quả với một yếu tố cụ thể). Bạn có thể thu nhỏ đến bất kỳ điểm nào khác là tốt. Điểm đó càng xa từ giá trị thực, hiệu suất thu hẹp càng kém (nhưng đối với bất kỳ điểm nào tồn tại một số lượng co lại sẽ làm tăng hiệu suất ... ít nhất là đối với các biến phân phối gaussian). Vì vậy, khi một kết quả thường cách xa 0 thì thu nhỏ về 0 sẽ chỉ cải thiện rất ít.
Sextus Empiricus

1
@MartijnWeterings Rõ ràng đặt ưu tiên vào sự thật sẽ là lý tưởng (mắt bò). Nhưng tại sao thu hẹp về 0 vẫn mang lại một số cải tiến? Đó là những gì tôi đang theo đuổi.
Cagdas Ozgenc

@CowboyTrader Thu nhỏ bất kỳ giá trị nào sẽ cải thiện. Đó là lý do tại sao nó hoạt động cho 0 là tốt.
Sextus Empiricus

@MartijnWeterings Có, nhưng giới hạn từ việc học lý thuyết là khá nhiều luôn dựa trên nguồn gốc. Họ đặt một quả bóng / khối đa diện / vv làm trung tâm tại điểm gốc. Có phải nó chỉ là một bằng chứng thuận tiện? MDL đưa ra giả thuyết mã hóa số nguyên bằng cách cho 0 bước sóng ngắn nhất? Có phải là một sự trùng hợp?
Cagdas Ozgenc

1
Vì vậy, giả sử bạn thực hiện hồi quy sườn trong trường hợp tất cả các biến thực sự là một phần của mô hình (không phổ biến trong thực tế) thì nó sẽ không hoạt động tốt như vậy. Có lẽ đây là ý nghĩa của Adrian bởi "hiệu ứng trung bình bằng 0 và chúng có xu hướng nhỏ" (tôi không biết trường hợp nào là chính xác. Nhưng có nhiều trường hợp trong học máy mà chúng ta nuôi rất nhiều tham số và có thể không cần nhiều thông số, thì hầu hết các hiệu ứng đều bằng 0 hoặc nhỏ.)
Sextus Empiricus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.