1) Tại sao thiệt hại do giới thiệu sai lệch ít hơn so với mức tăng chênh lệch?
Nó không phải, nó thường là như vậy. Việc đánh đổi có đáng hay không phụ thuộc vào chức năng mất. Nhưng những điều chúng ta quan tâm trong cuộc sống thực thường tương tự như lỗi bình phương (ví dụ: chúng ta quan tâm nhiều hơn đến một lỗi lớn hơn khoảng hai lỗi bằng một nửa kích thước).
Như một ví dụ - hãy tưởng tượng rằng đối với tuyển sinh đại học, chúng tôi thu nhỏ điểm SAT của mọi người một chút so với SAT trung bình cho nhân khẩu học của họ (tuy nhiên được xác định). Nếu được thực hiện đúng cách, điều này sẽ làm giảm phương sai và có nghĩa là sai số bình phương của các ước tính về khả năng (một số loại) của người đó trong khi đưa ra sự thiên vị. Hầu hết mọi người sẽ IMHO cho rằng một sự đánh đổi như vậy là không thể chấp nhận được.
2) Tại sao nó luôn hoạt động?
3) Điều gì thú vị về 0 (nguồn gốc)? Rõ ràng chúng ta có thể thu nhỏ bất cứ nơi nào chúng ta thích (ví dụ như công cụ ước tính Stein), nhưng nó có hoạt động tốt như nguồn gốc không?
Tôi nghĩ điều này là do chúng ta thường thu nhỏ các hệ số hoặc ước tính hiệu ứng. Có nhiều lý do để tin rằng hầu hết các hiệu ứng không lớn (xem ví dụ của Andrew Gelman ). Một cách để nói rằng một thế giới nơi mọi thứ ảnh hưởng đến mọi thứ với hiệu ứng mạnh mẽ là một thế giới bạo lực khó lường. Vì thế giới của chúng ta đủ dự đoán để cho chúng ta sống lâu và xây dựng các nền văn minh bán ổn định, nên theo sau đó, hầu hết các hiệu ứng không lớn.
Vì hầu hết các hiệu ứng không lớn, rất hữu ích khi thu nhỏ sai một vài hiệu ứng thực sự lớn trong khi cũng thu nhỏ chính xác các hiệu ứng không đáng kể.
Tôi tin rằng đây chỉ là một tài sản của thế giới chúng ta và bạn có thể có thể xây dựng các thế giới tự đồng nhất trong đó sự co ngót không thực tế (rất có thể bằng cách biến lỗi bình phương thành hàm mất mát không thực tế). Nó chỉ không xảy ra là thế giới chúng ta đang sống.
Mặt khác, khi chúng ta nghĩ về co ngót như là một phân phối trước trong phân tích Bayes, có những trường hợp co rút về 0 có hại tích cực trong thực tế.
Một ví dụ là thang đo chiều dài trong Quy trình Gaussian (trong đó 0 có vấn đề), khuyến nghị trong hướng dẫn của Stan là sử dụng mức ưu tiên đặt trọng số không đáng kể gần bằng 0, tức là "thu nhỏ" các giá trị nhỏ từ 0. Tương tự như vậy, các linh mục được đề nghị phân tán trong phân phối nhị thức âm có hiệu quả thu nhỏ từ 0. Cuối cùng nhưng không kém phần quan trọng, bất cứ khi nào phân phối bình thường được tham số hóa với độ chính xác (như trong INLA), sẽ rất hữu ích khi sử dụng nghịch đảo gamma hoặc các phân phối trước khác thu nhỏ từ 0.
4) Tại sao các sơ đồ mã hóa phổ quát khác nhau thích số bit thấp hơn xung quanh gốc? Là những giả thuyết đơn giản là có thể xảy ra hơn?
P(i)≥P(i+1)i