Hãy xem xét ba hiện tượng sau đây.
Nghịch lý của Stein: đưa ra một số dữ liệu từ phân phối chuẩn nhiều biến số trong , mẫu trung bình không phải là một ước lượng rất tốt của giá trị trung bình thật sự. Người ta có thể có được ước tính với sai số bình phương trung bình thấp hơn nếu người ta thu nhỏ tất cả các tọa độ của giá trị trung bình mẫu về 0 [hoặc đối với giá trị trung bình của chúng hoặc thực sự đối với bất kỳ giá trị nào, nếu tôi hiểu chính xác].
Lưu ý: thường thì nghịch lý của Stein được hình thành thông qua việc chỉ xem xét một điểm dữ liệu duy nhất từ ; xin vui lòng sửa cho tôi nếu điều này là quan trọng và công thức của tôi ở trên là không chính xác.
Hồi quy độ dốc: đưa ra một số biến phụ thuộc và một số biến độc lập , hồi quy chuẩn có xu hướng để phù hợp với dữ liệu và dẫn đến hiệu suất ngoài mẫu kém. Người ta thường có thể giảm quá mức bằng cách thu nhỏ về 0: .
Hiệu ứng ngẫu nhiên trong các mô hình đa cấp / hỗn hợp: được đưa ra một số biến phụ thuộc (ví dụ: chiều cao của học sinh) phụ thuộc vào một số dự đoán phân loại (ví dụ: id trường và giới tính của học sinh), người ta thường khuyên nên coi một số dự đoán là 'ngẫu nhiên', nghĩa là giả sử rằng chiều cao của học sinh trung bình ở mỗi trường đến từ một số phân phối bình thường cơ bản. Điều này dẫn đến việc thu hẹp các ước tính về chiều cao trung bình của mỗi trường đối với giá trị trung bình toàn cầu.
Tôi có cảm giác rằng tất cả những điều này là các khía cạnh khác nhau của cùng một hiện tượng "co rút", nhưng tôi không chắc chắn và chắc chắn thiếu một trực giác tốt về nó. Vì vậy, câu hỏi chính của tôi là: thực sự có một sự tương đồng sâu sắc giữa ba điều này, hay nó chỉ là một ngữ nghĩa bề ngoài? Chủ đề phổ biến ở đây là gì? Trực giác chính xác về nó là gì?
Ngoài ra, đây là một số phần của câu đố này không thực sự phù hợp với tôi:
Trong hồi quy sườn, không được thu hẹp đồng đều; co rút sườn núi thực sự liên quan đến phân rã giá trị số ít của , với các hướng phương sai thấp được thu hẹp hơn (xem ví dụ: Các yếu tố của học thống kê 3.4.1). Nhưng công cụ ước tính James-Stein chỉ đơn giản lấy trung bình mẫu và nhân nó với một hệ số tỷ lệ. Làm thế nào mà phù hợp với nhau?
Cập nhật: xem Công cụ ước tính James-Stein với phương sai không bằng nhau và ví dụ ở đây liên quan đến phương sai của các hệ số .
Giá trị trung bình mẫu là tối ưu trong các kích thước dưới 3. Điều đó có nghĩa là khi chỉ có một hoặc hai yếu tố dự báo trong mô hình hồi quy, hồi quy sườn sẽ luôn tệ hơn bình phương tối thiểu thông thường? Trên thực tế, khi nghĩ về nó, tôi không thể tưởng tượng được một tình huống trong 1D (nghĩa là hồi quy đơn giản, không bội số) trong đó co rút sườn núi sẽ có lợi ...
Cập nhật: Không. Xem Dưới chính xác những điều kiện nào là hồi quy sườn có thể cung cấp một cải tiến so với hồi quy bình phương nhỏ nhất bình thường?
Mặt khác, giá trị trung bình mẫu luôn không tối ưu ở các kích thước trên 3. Điều đó có nghĩa là với hơn 3 yếu tố hồi quy sườn luôn luôn tốt hơn OLS, ngay cả khi tất cả các yếu tố dự đoán không tương quan (trực giao)? Thông thường hồi quy sườn núi được thúc đẩy bởi tính đa hình và nhu cầu "ổn định" thuật ngữ.
Cập nhật: Có! Xem chủ đề tương tự như trên.
Thường có một số cuộc thảo luận sôi nổi về việc liệu các yếu tố khác nhau trong ANOVA nên được đưa vào dưới dạng hiệu ứng cố định hay ngẫu nhiên. Không phải chúng ta, theo cùng một logic, luôn luôn coi một yếu tố là ngẫu nhiên nếu nó có nhiều hơn hai cấp độ (hoặc nếu có nhiều hơn hai yếu tố? Bây giờ tôi có nhầm lẫn không)?
Cập nhật : ?
Cập nhật: Tôi đã nhận được một số câu trả lời xuất sắc, nhưng không có câu trả lời nào đủ cho một bức tranh lớn, vì vậy tôi sẽ để câu hỏi "mở". Tôi có thể hứa sẽ trao phần thưởng ít nhất 100 điểm cho câu trả lời mới sẽ vượt qua câu trả lời hiện có. Tôi chủ yếu tìm kiếm một quan điểm thống nhất có thể giải thích hiện tượng chung của sự co ngót thể hiện như thế nào trong các bối cảnh khác nhau và chỉ ra những khác biệt chính giữa chúng.