James-Stein ước: Làm thế nào đã làm Efron và Morris tính toán trong yếu tố co rút ví dụ bóng chày của họ?


18

Tôi có một câu hỏi về tính toán yếu tố co ngót James-Stein trong bài báo Khoa học Mỹ năm 1977 của Bradley Efron và Carl Morris, "Nghịch lý của Stein về thống kê" .

Tôi đã thu thập dữ liệu cho các cầu thủ bóng chày và nó được đưa ra dưới đây:

Name, avg45, avgSeason    
Clemente, 0.400, 0.346    
Robinson, 0.378, 0.298    
Howard, 0.356, 0.276    
Johnstone, 0.333, 0.222    
Berry, 0.311, 0.273    
Spencer, 0.311, 0.270    
Kessinger, 0.289, 0.263    
Alvarado, 0.267, 0.210    
Santo, 0.244, 0.269    
Swoboda, 0.244, 0.230    
Unser, 0.222, 0.264    
Williams, 0.222, 0.256    
Scott, 0.222, 0.303    
Petrocelli, 0.222, 0.264    
Rodriguez, 0.222, 0.226    
Campaneris, 0.200, 0.285    
Munson, 0.178, 0.316    
Alvis, 0.156, 0.200

avg45là trung bình sau tại dơi và được ký hiệu là trong bài viết. là cuối mùa trung bình.45yavgSeason

Công cụ ước tính James-Stein cho trung bình ( ) được đưa ra bởi và hệ số co rút được đưa ra bởi (trang 5 của bài báo Khoa học Mỹ 1977 ) z

z=y¯+c(yy¯)
c
c=1-(k-3)σ2Σ(y-y¯)2,

Trong đó là số phương tiện chưa biết. Ở đây có 18 người chơi nên . Tôi có thể tính toán bằng các giá trị. Nhưng tôi không biết cách tính . Các tác giả nói cho tập dữ liệu đã cho.kk= =18Σ(y-y¯)2avg45σ2c= =0,212

Tôi đã thử sử dụng cả và cho nhưng họ không đưa ra câu trả lời đúng vềσx2σy2σ2c=0.212

Có ai đủ tử tế để cho tôi biết cách tính cho tập dữ liệu này không?σ2


1
Tôi biết MAD ( en.wikipedia.org/wiki/Median_absolute_deviation ) được sử dụng rất nhiều cho co rút sóng con.
cướp girard

Câu trả lời:


19

Tham số là phương sai chung (chưa biết) của các thành phần vectơ, mỗi thành phần chúng ta giả sử được phân phối bình thường. Đối với dữ liệu bóng chày, chúng ta có 45 Y ib i n o m ( 45 , p i ) , do đó, xấp xỉ bình thường cho phân phối nhị thức cho (lấy ^ p i = Y i )σ245Yibinom(45,pi)pi^=Yi

p^inorm(mean=pi,var=pi(1pi)/45).

Rõ ràng trong trường hợp này chênh lệch không bằng nhau, tuy nhiên nếu họ đã tương đương với một giá trị phổ biến sau đó chúng ta có thể ước tính nó với các ước lượng gộp σ 2 = p ( 1 - p ) nơi p là giá trị trung bình lớn p =1

σ^2=p^(1p^)45,
p^ Dường như đây là những gì Efron và Morris đã làm (trong bài báo năm 1977).
p^=11845i=11845Yi=Y¯.

Bạn có thể kiểm tra điều này với mã R sau đây. Dưới đây là dữ liệu:

y <- c(0.4, 0.378, 0.356, 0.333, 0.311, 0.311, 0.289, 0.267, 0.244, 0.244, 0.222, 0.222, 0.222, 0.222, 0.222, 0.2, 0.178, 0.156)

và đây là ước tính cho :σ2

s2 <- mean(y)*(1 - mean(y))/45

đó là σ 20,004332392 . Yếu tố co rút trong bài báo làσ^20.004332392

1 - 15*s2/(17*var(y))

c0.2123905k2k3


Giải thích tuyệt vời, tôi thích sự gần đúng bình thường của nhị thức.
Chamberlain Foncha

14

c=0.212

Efron, B., & Morris, C. (1975). Phân tích dữ liệu bằng cách sử dụng công cụ ước tính của Stein và các khái quát của nó. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, 70 (350), 311-319 (liên kết đến pdf)

hoặc chi tiết hơn

Efron, B., & Morris, C. (1974). Phân tích dữ liệu bằng cách sử dụng công cụ ước tính của Stein và các khái quát của nó. R-1394-OEO, Tập đoàn RAND, tháng 3 năm 1974 (liên kết đến pdf) .

Trên trang 312, bạn sẽ thấy rằng Efron & Morris sử dụng phép biến đổi hình cung của các dữ liệu này, do đó phương sai của các giá trị trung bình cộng là xấp xỉ nhau:

> dat <- read.table("data.txt", header=T, sep=",")
> yi  <- dat$avg45
> k   <- length(yi)
> yi  <- sqrt(45) * asin(2*yi-1)
> c   <- 1 - (k-3)*1 / sum((yi - mean(yi))^2)
> c
[1] 0.2091971

z

> zi  <- mean(yi) + c * (yi - mean(yi))
> round((sin(zi/sqrt(45)) + 1)/2,3) ### back-transformation
[1] 0.290 0.286 0.282 0.277 0.273 0.273 0.268 0.264 0.259
[10] 0.259 0.254 0.254 0.254 0.254 0.254 0.249 0.244 0.239

Vì vậy, đây là những giá trị của công cụ ước tính Stein. Đối với Clemente, chúng tôi nhận được 0,90, khá gần với 0,294 từ bài viết năm 1977.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.