Độc lập về ý nghĩa và phương sai của phân phối thống nhất rời rạc


9

Trong các bình luận bên dưới một bài đăng của tôi , Glen_b và tôi đã thảo luận về cách phân phối rời rạc nhất thiết phải có ý nghĩa và phương sai phụ thuộc.

Đối với một phân phối bình thường, nó có ý nghĩa. Nếu tôi nói với bạn x¯ , bạn có không phải là một đầu mối những gì s2 là, và nếu tôi nói với bạn s2 , bạn có không phải là một đầu mối những gì x¯ là. (Được chỉnh sửa để giải quyết các thống kê mẫu, không phải các tham số dân số.)

Nhưng sau đó đối với phân phối thống nhất rời rạc, không áp dụng logic tương tự? Nếu tôi ước tính trung tâm của các điểm cuối, tôi không biết thang đo và nếu tôi ước tính tỷ lệ, tôi sẽ không biết trung tâm.

Điều gì đang xảy ra với suy nghĩ của tôi?

BIÊN TẬP

Tôi đã làm mô phỏng của jbowman. Sau đó, tôi đánh nó với biến đổi tích phân xác suất (tôi nghĩ) để kiểm tra mối quan hệ mà không có bất kỳ ảnh hưởng nào từ các phân phối biên (cách ly copula).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

nhập mô tả hình ảnh ở đây

Trong hình ảnh nhỏ xuất hiện trong RStudio, cốt truyện thứ hai trông giống như nó có độ bao phủ đồng nhất trên hình vuông đơn vị, vì vậy tính độc lập. Khi phóng to, có các dải dọc khác biệt. Tôi nghĩ rằng điều này có liên quan đến sự bất mãn và tôi không nên đọc nó. Sau đó tôi đã thử nó để phân phối thống nhất liên tục vào (0,10) .

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

nhập mô tả hình ảnh ở đây

Điều này thực sự trông giống như nó có các điểm được phân phối đồng đều trên ô vuông đơn vị, vì vậy tôi vẫn nghi ngờ rằng x¯s2 là độc lập.


Đó là một cách tiếp cận thú vị mà bạn đã thực hiện ở đó, tôi sẽ phải suy nghĩ về nó.
jbowman

Sự phụ thuộc (nhất thiết) trở nên yếu hơn ở cỡ mẫu lớn hơn nên khó thấy. Hãy thử các cỡ mẫu nhỏ hơn, như n = 5,6,7 và bạn sẽ thấy nó dễ dàng hơn.
Glen_b -Reinstate Monica

@Glen_b Bạn nói đúng. Có một mối quan hệ rõ ràng hơn khi tôi thu nhỏ kích thước mẫu. Ngay cả trong hình ảnh tôi đã đăng, dường như có một số cụm ở góc dưới bên phải và bên trái, hiện diện trong lô cho kích thước mẫu nhỏ hơn. Hai người theo dõi. 1) Sự phụ thuộc có nhất thiết trở nên yếu hơn bởi vì các tham số dân số có thể thay đổi độc lập với nhau không? 2) Có vẻ sai rằng các số liệu thống kê sẽ có bất kỳ loại phụ thuộc, nhưng họ rõ ràng làm. Điều gì gây ra điều này?
Dave

1
Một cách để có được cái nhìn sâu sắc là kiểm tra các tính năng đặc biệt của các mẫu đi vào các "sừng" đó ở đầu lô của Bruce. Đặc biệt lưu ý rằng tại n = 5, bạn có được phương sai lớn nhất có thể bởi tất cả các điểm gần nhau đến 0 hoặc 1, nhưng vì có 5 quan sát, bạn cần 3 ở một đầu và 2 ở đầu kia, vì vậy giá trị trung bình phải gần 0,4 hoặc 0,6 nhưng không gần 0,5 (vì đặt một điểm ở giữa sẽ giảm phương sai a bit). Nếu bạn có phân phối đuôi nặng, cả trung bình và phương sai sẽ bị ảnh hưởng nhiều nhất bởi sự quan sát cực đoan nhất ... ctd
Glen_b -Reinstate Monica

1
|x¯μ|s(X¯,sX2)

Câu trả lời:


4

Câu trả lời của jbowman (+1) kể phần lớn câu chuyện. Đây là một chút nữa.

(a) Đối với dữ liệu từ phân phối thống nhất liên tục , giá trị trung bình mẫu và SD không tương quan, nhưng không độc lập. 'Đề cương' của cốt truyện nhấn mạnh sự phụ thuộc. Trong số các phân phối liên tục, độc lập chỉ giữ cho bình thường.

nhập mô tả hình ảnh ở đây

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

asP(X¯=a)>0,P(S=s)>0,P(X¯=a,X=s)=0.

nhập mô tả hình ảnh ở đây

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(c) Phân phối chuẩn tròn không bình thường. Sự bất mãn gây ra sự phụ thuộc.

nhập mô tả hình ảnh ở đây

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

Beta(.1,.1),Beta(1,1)Unif(0,1).

nhập mô tả hình ảnh ở đây

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Phụ lục mỗi bình luận.

nhập mô tả hình ảnh ở đây


x¯s2x¯=0s2=1s2=100

Tiêu chí độc lập là đòi hỏi. Thiếu tính độc lập btw hai RV không đảm bảo rằng dễ dàng có được thông tin về cái này, biết giá trị của cái kia. // Trong (d), không chắc ECDF của A hoặc S sẽ tiết lộ điều gì. // Scatterplot trong (d) hiển thị 6 'điểm', hình ảnh dưới sự biến đổi của 32 đỉnh của hypercube 5-d với bội số 1, 5, 10, 10, 5, 1 (từ trái sang phải). Đa bội giải thích tại sao 'hai điểm trên cùng' là khác biệt nhất.
BruceET

XYρ=0.9x=1y11ρ=011

Nhưng đó là cho một mối quan hệ gần như tuyến tính btw hai quy tắc chuẩn. Giá trị trung bình và SD của các mẫu không quá dễ dàng.
BruceET

1
@ Bạn có thông tin về cái này khi bạn biết cái kia. Ví dụ: nếu phương sai mẫu thực sự lớn, bạn biết trung bình mẫu không thực sự gần bằng 0,5 (ví dụ, xem khoảng trống ở trung tâm trên cùng của ô đầu tiên)
Glen_b -Reinstate Monica

2

Nó không phải là giá trị trung bình và phương sai phụ thuộc trong trường hợp phân phối rời rạc, đó là những mẫu trung bình và phương sai phụ thuộc được các thông số của phân phối. Giá trị trung bình và phương sai là các hàm cố định của các tham số của phân phối và các khái niệm như "tính độc lập" không áp dụng cho chúng. Do đó, bạn đang hỏi những câu hỏi giả định sai của bản thân.

(x¯,s2)(1,2,,10)

nhập mô tả hình ảnh ở đây

s2x¯

Tất nhiên, một ví dụ không thể chứng minh phỏng đoán của Glen trong bài đăng mà bạn liên kết với rằng không có phân phối rời rạc nào tồn tại với các phương tiện và phương sai mẫu độc lập!


Đó là một nắm bắt tốt về thống kê so với tham số. Tôi đã thực hiện một chỉnh sửa khá rộng rãi.
Dave
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.