Hai bản phân phối có tóm tắt 5 số giống hệt nhau sẽ luôn có hình dạng giống nhau không?


8

Tôi biết rằng nếu tôi có thể có hai phân phối có cùng giá trị trung bình và phương sai thì hình dạng khác nhau, bởi vì tôi có thể có N (x, s) và U (x, s)

Nhưng nếu min, Q1, median, Q3 và max của chúng giống hệt nhau thì sao?

Các bản phân phối có thể trông khác nhau sau đó, hoặc chúng sẽ được yêu cầu để có hình dạng giống nhau?

Logic duy nhất của tôi đằng sau điều này là nếu chúng có cùng một bản tóm tắt 5 số chính xác thì chúng phải có cùng hình dạng phân phối chính xác.


1
Câu trả lời cho câu hỏi này là trong một số giác quan rõ ràng - nếu chúng ta hoàn toàn có thể thu thập bất kỳ phân phối nào chỉ bằng cách trích dẫn năm con số về nó, thì tất cả các bài kiểm tra về phân phối xác suất sẽ dễ dàng hơn rất nhiều! Nhưng nó làm tăng điểm thú vị của việc có bao nhiêu thông tin bị thiếu khi chúng tôi trích dẫn tóm tắt năm số hoặc trình bày dữ liệu bằng đồ họa trong một ô vuông.
Cá bạc

2
Chỉ cần xét rằng thường không được sử dụng cho việc phân phối thống nhất với trung bình x và độ lệch chuẩn s , nhưng thay cho việc phân phối đồng đều trên khoảng thời gian đó bắt đầu từ x và kết thúc tại s . Ngoài ra, ký hiệu N ( x , s ) hiếm khi được sử dụng cho phân phối bình thường (mặc dù tôi đã thấy một số sách giáo khoa thực hiện); tham số thứ hai phổ biến hơn nhiều cho biểu thức phương sai thay vì độ lệch chuẩn. U(x,s)xsxsN(x,s)
Cá bạc

Câu trả lời:


17

Chỉ vì tóm tắt năm số giống hệt nhau không có nghĩa là phân phối giống hệt nhau. Điều này cho bạn biết có bao nhiêu thông tin bị mất khi chúng tôi trình bày dữ liệu bằng đồ họa trong một ô vuông!

Có lẽ cách dễ nhất để thấy vấn đề là tóm tắt năm số không cho bạn biết gì về sự phân bố các giá trị giữa phần tư tối thiểu và phần dưới, hoặc giữa phần tư thấp hơn và phần trung vị, v.v. Bạn biết rằng tần số giữa phân vị tối thiểu và thấp hơn phải phù hợp với tần số giữa phân vị thấp hơn và trung vị (với các ngoại lệ rõ ràng, ví dụ: nếu chúng ta có dữ liệu nằm trên một phần tư, hoặc tệ hơn, nếu hai phần tư được gắn kết) nhưng không biết giá trị nào của biến các tần số được phân bổ. Chúng ta có thể có một tình huống như thế này:

Các bản phân phối khác nhau với cùng một bản tóm tắt năm số và ô vuông

XYYXRY

EDIT: Như @Glen_b nói, điều này càng trở nên rõ ràng hơn khi bạn nhìn vào các bản phân phối tích lũy. Tôi đã thêm các đường lưới để hiển thị vị trí của các phần tư, giống nhau cho hai bản phân phối để các CDF theo kinh nghiệm của chúng giao nhau.

CDF theo kinh nghiệm của hai bản phân phối có cùng tóm tắt năm số

Mã R

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

1
+1 Ví dụ của bạn rất hay, bởi vì ban đầu người ta có thể nghĩ: tốt, chắc chắn một phân phối không thể được mô tả đầy đủ bằng năm số vì nó là một đối tượng vô hạn, nhưng chắc chắn tất cả các phân phối có cùng giá trị trung bình / trung bình / tứ phân vị / v.v. ít nhất là rất giống nhau! Chà, không, họ không có. Nhân tiện, các tệp PDF của bạn cho thấy nó nổi bật hơn nhiều so với CDF.
amip

1
@amoeba Cảm ơn, trực quan biểu đồ là nổi bật hơn nhiều. CDF, tôi nghĩ, cho thấy rõ hơn những gì đang diễn ra, theo nghĩa là làm thế nào chúng ta có thể khái quát hóa nó.
Cá bạc

π

@Alexis Tôi nghĩ tôi có nghĩa là "một phân phối [tùy ý]" trong nhận xét đó, không phải là một phân phối từ một số gia đình tham số cụ thể ...
amip

@amoeba Thật công bằng. Đặc biệt là vì nó được sử dụng hùng biện Tuy nhiên, chúng ta nên cẩn thận về việc ném "vô cực" xung quanh ... Tôi nghĩ rằng nếu ai đó thực sự khăng khăng vô cực như là một phần của hệ thống của họ, có lẽ có sự tùy tiện bị mất cân bằng ở đâu đó. :)
Alexis

15

Điều này được trả lời rõ ràng nhất bằng cách xem xét hàm phân phối (tích lũy).

Chỉ định tối thiểu, tối đa và ba phần tư chỉ định chính xác 5 điểm trên cdf, nhưng cdf giữa các điểm đó có thể là bất kỳ chức năng không tăng đơn điệu nào ở giữa mà vẫn đi qua các điểm đó:

nhập mô tả hình ảnh ở đây

Trong bản vẽ, cả CDF đỏ và đen đều có chung các mức tối thiểu, tối đa và tứ phân, nhưng rõ ràng là các bản phân phối khác nhau. Rõ ràng bất kỳ số lượng CDF khác có thể được chỉ định cũng vượt qua cùng năm điểm.

Trên thực tế, tất cả những gì chúng tôi đã làm là hạn chế chức năng phân phối của chúng tôi nằm trong bốn hộp:

nhập mô tả hình ảnh ở đây

(miễn là nó cũng tiếp tục đáp ứng các điều kiện khác cho CDF). Đó không phải là tất cả những hạn chế.

Khái niệm tương tự có thể được áp dụng cho số lượng mẫu - tuy nhiên hai CDF theo kinh nghiệm khác nhau có thể có cùng một bản tóm tắt năm số.


3

[0,3]{0,1,2,3}

Một ví dụ liên quan là bộ tứ Anscombe nổi tiếng, nơi có 4 bộ dữ liệu với 6 thuộc tính mẫu giống hệt nhau (mặc dù khác với các bộ bạn đề cập) trông hoàn toàn khác nhau. Xem: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.