Âm mưu Box-and-Whisker để phân phối đa phương thức


13

Tôi có thể sử dụng các ô hình hộp và râu cũng để phân phối đa phương thức hay chỉ để phân phối không theo phương thức?


Thuật ngữ thông thường cho phân phối có nhiều hơn một chế độ sẽ là ' đa phương thức '. Nếu đó là những gì bạn muốn nói, vui lòng chỉnh sửa để sử dụng thuật ngữ thông thường. Nếu bạn có ý gì khác, xin vui lòng xác định thuật ngữ.
Glen_b -Reinstate Monica

1
Các ô hộp không phải lúc nào cũng hữu ích cho các hình dạng phân phối phức tạp. Bimodal ... đa phương thức (tôi đoán rằng đó là một thuật ngữ phổ biến hơn hình dạng "đa hình") thường sẽ bị ẩn đi. Phần lớn phụ thuộc vào mức độ mạnh mẽ của sự ra đi từ sự phi hình thức. Nếu không, không có chuông sẽ đổ chuông và không có thông báo lỗi sẽ xảy ra. Nhưng ngay cả một biểu đồ mật độ biểu đồ hoặc mật độ hạt nhân có thể thu thập các phân phối phức tạp; một số người cho rằng đây là một tính năng vì nó dễ dàng chấp nhận quá mức các chế độ chỉ là một sự kỳ quặc trong một mẫu. Tôi muốn nói rằng loại cốt truyện duy nhất không bị mất thông tin là một âm mưu lượng tử.
Nick Cox

@Glen_b Tôi đã làm. Trong cuốn sách của tôi, họ đang nói về sự phân tâm đa hình. Là unimodal cho một đỉnh chính xác?
1091344

1
Bạn chắc chắn có thể sử dụng một âm mưu hộp - ai sẽ ngăn bạn? Vấn đề là boxplot thông thường không đưa ra dấu hiệu nào về số lượng chế độ (mặc dù có những sửa đổi của boxplots có thể biểu thị đa phương thức). Boxplots tốt hơn khi sự quan tâm tập trung vào so sánh giữa các nhóm về vị trí và sự lây lan (giữa nhiều nhóm) thay vì khi hình dạng phân phối được quan tâm trực tiếp. Nếu đa phương thức là quan trọng để hiển thị - đặc biệt là nếu có một vài nhóm - tôi thực sự khuyên bạn nên sử dụng một màn hình khác, hoặc có lẽ một vài. (Tôi sẽ mở rộng nhận xét của mình thành câu trả lời khi tôi có thể.)
Glen_b -Reinstate Monica

1
Bằng chứng của bạn không khiến chúng ta nghĩ tốt về cuốn sách này.
Nick Cox

Câu trả lời:


20

Vấn đề là boxplot thông thường * thường không thể đưa ra dấu hiệu về số lượng chế độ. Mặc dù trong một số trường hợp (nói chung là hiếm), có thể nhận được một dấu hiệu rõ ràng rằng số lượng chế độ nhỏ nhất vượt quá 1, thông thường một boxplot nhất định phù hợp với một hoặc bất kỳ số lượng chế độ lớn hơn.

* một số sửa đổi của các loại boxplot thông thường đã được đề xuất, điều này làm nhiều hơn để chỉ ra những thay đổi về mật độ và cam được sử dụng để xác định nhiều chế độ, nhưng tôi không nghĩ đó là mục đích của câu hỏi này.

Ví dụ: trong khi âm mưu này chỉ ra sự hiện diện của ít nhất hai chế độ (dữ liệu được tạo để có chính xác hai)

nhập mô tả hình ảnh ở đây

ngược lại, chế độ này có hai chế độ phân phối rất rõ ràng nhưng bạn hoàn toàn không thể biết điều đó từ boxplot:

nhập mô tả hình ảnh ở đây

n= =

Thật vậy, hình 1 ở đây (mà tôi tin là một tài liệu làm việc sau này được xuất bản trong [1]) cho thấy bốn bộ dữ liệu khác nhau với cùng một biểu đồ hộp.

Tôi không có dữ liệu đó, nhưng việc tạo ra một bộ dữ liệu tương tự là một vấn đề nhỏ - như được chỉ ra trong liên kết ở trên liên quan đến tóm tắt năm số, chúng tôi chỉ cần hạn chế các phân phối của mình nằm trong các hộp hình chữ nhật tóm tắt năm số hạn chế chúng tôi.

Đây là mã R sẽ tạo dữ liệu tương tự như trong bài báo:

x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1)  # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])

Đây là một màn hình tương tự như trong bài báo về các dữ liệu trên (ngoại trừ tôi hiển thị tất cả bốn ô vuông ở đây):

nhập mô tả hình ảnh ở đây

Tuy nhiên, hãy cẩn thận - biểu đồ cũng có thể có vấn đề ; thật vậy, chúng ta thấy một trong những vấn đề của nó ở đây, bởi vì sự phân phối trong biểu đồ "đỉnh" thứ ba thực sự là lưỡng tính rõ rệt; chiều rộng thùng biểu đồ chỉ đơn giản là quá rộng để hiển thị nó. Hơn nữa, như Nick Cox chỉ ra trong các bình luận, ước tính mật độ hạt nhân cũng có thể ảnh hưởng đến ấn tượng về số lượng chế độ (đôi khi bôi nhọ các chế độ ... hoặc đôi khi đề xuất các chế độ nhỏ không tồn tại trong bản phân phối gốc). Người ta phải cẩn thận với việc giải thích nhiều màn hình phổ biến.

Có những sửa đổi của boxplot có thể biểu thị tốt hơn tính đa phương thức (ô bình, ô vĩ cầm và ô đậu, trong số nhiều thứ khác). Trong một số trường hợp, chúng có thể hữu ích, nhưng nếu tôi thích tìm chế độ, tôi thường nhìn vào một loại màn hình khác.

x4

[1]: Choonpradub, C., & McNeil, D. (2005),
"Boxplot có thể được cải thiện không?"
Songklanakarin J. Sci. Công nghệ. , 27 : 3, trang 649-657.
http://www.jourlib.org/apers/2081800
pdf


2
Hai bình luận rộng hơn về các chế độ. 1. Một thử nghiệm tốt về một mô hình phương thức cụ thể là liệu nó có lặp lại nhiều lần trong các mẫu có cùng kích thước hay không. Kinh nghiệm của tôi là các chế độ có thể cực kỳ hay thay đổi theo nghĩa đó. 2. Khi xem xét các chế độ, luôn luôn đáng để hỏi liệu một chế độ có giải thích thực chất hay không. Nhưng mọi lý lẽ đều có thể sai; Nếu tôi nhớ lại một cách chính xác, hầu hết mọi người sẽ đoán rằng sự kết hợp giữa nam và nữ sẽ mang lại sự khác biệt cho sự phân bố chiều cao, nhưng thật khó để phát hiện ra điều đó ngay cả trong các mẫu lớn chất lượng cao.
Nick Cox

1
@NickCox cảm ơn; Thật ra, tôi đã đoán độ cao sẽ không phải là lưỡng kim; hãy tưởng tượng rằng (như một xấp xỉ gần đúng với thực tế), chúng tôi đã xem xét hai phân phối bình thường có độ lệch chuẩn tương tự nhau, có nghĩa là khác nhau khoảng 1sd, với số lượng nam nhiều như nữ. Sau đó, trong thực tế, sự phân phối kết hợp (hỗn hợp của hai quy tắc) là không đồng nhất. Tất nhiên, thực tế phức tạp hơn một chút - các phân phối -both là hỗn hợp của các nhóm dân tộc, bị lệch ngay cả trong giới tính và dân tộc, có phương sai khác nhau và phương tiện khác nhau hơn 1sd, nhưng kết quả (không đồng nhất) không làm chúng ta ngạc nhiên
Glen_b -Reinstate Monica

3
Thật đáng để đánh dấu rằng JW Tukey trong phân tích dữ liệu Khám phá của mình (Reading, MA: Addison-Wesley, 1977) bao gồm một dấu chấm dữ liệu của Rayleigh, dẫn đến việc phát hiện ra argon, như một mô hình lưỡng kim cho các ô vuông là vô dụng và một mô hình khác. hiển thị, trong trường hợp của Tukey, một ô chấm, là cần thiết để xem cấu trúc. Tukey nổi tiếng được đặt tên là cốt truyện hộp và không được biết đến nhiều là nhà phát minh lại của nó.
Nick Cox

7

Có nhiều tùy chọn để phát hiện đa phương thức với R. Dữ liệu cho các biểu đồ bên dưới được tạo với ba chế độ (-3,0,1). Boxplot rõ ràng vượt trội so với các loại khác (âm mưu violin trông giống như nó có các cài đặt mật độ hạt nhân mặc định khác nhau), nhưng không có gì thực sự phân biệt giữa chế độ 0 và 1. Thực sự có rất ít lý do để sử dụng boxplots nữa trong thời đại máy tính. Tại sao phải vứt bỏ thông tin?

nhập mô tả hình ảnh ở đây

dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))

par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")

require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")

require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")

require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.