Tôi có thể sử dụng các ô hình hộp và râu cũng để phân phối đa phương thức hay chỉ để phân phối không theo phương thức?
Tôi có thể sử dụng các ô hình hộp và râu cũng để phân phối đa phương thức hay chỉ để phân phối không theo phương thức?
Câu trả lời:
Vấn đề là boxplot thông thường * thường không thể đưa ra dấu hiệu về số lượng chế độ. Mặc dù trong một số trường hợp (nói chung là hiếm), có thể nhận được một dấu hiệu rõ ràng rằng số lượng chế độ nhỏ nhất vượt quá 1, thông thường một boxplot nhất định phù hợp với một hoặc bất kỳ số lượng chế độ lớn hơn.
* một số sửa đổi của các loại boxplot thông thường đã được đề xuất, điều này làm nhiều hơn để chỉ ra những thay đổi về mật độ và cam được sử dụng để xác định nhiều chế độ, nhưng tôi không nghĩ đó là mục đích của câu hỏi này.
Ví dụ: trong khi âm mưu này chỉ ra sự hiện diện của ít nhất hai chế độ (dữ liệu được tạo để có chính xác hai)
ngược lại, chế độ này có hai chế độ phân phối rất rõ ràng nhưng bạn hoàn toàn không thể biết điều đó từ boxplot:
Thật vậy, hình 1 ở đây (mà tôi tin là một tài liệu làm việc sau này được xuất bản trong [1]) cho thấy bốn bộ dữ liệu khác nhau với cùng một biểu đồ hộp.
Tôi không có dữ liệu đó, nhưng việc tạo ra một bộ dữ liệu tương tự là một vấn đề nhỏ - như được chỉ ra trong liên kết ở trên liên quan đến tóm tắt năm số, chúng tôi chỉ cần hạn chế các phân phối của mình nằm trong các hộp hình chữ nhật tóm tắt năm số hạn chế chúng tôi.
Đây là mã R sẽ tạo dữ liệu tương tự như trong bài báo:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
Đây là một màn hình tương tự như trong bài báo về các dữ liệu trên (ngoại trừ tôi hiển thị tất cả bốn ô vuông ở đây):
Tuy nhiên, hãy cẩn thận - biểu đồ cũng có thể có vấn đề ; thật vậy, chúng ta thấy một trong những vấn đề của nó ở đây, bởi vì sự phân phối trong biểu đồ "đỉnh" thứ ba thực sự là lưỡng tính rõ rệt; chiều rộng thùng biểu đồ chỉ đơn giản là quá rộng để hiển thị nó. Hơn nữa, như Nick Cox chỉ ra trong các bình luận, ước tính mật độ hạt nhân cũng có thể ảnh hưởng đến ấn tượng về số lượng chế độ (đôi khi bôi nhọ các chế độ ... hoặc đôi khi đề xuất các chế độ nhỏ không tồn tại trong bản phân phối gốc). Người ta phải cẩn thận với việc giải thích nhiều màn hình phổ biến.
Có những sửa đổi của boxplot có thể biểu thị tốt hơn tính đa phương thức (ô bình, ô vĩ cầm và ô đậu, trong số nhiều thứ khác). Trong một số trường hợp, chúng có thể hữu ích, nhưng nếu tôi thích tìm chế độ, tôi thường nhìn vào một loại màn hình khác.
x4
[1]: Choonpradub, C., & McNeil, D. (2005),
"Boxplot có thể được cải thiện không?"
Songklanakarin J. Sci. Công nghệ. , 27 : 3, trang 649-657.
http://www.jourlib.org/apers/2081800
pdf
Có nhiều tùy chọn để phát hiện đa phương thức với R. Dữ liệu cho các biểu đồ bên dưới được tạo với ba chế độ (-3,0,1). Boxplot rõ ràng vượt trội so với các loại khác (âm mưu violin trông giống như nó có các cài đặt mật độ hạt nhân mặc định khác nhau), nhưng không có gì thực sự phân biệt giữa chế độ 0 và 1. Thực sự có rất ít lý do để sử dụng boxplots nữa trong thời đại máy tính. Tại sao phải vứt bỏ thông tin?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")