Làm thế nào để giải thích các ô vuông


11

Trong khi thực hiện một số EDA, tôi quyết định sử dụng một ô vuông để minh họa sự khác biệt giữa hai cấp độ của một yếu tố.

Cách ggplot biểu hiện cốt truyện hộp là thỏa đáng, nhưng hơi đơn giản (âm mưu đầu tiên bên dưới). Trong khi nghiên cứu các đặc điểm của lô hộp, tôi bắt đầu thử nghiệm với các rãnh.

Tôi hiểu các rãnh hiển thị CI xung quanh trung vị và nếu hai ô 'không trùng nhau thì có' bằng chứng mạnh mẽ '- ở mức độ tin cậy 95% - rằng các trung vị khác nhau.

Trong trường hợp của tôi (âm mưu thứ hai), các rãnh không chồng chéo một cách có ý nghĩa. Nhưng tại sao đáy hộp bên tay phải lại có hình dạng kỳ lạ đó?

Vẽ cùng một dữ liệu trong một âm mưu violin không cho thấy điều gì bất thường về mật độ xác suất của violin tương ứng.

hình hộp

fig.2 boxplot


1
Trong mã ggplot của bạn, bạn nên sử dụng fill = Fact (am) vì hiện tại am đang được sử dụng làm biến số.
rnso

Đó là một điểm tuyệt vời @rnso
RDJ

Bất cứ ai cũng có thể đăng dữ liệu gốc? Tôi đoán họ là từ một hộp cát tiêu chuẩn cho ggplot2. Tôi cũng thích ý tưởng vẽ các điểm dữ liệu riêng lẻ nhưng nó thất vọng khi các điểm trong hộp tối được ẩn đi.
Nick Cox

Câu trả lời:


18

Trong trường hợp của tôi (âm mưu thứ hai), các rãnh không chồng chéo một cách có ý nghĩa. Nhưng tại sao đáy hộp bên tay phải lại có hình dạng kỳ lạ đó? Làm thế nào để tôi giải thích điều đó?

Nó chỉ ra rằng phân vị thứ 25 là khoảng 21, phân vị thứ 75 khoảng 30,5. Và giới hạn dưới và trên của notch là khoảng 18 và 27.

Một lý do phổ biến là phân phối của bạn bị sai lệch hoặc kích thước mẫu thấp. Ranh giới của notch dựa trên:

median±1.57×IQRn

Nếu khoảng cách giữa phần trăm trung bình và phần trăm thứ 25 và khoảng cách giữa phần trăm trung bình và phần trăm thứ 75 là rất khác nhau (như phần bên phải) và / hoặc cỡ mẫu thấp, phần notch sẽ rộng hơn. Nếu nó đủ rộng để ranh giới notch cực hơn so với phần trăm thứ 25 và 75 (hay còn gọi là hộp), thì ô hình hộp sẽ hiển thị hình dạng "bên trong" này.


1
Cảm ơn rất nhiều cho lời giải thích chi tiết của bạn. Cho tôi hỏi, tại sao giới hạn dưới và trên của notch là khoảng 17 và 24, chứ không phải khoảng 18 và 27 (trên boxplot bên phải)?
Denis

@Denis, Cảm ơn vì đã bắt được nó. Tôi đã sửa đổi nó.
Penguin_Knight
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.