Thiếu phần tư trong boxplot


7

Hiện tại tôi đang tạo ra một âm mưu hộp. Tôi là người mới trong lĩnh vực thống kê và đặc biệt là các ô vuông. Tìm hình sau:nhập mô tả hình ảnh ở đây

Trên trục y tìm số lượng tin nhắn. Tôi có vấn đề hiểu những gì tôi thấy ở đó. Cốt truyện được tạo ra bởi Matlab tự động. Theo tôi biết nên có bốn phần tư trong một âm mưu hộp. Tôi thấy chỉ có ba. Có lẽ điều này xảy ra vì giá trị của trung vị (đó là đường màu xanh lá cây). Nhưng tôi không biết điều này có nghĩa là gì nếu thiếu một phần tư. Có ai đó ở đây có thể giải thích điều này và cho tôi biết một số chi tiết, những gì bạn có thể đọc được từ cốt truyện?


Bạn sẽ tốt hơn cho hầu hết các mục đích với biểu đồ hoặc biểu đồ dấu chấm với một thùng cho mỗi số nguyên. Không có gì ngăn cản bạn vẽ rằng trung bình và tứ phân vị theo chiều dọc hoặc chồng chất. Trong một số hạn chế khác, thiết kế này không cung cấp thông tin về tần số của 12 14 16 18 20 như các giá trị quan sát được.
Nick Cox

Câu hỏi: có vẻ như chỉ có số nguyên xuất hiện trong dữ liệu của bạn. Có phải như vậy và nếu đó là lý do tại sao điều đó xảy ra?
Nick Cox

Có 3 phần tư, không phải 4. Chúng xác định tối đa 4 thùng (ít hơn trong trường hợp này).
Nick Cox

@NickCox trục y là một số tin nhắn. Đó là dữ liệu đếm và giải thích các số nguyên.
Bernhard

Chắc chắn, tôi nhận được điều đó, như nhận xét đầu tiên của tôi cho thấy, nhưng tại sao chỉ có số nguyên? Tôi thấy 26 20 18 16 14 12 10 8 6 4 đang được hiển thị. Một số số nguyên lẻ có thể được ẩn trong hộp; nếu không thì trông giống như một mô hình.
Nick Cox

Câu trả lời:


18

Trung vị có lẽ giống hệt với phần tư thứ nhất, đó là lý do tại sao chúng trùng nhau. Điều này có xu hướng xảy ra khi bạn có một tỷ lệ lớn các giá trị thấp, giống hệt nhau trong bộ dữ liệu. Đây là một ví dụ tái tạo mẫu này:

dat <- c(1,2,2,2,3,5,6)

median(dat)
## 2
quantile(dat, 0.25)
## 25% 
##  2 

boxplot(dat)

nhập mô tả hình ảnh ở đây Bạn có thể đọc phần giới thiệu cơ bản về cách diễn giải các ô vuông ở đây . Mặc dù như Nick Cox chỉ ra bên dưới, cuộc thảo luận của nó về những gì được gọi là 'ngoại lệ' là thiếu sót và nên được bỏ qua. Các ngoại lệ không nên bị xóa trừ khi có lý do rất mạnh, chẳng hạn như lỗi ghi dữ liệu rõ ràng.

Cũng lưu ý rằng boxplot không phải là một cách tuyệt vời để hiển thị nhiều bộ dữ liệu. Tôi đồng ý với khuyến nghị của Stephan Kolassa về âm mưu sáp ong cho các bộ dữ liệu nhỏ và âm mưu mật độ / âm mưu hạt nhân cho những cái lớn hơn.


4
Nguồn được trích dẫn theo một thực tế phổ biến đáng tiếc về các điểm gọi được hiển thị riêng lẻ theo các ngoại lệ tên . Như âm mưu hộp ở đây cho thấy, những điểm như vậy không nhất thiết phải vượt trội hơn bất kỳ ý nghĩa thống kê mạnh mẽ nào khác. Đây là nhiều hơn thuật ngữ nên được sử dụng: nhiều câu hỏi về CV - đặc biệt là từ khoa học dữ liệu của Cameron - cho thấy niềm tin rằng những điểm đó nên được xóa trước khi phân tích thêm.
Nick Cox

1
@NickCox Cảm ơn, tôi đồng ý với lời chỉ trích này và lẽ ra nên nắm bắt điều đó trước khi liên kết với nó.
mkt - Phục hồi lại

9

"Hộp" trong boxplot kéo dài từ phần tư thứ nhất đến phần tư thứ ba, tức là từ phần trăm thứ 25 đến phần trăm thứ 75. Trực quan, điều này có nghĩa là phần trăm thứ 25 của bạn có khoảng 6 tin nhắn và phần trăm thứ 75 của bạn khoảng 8.

Ngoài ra, các ô vuông chỉ ra trung vị (nghĩa là phần tư thứ hai hoặc phần trăm thứ 50) sử dụng một đường nằm ngang.

Tất nhiên, trung vị có thể trùng với một phần tư. Do đó, việc triển khai tốt sử dụng màu hoặc loại đường khác nhau cho đường trung tuyến. Trong trường hợp hiện tại, chúng ta thấy rằng đường ngang dưới cùng là màu xanh lá cây. Nó rõ ràng là âm mưu trên dòng tứ phân vị đầu tiên. Do đó, đây không chỉ là phần tư đầu tiên, mà đồng thời là trung vị. Do đó, trung vị của bạn cũng khoảng 6.

Bạn sẽ có thể xác minh điều này từ dữ liệu của bạn, bằng cách tính toán các phần tư và trung vị.


3
.
Nick Cox

2
@NickCox: rất đúng. Tôi thường đề xuất một âm mưu sáp ong được phủ lên boxplot nếu số điểm là "nhỏ hoặc trung bình" và âm mưu violin nếu nó là "cỡ trung bình hoặc lớn".
Stephan Kolassa
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.