Box Plot cung cấp thông tin gì mà Biểu đồ không có?


13

Biểu đồ cho một ý nghĩa tốt về sự phân phối của một biến. Các ô hộp cố gắng làm điều tương tự, tuy nhiên, đừng đưa ra một bức tranh về sự phân bố của biến này.

Tôi không hiểu tại sao mọi người sử dụng lô hộp. Biểu đồ tốt hơn về mọi mặt. Có một lý do tôi sẽ sử dụng cả hai?

Điều duy nhất tôi nghĩ rằng các ô hộp cung cấp là: ngoại lệ! Nó cho chúng ta biết những quan sát nào có thể là ngoại lệ.


1
Là biểu đồ tồi tệ hơn về mọi mặt so với một đại diện của toàn bộ phân phối?
Anthony Martin

2
Phụ thuộc vào những gì bạn muốn, với một ô vuông, bạn có thể có một số giá trị chính xác (ví dụ: trung vị, P75), mà bạn không có với biểu đồ. Nó hiển thị ít thông tin hơn, nhưng là tổng hợp hơn. Quan điểm của tôi là ngay cả một biểu đồ là một sự đơn giản hóa và lãng phí thông tin so với toàn bộ phân phối. Nhưng nó có thể dễ sử dụng hơn
Anthony Martin

2
Một quan điểm trái ngược về tiện ích của biểu đồ đã được thể hiện một cách rõ ràng và được minh họa rõ ràng, trong bài đăng được đánh giá cao tại stats.stackexchange.com/a/51753 (có thể được tìm thấy bằng cách tìm kiếm trang web của chúng tôi để tìm "biểu đồ").
whuber

3
Suy nghĩ thú vị - nhưng việc tăng kích thước thùng sẽ làm giảm biểu đồ thành hình giống như hình hộp trong khi vẫn giữ được sự phụ thuộc đáng tiếc của nó vào việc lựa chọn các điểm cắt. IMHO, giá trị thực sự của boxplots có thể được đánh giá cao nhất bằng cách nghiên cứu sử dụng tóm tắt chữ N của Tukey để phân tích khám phá dữ liệu đa biến và nhớ rằng anh ta đang tính toán bằng bút chì và giấy vào thời điểm đó. Đối với các hình ảnh trực quan như một "dấu vết sơ đồ lang thang" các bản tóm tắt đơn biến khác của các phản ứng có điều kiện, như biểu đồ hoặc biểu đồ violin, đơn giản là không hoạt động.
whuber

1
Hai thất bại (imo) của biểu đồ xảy ra khi có ít mẫu hoặc khi các hộp có kích thước sai. Điểm yếu của một boxplot tốt (và tôi nghĩ rằng tính biến thiên của JMP khi tôi nói nó) là đa phương thức và chi tiết tốt. Một nơi mà boxplot tỏa sáng là khi có ít mẫu. Tôi cũng thích nó khi có một số biến tương tác ở các cấp độ khác nhau - do đó, biểu đồ biến đổi JMP.
EngrStudent - Phục hồi Monica

Câu trả lời:


16

Thực tế là các ô hình hộp cung cấp nhiều hơn về bản tóm tắt của một bản phân phối cũng có thể được coi là một lợi thế trong một số trường hợp nhất định. Đôi khi, khi chúng ta so sánh các bản phân phối, chúng ta không quan tâm đến hình dạng tổng thể, mà là các bản phân phối nằm ở đâu liên quan đến nhau. Vẽ các lượng tử cạnh nhau có thể là một cách hữu ích để làm điều này mà không làm chúng ta mất tập trung với các chi tiết khác mà chúng ta có thể không quan tâm.


1
Đây là câu trả lời tốt nhất. Boxplots là tốt hơn để so sánh phân phối hơn biểu đồ!
kjetil b halvorsen 20/03/2016

14

Trong trường hợp đơn biến, các ô hình hộp cung cấp một số thông tin mà biểu đồ không (ít nhất, không rõ ràng). Đó là, nó thường cung cấp phần trăm trung bình, phần trăm thứ 25 và 75, tối thiểu / tối đa không phải là một ngoại lệ và phân tách rõ ràng các điểm được coi là ngoại lệ. Tất cả điều này có thể được "nhãn cầu" từ biểu đồ (và có thể tốt hơn để được nhãn cầu trong trường hợp ngoại lệ).

Tuy nhiên, lợi thế lớn hơn nhiều là so sánh các bản phân phối trên nhiều nhóm khác nhau cùng một lúc. Với hơn 10 nhóm, đây là một nhiệm vụ mệt mỏi với biểu đồ bên cạnh, nhưng rất dễ dàng với các ô hình hộp.

Như bạn đã đề cập, các ô vĩ cầm (hoặc các ô đậu) là một số lựa chọn thay thế nhiều thông tin hơn. Tuy nhiên, chúng đòi hỏi kiến ​​thức thống kê nhiều hơn một chút so với các ô hình hộp (nghĩa là nếu trình bày cho đối tượng không thống kê, nó có thể đáng sợ hơn một chút) và các ô hình hộp đã tồn tại lâu hơn nhiều so với các công cụ ước tính mật độ hạt nhân, do đó mức độ phổ biến của chúng cao hơn.


3
+1. Sửa chữa mặc dù, ô hộp cung cấp trung bình, không phải phương tiện.
Greenparker

3
Mọi người đều có thể đúng. Đồ thị hộp như thường được vẽ trung bình hiển thị (Tôi đã thấy điều này bị từ chối, nhưng không nhớ là đã thấy một ví dụ). Nhưng một số triển khai cho phép bạn hiển thị phương tiện là tốt. Đó thường là một ý tưởng tốt.
Nick Cox

Cảm ơn đã chỉ ra rằng. Tôi giữ (không chính xác) nghĩ rằng đó thường là ý nghĩa, điều này có thể dẫn đến một số âm mưu rất kỳ lạ trong các trường hợp cực đoan.
Vách đá AB

1
sẽ rất tuyệt nếu có những hình ảnh đi kèm với điều này để cho thấy giá trị của sự so sánh song song với các ô vuông so với biểu đồ
Rudolf Olah

7
  1. Nếu tôi chỉ cho bạn một biểu đồ và hỏi bạn trung vị ở đâu, bạn có thể sẽ mất khá nhiều thời gian để tìm ra nó ... và sau đó bạn sẽ chỉ nhận được một xấp xỉ với nó. Nếu tôi làm tương tự với một boxplot, bạn có nó ngay lập tức; nếu đó là những gì bạn quan tâm, boxplots rõ ràng sẽ thắng.

  2. Tôi đồng ý rằng các ô vuông không hiệu quả như mô tả về phân phối của một mẫu duy nhất, vì chúng giảm xuống một vài điểm và điều đó không cho bạn biết nhiều.

    Tuy nhiên, nếu bạn đang so sánh nhiều hàng chục bản phân phối, việc có tất cả các chi tiết của từng bản có thể dễ so sánh hơn - bạn có thể muốn giảm thông tin xuống một số lượng nhỏ hơn để so sánh.

  3. Nếu nhiều thông tin tốt hơn, có nhiều lựa chọn tốt hơn biểu đồ; một biểu đồ thân và lá, ví dụ, hoặc một biểu đồ ecdf / quantile.

    Hoặc bạn có thể thêm thông tin vào biểu đồ:

biểu đồ với boxplot cận biên biểu đồ rugplot với jitter biểu đồ với thoát y

(âm mưu từ câu trả lời này )

Đầu tiên trong số đó - thêm một boxplot hẹp vào lề - mang lại cho bạn bất kỳ lợi ích nào có được từ một trong hai màn hình.


1

Các ô vạch chỉ cung cấp phạm vi tần suất quan sát trong khi các ô hình hộp tốt hơn trong việc cho biết một số tham số của lời nói dối phân phối, ví dụ trung bình và phương sai mà các ô vạch không thể. Do đó, các ô hộp được sử dụng như một công cụ so sánh hiệu quả nếu có một vài bản phân phối.


Rất hiếm khi boxplot hiển thị giá trị trung bình - hầu như luôn luôn họ sử dụng trung bình - và họ không bao giờ đại diện trực tiếp cho phương sai. Cũng lưu ý rằng các đại lượng này thường không được coi là "tham số của phân phối": chúng là số liệu thống kê mô tả cho một lô dữ liệu .
whuber

Chính xác, chúng là một công cụ tuyệt vời để mô tả phân phối mà không cần phải tính toán quá nhiều. Và chúng hiển thị trung vị nhiều hơn, và vì trong nhiều trường hợp cả hai phép đo trùng nhau, các ô hình hộp là một công cụ tuyệt vời để ước tính giá trị trung bình.
Shiv_90

Nhận xét của bạn dường như tiếp tục gây nhiễu dữ liệu với phân phối cơ bản . Rất hiếm khi trung bình bằng trung bình trong bất kỳ lô dữ liệu nào. Hơn nữa, một trong những cách sử dụng tốt hơn và phổ biến nhất của boxplot là xác định tính không đối xứng, thường bao hàm một sự khác biệt quan trọng giữa giá trị trung bình và trung bình. Một trong những nguyên tắc cơ bản đằng sau quan niệm ban đầu về boxplot là nó là một công cụ khám phá mạnh mẽ - ngụ ý tốt hơn là không dựa trên các số liệu thống kê nhạy cảm như trung bình hoặc phương sai.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.