Khi nào nên sử dụng boxplot và khi barplot quy tắc (ngón tay cái?)


14

Cả biểu đồ hình hộp và biểu đồ thanhbiểu đồ thanh đều là đồ họa phù hợp cho ANOVA theo The R Book (Crawley, 2013), nhưng cái nào phù hợp hơn ? Tôi cho rằng nó phụ thuộc vào tình huống ... có ai có thể giúp tôi không?


5
" Mặc dù một vấn đề có thể được giải quyết bằng một số thử nghiệm thay thế - luôn luôn chỉ có một thử nghiệm phù hợp nhất để sử dụng " - Tôi không đồng ý với câu đó; Tôi không nghĩ nó luôn luôn đúng.
Glen_b -Reinstate Monica

5
Tôi đồng ý với @Glen_b ở đây và đề nghị rằng ngay cả từ ngữ này cũng bỏ lỡ điểm chính. Xác định thử nghiệm thích hợp nhất phụ thuộc tối thiểu vào việc biết quy trình tạo chính xác cho dữ liệu, theo chúng tôi, sẽ là bất thường. Điều phổ biến hơn là có một số thử nghiệm khả thi với những ưu điểm và nhược điểm khác nhau.
Nick Cox

1
Tôi không nghĩ rằng tôi thậm chí sẽ đề cập đến các thử nghiệm (giả thuyết hoặc tầm quan trọng) trong bất kỳ đặc điểm ngắn gọn nào về tư duy thống kê tốt ... Tuy nhiên, tôi nghĩ đây là vấn đề phụ. Câu hỏi của bạn đủ rõ ràng mà không có nó.
Nick Cox

Câu trả lời:


18

Cụ thể cho minh họa đồ họa của ANOVA:

  • Biểu đồ hình hộp hoặc biểu đồ thanh tốt hơn nhiều so với không có đồ họa cho ANOVA, nhưng như thường được vẽ, cả hai đều gián tiếp hoặc không đầy đủ dưới dạng tóm tắt đồ họa.

  • ANOVA là về so sánh các phương tiện trong bối cảnh biến thể của một hoặc nhiều loại, do đó, đồ họa phù hợp nhất sẽ hiển thị, tối thiểu, có nghĩa là cũng như dữ liệu thô. Độ lệch chuẩn của nhóm (SD) hoặc số lượng liên quan sẽ không gây hại.

  • = =-+-1,5 IQR. Một quy ước như vậy có thể hữu ích trong việc hiển thị các ngoại lệ thô có thể gây rắc rối cho ANOVA, nhưng cả trung vị và tứ phân vị đều không đóng vai trò nào trong ANOVA và liệu phương tiện gần đúng có phải là điểm cần kiểm tra hay không. Thông thường, các nhà phân tích dữ liệu có kinh nghiệm ví dụ như các ngoại lệ được đánh dấu rõ ràng và / hoặc không đối xứng phân phối là dấu hiệu của một vấn đề cần hành động, chẳng hạn như chuyển đổi dữ liệu hoặc cần một mô hình tuyến tính tổng quát với chức năng liên kết không nhận dạng. Tuy nhiên, thật đáng ngạc nhiên khi có bao nhiêu sách giáo khoa và các tài khoản khác hiển thị các ô vuông khi ANOVA được trình bày nhưng không đề cập đến những con voi không ở trong phòng, phương tiện không được vẽ.

  • Ngược lại, loại biểu đồ thanh phổ biến nhất trong ngữ cảnh này tóm tắt dữ liệu bằng phương tiện và SD hoặc lỗi tiêu chuẩn, nhưng bỏ qua mọi hiển thị của các điểm dữ liệu riêng lẻ. Vì vậy, ví dụ, các ngoại lệ hoặc không đối xứng được đánh dấu chỉ có thể được suy ra từ các phương tiện ngoài dòng hoặc biến động tăng cao trong các nhóm riêng lẻ.

Nói chung, có nhiều gợi ý về loại biểu đồ nào hữu ích nhưng ít đồng thuận về loại nào là tốt nhất. Tôi muốn đề xuất như tiêu chí mà một biểu đồ tốt hiển thị

  • Mẫu hoàn chỉnh của biến thể trong dữ liệu, ít nhất là phông nền hoặc bối cảnh

  • Các bản tóm tắt có liên quan của dữ liệu, cụ thể là các dữ liệu liên quan đến mô hình đang được giải trí hoặc các mô tả được xem xét

  • Dấu hiệu của các vấn đề có thể xảy ra với dữ liệu gây nghi ngờ về các giả định được đưa ra.

Có một số thiết kế trợ giúp với ANOVA, chẳng hạn như các ô chấm hoặc dải có thêm phương tiện và SE.

Bài viết này của John Tukey giải thích sự khác biệt giữa biểu đồ tuyên truyềnbiểu đồ phân tích thích hợp ở đây. Quá nhiều minh họa đồ họa của ANOVA là các biểu đồ tuyên truyền (nhìn! Các nhóm rất khác nhau) mà không có nhiều phân tích (và chúng ta có thể tìm hiểu gì khác về dữ liệu hoặc các hạn chế của kỹ thuật trong ứng dụng này?).


Vậy làm thế nào về âm mưu violin với, lý tưởng với ý nghĩa, sd và ngoại lệ được vẽ?
ziggystar

Lô violon có thể hữu ích. Cá nhân tôi thích một cái gì đó gần hơn với dữ liệu thô, do đó tôi cũng có thể thấy phương thức và độ chi tiết.
Nick Cox

8

Xin đừng nhầm lẫn giữa các biểu đồ thanh (một thanh được sử dụng để hiển thị từng số lượng quan tâm) và các lô thuốc nổ (một thanh hiển thị trung bình của mỗi nhóm, cộng với các thanh lỗi). Các lô thuốc nổ KHÔNG BAO GIỜ được chấp nhận vì chúng che giấu việc phân phối dữ liệu mà không có lý do nào cả.

Vâng, tôi nhận ra rằng đây là loại cốt truyện phổ biến nhất. Đó là một vấn đề lớn phản ánh tầm quan trọng (thấp) mà các nhà nghiên cứu đặt lên hình dạng dữ liệu của họ. Nếu bạn là một thám tử đang tìm kiếm một vũ khí giết người, sẽ tốt hơn nếu một nhân chứng nói với bạn 1) chỉ vị trí và kích thước của vũ khí? hoặc 2) vị trí, kích thước và hình dạng?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf


Bạn có tài nguyên nào khác về lý do tại sao các lô thuốc nổ không lý tưởng không?
mguzmann

@mguzmann Xin lỗi, tôi không biết. Tôi cũng tự hỏi ai đã đưa ra ý tưởng, việc áp dụng nó theo thời gian, v.v. và không thể tìm thấy bất cứ điều gì về điều đó. Tôi tưởng tượng nó phát triển từ các bảng báo cáo về phương tiện +/- lỗi trong những ngày trước máy tính. Tôi đã thấy các bài báo từ những năm 1930 quản lý để xuất bản các bảng của bộ dữ liệu hoàn chỉnh, vì vậy tôi không chắc rằng thực tế đã bao giờ thực sự hợp lý. Ví dụ: Hedrich AW. Ước tính hàng tháng về dân số trẻ em "dễ bị" mắc bệnh sởi, 1900 19191919, Baltimore, Maryland. Am J Hyg 1933; 17: 613-636.
Sống
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.