Tôi muốn nói rằng với dữ liệu như thế này, bạn thực sự cần hiển thị kết quả theo thang điểm đã được chuyển đổi. Đó là điều bắt buộc đầu tiên và là một vấn đề quan trọng hơn chính xác là làm thế nào để vẽ một ô vuông.
Nhưng tôi nhắc lại Frank Harrell khi thúc giục một cái gì đó nhiều thông tin hơn là một âm mưu hộp tối thiểu, thậm chí với một số điểm cực đoan được xác định. Bạn có đủ không gian để hiển thị nhiều thông tin hơn. Đây là một trong nhiều ví dụ, một hộp lai và âm mưu lượng tử. Như trong dữ liệu của bạn, có hai nhóm được so sánh.
Tôi sẽ lấy hai điểm này từng cái một và nói nhiều hơn.
Chuyển đổi quy mô
Trong trường hợp đơn giản nhất, tất cả các giá trị của bạn có thể dương và trước tiên bạn nên thử sử dụng thang đo logarit.
Nếu bạn có số không chính xác, thang đo căn bậc hai hoặc khối lập phương vẫn sẽ cải thiện độ lệch cực cao. Một số người hài lòng với log (giá trị + hằng số), trong đó hằng số thường là 1, như một cách đối phó với các số không.
Ý nghĩa của các ô vuông sử dụng thang đo được chuyển đổi là tinh tế.
Nếu bạn sử dụng quy ước Tukey chung để hiển thị riêng lẻ tất cả các điểm nằm ngoài nhóm trên + 1,5 IQR hoặc phân vị thấp hơn - 1,5 IQR, thì có thể cho rằng các giới hạn đó phải được tính theo thang đo được chuyển đổi. Điều đó không giống như tính toán các giới hạn đó trên thang đo ban đầu, sau đó chuyển đổi.
Thay vào đó, tôi ủng hộ những gì dường như vẫn là một quy ước thiểu số trong việc lựa chọn các lượng tử cho phần cuối của râu. Một trong những lợi thế của điều đó là sự biến đổi của quantile = quantile of biến đổi, ít nhất là đủ gần với mục đích đồ họa trong hầu hết các trường hợp. (Bản in nhỏ là bất cứ khi nào lượng tử được tính bằng phép nội suy tuyến tính giữa các thống kê thứ tự liền kề.)
Quy ước lượng tử này được đề xuất khá nổi bật bởi Cleveland (1985). Đối với hồ sơ, các ô hộp được tăng cường với các hộp thành tứ phân, hộp mỏng hơn cho các quãng tám ngoài (12,5 và 87,5% điểm) và các ô dữ liệu dải được sử dụng trong địa lý và khí hậu bởi (ví dụ) Matthews (1936) và Grove (1956), dưới tên "sơ đồ phân tán".
Nhiều hơn lô hộp
Âm mưu hộp được Tukey phát minh lại vào khoảng năm 1970 và được quảng bá rõ ràng nhất trong cuốn sách năm 1977 của ông. Phần lớn mục đích của ông là quảng bá các biểu đồ có thể được vẽ nhanh bằng bút (cil) và giấy trong thăm dò không chính thức. Ông cũng đã gợi ý những cách để xác định các ngoại lệ có thể. Điều đó cũng tốt, nhưng bây giờ tất cả chúng ta đều có quyền truy cập vào máy tính, không có gì khó khăn khi vẽ biểu đồ hiển thị, nếu không phải là tất cả dữ liệu, thì ít nhất là chi tiết hơn nhiều. Vai trò tóm tắt của các ô vuông là có giá trị, nhưng một biểu đồ cũng có thể hiển thị cấu trúc tốt, chỉ trong trường hợp nó thú vị hoặc quan trọng. (Và những gì các nhà nghiên cứu nghĩ là không thú vị hoặc không quan trọng có thể gây ấn tượng hơn với độc giả của họ.)
Theo tôi, có rất nhiều chỗ cho sự bất đồng lịch sự về chính xác những gì hoạt động tốt nhất, nhưng những mảnh đất trống đã được bán quá mức, theo quan điểm của tôi.
Người dùng Stata có thể tìm thấy nhiều hơn về chương trình đã vẽ con số trong bài đăng này . Người dùng phần mềm khác sẽ không gặp khó khăn gì trong việc vẽ thứ gì đó tốt hơn hoặc tốt hơn (tại sao lại sử dụng phần mềm đó?).
Cleveland, WS 1985. Các yếu tố của dữ liệu đồ thị. Monterey, CA: Wadsworth.
Grove, AT 1956. Xói mòn đất ở Nigeria. Trong Steel, RW và Fisher, CA (Eds) Các
bài tiểu luận địa lý về vùng đất nhiệt đới của Anh. Luân Đôn: George Philip, 79-111.
Matthews, HA 1936. Một cái nhìn mới về một số cơn mưa quen thuộc của Ấn Độ. Tạp chí Địa lý Scotland 52: 84-97.
Tukey, JW 1977. Phân tích dữ liệu thăm dò. Đọc, MA: Addison-Wesley.