Làm thế nào để trình bày cốt truyện hộp với một ngoại lệ cực đoan?


17

Tôi có thể sử dụng một số hướng dẫn về việc trình bày một số dữ liệu.

Âm mưu đầu tiên này là một so sánh kiểm soát trường hợp cho cytokine IL-10. Tôi đã tự đặt trục y để bao gồm 99% dữ liệu.

IL-10 Với trục Y bằng tay

Lý do tôi đặt thủ công này là vì nhóm trường hợp có ngoại lệ cực đoan. Với ngoại lệ

Các cộng tác viên của tôi đang do dự để thực hiện loại bỏ ngoại lệ đối với tập dữ liệu của chúng tôi. Tôi ổn với điều đó, nhưng họ không muốn. Đó sẽ là giải pháp rõ ràng. Nhưng nếu tôi sẽ giữ tất cả dữ liệu và không xóa dữ liệu này sớm hơn, làm thế nào tôi có thể trình bày boxplot này một cách tối ưu? Chia trục? Có thể chấp nhận sử dụng chỉ biểu đồ đầu tiên và lưu ý rằng nó được xây dựng để bao gồm tất cả dữ liệu? (Tùy chọn này cảm thấy không trung thực với tôi). Bất cứ lời khuyên nào cũng tuyệt vời cả.


5
Tại sao không trình bày cả hai lô?
Alexis

Câu trả lời:


24

Tôi muốn nói rằng với dữ liệu như thế này, bạn thực sự cần hiển thị kết quả theo thang điểm đã được chuyển đổi. Đó là điều bắt buộc đầu tiên và là một vấn đề quan trọng hơn chính xác là làm thế nào để vẽ một ô vuông.

Nhưng tôi nhắc lại Frank Harrell khi thúc giục một cái gì đó nhiều thông tin hơn là một âm mưu hộp tối thiểu, thậm chí với một số điểm cực đoan được xác định. Bạn có đủ không gian để hiển thị nhiều thông tin hơn. Đây là một trong nhiều ví dụ, một hộp lai và âm mưu lượng tử. Như trong dữ liệu của bạn, có hai nhóm được so sánh.

nhập mô tả hình ảnh ở đây

Tôi sẽ lấy hai điểm này từng cái một và nói nhiều hơn.

Chuyển đổi quy mô

Trong trường hợp đơn giản nhất, tất cả các giá trị của bạn có thể dương và trước tiên bạn nên thử sử dụng thang đo logarit.

Nếu bạn có số không chính xác, thang đo căn bậc hai hoặc khối lập phương vẫn sẽ cải thiện độ lệch cực cao. Một số người hài lòng với log (giá trị + hằng số), trong đó hằng số thường là 1, như một cách đối phó với các số không.

Ý nghĩa của các ô vuông sử dụng thang đo được chuyển đổi là tinh tế.

Nếu bạn sử dụng quy ước Tukey chung để hiển thị riêng lẻ tất cả các điểm nằm ngoài nhóm trên + 1,5 IQR hoặc phân vị thấp hơn - 1,5 IQR, thì có thể cho rằng các giới hạn đó phải được tính theo thang đo được chuyển đổi. Điều đó không giống như tính toán các giới hạn đó trên thang đo ban đầu, sau đó chuyển đổi.

Thay vào đó, tôi ủng hộ những gì dường như vẫn là một quy ước thiểu số trong việc lựa chọn các lượng tử cho phần cuối của râu. Một trong những lợi thế của điều đó là sự biến đổi của quantile = quantile of biến đổi, ít nhất là đủ gần với mục đích đồ họa trong hầu hết các trường hợp. (Bản in nhỏ là bất cứ khi nào lượng tử được tính bằng phép nội suy tuyến tính giữa các thống kê thứ tự liền kề.)

Quy ước lượng tử này được đề xuất khá nổi bật bởi Cleveland (1985). Đối với hồ sơ, các ô hộp được tăng cường với các hộp thành tứ phân, hộp mỏng hơn cho các quãng tám ngoài (12,5 và 87,5% điểm) và các ô dữ liệu dải được sử dụng trong địa lý và khí hậu bởi (ví dụ) Matthews (1936) và Grove (1956), dưới tên "sơ đồ phân tán".

Nhiều hơn lô hộp

Âm mưu hộp được Tukey phát minh lại vào khoảng năm 1970 và được quảng bá rõ ràng nhất trong cuốn sách năm 1977 của ông. Phần lớn mục đích của ông là quảng bá các biểu đồ có thể được vẽ nhanh bằng bút (cil) và giấy trong thăm dò không chính thức. Ông cũng đã gợi ý những cách để xác định các ngoại lệ có thể. Điều đó cũng tốt, nhưng bây giờ tất cả chúng ta đều có quyền truy cập vào máy tính, không có gì khó khăn khi vẽ biểu đồ hiển thị, nếu không phải là tất cả dữ liệu, thì ít nhất là chi tiết hơn nhiều. Vai trò tóm tắt của các ô vuông là có giá trị, nhưng một biểu đồ cũng có thể hiển thị cấu trúc tốt, chỉ trong trường hợp nó thú vị hoặc quan trọng. (Và những gì các nhà nghiên cứu nghĩ là không thú vị hoặc không quan trọng có thể gây ấn tượng hơn với độc giả của họ.)

Theo tôi, có rất nhiều chỗ cho sự bất đồng lịch sự về chính xác những gì hoạt động tốt nhất, nhưng những mảnh đất trống đã được bán quá mức, theo quan điểm của tôi.

Người dùng Stata có thể tìm thấy nhiều hơn về chương trình đã vẽ con số trong bài đăng này . Người dùng phần mềm khác sẽ không gặp khó khăn gì trong việc vẽ thứ gì đó tốt hơn hoặc tốt hơn (tại sao lại sử dụng phần mềm đó?).

Cleveland, WS 1985. Các yếu tố của dữ liệu đồ thị. Monterey, CA: Wadsworth.

Grove, AT 1956. Xói mòn đất ở Nigeria. Trong Steel, RW và Fisher, CA (Eds) Các bài tiểu luận địa lý về vùng đất nhiệt đới của Anh. Luân Đôn: George Philip, 79-111.

Matthews, HA 1936. Một cái nhìn mới về một số cơn mưa quen thuộc của Ấn Độ. Tạp chí Địa lý Scotland 52: 84-97.

Tukey, JW 1977. Phân tích dữ liệu thăm dò. Đọc, MA: Addison-Wesley.


1
Tôi chưa bao giờ thấy vị trí kề nhau của các ô hộp và ECDF trước đây. Thật tuyệt! Bạn nghĩ gì về việc phủ hai ECDF trong một bảng riêng biệt?
Frank Mitchell

2
@Frank Mitchell Cảm ơn. Lớp phủ cũng là một ý tưởng tốt. Xem ví dụ: stata-journal.com/sjpdf.html?articlenum=gr0018 để biết một số ví dụ trong công việc của tôi.
Nick Cox

14

Không lấy đi bất cứ điều gì từ câu trả lời xuất sắc của Nick, điều mà tôi nghĩ là rất đáng để đánh dấu và nâng cao - nhưng tôi muốn khám phá một số khả năng.

Với dữ liệu sai lệch nặng nề như vậy trong một số đơn đặt hàng có cường độ lớn, âm mưu trên thang đo log thường khá lộ liễu; lưu ý rằng bạn vẫn có thể có dấu tick và nhãn đánh dấu trong các giá trị ban đầu. (Tôi đồng ý với các điểm của Nick liên quan đến chuyển đổi, vì vậy tôi sẽ không mở rộng thêm về điều đó.)

Một tùy chọn khác ngoài chuyển đổi là thực hiện một cái gì đó giống như âm mưu thứ hai của bạn, nhưng bao gồm một dấu hiệu của tất cả các giá trị không được vẽ:

  nhập mô tả hình ảnh ở đây

Bằng cách đó, bạn sẽ không loại bỏ các ngoại lệ, chỉ hiển thị chúng khác nhau.

Tuy nhiên, tôi đã tham gia cùng Frank và Nick khi đề xuất sử dụng màn hình hiển thị nhiều thông tin hơn so với boxplot đơn giản - sự kết hợp giữa boxplot với cốt truyện lượng tử trong bài của Nick có vẻ là một khái niệm đặc biệt tốt, mặc dù người ta có thể vẽ sơ đồ âm lượng lượng tử nhẹ (hoặc dưới , như ở đây) hộp tương ứng thay vì bên cạnh nó:

  nhập mô tả hình ảnh ở đây

Nếu bạn không làm điều gì đó tương tự (chỉ cần đi với một boxplot đơn giản, hãy nói), tôi đề nghị các hộp hẹp hơn đáng kể.


3
Siêu khối lượng tử và hộp cũng hấp dẫn. Nó nhấn mạnh rằng âm mưu hộp là sự giảm âm mưu lượng tử, mặc dù đối với một số âm mưu hộp có thể có vẻ dư thừa. Để nhấn mạnh vào mối quan hệ giữa hai biểu đồ, xem ví dụ Parzen, E. 1979. Mô hình dữ liệu thống kê phi tham số. Tạp chí của Hiệp hội Thống kê Hoa Kỳ 74: 105-121
Nick Cox

Bạn có bộ dữ liệu của OP không? Hoặc bạn đang cạo đồ thị / giả mạo nó?
Nick Cox

2
@Nick Chỉ cần giả mạo nó, về cơ bản; Tôi đã loại bỏ các điểm cực trị một cách hiệu quả (chỉ bằng tay, có rất ít), và sau đó tạo ra các giá trị bên dưới các phần tư trên bằng cách lấy mẫu từ 3 đồng phục giữa các giá trị đã biết (3 phần tư và tối thiểu) và giữa các phần tư trên và phần cuối của các râu trên với số mũ, sau đó thêm các điểm cực trị vào (chỉ để các ô của tôi trông tương tự). Ít nhất đó là ý chính của ý tưởng. Các điểm cực trị sẽ không chính xác, vì vậy các giá trị được in trên cốt truyện của tôi giống như các ví dụ.
Glen_b -Reinstate Monica

@Glen_b Tôi có thể hỏi một câu hỏi riêng nếu bạn thích, nhưng bạn đã sử dụng phương pháp nào để phủ lớp biểu đồ lượng tử với boxplot?
Tavrock

@Tavrock Đã hai năm rưỡi kể từ khi tôi viết nó, vì vậy tôi đoán. Điều rõ ràng cần làm là gọi pointsđể hiển thị các giá trị lượng tử (nó trông giống như một cái gì đó dọc theo đường kẻ xs=sort(x); points(ppoints(xs),xs)sau boxplot, nhưng khi kiểm tra chặt chẽ các điểm nằm bên dưới boxplot, vì vậy nó có thể được vẽ sau đó là boxplot với add = TRUE hoặc nó có thể là boxplot, sau đó điểm rồi boxplot trên đầu ... có thể
Glen_b -Reinstate Monica

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.