Có một biến thể boxplot cho dữ liệu phân phối Poisson không?


33

Tôi muốn biết liệu có biến thể boxplot nào phù hợp với dữ liệu phân tán Poisson (hoặc có thể các bản phân phối khác) không?

Với phân phối Gaussian, râu ria được đặt ở L = Q1 - 1,5 IQR và U = Q3 + 1,5 IQR, boxplot có đặc tính sẽ có khoảng nhiều ngoại lệ thấp (điểm dưới L) vì có các ngoại lệ cao (điểm trên U ).

Tuy nhiên, nếu dữ liệu được phân phối Poisson, thì dữ liệu này sẽ không giữ được nữa vì độ lệch dương chúng ta nhận được Pr (X <L) <Pr (X> U) . Có cách nào khác để đặt râu ria sao cho phù hợp với phân phối Poisson không?


2
Hãy thử đăng nhập nó trước? Bạn cũng có thể nói những gì bạn muốn boxplot của mình được 'thích nghi tốt'.
liên hợp chiến binh

2
Có một vấn đề khi thực hiện sửa đổi như vậy - mọi người đã quen với định nghĩa boxplot tiêu chuẩn và rất có thể sẽ giả định điều đó khi nhìn vào cốt truyện cho dù bạn có thích hay không. Vì vậy, điều này có thể mang lại nhiều nhầm lẫn hơn đạt được.

@mbq:> điều với boxplots là chúng kết hợp hai tính năng cho đến một công cụ; một tính năng hiển thị dữ liệu (hộp) và tính năng phát hiện ngoại lệ (râu ria). Những gì bạn nói là hoàn toàn đúng với trước đây, nhưng sau này có thể sử dụng một điều chỉnh nghiêng.
user603

@conjugatep Warrior Đây là mẫu Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... có nhận thấy sự cố khi chỉ ghi nhật ký không?
Glen_b -Reinstate Monica

@Glen_b Đó phải là lý do tại sao đó là một nhận xét không phải là một câu trả lời. Và tại sao nó có hai phần.
liên hợp chiến binh

Câu trả lời:


31

Boxplots không được thiết kế để đảm bảo xác suất thấp vượt quá đầu của râu trong mọi trường hợp: chúng được dự định và thường được sử dụng, như là đặc điểm đồ họa đơn giản của phần lớn bộ dữ liệu. Như vậy, chúng vẫn ổn ngay cả khi dữ liệu có các phân phối rất sai lệch (mặc dù chúng có thể không tiết lộ nhiều thông tin như chúng làm về các phân phối gần như không được phân phối).

Khi các ô vuông bị lệch, như với phân phối Poisson, bước tiếp theo là thể hiện lại biến cơ bản (với một biến đổi đơn điệu, tăng dần) và vẽ lại các ô vuông. Bởi vì phương sai của phân phối Poisson tỷ lệ thuận với giá trị trung bình của nó, một phép biến đổi tốt để sử dụng là căn bậc hai.

Mỗi boxplot mô tả 50 iid rút ra từ phân phối Poisson với cường độ nhất định (từ 1 đến 10, với hai thử nghiệm cho mỗi cường độ). Lưu ý rằng độ lệch có xu hướng thấp.

bên cạnh boxplots

Các dữ liệu tương tự trên thang đo căn bậc hai có xu hướng có các ô vuông đối xứng hơn một chút và (ngoại trừ cường độ thấp nhất) có IQR xấp xỉ bằng nhau bất kể cường độ).

các hộp dữ liệu được chuyển đổi

Tóm lại, không thay đổi thuật toán boxplot: thay vào đó thể hiện lại dữ liệu.


Ngẫu nhiên, các cơ hội có liên quan để được tính toán là: cơ hội mà một phương sai bình thường độc lập sẽ vượt quá hàng rào trên (dưới) U ( L ) như ước tính từ n rút ra độc lập từ cùng một phân phối là gì? XULn Điều này cho thấy thực tế là hàng rào trong boxplot không được tính từ phân phối cơ bản mà được ước tính từ dữ liệu. Trong hầu hết các trường hợp, cơ hội lớn hơn 1%! Chẳng hạn, ở đây (dựa trên 10.000 thử nghiệm Monte-Carlo) là biểu đồ của nhật ký (cơ sở 10) cơ hội cho trường hợp :n=9

biểu đồ cơ hội

(Vì phân phối bình thường là đối xứng, biểu đồ này áp dụng cho cả hai hàng rào.) Logarit của 1% / 2 là khoảng .32.3. Rõ ràng, hầu hết thời gian xác suất lớn hơn mức này. Khoảng 16% thời gian nó vượt quá 10%!

Hóa ra (tôi sẽ không làm lộn xộn câu trả lời này với các chi tiết) rằng các phân phối của các cơ hội này có thể so sánh với trường hợp bình thường (đối với nhỏ ) ngay cả đối với các phân phối Poisson cường độ thấp đến 1, khá sai lệch. Sự khác biệt chính là nó thường ít có khả năng tìm thấy một ngoại lệ thấp và nhiều khả năng tìm thấy một ngoại lệ cao.n


1
+1, tôi đã không thấy chủ đề này trước đây. Tôi đã đưa ra (tôi tin) cùng một điểm được thảo luận ở đây sau quy tắc ngang theo một cách khác trong bài đăng này: Có nên xóa các trường hợp được gắn cờ là ngoại lệ bằng phần mềm thống kê hay không .
gung - Phục hồi Monica

Vâng, đó là cùng một điểm @ gung - và bạn đã đăng một câu trả lời hay ở đó.
whuber

26

Có một khái quát về các ô vuông tiêu chuẩn mà tôi biết trong đó độ dài của các râu được điều chỉnh để giải thích cho dữ liệu bị lệch. Các chi tiết được giải thích rõ hơn trong một tờ giấy trắng rất rõ ràng và súc tích (Vandervieren, E., Hubert, M. (2004) "Một boxplot được điều chỉnh cho các bản phân phối lệch", xem tại đây ).

Rrobustbase::adjbox()libra

Cá nhân tôi thấy nó là một sự thay thế tốt hơn cho việc chuyển đổi dữ liệu (mặc dù nó cũng dựa trên quy tắc đặc biệt, xem giấy trắng).

Tình cờ, tôi thấy tôi có một cái gì đó để thêm vào ví dụ của người ở đây. Đối với phần mở rộng mà chúng ta đang thảo luận về hành vi của râu ria, chúng ta thực sự cũng nên xem xét những gì xảy ra khi xem xét dữ liệu bị ô nhiễm:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

Trong mô hình ô nhiễm này, B1 về cơ bản có phân phối log-log tiết kiệm cho 20 phần trăm dữ liệu là một nửa ngoại lệ, một nửa ngoại lệ bên phải (điểm phá vỡ của hộp điều chỉnh giống như các ô vuông thông thường, nghĩa là nó giả định rằng hầu hết 25 phần trăm dữ liệu có thể là xấu).

Các biểu đồ mô tả các ô vuông cổ điển của dữ liệu được chuyển đổi (sử dụng chuyển đổi căn bậc hai)

boxplot cổ điển trên biến đổi căn bậc hai của dữ liệu

và boxplot điều chỉnh của dữ liệu không biến đổi.

boxplot điều chỉnh dữ liệu chưa được chuyển đổi

So với các ô vuông được điều chỉnh, tùy chọn trước đây che dấu các ngoại lệ thực và gắn nhãn dữ liệu tốt là các ngoại lệ. Nói chung, nó sẽ cố gắng che giấu bất kỳ bằng chứng nào về sự bất cân xứng trong dữ liệu bằng cách phân loại các điểm vi phạm là ngoại lệ.

Trong ví dụ này, cách tiếp cận sử dụng boxplot tiêu chuẩn trên căn bậc hai của dữ liệu tìm thấy 13 ngoại lệ (tất cả ở bên phải), trong khi boxplot được điều chỉnh tìm thấy 10 ngoại lệ bên phải và 14 bên trái.

EDIT: lô hộp điều chỉnh trong một tóm tắt.

Trong các ô vuông 'cổ điển', râu được đặt tại:

Q1Q3

Q1Q3

Quy tắc này là đặc biệt: biện minh là nếu phần không bị nhiễm của dữ liệu xấp xỉ Gaussian, thì dưới 1% dữ liệu tốt sẽ được phân loại là xấu khi sử dụng quy tắc này.

Một điểm yếu của quy tắc hàng rào này, như được chỉ ra bởi OP, là độ dài của hai râu giống hệt nhau, có nghĩa là quy tắc hàng rào chỉ có ý nghĩa nếu phần không bị nhiễm của dữ liệu có phân phối đối xứng.

Một cách tiếp cận phổ biến là bảo tồn quy tắc hàng rào và điều chỉnh dữ liệu. Ý tưởng là biến đổi dữ liệu bằng cách sử dụng một số biến đổi sai lệch đơn điệu (căn bậc hai hoặc nhật ký hoặc nói chung là biến đổi box-cox). Đây là một cách tiếp cận hơi lộn xộn: nó dựa vào logic vòng tròn (nên chọn phép biến đổi để điều chỉnh độ lệch của phần không bị nhiễm của dữ liệu, ở giai đoạn này là không thể quan sát được) và có xu hướng làm cho dữ liệu khó diễn giải hơn trực quan Ở bất kỳ giá nào, đây vẫn là một thủ tục kỳ lạ, theo đó người ta thay đổi dữ liệu để bảo toàn những gì sau tất cả quy tắc đặc biệt.

Một cách khác là để dữ liệu không bị ảnh hưởng và thay đổi quy tắc râu. Boxplot được điều chỉnh cho phép độ dài của mỗi râu thay đổi tùy theo chỉ số đo độ lệch của phần không bị nhiễm bẩn của dữ liệu:

Q1exp(M,α)Q3exp(M,β)

Mα β

Đối với các trường hợp khi phần tốt của dữ liệu là đối xứng, M0

MMαβ

Q1exp(4M)Q3exp(3M)M0

Q1exp(3M)Q3exp(4M)M<0


1
Tôi sẽ quan tâm để biết làm thế nào bạn tìm thấy ví dụ của tôi "không có ích" - chỉ xây dựng thương hiệu như vậy là không mang tính xây dựng. Tôi sẽ thừa nhận rằng ví dụ này có phần đáng thất vọng theo nghĩa là việc chuyển đổi dữ liệu không thể hiện một sự cải tiến ngoạn mục. Đó là lỗi của các bản phân phối Poisson: chúng chỉ không đủ sai lệch để xứng đáng với sự bận tâm của tất cả các phân tích này!
whuber

@whuber:> đầu tiên, xin lỗi vì giai điệu: đó là từ một bản nháp đầu tiên chưa được chỉnh sửa và nó đã được sửa chữa đáp ứng liên gió dài). Bây giờ cho chính nhà phê bình: ví dụ của bạn mô tả hành vi của giải pháp sử dụng chuyển đổi trong trường hợp dữ liệu không bị nhiễm bẩn. IMHO quy tắc râu ria nên - sơ bộ - được đánh giá với một mô hình ô nhiễm trong tâm trí.
dùng603

@user Cảm ơn đã làm rõ. Tôi không bận tâm đến những lời chỉ trích, điều này rất thú vị và tôi đánh giá cao các tài liệu tham khảo về các khung hình được điều chỉnh. (+1)
whuber

Tôi đồng ý với user603 rằng có một sự khác biệt trong việc bạn kiểm tra phân phối thuần túy (chẳng hạn như trong câu trả lời của người nuôi dưỡng) hoặc có dữ liệu từ phân phối cộng với một số ngoại lệ (được thảo luận ở đây là nhiễm bẩn ). Từ quan điểm của tôi, trong các thiết lập thực, một boxplot được sử dụng để quét các ngoại lệ. Sau đó, một phân tích về các ô vuông bỏ qua các ngoại lệ bằng cách nào đó bỏ lỡ điểm. Do đó, câu trả lời này dường như phục vụ tốt hơn cho mục đích sử dụng boxplots.
Henrik

2
@Henrik Xác định các ngoại lệ chỉ là một trong nhiều mục đích của boxplots. Cách tiếp cận của Tukey trước tiên là tìm ra biểu hiện lại thích hợp của dữ liệu làm cho phần giữa của phân phối của chúng gần như đối xứng. Điều này tránh sự cần thiết cho bất kỳ điều chỉnh cho độ lệch. Điều đó đã hoàn thành rất nhiều về việc cho phép so sánh giữa các ô vuông, đó là nơi chúng trở nên thực sự hữu ích. "Điều chỉnh" râu ria hoàn toàn bỏ lỡ vấn đề cơ bản này. Do đó tôi sẽ cảnh giác khi sử dụng điều chỉnh: nhu cầu của nó là một tín hiệu cho thấy việc phân tích không được thực hiện tốt.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.