Có một khái quát về các ô vuông tiêu chuẩn mà tôi biết trong đó độ dài của các râu được điều chỉnh để giải thích cho dữ liệu bị lệch. Các chi tiết được giải thích rõ hơn trong một tờ giấy trắng rất rõ ràng và súc tích (Vandervieren, E., Hubert, M. (2004) "Một boxplot được điều chỉnh cho các bản phân phối lệch", xem tại đây ).
Rrobustbase::adjbox()libra
Cá nhân tôi thấy nó là một sự thay thế tốt hơn cho việc chuyển đổi dữ liệu (mặc dù nó cũng dựa trên quy tắc đặc biệt, xem giấy trắng).
Tình cờ, tôi thấy tôi có một cái gì đó để thêm vào ví dụ của người ở đây. Đối với phần mở rộng mà chúng ta đang thảo luận về hành vi của râu ria, chúng ta thực sự cũng nên xem xét những gì xảy ra khi xem xét dữ liệu bị ô nhiễm:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
Trong mô hình ô nhiễm này, B1 về cơ bản có phân phối log-log tiết kiệm cho 20 phần trăm dữ liệu là một nửa ngoại lệ, một nửa ngoại lệ bên phải (điểm phá vỡ của hộp điều chỉnh giống như các ô vuông thông thường, nghĩa là nó giả định rằng hầu hết 25 phần trăm dữ liệu có thể là xấu).
Các biểu đồ mô tả các ô vuông cổ điển của dữ liệu được chuyển đổi (sử dụng chuyển đổi căn bậc hai)
và boxplot điều chỉnh của dữ liệu không biến đổi.
So với các ô vuông được điều chỉnh, tùy chọn trước đây che dấu các ngoại lệ thực và gắn nhãn dữ liệu tốt là các ngoại lệ. Nói chung, nó sẽ cố gắng che giấu bất kỳ bằng chứng nào về sự bất cân xứng trong dữ liệu bằng cách phân loại các điểm vi phạm là ngoại lệ.
Trong ví dụ này, cách tiếp cận sử dụng boxplot tiêu chuẩn trên căn bậc hai của dữ liệu tìm thấy 13 ngoại lệ (tất cả ở bên phải), trong khi boxplot được điều chỉnh tìm thấy 10 ngoại lệ bên phải và 14 bên trái.
EDIT: lô hộp điều chỉnh trong một tóm tắt.
Trong các ô vuông 'cổ điển', râu được đặt tại:
Q1Q3
Q1Q3
Quy tắc này là đặc biệt: biện minh là nếu phần không bị nhiễm của dữ liệu xấp xỉ Gaussian, thì dưới 1% dữ liệu tốt sẽ được phân loại là xấu khi sử dụng quy tắc này.
Một điểm yếu của quy tắc hàng rào này, như được chỉ ra bởi OP, là độ dài của hai râu giống hệt nhau, có nghĩa là quy tắc hàng rào chỉ có ý nghĩa nếu phần không bị nhiễm của dữ liệu có phân phối đối xứng.
Một cách tiếp cận phổ biến là bảo tồn quy tắc hàng rào và điều chỉnh dữ liệu. Ý tưởng là biến đổi dữ liệu bằng cách sử dụng một số biến đổi sai lệch đơn điệu (căn bậc hai hoặc nhật ký hoặc nói chung là biến đổi box-cox). Đây là một cách tiếp cận hơi lộn xộn: nó dựa vào logic vòng tròn (nên chọn phép biến đổi để điều chỉnh độ lệch của phần không bị nhiễm của dữ liệu, ở giai đoạn này là không thể quan sát được) và có xu hướng làm cho dữ liệu khó diễn giải hơn trực quan Ở bất kỳ giá nào, đây vẫn là một thủ tục kỳ lạ, theo đó người ta thay đổi dữ liệu để bảo toàn những gì sau tất cả quy tắc đặc biệt.
Một cách khác là để dữ liệu không bị ảnh hưởng và thay đổi quy tắc râu. Boxplot được điều chỉnh cho phép độ dài của mỗi râu thay đổi tùy theo chỉ số đo độ lệch của phần không bị nhiễm bẩn của dữ liệu:
Q1exp(M,α)Q3exp(M,β)
Mα β
Đối với các trường hợp khi phần tốt của dữ liệu là đối xứng, M≈0
MMαβ
Q1exp(−4M)Q3exp(3M)M≥0
Q1exp(−3M)Q3exp(4M)M<0