Cơ sở cho định nghĩa Plot Box và Whisker Plot của một ngoại lệ là gì?


17

Định nghĩa tiêu chuẩn của một ngoại lệ cho âm mưu Box and Whisker là các điểm nằm ngoài phạm vi , trong đó và là tứ phân vị đầu tiên và là phần tư thứ ba của dữ liệu. I Q R = Q 3 - Q 1 Q 1 Q 3{Q1-1,5TôiQR,Q3+1,5TôiQR}TôiQR= =Q3-Q1Q1Q3

Cơ sở cho định nghĩa này là gì? Với số lượng điểm lớn, ngay cả một phân phối hoàn toàn bình thường cũng trả về các ngoại lệ.

Ví dụ: giả sử bạn bắt đầu với chuỗi:

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

Trình tự này tạo ra một thứ hạng phần trăm của 4000 điểm dữ liệu.

Kiểm tra tính quy phạm cho qnormloạt bài này cho kết quả:

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

Kết quả chính xác như mong đợi: tính quy tắc của phân phối bình thường là bình thường. Tạo một qqnorm(qnorm(xseq))tạo (như mong đợi) một dòng dữ liệu:

biểu đồ dữ liệu qqnorm

Nếu một boxplot của cùng một dữ liệu được tạo, boxplot(qnorm(xseq))tạo ra kết quả:

boxplot của dữ liệu

Boxplot, không giống như shapiro.test, ad.testhoặc qqnormxác định một số điểm là ngoại lệ khi kích thước mẫu đủ lớn (như trong ví dụ này).


"Cơ sở" nghĩa là gì? Đây là một số định nghĩa và không ai nói phân phối hoàn toàn bình thường không có ngoại lệ
Haitao Du

2
@ hxd1011, định nghĩa của phân phối không thể là ngoại lệ từ chính nó. Định nghĩa này để kiểm tra các ngoại lệ trên một hộp và biểu đồ râu là thử nghiệm / cái gì đó / để cung cấp kết quả, bất cứ điều gì nó đang thử nghiệm sẽ là cơ sở của thử nghiệm.
Tavrock

Tôi nghĩ rằng định nghĩa ngoại lệ của hộp và râu chỉ là một số heuristic ... Ngoài ra, tại sao định nghĩa phân phối không thể có ngoại lệ từ bản thân?
Haitao Du

3
Không quan trọng bạn chọn quy tắc nào, cuối cùng bạn sẽ nói "với số lượng điểm lớn, thậm chí phân phối hoàn toàn bình thường sẽ trả về các ngoại lệ". [Cố gắng đưa ra một cách hữu ích để xác định các ngoại lệ không thể từ chối bất kỳ điểm nào nếu bạn lấy mẫu từ một bản phân phối bình thường.]
Glen_b -Reinstate Monica

1
Một giai thoại được lặp đi lặp lại nhiều lần là John Tukey, người đã đưa ra quy tắc này, đã được hỏi tại sao 1,5; và nói rằng 1 sẽ là quá ít và 2 sẽ là quá nhiều. Với số lần tôi đã thấy nó bị đọc sai vì bằng cách nào đó là một tiêu chí dứt khoát, hoành tráng, tôi sẽ hạnh phúc hơn khi nó biến mất. Bây giờ tất cả chúng ta đều có máy tính có thể hiển thị tất cả dữ liệu!
Nick Cox

Câu trả lời:


25

Boxplots

Đây là một phần có liên quan từ Hoaglin, Mosteller và Tukey (2000): Tìm hiểu phân tích dữ liệu mạnh mẽ và khám phá. Wiley . Chương 3, "So sánh Boxplots và Batch", được viết bởi John D. Emerson và Judith Strenio (từ trang 62):

FL-32dFFBạn+32dF

FLFBạndFFBạn-FL

Họ tiếp tục và hiển thị ứng dụng cho dân số Gaussian (trang 63):

010-0,67450,67451.34943322.02352±2.69822399,3%

Vì thế

0,7%

Hơn nữa, họ viết

[...] Vì vậy, chúng tôi có thể đánh giá liệu dữ liệu của chúng tôi có vẻ nặng hơn so với Gaussian hay không bằng cách có bao nhiêu điểm vượt quá ngưỡng cắt ra. [...]

Họ cung cấp một bảng với tỷ lệ giá trị dự kiến ​​nằm ngoài ngưỡng giới hạn (được dán nhãn "Tổng số%"):

Bảng 3-2

Vì vậy, các điểm cắt này không bao giờ có ý định trở thành một quy tắc nghiêm ngặt về điểm dữ liệu nào là ngoại lệ hay không. Như bạn đã lưu ý, ngay cả một bản phân phối Bình thường hoàn hảo dự kiến ​​sẽ thể hiện "ngoại lệ" trong một khung hình.


Ngoại lệ

Theo như tôi biết, không có định nghĩa được chấp nhận phổ biến về ngoại lệ. Tôi thích định nghĩa của Hawkins (1980):

Một ngoại lệ là một quan sát làm lệch rất nhiều so với các quan sát khác để khơi dậy sự nghi ngờ rằng nó được tạo ra bởi một cơ chế khác.

Tốt nhất, bạn chỉ nên coi các điểm dữ liệu là ngoại lệ một khi bạn hiểu tại sao chúng không thuộc về phần còn lại của dữ liệu. Một quy tắc đơn giản là không đủ. Một điều trị tốt của các ngoại lệ có thể được tìm thấy trong Aggarwal (2013).

Người giới thiệu

Aggarwal CC (2013): Phân tích ngoại lệ. Mùa xuân.
Hawkins D (1980): Xác định các ngoại lệ. Chapman và Hội trường.
Hoaglin, Mosteller và Tukey (2000): Tìm hiểu phân tích dữ liệu mạnh mẽ và khám phá. Wiley.


7

Từ 'ngoại lệ' thường được coi là một từ như 'một giá trị dữ liệu sai, sai, nhầm hoặc bị hỏng và do đó nên được bỏ qua khỏi phân tích', nhưng đó không phải là ý nghĩa của Tukey khi sử dụng ngoại lệ. Các ngoại lệ chỉ đơn giản là các điểm cách xa trung bình của bộ dữ liệu.

Quan điểm của bạn về việc mong đợi các ngoại lệ trong nhiều bộ dữ liệu là chính xác và quan trọng. Và có rất nhiều câu hỏi và câu trả lời tốt về chủ đề này.

Xóa các ngoại lệ khỏi dữ liệu không đối xứng

Có phù hợp để xác định và loại bỏ các ngoại lệ vì chúng gây ra vấn đề?


2

Như với tất cả các phương pháp phát hiện ngoại lệ, sự quan tâm và suy nghĩ phải được sử dụng để xác định giá trị nào thực sự là ngoại lệ. Tôi nghĩ rằng boxplot chỉ đơn giản là cung cấp một hình dung tốt về sự lan truyền của dữ liệu và bất kỳ ngoại lệ thực sự nào cũng sẽ dễ dàng bắt được.


0

Tôi nghĩ bạn nên quan tâm nếu bạn không nhận được một số ngoại lệ như là một phần của phân phối bình thường, nếu không, có lẽ bạn nên tìm kiếm lý do không có. Rõ ràng họ nên được xem xét để đảm bảo rằng họ không ghi lại lỗi, nhưng nếu không thì chúng sẽ được dự kiến.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.