ô vuông trong R: Các ngoại lệ có được tính khi các lượng tử đang được xác định không?


8

Tôi có bộ dữ liệu 1 chiều và tôi sử dụng boxplothàm để tạo một ô vuông. Sau đó tôi có thể thấy rằng tôi có một số ngoại lệ.

Các ngoại lệ có được tính khi các lượng tử đang được xác định không?

Có một cách đúng / sai hay cả hai cách đều đúng miễn là chúng ta rõ ràng về phương pháp nào đã được sử dụng? Nếu vậy, làm thế nào R làm điều đó?


6
Đó là một phần câu hỏi về cách sử dụng tiếng Anh, nhưng các chương trình boxplot không xác định ngoại lệ. Nhiều nhất, họ vẽ các điểm riêng biệt nên được suy nghĩ và có thể là (ngoại lệ) ngoại lệ.
Nick Cox

1
Đối với một mẫu lớn từ phân bố theo cấp số nhân, khoảng mẫu có thể xuất hiện ngoài bộ râu trên. Nếu bạn loại trừ những thứ này, bạn có thể nhận được các lượng tử sai đáng kể4.8%
Henry

Câu trả lời:


12

R - giống như nhiều người, nhưng không phải tất cả các chương trình - chủ yếu sử dụng định nghĩa của Tukey * về cách vẽ boxplot.

Các toàn bộ mẫu ban đầu được sử dụng để tính toán bản lề (nơi hộp đầu được rút ra).

Bản lề rất giống với các tứ phân vị (bạn có thể nói chúng là một cách đặc biệt để tính toán các phân vị trên và dưới khác nhau một chút so với các định nghĩa thông thường hơn về các tứ phân vị - mặc dù cũng có một số định nghĩa khác nhau về các phân vị mẫu; thực sự R cung cấp chín phép tính tứ phân biệt, không tính bản lề).

Bản lề trên nằm ở giữa của nửa trên của dữ liệu (nửa trên bao gồm trung vị của mẫu ban đầu nếu đó là điểm dữ liệu) và bản lề dưới nằm ở giữa của nửa dưới (cũng bao gồm trung vị của mẫu ban đầu nếu nó ở điểm dữ liệu):

Sơ đồ minh họa tính toán của bản lề

Vì vậy, ví dụ với 6 quan sát, bản lề là quan sát lớn thứ hai và lớn thứ 5 (3 điểm trong mỗi nửa). Với 9 quan sát, bản lề là lớn thứ 3 và thứ 8 (5 điểm trong mỗi nửa, trung vị đến ở cả hai nửa). Với 11 quan sát, bản lề dưới nằm giữa nửa quan sát lớn thứ 3 và thứ 4 và bản lề trên nằm giữa nửa quan sát lớn thứ 8 và 9 (mỗi điểm 6 điểm). Hình minh họa cho thấy trường hợp với 13 quan sát.

Lưu ý rằng các tứ phân vị (/ bản lề) hoàn toàn không nhạy cảm với các giá trị của các ngoại lệ, chỉ thực tế là chúng nằm ngoài các tứ phân vị. Bạn có thể di chuyển tất cả chúng gần với đầu hộp (để không có ngoại lệ) mà không thay đổi các bộ tứ / bản lề, hoặc xa như bạn muốn (vì vậy tất cả đều ở xa), một lần nữa mà không thay đổi giá trị của các bộ tứ . Vì vậy, thực sự không cần phải làm gì khi có "ngoại lệ".


* Hay đúng hơn, một trong số họ; Tukey đã đưa ra một số định nghĩa, mặc dù cho các mục đích hiện tại, chúng ta chỉ cần lo lắng về cách tính toán của bản lề; Tôi nói chủ yếu là vì phiên bản có "ngoại lệ" sẽ là cái mà Tukey gọi là cốt truyện sơ đồ nhưng họ không làm cái nào có hai loại "ngoại lệ" riêng biệt.


Định nghĩa về bản lề trong bối cảnh này có giống với mô tả của Tukey về việc sử dụng trải rộng thứ tư không? Khi đọc Hiểu về phân tích dữ liệu mạnh mẽ và khám phá , ông nói, "Một số độc giả có thể quen thuộc với phạm vi liên vùng , rất gần với phân tán thứ tư vì các tứ phân vị gần giống như các phần tư." Tôi không thấy trong cuốn sách mà anh ấy từng giải thích về sự khác biệt giữa hai người.
Tavrock 17/03/2017

Thứ @Tavrock có định nghĩa tương tự như bản lề . Cả hai thuật ngữ này đều là phát minh của Tukey. Vì vậy, "bản lề lan truyền" cũng giống như "lây lan thứ tư".
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.