Hiểu về râu ria của boxplot

Tôi có một câu hỏi liên quan đến việc giải thích râu ria của boxplot. Tôi đã đọc như sau: "Trên đỉnh và dưới cùng của hình chữ nhật, bộ râu ria của Hồi giáo Hiển thị phạm vi 1,5 lần khoảng cách giữa 0,25- và 0,75-lượng tử", nhưng không hoàn toàn hiểu ý nghĩa của "khoảng cách" .

Không thể có nghĩa là khối lượng xác suất có nghĩa là vì giữa lượng tử 0,25 và 0,75 chúng ta rõ ràng luôn có cùng một tỷ lệ phần trăm dữ liệu. Thế thì ý tưởng là gì?

data-visualization boxplot

— Khách555
nguồn

Giá trị của X tương ứng với 75 lượng tử trừ đi giá trị của X tương ứng với 25 là khoảng cách. Ví dụ, đối với SAT Math Test, 620 là 75 và 520 là lượng tử thứ 25. Vì vậy, nếu bạn đạt điểm trên 620, bạn đã hoàn thành tốt hơn 75% số người tham gia thử nghiệm. Râu sẽ kéo dài tới 1,5 * (620-520) điểm.

— Dimitriy V. Masterov
nguồn

Chà, nhưng sau đó râu ria sẽ có cùng chiều dài ở cả hai mặt của hộp (điều này không nhất thiết phải như vậy).

— Khách555

+1, một câu trả lời đầy đủ (hơn một chút) là bộ râu lên tới 1,5 * IQR, nếu bạn không có thêm bất kỳ dữ liệu nào trong khoảng thời gian đó, bộ râu sẽ dừng lại. Ngoài ra, bất kỳ dữ liệu bổ sung nào ngoài điểm đó đều được vẽ riêng lẻ như các ngoại lệ tiềm năng.

— gung - Tái lập Monica

Với lời giải thích bổ sung nhỏ này, bây giờ rõ ràng, cảm ơn rất nhiều!

— Khách555

Tôi đã chỉnh sửa câu trả lời với điểm tuyệt vời của @ gung.

— Dimitriy V. Masterov

@gung và một câu trả lời thậm chí còn đầy đủ hơn là râu ria luôn nằm trên một điểm hiện có trong dữ liệu

— hadley

Một boxplot được dự định để tóm tắt một tập hợp dữ liệu tương đối nhỏ theo cách hiển thị rõ ràng

Một giá trị trung tâm.
Sự lây lan của các giá trị "điển hình".
Các giá trị riêng lẻ xuất phát rất nhiều từ giá trị trung tâm, liên quan đến sự lây lan, chúng được chọn ra để được chú ý đặc biệt và được xác định riêng biệt (ví dụ như tên). Chúng được gọi là "giá trị được xác định."

Điều này phải được thực hiện một cách mạnh mẽ : điều đó có nghĩa là boxplot không nên trông khác biệt đáng kể khi một hoặc một phần tương đối nhỏ của các giá trị dữ liệu được thay đổi tùy ý.

Giải pháp được nhà phát minh John Tukey áp dụng là sử dụng số liệu thống kê đơn hàng - dữ liệu được sắp xếp từ thấp nhất đến cao nhất - một cách có hệ thống. Để đơn giản (anh ta đã tính toán tinh thần hoặc bằng bút chì và giấy) Tukey tập trung vào trung vị : các giá trị trung bình của các lô số. (Đối với các lô có số chẵn, Tukey đã sử dụng trung điểm của hai giá trị trung bình.) Một trung vị có khả năng chống lại các thay đổi trong một nửa dữ liệu dựa trên đó, làm cho nó trở thành một thống kê mạnh mẽ. Như vậy:

Các giá trị trung ương ước tính với mức trung bình của tất cả các dữ liệu.
Các chênh lệch ước tính với phần chênh lệch giữa số trung vị của "nửa trên" - tất cả các dữ liệu bằng hoặc trên mức trung bình - và "nửa dưới" - tất cả các dữ liệu bằng hoặc thấp hơn mức trung bình. Hai trung vị này được gọi là "bản lề" trên hoặc dưới "bản lề". Ngày nay chúng có xu hướng được thay thế bởi những thứ gọi là tứ phân vị (không có định nghĩa phổ quát, than ôi).
Hàng rào vô hình để sàng lọc các ngoại lệ được dựng lên gấp 1,5 và 3 lần so với bản lề (cách xa giá trị trung tâm).
- "Giá trị ở mỗi đầu gần nhất, nhưng vẫn bên trong, hàng rào bên trong là 'liền kề'."
- Các giá trị vượt qua hàng rào đầu tiên được gọi là "ngoại lệ".
- Các giá trị vượt qua hàng rào thứ hai là "xa vời".

(Những người đủ tuổi để nhớ cuộc tranh luận hippie của thập niên 60 sẽ hiểu được trò đùa.)

Vì mức chênh lệch là sự khác biệt của các giá trị dữ liệu, các hàng rào này có cùng đơn vị đo lường với dữ liệu gốc: đây là ý nghĩa của "khoảng cách" trong câu hỏi.

Liên quan đến các giá trị dữ liệu để xác định, Tukey đã viết

Ít nhất chúng ta có thể xác định các giá trị cực đoan và có thể làm tốt để xác định một vài giá trị nữa.

Bất kỳ phương pháp đồ họa nào để hiển thị trung vị, bản lề và các giá trị được xác định có thể xứng đáng được gọi là "boxplot" (ban đầu, "âm mưu hộp và ria"). Các hàng rào thường không được mô tả. Thiết kế của Tukey bao gồm một hình chữ nhật mô tả các bản lề có "thắt lưng" ở giữa. "Râu" giống như đường kẻ không phô trương kéo dài ra từ bản lề đến các giá trị được xác định trong cùng (cả trên và dưới hộp). Thông thường các giá trị được xác định trong cùng này là các giá trị liền kề được xác định ở trên.

Do đó, sự xuất hiện mặc định của boxplot là mở rộng râu tới các giá trị dữ liệu không xa nhất và xác định (thông qua nhãn văn bản) dữ liệu bao gồm các đầu của râu và tất cả các ngoại lệ. Ví dụ, núi lửa Tupungatito là giá trị liền kề cao cho dữ liệu độ cao của núi lửa được mô tả ở bên phải của hình: râu ria dừng ở đó. Tupungatito và tất cả các núi lửa cao hơn được xác định riêng biệt.

Vì vậy, điều này sẽ hiển thị dữ liệu một cách trung thực, khoảng cách trong đồ họa tỷ lệ thuận với sự khác biệt về giá trị dữ liệu. (Bất kỳ sự khởi hành nào từ tỷ lệ thuận trực tiếp sẽ giới thiệu một "Yếu tố dối trá" theo thuật ngữ của Tufte (1983).)

Hai hộp này từ cuốn sách EDA của Tukey (trang 41) minh họa các thành phần. Đáng chú ý là anh ta đã xác định được các giá trị không xa ở đầu cao và thấp của bộ dữ liệu Hoa ở bên trái và một giá trị không xa của đỉnh Núi lửa ở bên phải. Điều này minh họa cho sự tương tác của các quy tắc và phán đoán tràn ngập cuốn sách.

(Bạn có thể cho biết những dữ liệu được xác định này là không ngoại lệ, bởi vì bạn có thể ước tính vị trí của hàng rào. Ví dụ, bản lề của độ cao trạng thái là gần 11.000 và 1.000, tạo ra khoảng 10.000. Nhân với 1,5 và 3 cho khoảng cách 15.000 và 30.000. Do đó, hàng rào phía trên vô hình phải ở gần 11.000 + 15.000 = 26.000 và hàng rào phía dưới, ở mức 1.000 - 15.000, sẽ ở dưới mức 0. Hàng rào xa sẽ ở gần 11.000 + 30.000 = 41.000 và 1.000 - 30.000 = -29.000.)

Người giới thiệu

Tufte, Edward. Hiển thị trực quan của thông tin định lượng. Báo chí Cheshire, 1983.

Tukey, John. Chương 2, EDA . Addison-Wesley, 1977.

— whuber
nguồn