Một boxplot được dự định để tóm tắt một tập hợp dữ liệu tương đối nhỏ theo cách hiển thị rõ ràng
Một giá trị trung tâm.
Sự lây lan của các giá trị "điển hình".
Các giá trị riêng lẻ xuất phát rất nhiều từ giá trị trung tâm, liên quan đến sự lây lan, chúng được chọn ra để được chú ý đặc biệt và được xác định riêng biệt (ví dụ như tên). Chúng được gọi là "giá trị được xác định."
Điều này phải được thực hiện một cách mạnh mẽ : điều đó có nghĩa là boxplot không nên trông khác biệt đáng kể khi một hoặc một phần tương đối nhỏ của các giá trị dữ liệu được thay đổi tùy ý.
Giải pháp được nhà phát minh John Tukey áp dụng là sử dụng số liệu thống kê đơn hàng - dữ liệu được sắp xếp từ thấp nhất đến cao nhất - một cách có hệ thống. Để đơn giản (anh ta đã tính toán tinh thần hoặc bằng bút chì và giấy) Tukey tập trung vào trung vị : các giá trị trung bình của các lô số. (Đối với các lô có số chẵn, Tukey đã sử dụng trung điểm của hai giá trị trung bình.) Một trung vị có khả năng chống lại các thay đổi trong một nửa dữ liệu dựa trên đó, làm cho nó trở thành một thống kê mạnh mẽ. Như vậy:
Các giá trị trung ương ước tính với mức trung bình của tất cả các dữ liệu.
Các chênh lệch ước tính với phần chênh lệch giữa số trung vị của "nửa trên" - tất cả các dữ liệu bằng hoặc trên mức trung bình - và "nửa dưới" - tất cả các dữ liệu bằng hoặc thấp hơn mức trung bình. Hai trung vị này được gọi là "bản lề" trên hoặc dưới "bản lề". Ngày nay chúng có xu hướng được thay thế bởi những thứ gọi là tứ phân vị (không có định nghĩa phổ quát, than ôi).
Hàng rào vô hình để sàng lọc các ngoại lệ được dựng lên gấp 1,5 và 3 lần so với bản lề (cách xa giá trị trung tâm).
- "Giá trị ở mỗi đầu gần nhất, nhưng vẫn bên trong, hàng rào bên trong là 'liền kề'."
- Các giá trị vượt qua hàng rào đầu tiên được gọi là "ngoại lệ".
- Các giá trị vượt qua hàng rào thứ hai là "xa vời".
(Những người đủ tuổi để nhớ cuộc tranh luận hippie của thập niên 60 sẽ hiểu được trò đùa.)
Vì mức chênh lệch là sự khác biệt của các giá trị dữ liệu, các hàng rào này có cùng đơn vị đo lường với dữ liệu gốc: đây là ý nghĩa của "khoảng cách" trong câu hỏi.
Liên quan đến các giá trị dữ liệu để xác định, Tukey đã viết
Ít nhất chúng ta có thể xác định các giá trị cực đoan và có thể làm tốt để xác định một vài giá trị nữa.
Bất kỳ phương pháp đồ họa nào để hiển thị trung vị, bản lề và các giá trị được xác định có thể xứng đáng được gọi là "boxplot" (ban đầu, "âm mưu hộp và ria"). Các hàng rào thường không được mô tả. Thiết kế của Tukey bao gồm một hình chữ nhật mô tả các bản lề có "thắt lưng" ở giữa. "Râu" giống như đường kẻ không phô trương kéo dài ra từ bản lề đến các giá trị được xác định trong cùng (cả trên và dưới hộp). Thông thường các giá trị được xác định trong cùng này là các giá trị liền kề được xác định ở trên.
Do đó, sự xuất hiện mặc định của boxplot là mở rộng râu tới các giá trị dữ liệu không xa nhất và xác định (thông qua nhãn văn bản) dữ liệu bao gồm các đầu của râu và tất cả các ngoại lệ. Ví dụ, núi lửa Tupungatito là giá trị liền kề cao cho dữ liệu độ cao của núi lửa được mô tả ở bên phải của hình: râu ria dừng ở đó. Tupungatito và tất cả các núi lửa cao hơn được xác định riêng biệt.
Vì vậy, điều này sẽ hiển thị dữ liệu một cách trung thực, khoảng cách trong đồ họa tỷ lệ thuận với sự khác biệt về giá trị dữ liệu. (Bất kỳ sự khởi hành nào từ tỷ lệ thuận trực tiếp sẽ giới thiệu một "Yếu tố dối trá" theo thuật ngữ của Tufte (1983).)
Hai hộp này từ cuốn sách EDA của Tukey (trang 41) minh họa các thành phần. Đáng chú ý là anh ta đã xác định được các giá trị không xa ở đầu cao và thấp của bộ dữ liệu Hoa ở bên trái và một giá trị không xa của đỉnh Núi lửa ở bên phải. Điều này minh họa cho sự tương tác của các quy tắc và phán đoán tràn ngập cuốn sách.
(Bạn có thể cho biết những dữ liệu được xác định này là không ngoại lệ, bởi vì bạn có thể ước tính vị trí của hàng rào. Ví dụ, bản lề của độ cao trạng thái là gần 11.000 và 1.000, tạo ra khoảng 10.000. Nhân với 1,5 và 3 cho khoảng cách 15.000 và 30.000. Do đó, hàng rào phía trên vô hình phải ở gần 11.000 + 15.000 = 26.000 và hàng rào phía dưới, ở mức 1.000 - 15.000, sẽ ở dưới mức 0. Hàng rào xa sẽ ở gần 11.000 + 30.000 = 41.000 và 1.000 - 30.000 = -29.000.)
Người giới thiệu
Tufte, Edward. Hiển thị trực quan của thông tin định lượng. Báo chí Cheshire, 1983.
Tukey, John. Chương 2, EDA . Addison-Wesley, 1977.