R - giống như nhiều người, nhưng không phải tất cả các chương trình - chủ yếu sử dụng định nghĩa của Tukey * về cách vẽ boxplot.
Các toàn bộ mẫu ban đầu được sử dụng để tính toán bản lề (nơi hộp đầu được rút ra).
Bản lề rất giống với các tứ phân vị (bạn có thể nói chúng là một cách đặc biệt để tính toán các phân vị trên và dưới khác nhau một chút so với các định nghĩa thông thường hơn về các tứ phân vị - mặc dù cũng có một số định nghĩa khác nhau về các phân vị mẫu; thực sự R cung cấp chín phép tính tứ phân biệt, không tính bản lề).
Bản lề trên nằm ở giữa của nửa trên của dữ liệu (nửa trên bao gồm trung vị của mẫu ban đầu nếu đó là điểm dữ liệu) và bản lề dưới nằm ở giữa của nửa dưới (cũng bao gồm trung vị của mẫu ban đầu nếu nó ở điểm dữ liệu):
Vì vậy, ví dụ với 6 quan sát, bản lề là quan sát lớn thứ hai và lớn thứ 5 (3 điểm trong mỗi nửa). Với 9 quan sát, bản lề là lớn thứ 3 và thứ 8 (5 điểm trong mỗi nửa, trung vị đến ở cả hai nửa). Với 11 quan sát, bản lề dưới nằm giữa nửa quan sát lớn thứ 3 và thứ 4 và bản lề trên nằm giữa nửa quan sát lớn thứ 8 và 9 (mỗi điểm 6 điểm). Hình minh họa cho thấy trường hợp với 13 quan sát.
Lưu ý rằng các tứ phân vị (/ bản lề) hoàn toàn không nhạy cảm với các giá trị của các ngoại lệ, chỉ thực tế là chúng nằm ngoài các tứ phân vị. Bạn có thể di chuyển tất cả chúng gần với đầu hộp (để không có ngoại lệ) mà không thay đổi các bộ tứ / bản lề, hoặc xa như bạn muốn (vì vậy tất cả đều ở xa), một lần nữa mà không thay đổi giá trị của các bộ tứ . Vì vậy, thực sự không cần phải làm gì khi có "ngoại lệ".
* Hay đúng hơn, một trong số họ; Tukey đã đưa ra một số định nghĩa, mặc dù cho các mục đích hiện tại, chúng ta chỉ cần lo lắng về cách tính toán của bản lề; Tôi nói chủ yếu là vì phiên bản có "ngoại lệ" sẽ là cái mà Tukey gọi là cốt truyện sơ đồ nhưng họ không làm cái nào có hai loại "ngoại lệ" riêng biệt.