Làm thế nào để đánh giá độ lệch từ boxplot?


19

Cách quyết định độ lệch bằng cách nhìn vào một ô vuông được xây dựng từ dữ liệu này:

340, 300, 520, 340, 320, 290, 260, 330

Một cuốn sách nói: "Nếu phần tư dưới thấp hơn trung vị so với phần tư trên, thì phân phối bị lệch." Một số nguồn khác nói ít nhiều giống nhau.

Tôi đã xây dựng một boxplot bằng R. Nó giống như sau:

cốt truyện hộp

Tôi cho rằng nó bị lệch một cách tiêu cực , bởi vì phần tư dưới thấp hơn trung bình so với phần tư trên. Nhưng vấn đề là khi tôi sử dụng một phương pháp khác để xác định độ lệch:

trung bình (337,5)> trung vị (325)

Điều này cho thấy dữ liệu bị sai lệch tích cực . Tôi đã bỏ lỡ một cái gì đó?

Câu trả lời:


19

Một thước đo độ lệch được dựa trên giá trị trung bình trung bình - hệ số xiên thứ hai của Pearson .

Một thước đo khác của độ lệch được dựa trên sự khác biệt về tứ phân vị tương đối (Q3-Q2) so với (Q2-Q1) được biểu thị theo tỷ lệ

bạn= =0,25

Các biện pháp phổ biến nhất là tất nhiên độ lệch giây thứ ba .

Không có lý do gì mà ba biện pháp này nhất thiết phải nhất quán. Bất kỳ một trong số họ có thể khác với hai người kia.

Những gì chúng tôi coi là "độ lệch" là một khái niệm hơi trơn và không rõ ràng. Xem ở đây để thảo luận thêm.

Nếu chúng tôi xem dữ liệu của bạn bằng một qqplot bình thường:

nhập mô tả hình ảnh ở đây

[Dòng được đánh dấu ở đó chỉ dựa trên 6 điểm đầu tiên, vì tôi muốn thảo luận về độ lệch của hai điểm cuối so với mẫu ở đó.]

Chúng tôi thấy rằng 6 điểm nhỏ nhất nằm gần như hoàn hảo trên dòng.

Sau đó, điểm thứ 7 nằm dưới đường kẻ (gần giữa tương đối so với điểm thứ hai tương ứng từ đầu bên trái), trong khi điểm thứ tám nằm ở phía trên.

Điểm thứ 7 cho thấy độ nghiêng trái nhẹ, cuối cùng, nghiêng phải mạnh hơn. Nếu bạn bỏ qua một trong hai điểm, ấn tượng của độ lệch hoàn toàn được xác định bởi điểm khác.

Nếu tôi phải nói nó là cái này hay cái khác, tôi sẽ gọi đó là "lệch phải" nhưng tôi cũng chỉ ra rằng ấn tượng đó hoàn toàn là do ảnh hưởng của một điểm rất lớn đó. Không có nó thì thực sự không có gì để nói nó đúng. (Mặt khác, không có điểm thứ 7 thay vào đó, rõ ràng nó không bị lệch.)

Chúng tôi phải rất cẩn thận khi ấn tượng của chúng tôi hoàn toàn được xác định bởi các điểm duy nhất và có thể được lật lại bằng cách xóa một điểm. Đó không phải là nhiều cơ sở để tiếp tục!


Tôi bắt đầu với tiền đề rằng những gì tạo ra một 'ngoại lệ' ngoại lệ là mô hình (những gì ngoại lệ đối với một mô hình có thể khá điển hình trong một mô hình khác).

Tôi nghĩ rằng một quan sát ở tỷ lệ phần trăm trên 0,01 (1/10000) của một mức bình thường (3,72 sds trên giá trị trung bình) cũng tương đương với mô hình bình thường như một quan sát ở tỷ lệ phần trăm trên của phân bố mũ là đối với mô hình hàm mũ. (Nếu chúng ta biến đổi một phân phối bằng biến đổi tích phân xác suất của chính nó, mỗi biến đổi sẽ đi đến cùng một đồng phục)

Để thấy vấn đề với việc áp dụng quy tắc boxplot cho phân phối lệch phải vừa phải, hãy mô phỏng các mẫu lớn từ phân phối theo cấp số nhân.

Ví dụ: nếu chúng tôi mô phỏng các mẫu có kích thước 100 so với bình thường, chúng tôi trung bình ít hơn 1 ngoại lệ cho mỗi mẫu. Nếu chúng ta làm điều đó với số mũ, chúng ta trung bình khoảng 5. Nhưng không có cơ sở thực tế nào để nói rằng tỷ lệ giá trị theo cấp số nhân cao hơn là "ngoại trừ" trừ khi chúng ta làm điều đó bằng cách so sánh với (nói) một mô hình bình thường. Trong các tình huống cụ thể, chúng tôi có thể có lý do cụ thể để có quy tắc ngoại lệ của một số hình thức cụ thể, nhưng không có quy tắc chung, điều này khiến chúng tôi có các nguyên tắc chung như quy tắc tôi bắt đầu với tiểu mục này - để xử lý từng mô hình / phân phối trên đèn riêng (nếu một giá trị không phải là bất thường đối với một mô hình, tại sao lại gọi nó là ngoại lệ trong tình huống đó?)


Để chuyển sang câu hỏi trong tiêu đề :

Mặc dù nó là một công cụ khá thô sơ (đó là lý do tại sao tôi nhìn vào cốt truyện QQ), có một số dấu hiệu của sự sai lệch trong một ô vuông - nếu có ít nhất một điểm được đánh dấu là ngoại lệ, thì có khả năng (ít nhất là) ba:

nhập mô tả hình ảnh ở đây

Trong mẫu này (n = 100), các điểm bên ngoài (màu xanh lá cây) đánh dấu các điểm cực trị, và với trung vị gợi ý độ lệch trái. Sau đó, hàng rào (màu xanh) gợi ý (khi kết hợp với dải phân cách) gợi ý độ lệch phải. Sau đó, bản lề (tứ, màu nâu), gợi ý độ lệch trái khi kết hợp với trung vị.

Như chúng ta thấy, họ không cần phải nhất quán. Mà bạn sẽ tập trung vào tùy thuộc vào tình huống bạn đang ở (và có thể là sở thích của bạn).

Tuy nhiên, một cảnh báo về mức độ thô của boxplot. Ví dụ về cuối ở đây - bao gồm một mô tả về cách tạo dữ liệu - đưa ra bốn phân phối khá khác nhau với cùng một boxplot:

nhập mô tả hình ảnh ở đây

Như bạn có thể thấy có một phân phối khá sai lệch với tất cả các chỉ số về độ lệch được đề cập ở trên cho thấy sự đối xứng hoàn hảo.

-

Chúng ta hãy xem điều này từ quan điểm "giáo viên của bạn mong đợi câu trả lời nào, cho rằng đây là một boxplot, đánh dấu một điểm là một ngoại lệ?".

Chúng tôi còn lại với câu trả lời đầu tiên "họ có mong đợi bạn đánh giá độ lệch không bao gồm điểm đó hoặc với nó trong mẫu không?". Một số sẽ loại trừ nó, và đánh giá độ lệch khỏi những gì còn lại, như jsk đã làm trong một câu trả lời khác. Mặc dù tôi có những khía cạnh gây tranh cãi trong cách tiếp cận đó, tôi không thể nói nó sai - điều đó phụ thuộc vào tình huống. Một số sẽ bao gồm nó (không phải ít nhất vì loại trừ 12,5% mẫu của bạn vì một quy tắc xuất phát từ tính quy tắc có vẻ là một bước tiến lớn *).

* Hãy tưởng tượng một phân bố dân số đối xứng ngoại trừ đuôi ngoài cùng bên phải (Tôi đã xây dựng một phân phối như vậy để trả lời điều này - bình thường nhưng với đuôi cực phải là Pareto - nhưng không thể hiện nó trong câu trả lời của tôi). Nếu tôi vẽ các mẫu có kích thước 8, thường thì 7 trong số các quan sát đến từ phần trông bình thường và một mẫu đến từ phần đuôi trên. Nếu chúng tôi loại trừ các điểm được đánh dấu là các ngoại lệ boxplot trong trường hợp đó, thì chúng tôi sẽ loại trừ các điểm cho chúng tôi biết rằng nó thực sự bị lệch! Khi chúng tôi thực hiện, phân phối bị cắt cụt trong tình huống đó bị lệch trái và kết luận của chúng tôi sẽ ngược lại với phân phối chính xác.


1
@jsk Điều đó phụ thuộc vào cách bạn muốn đo độ lệch. Vì mức độ lệch được xác định một phần bằng các điểm ngoại vi (xu hướng hướng ra ngoài nhiều hơn một hướng), nên loại bỏ chúng có thể bỏ sót điểm đo độ lệch. Một cuộc thảo luận và phân tích chi tiết hơn là trong bài viết cập nhật của tôi. Nếu bạn không tin tưởng, xin vui lòng không đồng ý, những trao đổi như vậy thường có giá trị.
Glen_b -Reinstate Monica

1
@Glen_b Mặc dù tôi chắc chắn tôn trọng và hiểu lập trường bạn đang thực hiện, tôi tin rằng có một lý lẽ hợp lý được đưa ra để đánh giá sai lệch sau khi loại bỏ ngoại lệ so với trước đây. Sau khi loại bỏ ngoại lệ, phân phối thậm chí sẽ vẫn bị lệch âm sau khi xóa điểm thứ 7 (260). Bạn đã kiểm tra qqplot và / hoặc so sánh giá trị trung bình và trung bình chưa?
jsk

1
Có lẽ trường hợp khá yếu sau khi loại bỏ phần 7, nhưng tôi thấy không có lý do gì để biện minh cho việc đánh giá sai lệch sau khi loại bỏ nó. Nó không phải là một ngoại lệ, mặc dù quan điểm rõ ràng là các biện pháp sai lệch, bất kể bạn nhìn chúng như thế nào trong trường hợp này, đều bị điều khiển bởi những điểm duy nhất.
jsk

1
@Glen_ b Q3 + 1.5IQR là quy tắc thông thường được dạy ở cấp độ này để xác định các ngoại lệ ở đuôi trên. Có hay không loại bỏ chúng là một vấn đề khác. Bạn có cho rằng phân phối bị lệch vì giá trị trung bình lớn hơn? Tại sao bỏ qua thực tế là Q1 xa hơn quý 2 so với quý 3 là?
jsk

1
Tôi muốn đánh vần những gì ở gần bề mặt ở đây nhưng không hoàn toàn: thường các ô vuông ngưng tụ quá nhiều, vì vậy bạn có thể cần phải xem tất cả các dữ liệu.
Nick Cox

11

Không, bạn đã không bỏ lỡ bất cứ điều gì: bạn thực sự đang nhìn xa hơn các bản tóm tắt đơn giản đã được trình bày. Các dữ liệu này đều bị lệch và tích cực (theo nghĩa "độ lệch" gợi ý một số dạng bất đối xứng trong phân phối dữ liệu).

John Tukey đã mô tả một cách có hệ thống để khám phá sự bất cân xứng trong các lô dữ liệu bằng "tóm tắt số N" của mình. Boxplot là một hình ảnh tóm tắt gồm 5 số và do đó có thể tuân theo phân tích này.


MH+H-X+X-Ttôi+tôiTtôi+Ttôi-M= =M+= =M-(Ttôi++Ttôi-)/2tôi

Để áp dụng ý tưởng này cho boxplot, chỉ cần vẽ trung điểm của từng cặp phần tương ứng: trung vị (đã có sẵn), trung điểm của bản lề (các đầu của hộp, hiển thị màu xanh lam) và trung điểm của các cực trị (thể hiện bằng màu đỏ).

Boxplot

Trong ví dụ này thấp hơn giá trị của giữa bản lề so với mức trung bình cho thấy giữa hàng loạt là hơi tiêu cực lệch (do đó corroborating đánh giá được trích dẫn trong các câu hỏi, trong khi tại cùng một thời điểm phù hợp hạn chế phạm vi của nó vào giữa lô ) trong khi giá trị cao hơn (cực đại) của cực trung biểu thị các đuôi của lô (hoặc ít nhất là cực trị của nó) bị lệch dương (mặc dù, khi kiểm tra kỹ hơn, điều này là do một ngoại lệ cao duy nhất). Mặc dù đây gần như là một ví dụ tầm thường, nhưng sự phong phú tương đối của cách giải thích này so với một thống kê "sai lệch" duy nhất đã cho thấy sức mạnh mô tả của phương pháp này.

Với một lượng nhỏ thực hành, bạn không cần phải rút ra những thống kê giữa này: bạn có thể tưởng tượng chúng đang ở đâu và đọc thông tin về độ lệch kết quả trực tiếp từ bất kỳ boxplot nào.


MHEDXtôi= =1,2,3,4,5. Biểu đồ bên trái trong hình tiếp theo là biểu đồ chẩn đoán cho điểm giữa của các thống kê được ghép nối này. Từ độ dốc tăng tốc, rõ ràng dữ liệu đang ngày càng bị lệch một cách tích cực khi chúng ta vươn ra đuôi của chúng.

Hình 2

Các ô ở giữa và bên phải hiển thị cùng một thứ cho các căn bậc hai (của dữ liệu, không phải của thống kê số giữa!) Và logarit (cơ số 10). Độ ổn định tương đối của các giá trị của rễ (chú ý phạm vi dọc nhỏ tương đối và mức độ dốc ở giữa) chỉ ra rằng lô 219 giá trị này trở nên xấp xỉ đối xứng cả ở phần giữa và ở tất cả các phần của đuôi, gần như ngoài các cực trị khi các độ cao được thể hiện lại dưới dạng căn bậc hai. Kết quả này là một cơ sở mạnh mẽ - gần như hấp dẫn - để tiếp tục phân tích sâu hơn về các độ cao này theo căn bậc hai của chúng.

Trong số những thứ khác, các lô này tiết lộ một số lượng định lượng về tính không đối xứng của dữ liệu: trên thang đo ban đầu, chúng ngay lập tức tiết lộ độ lệch khác nhau của dữ liệu (đưa ra nghi ngờ đáng kể về tiện ích sử dụng một thống kê duy nhất để mô tả độ lệch của nó), trong khi trên thang đo căn bậc hai, dữ liệu gần với đối xứng ở giữa của chúng - và do đó có thể được tóm tắt ngắn gọn bằng một bản tóm tắt năm số, hoặc tương đương là một ô vuông. Độ lệch một lần nữa thay đổi đáng kể trên thang đo log, cho thấy logarit quá "mạnh" một cách để thể hiện lại các dữ liệu này.

Việc khái quát hóa một boxplot thành các bản tóm tắt bảy, chín, và nhiều số hơn rất đơn giản để rút ra. Tukey gọi chúng là "sơ đồ." Ngày nay, nhiều âm mưu phục vụ một mục đích tương tự, bao gồm các standbys như các ô QQ và các tiểu thuyết tương đối như "các ô đậu" và "các ô vĩ cầm". (Ngay cả biểu đồ thấp có thể được đưa vào phục vụ cho mục đích này.) Sử dụng các điểm từ các lô như vậy, người ta có thể đánh giá sự bất cân xứng theo cách chi tiết và thực hiện đánh giá tương tự về cách thể hiện lại dữ liệu.


7

Giá trị trung bình nhỏ hơn hoặc lớn hơn trung vị là một phím tắt thường hoạt động để xác định hướng xiên miễn là không có ngoại lệ. Trong trường hợp này, phân phối bị lệch âm nhưng giá trị trung bình lớn hơn trung vị do ngoại lệ.


Điều đó giải thích. Những cuốn sách tôi đọc không hề đề cập đến điều này!
JerryW

Hy vọng rằng các cuốn sách ít nhất đã đề cập đến việc trung bình có khả năng chống lại các ngoại lệ ít hơn nhiều so với trung bình!
jsk

Việc đó có được tính là sai lệch âm hay không phụ thuộc vào cách bạn đo độ lệch.
Glen_b -Reinstate Monica

Đủ công bằng. Đó là một bộ dữ liệu nhỏ khiến nó đặc biệt khó khăn để đánh giá độ lệch. Tôi đoán rằng ví dụ này không may bị ném vào đó chỉ vì lý do có các quy tắc ngón tay cái mâu thuẫn để xác định độ lệch
jsk

1
Tôi đồng ý rằng các bộ dữ liệu nhỏ như thế này có thể khiến nó gặp nhiều thách thức, nhưng hoàn toàn có thể xây dựng các bản phân phối liên tục cũng khó khăn không kém.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.