Một thước đo độ lệch được dựa trên giá trị trung bình trung bình - hệ số xiên thứ hai của Pearson .
Một thước đo khác của độ lệch được dựa trên sự khác biệt về tứ phân vị tương đối (Q3-Q2) so với (Q2-Q1) được biểu thị theo tỷ lệ
u = 0,25
Các biện pháp phổ biến nhất là tất nhiên độ lệch giây thứ ba .
Không có lý do gì mà ba biện pháp này nhất thiết phải nhất quán. Bất kỳ một trong số họ có thể khác với hai người kia.
Những gì chúng tôi coi là "độ lệch" là một khái niệm hơi trơn và không rõ ràng. Xem ở đây để thảo luận thêm.
Nếu chúng tôi xem dữ liệu của bạn bằng một qqplot bình thường:
[Dòng được đánh dấu ở đó chỉ dựa trên 6 điểm đầu tiên, vì tôi muốn thảo luận về độ lệch của hai điểm cuối so với mẫu ở đó.]
Chúng tôi thấy rằng 6 điểm nhỏ nhất nằm gần như hoàn hảo trên dòng.
Sau đó, điểm thứ 7 nằm dưới đường kẻ (gần giữa tương đối so với điểm thứ hai tương ứng từ đầu bên trái), trong khi điểm thứ tám nằm ở phía trên.
Điểm thứ 7 cho thấy độ nghiêng trái nhẹ, cuối cùng, nghiêng phải mạnh hơn. Nếu bạn bỏ qua một trong hai điểm, ấn tượng của độ lệch hoàn toàn được xác định bởi điểm khác.
Nếu tôi phải nói nó là cái này hay cái khác, tôi sẽ gọi đó là "lệch phải" nhưng tôi cũng chỉ ra rằng ấn tượng đó hoàn toàn là do ảnh hưởng của một điểm rất lớn đó. Không có nó thì thực sự không có gì để nói nó đúng. (Mặt khác, không có điểm thứ 7 thay vào đó, rõ ràng nó không bị lệch.)
Chúng tôi phải rất cẩn thận khi ấn tượng của chúng tôi hoàn toàn được xác định bởi các điểm duy nhất và có thể được lật lại bằng cách xóa một điểm. Đó không phải là nhiều cơ sở để tiếp tục!
Tôi bắt đầu với tiền đề rằng những gì tạo ra một 'ngoại lệ' ngoại lệ là mô hình (những gì ngoại lệ đối với một mô hình có thể khá điển hình trong một mô hình khác).
Tôi nghĩ rằng một quan sát ở tỷ lệ phần trăm trên 0,01 (1/10000) của một mức bình thường (3,72 sds trên giá trị trung bình) cũng tương đương với mô hình bình thường như một quan sát ở tỷ lệ phần trăm trên của phân bố mũ là đối với mô hình hàm mũ. (Nếu chúng ta biến đổi một phân phối bằng biến đổi tích phân xác suất của chính nó, mỗi biến đổi sẽ đi đến cùng một đồng phục)
Để thấy vấn đề với việc áp dụng quy tắc boxplot cho phân phối lệch phải vừa phải, hãy mô phỏng các mẫu lớn từ phân phối theo cấp số nhân.
Ví dụ: nếu chúng tôi mô phỏng các mẫu có kích thước 100 so với bình thường, chúng tôi trung bình ít hơn 1 ngoại lệ cho mỗi mẫu. Nếu chúng ta làm điều đó với số mũ, chúng ta trung bình khoảng 5. Nhưng không có cơ sở thực tế nào để nói rằng tỷ lệ giá trị theo cấp số nhân cao hơn là "ngoại trừ" trừ khi chúng ta làm điều đó bằng cách so sánh với (nói) một mô hình bình thường. Trong các tình huống cụ thể, chúng tôi có thể có lý do cụ thể để có quy tắc ngoại lệ của một số hình thức cụ thể, nhưng không có quy tắc chung, điều này khiến chúng tôi có các nguyên tắc chung như quy tắc tôi bắt đầu với tiểu mục này - để xử lý từng mô hình / phân phối trên đèn riêng (nếu một giá trị không phải là bất thường đối với một mô hình, tại sao lại gọi nó là ngoại lệ trong tình huống đó?)
Để chuyển sang câu hỏi trong tiêu đề :
Mặc dù nó là một công cụ khá thô sơ (đó là lý do tại sao tôi nhìn vào cốt truyện QQ), có một số dấu hiệu của sự sai lệch trong một ô vuông - nếu có ít nhất một điểm được đánh dấu là ngoại lệ, thì có khả năng (ít nhất là) ba:
Trong mẫu này (n = 100), các điểm bên ngoài (màu xanh lá cây) đánh dấu các điểm cực trị, và với trung vị gợi ý độ lệch trái. Sau đó, hàng rào (màu xanh) gợi ý (khi kết hợp với dải phân cách) gợi ý độ lệch phải. Sau đó, bản lề (tứ, màu nâu), gợi ý độ lệch trái khi kết hợp với trung vị.
Như chúng ta thấy, họ không cần phải nhất quán. Mà bạn sẽ tập trung vào tùy thuộc vào tình huống bạn đang ở (và có thể là sở thích của bạn).
Tuy nhiên, một cảnh báo về mức độ thô của boxplot. Ví dụ về cuối ở đây - bao gồm một mô tả về cách tạo dữ liệu - đưa ra bốn phân phối khá khác nhau với cùng một boxplot:
Như bạn có thể thấy có một phân phối khá sai lệch với tất cả các chỉ số về độ lệch được đề cập ở trên cho thấy sự đối xứng hoàn hảo.
-
Chúng ta hãy xem điều này từ quan điểm "giáo viên của bạn mong đợi câu trả lời nào, cho rằng đây là một boxplot, đánh dấu một điểm là một ngoại lệ?".
Chúng tôi còn lại với câu trả lời đầu tiên "họ có mong đợi bạn đánh giá độ lệch không bao gồm điểm đó hoặc với nó trong mẫu không?". Một số sẽ loại trừ nó, và đánh giá độ lệch khỏi những gì còn lại, như jsk đã làm trong một câu trả lời khác. Mặc dù tôi có những khía cạnh gây tranh cãi trong cách tiếp cận đó, tôi không thể nói nó sai - điều đó phụ thuộc vào tình huống. Một số sẽ bao gồm nó (không phải ít nhất vì loại trừ 12,5% mẫu của bạn vì một quy tắc xuất phát từ tính quy tắc có vẻ là một bước tiến lớn *).
* Hãy tưởng tượng một phân bố dân số đối xứng ngoại trừ đuôi ngoài cùng bên phải (Tôi đã xây dựng một phân phối như vậy để trả lời điều này - bình thường nhưng với đuôi cực phải là Pareto - nhưng không thể hiện nó trong câu trả lời của tôi). Nếu tôi vẽ các mẫu có kích thước 8, thường thì 7 trong số các quan sát đến từ phần trông bình thường và một mẫu đến từ phần đuôi trên. Nếu chúng tôi loại trừ các điểm được đánh dấu là các ngoại lệ boxplot trong trường hợp đó, thì chúng tôi sẽ loại trừ các điểm cho chúng tôi biết rằng nó thực sự bị lệch! Khi chúng tôi thực hiện, phân phối bị cắt cụt trong tình huống đó bị lệch trái và kết luận của chúng tôi sẽ ngược lại với phân phối chính xác.