Câu trả lời:
Dữ liệu phân loại không phải từ một phân phối bình thường.
Phân phối bình thường chỉ có ý nghĩa nếu bạn xử lý ít nhất khoảng thời gian dữ liệu và phân phối bình thường là liên tục và trên toàn bộ dòng thực. Nếu bất kỳ điều nào trong số đó không đúng, bạn không cần kiểm tra phân phối dữ liệu để kết luận rằng nó không phù hợp với tính quy tắc.
[Lưu ý rằng nếu không phải là khoảng thời gian, bạn có vấn đề lớn hơn so với những vấn đề liên quan giả định hình dạng phân phối, vì ngay cả việc tính toán trung bình cũng ngụ ý rằng bạn có thang đo khoảng. Để nói rằng "Cao" + "Rất thấp" = "Trung bình" + "Thấp" và "Rất cao" + "Trung bình" = "Cao" + "Cao" (nghĩa là chính xác là thứ bạn cần giữ để bắt đầu thêm giá trị ở vị trí đầu tiên), bạn buộc phải giả định thang đo khoảng thời gian tại điểm đó.]
Sẽ rất hiếm khi có các mẫu trông bình thường gần đúng với dữ liệu tỷ lệ thực tế, vì dữ liệu tỷ lệ thường không âm và thường hơi lệch.
Khi các biện pháp của bạn là phân loại, sẽ không đến nỗi bạn không thể "kiểm tra" vì nó thường không có ý nghĩa để thực hiện - bạn đã biết đó không phải là một mẫu từ phân phối bình thường. Thật vậy, ý tưởng thậm chí cố gắng không có ý nghĩa gì trong trường hợp dữ liệu danh nghĩa, vì các danh mục thậm chí không có thứ tự! [Sự phân phối duy nhất bất biến đối với việc sắp xếp lại trật tự tùy ý sẽ là một bộ đồng phục riêng biệt.]
Nếu dữ liệu của bạn được sắp xếp phân loại, các khoảng thời gian là tùy ý và một lần nữa, chúng ta sẽ có một khái niệm mà chúng ta không thể thực sự làm được nhiều; ngay cả những khái niệm đơn giản hơn như đối xứng cũng không thực sự theo kịp các thay đổi tùy ý trong các khoảng thời gian.
Để bắt đầu suy ngẫm ngay cả tính quy phạm gần đúng có nghĩa là ít nhất chúng ta phải giả sử các danh mục của chúng tôi là khoảng / đã cố định, "điểm số" đã biết.
Nhưng trong mọi trường hợp, câu hỏi "nó có bình thường không?" Dù sao thực sự không phải là một câu hỏi hữu ích - kể từ khi nào dữ liệu thực sự được lấy mẫu từ một phân phối bình thường ?
[Có thể có những tình huống có thể có ý nghĩa khi xem xét liệu các danh mục được sắp xếp có biến số tiềm ẩn (tiềm ẩn) với phân phối bình thường hay không, nhưng đó là một loại xem xét hoàn toàn khác.]
Một câu hỏi hữu ích hơn được đề xuất bởi George Box:
Hãy nhớ rằng tất cả các mô hình đều sai; Câu hỏi thực tế là làm thế nào sai để họ không hữu ích.
(Tôi tin rằng đó là trong Box and Draper, cùng với câu cách ngôn nổi tiếng hơn của anh ấy.)
Nếu bạn có dữ liệu rời rạc ít nhất là khoảng cách và có số lượng danh mục khá lớn, có thể nên kiểm tra xem nó có bị sai lệch nhiều hay không, nhưng bạn thực sự sẽ không tin rằng nó được rút ra từ một dân số bình thường - không thể được.
Đối với một số quy trình suy luận, tính quy phạm thực tế có thể không đặc biệt quan trọng, đặc biệt là ở các cỡ mẫu lớn hơn.