Làm cách nào để xác định xem dữ liệu phân loại có được phân phối bình thường không?

Có đúng là kiểm tra tính quy phạm chỉ được sử dụng cho dữ liệu liên tục (tỷ lệ, mức độ đo lường) và không cho dữ liệu phân loại (danh nghĩa, thứ tự)?
Có cách nào để kiểm tra tính thông thường của dữ liệu phân loại không?

assumptions normality-assumption

— NoraNorad
nguồn

Dữ liệu phân loại không phải từ một phân phối bình thường.

Phân phối bình thường chỉ có ý nghĩa nếu bạn xử lý ít nhất khoảng thời gian dữ liệu và phân phối bình thường là liên tục và trên toàn bộ dòng thực. Nếu bất kỳ điều nào trong số đó không đúng, bạn không cần kiểm tra phân phối dữ liệu để kết luận rằng nó không phù hợp với tính quy tắc.

[Lưu ý rằng nếu không phải là khoảng thời gian, bạn có vấn đề lớn hơn so với những vấn đề liên quan giả định hình dạng phân phối, vì ngay cả việc tính toán trung bình cũng ngụ ý rằng bạn có thang đo khoảng. Để nói rằng "Cao" + "Rất thấp" = "Trung bình" + "Thấp" và "Rất cao" + "Trung bình" = "Cao" + "Cao" (nghĩa là chính xác là thứ bạn cần giữ để bắt đầu thêm giá trị ở vị trí đầu tiên), bạn buộc phải giả định thang đo khoảng thời gian tại điểm đó.]

Sẽ rất hiếm khi có các mẫu trông bình thường gần đúng với dữ liệu tỷ lệ thực tế, vì dữ liệu tỷ lệ thường không âm và thường hơi lệch.

Khi các biện pháp của bạn là phân loại, sẽ không đến nỗi bạn không thể "kiểm tra" vì nó thường không có ý nghĩa để thực hiện - bạn đã biết đó không phải là một mẫu từ phân phối bình thường. Thật vậy, ý tưởng thậm chí cố gắng không có ý nghĩa gì trong trường hợp dữ liệu danh nghĩa, vì các danh mục thậm chí không có thứ tự! [Sự phân phối duy nhất bất biến đối với việc sắp xếp lại trật tự tùy ý sẽ là một bộ đồng phục riêng biệt.]

Nếu dữ liệu của bạn được sắp xếp phân loại, các khoảng thời gian là tùy ý và một lần nữa, chúng ta sẽ có một khái niệm mà chúng ta không thể thực sự làm được nhiều; ngay cả những khái niệm đơn giản hơn như đối xứng cũng không thực sự theo kịp các thay đổi tùy ý trong các khoảng thời gian.

Để bắt đầu suy ngẫm ngay cả tính quy phạm gần đúng có nghĩa là ít nhất chúng ta phải giả sử các danh mục của chúng tôi là khoảng / đã cố định, "điểm số" đã biết.

Nhưng trong mọi trường hợp, câu hỏi "nó có bình thường không?" Dù sao thực sự không phải là một câu hỏi hữu ích - kể từ khi nào dữ liệu thực sự được lấy mẫu từ một phân phối bình thường ?

[Có thể có những tình huống có thể có ý nghĩa khi xem xét liệu các danh mục được sắp xếp có biến số tiềm ẩn (tiềm ẩn) với phân phối bình thường hay không, nhưng đó là một loại xem xét hoàn toàn khác.]

Một câu hỏi hữu ích hơn được đề xuất bởi George Box:

Hãy nhớ rằng tất cả các mô hình đều sai; Câu hỏi thực tế là làm thế nào sai để họ không hữu ích.

(Tôi tin rằng đó là trong Box and Draper, cùng với câu cách ngôn nổi tiếng hơn của anh ấy.)

Nếu bạn có dữ liệu rời rạc ít nhất là khoảng cách và có số lượng danh mục khá lớn, có thể nên kiểm tra xem nó có bị sai lệch nhiều hay không, nhưng bạn thực sự sẽ không tin rằng nó được rút ra từ một dân số bình thường - không thể được.

Đối với một số quy trình suy luận, tính quy phạm thực tế có thể không đặc biệt quan trọng, đặc biệt là ở các cỡ mẫu lớn hơn.

— Glen_b -Reinstate Monica
nguồn

Nhưng làm thế nào tôi có thể kiểm tra tính quy phạm cho dữ liệu phân loại danh nghĩa được yêu cầu cho kiểm tra z cho tỷ lệ? Ở đây nó nói rằng nó phải là phân phối chuẩn thông thường: newonlinecferences.science.psu.edu/stat414/node/268

— vasili111

Đừng nhầm lẫn các danh mục với số lượng giá trị trong các danh mục đó. Một tập hợp các câu trả lời phân loại như "đỏ, xanh, hồng, xanh ..." không thể bình thường. Tuy nhiên, tính trong danh mục là một câu chuyện khác nhau. Tập hợp số lượng cụ thể trong các danh mục có thể (được đưa ra một số giả định đơn giản) được mô hình hóa dưới dạng phân phối đa thức mà nếu số lượng dự kiến không quá thấp có thể được xấp xỉ là một biến số đa biến (suy biến). Với phép thử z cho tỷ lệ - 2 kết quả - số lượng trong cả hai kết quả (với các giả định) sẽ là nhị thức (& vì vậy xấp xỉ bình thường với n lớn).

— Glen_b -Reinstate Monica