Chúng ta thường biết rằng một biến không thể được phân phối chính xác bình thường ...
Phân phối bình thường có đuôi dài vô tận kéo dài theo cả hai hướng - không có khả năng dữ liệu nằm xa trong các thái cực này, nhưng đối với phân phối bình thường thực sự thì nó phải có thể thực hiện được. Đối với các lứa tuổi, một mô hình phân phối bình thường sẽ dự đoán có xác suất dữ liệu khác không nằm ở 5 độ lệch chuẩn trên hoặc dưới trung bình - tương ứng với các độ tuổi không thể về mặt vật lý, như dưới 0 hoặc trên 150. (Mặc dù nếu bạn nhìn vào một kim tự tháp dân số , không rõ lý do tại sao bạn mong đợi tuổi thậm chí được phân phối bình thường ở nơi đầu tiên.) Tương tự nếu bạn có dữ liệu độ cao, theo trực giác có thể theo phân phối "giống như bình thường", nó chỉ có thể thực sự bình thường nếu có một số cơ hội chiều cao dưới 0 cm hoặc trên 300 cm.
Thỉnh thoảng tôi thấy nó gợi ý rằng chúng ta có thể tránh vấn đề này bằng cách căn giữa dữ liệu có nghĩa là không. Bằng cách đó, cả "tuổi trung tâm" tích cực và tiêu cực đều có thể. Nhưng mặc dù điều này làm cho cả hai giá trị âm trở nên hợp lý và có thể hiểu được (giá trị trung tâm âm tương ứng với giá trị thực nằm dưới giá trị trung bình), nhưng điều đó không giải quyết được vấn đề là mô hình bình thường sẽ đưa ra dự đoán không thể về mặt vật lý với xác suất khác không, một khi bạn giải mã "tuổi trung tâm" được mô hình hóa trở lại "tuổi thực tế".
... vậy tại sao phải kiểm tra? Ngay cả khi không chính xác, tính bình thường vẫn có thể là một mô hình hữu ích
Câu hỏi quan trọng không thực sự là liệu dữ liệu có chính xác bình thường hay không - chúng tôi biết một tiên nghiệm không thể xảy ra, trong hầu hết các tình huống, ngay cả khi không chạy thử nghiệm giả thuyết - nhưng liệu phép tính gần đúng có đủ cho nhu cầu của bạn hay không. Xem câu hỏi là kiểm tra tính cơ bản là vô dụng? Phân phối bình thường là một xấp xỉ thuận tiện cho nhiều mục đích. Nó hiếm khi "chính xác" - nhưng nói chung nó không phải chính xác để trở nên hữu ích. Tôi mong muốn phân phối bình thường thường là một mô hình hợp lý cho chiều cao của mọi người, nhưng nó sẽ đòi hỏi một bối cảnh khác thường hơn cho phân phối bình thường để có ý nghĩa như một mô hình ở mọi lứa tuổi.
Nếu bạn thực sự cảm thấy cần phải thực hiện một bài kiểm tra tính quy tắc, thì Kolmogorov-Smirnov có lẽ không phải là lựa chọn tốt nhất: như đã lưu ý trong các bình luận, các bài kiểm tra mạnh mẽ hơn có sẵn. Shapiro-Wilk có sức mạnh tốt để chống lại một loạt các lựa chọn thay thế có thể, và có lợi thế là bạn không cần phải biết ý nghĩa thực sự và phương sai trước đó . Nhưng hãy cẩn thận rằng trong các mẫu nhỏ, có khả năng sai lệch khá lớn so với tính chuẩn vẫn có thể không bị phát hiện, trong khi ở các mẫu lớn, thậm chí rất nhỏ (và vì mục đích thực tế, độ lệch không liên quan) có thể xuất hiện là "rất có ý nghĩa" ( p thấp -giá trị).
"Hình chuông" không nhất thiết phải bình thường
Có vẻ như bạn đã được bảo nghĩ về dữ liệu "hình chuông" - dữ liệu đối xứng đạt đỉnh ở giữa và có xác suất thấp hơn ở đuôi - là "bình thường". Nhưng phân phối bình thường đòi hỏi một hình dạng cụ thể đến đỉnh và đuôi của nó. Có những bản phân phối khác có hình dạng tương tự trong cái nhìn đầu tiên, mà bạn cũng có thể có đặc điểm là "hình chuông", nhưng không bình thường. Trừ khi bạn có nhiều dữ liệu, bạn sẽ không thể phân biệt được rằng "nó trông giống như bản phân phối ngoài luồng này nhưng không giống như các bản khác". Và nếu bạn có rất nhiều dữ liệu, bạn có thể sẽ thấy nó không giống khá giống như bất kỳ "off-the-shelf" phân phối ở tất cả! Nhưng trong trường hợp đó cho nhiều mục đích, bạn '
Các phân phối chuẩn là "chuông hình dạng" bạn đang sử dụng để; các Cauchy có đỉnh sắc nét hơn và "nặng" (tức là chứa xác hơn) đuôi; các t phân phối với 5 bậc tự do đến nơi nào đó ở giữa (bình thường là t với vô hạn df và Cauchy là t với 1 df, do đó làm cho tinh thần); các phân phối mũ Laplace hoặc đôi đã pdf hình thành từ hai phân phối mũ rescaled back-to-back, dẫn đến một đỉnh cao sắc nét hơn so với phân phối chuẩn; các phân phối Betalà khá khác biệt - ví dụ, nó không có đuôi đi đến vô tận, thay vào đó có những đường cắt sắc nét - nhưng nó vẫn có thể có hình dạng "bướu" ở giữa. Trên thực tế bằng cách chơi xung quanh với các tham số, bạn cũng có thể có được một loại "bướu lệch" hoặc thậm chí là hình chữ "U" - bộ sưu tập trên trang Wikipedia được liên kết khá hướng dẫn về tính linh hoạt của phân phối đó. Cuối cùng, phân phối tam giác là một phân phối đơn giản khác trên một hỗ trợ hữu hạn, thường được sử dụng trong mô hình rủi ro.
Có vẻ như không có bản phân phối nào mô tả chính xác dữ liệu của bạn và rất nhiều bản phân phối khác có hình dạng tương tự tồn tại, nhưng tôi muốn giải quyết quan niệm sai lầm rằng "gù ở giữa và gần như đối xứng có nghĩa là bình thường". Vì có giới hạn vật lý đối với dữ liệu độ tuổi, nếu dữ liệu tuổi của bạn bị "bướu" ở giữa thì vẫn có thể phân phối với sự hỗ trợ hữu hạn như Beta hoặc phân phối tam giác có thể chứng minh mô hình tốt hơn so với mô hình có đuôi vô hạn như bình thường. Lưu ý rằng ngay cả khi dữ liệu của bạn thực sự được phân phối bình thường, biểu đồ của bạn vẫn không thể giống với "chuông" cổ điển trừ khi kích thước mẫu của bạn khá lớn. Ngay cả một mẫu từ một bản phân phối như Laplace, có pdf rõ ràng có thể phân biệt được với bản thường do cusp của nó,
Mã R
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)