Nếu biểu đồ của tôi hiển thị đường cong hình chuông, tôi có thể nói dữ liệu của mình được phân phối bình thường không?

Tôi đã tạo ra một biểu đồ cho Thời đại Bị đơn và quản lý để có được một đường cong hình chuông rất đẹp, từ đó tôi kết luận rằng sự phân phối là bình thường.

Sau đó, tôi đã chạy thử nghiệm tính quy tắc trong SPSS, với n = 169. Giá trị p (Sig.) Của thử nghiệm Kolmogorov-Smirnov nhỏ hơn 0,05 và do đó dữ liệu đã vi phạm giả định về tính quy tắc.

Tại sao xét nghiệm chỉ ra rằng phân bố tuổi không bình thường, nhưng biểu đồ cho thấy đường cong hình chuông, theo hiểu biết của tôi là bình thường? Tôi nên làm theo kết quả nào?

— NoraNorad
nguồn

Tại sao bạn thử nghiệm tính bình thường?

— Glen_b -Reinstate Monica

Ngoài @ bình luận xuất sắc Glen_b của và câu trả lời đều tuyệt vời Aksakal của , lưu ý rằng ngay cả đối với các bản phân phối liên tục, KS đòi hỏi sd bình và được biết trước , không ước lượng từ dữ liệu. Điều này về cơ bản làm cho các bài kiểm tra KS vô dụng. "Thử nghiệm Kolmogorov-Smirnov chỉ là một sự tò mò lịch sử. Nó không bao giờ nên được sử dụng." (D'Agostino in d'gostino & Stephens, eds., 1986). Nếu có, sử dụng Shapiro-Wilks thay thế.

— Stephan Kolassa 17/12/14

@Stephan Kolassa Lời khuyên tốt, nhưng ý bạn là Shapiro-Wilk. (Các ý kiến của MB Wilk và SS Wilks thường bị nhầm lẫn hoặc lồng việc; việc sử dụng kỳ lạ của 's như sở hữu trong tiếng Anh ở đây cũng có thể đóng góp vào sự nhầm lẫn, ngay cả đối với nhiều người có tiếng Anh như ngôn ngữ mẹ đẻ của họ.)

— Nick Cox

Liên quan đến nhận xét của @StephanKolassa, hãy xem Shapiro-Wilk có phải là bài kiểm tra tính bình thường tốt nhất không? ... Câu trả lời là không nhất thiết, tùy thuộc vào lựa chọn nào bạn quan tâm, nhưng nó thường là một lựa chọn tốt.

— Cá bạc

Câu trả lời:

Chúng ta thường biết rằng một biến không thể được phân phối chính xác bình thường ...

Phân phối bình thường có đuôi dài vô tận kéo dài theo cả hai hướng - không có khả năng dữ liệu nằm xa trong các thái cực này, nhưng đối với phân phối bình thường thực sự thì nó phải có thể thực hiện được. Đối với các lứa tuổi, một mô hình phân phối bình thường sẽ dự đoán có xác suất dữ liệu khác không nằm ở 5 độ lệch chuẩn trên hoặc dưới trung bình - tương ứng với các độ tuổi không thể về mặt vật lý, như dưới 0 hoặc trên 150. (Mặc dù nếu bạn nhìn vào một kim tự tháp dân số , không rõ lý do tại sao bạn mong đợi tuổi thậm chí được phân phối bình thường ở nơi đầu tiên.) Tương tự nếu bạn có dữ liệu độ cao, theo trực giác có thể theo phân phối "giống như bình thường", nó chỉ có thể thực sự bình thường nếu có một số cơ hội chiều cao dưới 0 cm hoặc trên 300 cm.

Thỉnh thoảng tôi thấy nó gợi ý rằng chúng ta có thể tránh vấn đề này bằng cách căn giữa dữ liệu có nghĩa là không. Bằng cách đó, cả "tuổi trung tâm" tích cực và tiêu cực đều có thể. Nhưng mặc dù điều này làm cho cả hai giá trị âm trở nên hợp lý và có thể hiểu được (giá trị trung tâm âm tương ứng với giá trị thực nằm dưới giá trị trung bình), nhưng điều đó không giải quyết được vấn đề là mô hình bình thường sẽ đưa ra dự đoán không thể về mặt vật lý với xác suất khác không, một khi bạn giải mã "tuổi trung tâm" được mô hình hóa trở lại "tuổi thực tế".

... vậy tại sao phải kiểm tra? Ngay cả khi không chính xác, tính bình thường vẫn có thể là một mô hình hữu ích

Câu hỏi quan trọng không thực sự là liệu dữ liệu có chính xác bình thường hay không - chúng tôi biết một tiên nghiệm không thể xảy ra, trong hầu hết các tình huống, ngay cả khi không chạy thử nghiệm giả thuyết - nhưng liệu phép tính gần đúng có đủ cho nhu cầu của bạn hay không. Xem câu hỏi là kiểm tra tính cơ bản là vô dụng? Phân phối bình thường là một xấp xỉ thuận tiện cho nhiều mục đích. Nó hiếm khi "chính xác" - nhưng nói chung nó không phải chính xác để trở nên hữu ích. Tôi mong muốn phân phối bình thường thường là một mô hình hợp lý cho chiều cao của mọi người, nhưng nó sẽ đòi hỏi một bối cảnh khác thường hơn cho phân phối bình thường để có ý nghĩa như một mô hình ở mọi lứa tuổi.

Nếu bạn thực sự cảm thấy cần phải thực hiện một bài kiểm tra tính quy tắc, thì Kolmogorov-Smirnov có lẽ không phải là lựa chọn tốt nhất: như đã lưu ý trong các bình luận, các bài kiểm tra mạnh mẽ hơn có sẵn. Shapiro-Wilk có sức mạnh tốt để chống lại một loạt các lựa chọn thay thế có thể, và có lợi thế là bạn không cần phải biết ý nghĩa thực sự và phương sai trước đó . Nhưng hãy cẩn thận rằng trong các mẫu nhỏ, có khả năng sai lệch khá lớn so với tính chuẩn vẫn có thể không bị phát hiện, trong khi ở các mẫu lớn, thậm chí rất nhỏ (và vì mục đích thực tế, độ lệch không liên quan) có thể xuất hiện là "rất có ý nghĩa" ( p thấp -giá trị).

"Hình chuông" không nhất thiết phải bình thường

Có vẻ như bạn đã được bảo nghĩ về dữ liệu "hình chuông" - dữ liệu đối xứng đạt đỉnh ở giữa và có xác suất thấp hơn ở đuôi - là "bình thường". Nhưng phân phối bình thường đòi hỏi một hình dạng cụ thể đến đỉnh và đuôi của nó. Có những bản phân phối khác có hình dạng tương tự trong cái nhìn đầu tiên, mà bạn cũng có thể có đặc điểm là "hình chuông", nhưng không bình thường. Trừ khi bạn có nhiều dữ liệu, bạn sẽ không thể phân biệt được rằng "nó trông giống như bản phân phối ngoài luồng này nhưng không giống như các bản khác". Và nếu bạn có rất nhiều dữ liệu, bạn có thể sẽ thấy nó không giống khá giống như bất kỳ "off-the-shelf" phân phối ở tất cả! Nhưng trong trường hợp đó cho nhiều mục đích, bạn '

Thư viện phân phối "hình chuông"

Các phân phối chuẩn là "chuông hình dạng" bạn đang sử dụng để; các Cauchy có đỉnh sắc nét hơn và "nặng" (tức là chứa xác hơn) đuôi; các t phân phối với 5 bậc tự do đến nơi nào đó ở giữa (bình thường là t với vô hạn df và Cauchy là t với 1 df, do đó làm cho tinh thần); các phân phối mũ Laplace hoặc đôi đã pdf hình thành từ hai phân phối mũ rescaled back-to-back, dẫn đến một đỉnh cao sắc nét hơn so với phân phối chuẩn; các phân phối Betalà khá khác biệt - ví dụ, nó không có đuôi đi đến vô tận, thay vào đó có những đường cắt sắc nét - nhưng nó vẫn có thể có hình dạng "bướu" ở giữa. Trên thực tế bằng cách chơi xung quanh với các tham số, bạn cũng có thể có được một loại "bướu lệch" hoặc thậm chí là hình chữ "U" - bộ sưu tập trên trang Wikipedia được liên kết khá hướng dẫn về tính linh hoạt của phân phối đó. Cuối cùng, phân phối tam giác là một phân phối đơn giản khác trên một hỗ trợ hữu hạn, thường được sử dụng trong mô hình rủi ro.

Có vẻ như không có bản phân phối nào mô tả chính xác dữ liệu của bạn và rất nhiều bản phân phối khác có hình dạng tương tự tồn tại, nhưng tôi muốn giải quyết quan niệm sai lầm rằng "gù ở giữa và gần như đối xứng có nghĩa là bình thường". Vì có giới hạn vật lý đối với dữ liệu độ tuổi, nếu dữ liệu tuổi của bạn bị "bướu" ở giữa thì vẫn có thể phân phối với sự hỗ trợ hữu hạn như Beta hoặc phân phối tam giác có thể chứng minh mô hình tốt hơn so với mô hình có đuôi vô hạn như bình thường. Lưu ý rằng ngay cả khi dữ liệu của bạn thực sự được phân phối bình thường, biểu đồ của bạn vẫn không thể giống với "chuông" cổ điển trừ khi kích thước mẫu của bạn khá lớn. Ngay cả một mẫu từ một bản phân phối như Laplace, có pdf rõ ràng có thể phân biệt được với bản thường do cusp của nó,

Mẫu bình thường và Laplace của các cỡ mẫu khác nhau

Mã R

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

— Cá bạc
nguồn

Tuổi không thể từ phân phối bình thường. Hãy suy nghĩ một cách logic: bạn không thể có tuổi âm, nhưng phân phối bình thường cho phép số âm.

Có rất nhiều phân phối hình chuông ngoài kia. Nếu một cái gì đó có hình chuông, điều đó không có nghĩa là nó phải bình thường.

Không có cách nào để biết chắc chắn bất cứ điều gì trong thống kê, kể cả việc phân phối dữ liệu đến từ đâu. Hình dạng là một đầu mối: hình chuông là một đối số cho phân phối bình thường. Ngoài ra, hiểu dữ liệu của bạn là rất quan trọng. Các biến như tuổi thường bị lệch, sẽ loại trừ tính quy tắc. Như đã đề cập, phân phối bình thường không có giới hạn, nhưng đôi khi nó được sử dụng cho các biến bị ràng buộc. Chẳng hạn, nếu tuổi trung bình là 20 tuổi và độ lệch chuẩn là 1, thì xác suất tuổi <17 hoặc> 23 là dưới 0,3%. Vì vậy, nó có thể hơn phân phối bình thường có thể là một xấp xỉ tốt .

Bạn có thể thử chạy một bài kiểm tra thống kê về tính quy phạm, chẳng hạn như Jarque-Bera, tính đến độ lệch và độ nhiễu của mẫu. Kurtosis có thể quan trọng trong một số trường hợp. Điều này rất quan trọng trong tài chính, bởi vì nếu bạn mô hình hóa dữ liệu với phân phối bình thường, nhưng thực tế dữ liệu là từ phân phối có đuôi, bạn có thể sẽ đánh giá thấp rủi ro và giá của tài sản.

Nó sẽ giúp bạn báo cáo một số thống kê mô tả hoặc biểu đồ về dữ liệu tuổi và chiều cao của bạn, chẳng hạn như trung bình, phương sai, độ lệch, kurtosis.

— Aksakal
nguồn

Cảm ơn sự giúp đỡ của bạn, bạn có thể cho tôi biết làm thế nào để biết rằng dữ liệu nhất định đến từ phân phối bình thường, ví dụ như trong câu trả lời của bạn nói rằng tuổi không thể từ phân phối bình thường, những gì về dữ liệu khác như chiều cao. know.i muốn tìm hiểu thêm về điều này bởi vì dường như tôi đã hiểu sai khái niệm kể từ khi tôi mới biết điều này. Cảm ơn một lần nữa.

— NoraNorad

Tuy nhiên, phân phối bình thường thường được sử dụng như một xấp xỉ cho các biến như tuổi. Và nó không phải là thực sự là một vấn đề vì bạn có thể định nghĩa age_centrednhư age - mean(age)và bạn có một biến với trung bình 0, với một số độ lệch chuẩn, tích cực và giá trị âm. Vì vậy, tôi sẽ không quá nghiêm ngặt về nó.

— Tim

Bạn cũng không thể có chiều cao âm đối với mọi người, nhưng điều đó sẽ không phải là rào cản đối với tôi khi mô tả chiều cao như được phân phối bình thường nếu đó là một xấp xỉ tốt. Đối với vấn đề đó, tại sao sử dụng bất kỳ phân phối nào có giới hạn vô hạn cho các phép đo chỉ có thể là hữu hạn? Như @Tim nói, tất cả chỉ là vấn đề xấp xỉ được chấp nhận dựa trên dữ liệu và được đưa ra mục đích.

— Nick Cox

Tôi đồng ý rằng đôi khi phân phối bình thường có thể là một xấp xỉ tốt cho dữ liệu bị ràng buộc, nhưng câu hỏi đặt ra là liệu dữ liệu có từ bình thường hay không.

— Aksakal

Độ tuổi tốt nghiệp trung học phổ thông có khả năng có thể được phân phối bình thường và cũng có các giá trị âm nếu có nghĩa là trung tâm như @Tim đã đề cập.

— ui_90jax