Là thử nghiệm thông thường 'về cơ bản là vô dụng'?


298

Một đồng nghiệp cũ đã từng tranh luận với tôi như sau:

Chúng ta thường áp dụng các bài kiểm tra bình thường để kết quả của các quá trình đó, dưới sự null, tạo biến ngẫu nhiên mà chỉ tiệm cận hoặc gần bình thường (với 'tiệm' một phần phụ thuộc vào một số lượng mà chúng tôi không thể làm cho lớn); Trong kỷ nguyên của bộ nhớ giá rẻ, dữ liệu lớn và bộ xử lý nhanh, các kiểm tra tính quy tắc phải luôn loại bỏ giá trị phân phối bình thường đối với các mẫu lớn (mặc dù không quá lớn). Và vì vậy, ngược lại, các phép thử thông thường chỉ nên được sử dụng cho các mẫu nhỏ, khi chúng có lẽ có công suất thấp hơn và ít kiểm soát hơn tỷ lệ loại I.

Đây có phải là một đối số hợp lệ? Đây có phải là một lập luận nổi tiếng? Có những thử nghiệm nổi tiếng nào cho giả thuyết không có giá trị hơn so với tính bình thường không?


23
Để tham khảo: Tôi không nghĩ rằng điều này cần phải là wiki cộng đồng.
Shane

2
Tôi không chắc có "câu trả lời đúng" ...
shabbychef

5
Theo một nghĩa nào đó, điều này đúng với tất cả các thử nghiệm về số lượng tham số hữu hạn. Với cố định (số lượng tham số mà thử nghiệm được chăm sóc) và không có giới hạn, bất kỳ sự khác biệt nào giữa hai nhóm (dù nhỏ đến đâu) sẽ luôn phá vỡ null tại một số điểm. Trên thực tế, đây là một lập luận ủng hộ các bài kiểm tra bayes. nkn
user603

2
Đối với tôi, nó không phải là một đối số hợp lệ. Dù sao, trước khi đưa ra bất kỳ câu trả lời, bạn cần chính thức hóa mọi thứ một chút. Bạn có thể sai và bạn có thể không nhưng bây giờ những gì bạn có không phải là một trực giác: đối với tôi câu "Trong kỷ nguyên của bộ nhớ rẻ, dữ liệu lớn và bộ xử lý nhanh, các bài kiểm tra quy tắc luôn phải từ chối null bình thường" cần làm rõ :) Tôi nghĩ rằng nếu bạn cố gắng đưa ra độ chính xác chính thức hơn, câu trả lời sẽ đơn giản.
cướp girard

8
Chủ đề tại "Các bộ dữ liệu lớn không phù hợp để kiểm tra giả thuyết" thảo luận về khái quát hóa của câu hỏi này. ( stats.stackexchange.com/questions/2516/
whuber

Câu trả lời:


229

Đó không phải là một cuộc tranh cãi. Đó là một thực tế (một chút mạnh mẽ tuyên bố) rằng các bài kiểm tra quy tắc chính thức luôn từ chối trên các cỡ mẫu khổng lồ mà chúng tôi làm việc ngày nay. Thậm chí thật dễ dàng để chứng minh rằng khi n trở nên lớn, ngay cả độ lệch nhỏ nhất so với tính chuẩn tắc hoàn hảo sẽ dẫn đến một kết quả quan trọng. Và vì mỗi tập dữ liệu có một số mức độ ngẫu nhiên, không có tập dữ liệu đơn lẻ nào sẽ là một mẫu được phân phối hoàn toàn bình thường. Nhưng trong các thống kê được áp dụng, câu hỏi không phải là liệu dữ liệu / số dư ... có hoàn toàn bình thường hay không, nhưng đủ bình thường để các giả định được giữ.

Hãy để tôi minh họa bằng bài kiểm tra Shapiro-Wilk . Mã dưới đây xây dựng một bộ phân phối tiếp cận tính quy tắc nhưng không hoàn toàn bình thường. Tiếp theo, chúng tôi kiểm tra shapiro.testxem một mẫu từ các phân phối gần như bình thường này có sai lệch so với tính quy tắc hay không. Trong R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87 

Dòng cuối cùng kiểm tra phần mô phỏng nào cho mỗi cỡ mẫu sai lệch đáng kể so với tính chuẩn. Vì vậy, trong 87% các trường hợp, một mẫu gồm 5000 quan sát sai lệch đáng kể so với tính quy tắc theo Shapiro-Wilks. Tuy nhiên, nếu bạn thấy các ô qq, bạn sẽ không bao giờ quyết định về độ lệch so với tính quy tắc. Dưới đây bạn xem ví dụ về các ô qq cho một bộ mẫu ngẫu nhiên

văn bản thay thế

với giá trị p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007 

40
Mặt khác, định lý giới hạn trung tâm làm cho việc kiểm tra tính quy phạm chính thức không cần thiết trong nhiều trường hợp khi n lớn.
Joris Meys

31
vâng, câu hỏi thực sự không phải là liệu dữ liệu có thực sự được phân phối bình thường hay không mà chúng có đủ bình thường để giả định cơ bản về tính hợp lý cho mục đích thực tế của phân tích hay không, và tôi đã nghĩ rằng đối số dựa trên CLT là bình thường [sic] đủ cho điều đó
Dikran Marsupial

53
Câu trả lời này dường như không giải quyết được câu hỏi: nó chỉ chứng minh rằng thử nghiệm SW không đạt được mức độ tin cậy danh nghĩa của nó, và do đó, nó xác định một lỗ hổng trong thử nghiệm đó (hoặc ít nhất là trong việc Rthực hiện nó). Nhưng đó là tất cả - nó không ảnh hưởng đến phạm vi hữu ích của kiểm tra tính quy phạm nói chung. Khẳng định ban đầu rằng các phép thử quy phạm luôn loại bỏ các cỡ mẫu lớn đơn giản là không chính xác.
whuber

19
@whuber Câu trả lời này giải quyết câu hỏi. Toàn bộ vấn đề của câu hỏi là "gần" trong "gần bình thường". SW kiểm tra cơ hội mà mẫu được rút ra từ phân phối bình thường. Vì các bản phân phối tôi xây dựng có chủ ý không bình thường, bạn sẽ mong muốn thử nghiệm SW thực hiện những gì nó hứa: từ chối null. Toàn bộ vấn đề là sự từ chối này là vô nghĩa trong các mẫu lớn, vì sự sai lệch so với tính quy tắc không dẫn đến việc mất điện ở đó. Vì vậy, bài kiểm tra là chính xác, nhưng vô nghĩa, như được hiển thị bởi QQplots
Joris Meys

11
Tôi đã dựa vào những gì bạn viết và hiểu sai ý của bạn về phân phối "gần như bình thường". Bây giờ tôi thấy - nhưng chỉ bằng cách đọc mã và kiểm tra cẩn thận - rằng bạn đang mô phỏng từ ba phân phối chuẩn thông thường với các phương tiện ở và và kết hợp các kết quả theo tỷ lệ . Bạn có hy vọng rằng một bài kiểm tra tốt về Bình thường sẽ từ chối null trong trường hợp này không? Những gì bạn đã chứng minh một cách hiệu quả là các lô QQ không giỏi phát hiện các hỗn hợp như vậy, chỉ vậy thôi! 1 , 2 2 : 2 : 10, 1,22:2:1
whuber

172

Khi suy nghĩ về việc kiểm tra tính quy phạm là 'về cơ bản là vô dụng', trước tiên người ta phải nghĩ về những gì nó được cho là hữu ích. Nhiều người (ít nhất ... ít nhất, nhiều nhà khoa học) hiểu sai câu hỏi về câu trả lời kiểm tra tính quy phạm.

Câu hỏi kiểm tra tính quy phạm trả lời: Có bằng chứng thuyết phục về bất kỳ sai lệch nào so với lý tưởng Gaussian không? Với các tập dữ liệu thực lớn vừa phải, câu trả lời hầu như luôn luôn là có.

Câu hỏi mà các nhà khoa học thường mong muốn kiểm tra tính chuẩn sẽ trả lời: Dữ liệu có đủ sai lệch so với lý tưởng Gaussian để "cấm" sử dụng thử nghiệm giả định phân phối Gaussian không? Các nhà khoa học thường muốn thử nghiệm tính quy tắc là trọng tài quyết định khi nào nên từ bỏ các thử nghiệm thông thường (ANOVA, v.v.) và thay vào đó phân tích dữ liệu đã chuyển đổi hoặc sử dụng thử nghiệm không theo tỷ lệ dựa trên xếp hạng hoặc phương pháp lấy mẫu lại hoặc bootstrap. Đối với mục đích này, kiểm tra tính quy tắc không phải là rất hữu ích.


16
+1 cho câu trả lời hay và nhiều thông tin. Tôi thấy hữu ích khi thấy một lời giải thích tốt cho một sự hiểu lầm phổ biến (mà tôi đã tự mình trải nghiệm: stats.stackexchange.com/questions/7022/ Lỗi ). Những gì tôi bỏ lỡ mặc dù, là một giải pháp thay thế cho sự hiểu lầm phổ biến này. Ý tôi là, nếu các bài kiểm tra tính quy tắc là sai cách, thì làm thế nào để kiểm tra xem một xấp xỉ bình thường có được chấp nhận / hợp lý không?
posdef

6
Không có sự thay thế cho ý thức (thông thường) của nhà phân tích (hay, tốt, nhà nghiên cứu / nhà khoa học). Và kinh nghiệm (học bằng cách thử và xem: tôi nhận được kết luận gì nếu tôi cho rằng đó là bình thường? Sự khác biệt nếu không?). Đồ họa là những người bạn tốt nhất của bạn.
FairMiles

2
Tôi thích bài báo này, nó làm cho điểm bạn thực hiện: Micceri, T. (1989). Con kỳ lân, đường cong bình thường và các sinh vật không thể khác. Bản tin tâm lý, 105 (1), 156-166.
Jeremy Miles

4
Nhìn vào đồ họa là tuyệt vời, nhưng nếu có quá nhiều để kiểm tra bằng tay thì sao? Chúng ta có thể xây dựng các quy trình thống kê hợp lý để chỉ ra các điểm rắc rối có thể xảy ra không? Tôi đang nghĩ về các tình huống như những người thử nghiệm A / B ở quy mô lớn: exp-pl platform.com/Pages/ ,.
dfrankow

118

Tôi nghĩ rằng các bài kiểm tra về tính quy phạm có thể hữu ích khi đồng hành với các bài kiểm tra đồ họa. Chúng phải được sử dụng đúng cách, mặc dù. Theo tôi, điều này có nghĩa là không bao giờ nên sử dụng nhiều bài kiểm tra phổ biến, như các bài kiểm tra Shapiro-Wilk, Anderson-Darling và Jarque-Bera.

Trước khi tôi giải thích quan điểm của mình, hãy để tôi đưa ra một vài nhận xét:

  • Trong một bài báo thú vị gần đây, Rochon et al. đã nghiên cứu tác động của thử nghiệm Shapiro-Wilk đối với thử nghiệm t hai mẫu. Quy trình hai bước kiểm tra tính quy phạm trước khi thực hiện kiểm tra t không phải là không có vấn đề. Sau đó, một lần nữa, không phải là thủ tục hai bước của điều tra đồ họa bình thường trước khi thực hiện kiểm tra t. Sự khác biệt là tác động của cái sau khó điều tra hơn nhiều (vì nó sẽ yêu cầu một nhà thống kê điều tra đồ họa thông thường lần hoặc hơn ...).100,000
  • Chẳng hạn, rất hữu ích khi định lượng tính phi quy tắc bằng cách tính độ lệch mẫu, ngay cả khi bạn không muốn thực hiện kiểm tra chính thức.
  • Tính quy phạm đa biến có thể khó đánh giá bằng đồ họa và sự hội tụ đến phân phối tiệm cận có thể chậm đối với thống kê đa biến. Do đó, các thử nghiệm về tính quy tắc sẽ hữu ích hơn trong môi trường đa biến.
  • Các thử nghiệm về tính quy tắc có lẽ đặc biệt hữu ích cho các học viên sử dụng số liệu thống kê dưới dạng tập hợp các phương pháp hộp đen . Khi tính quy phạm bị từ chối, người hành nghề nên được báo động và, thay vì thực hiện một quy trình chuẩn dựa trên giả định về tính quy tắc, hãy cân nhắc sử dụng một quy trình không tham số, áp dụng chuyển đổi hoặc tư vấn một nhà thống kê có kinh nghiệm hơn.
  • Như đã được chỉ ra bởi những người khác, nếu đủ lớn, CLT thường tiết kiệm trong ngày. Tuy nhiên, những gì "đủ lớn" khác nhau cho các lớp phân phối khác nhau.n

(Theo định nghĩa của tôi), một bài kiểm tra về tính quy tắc được hướng tới một lớp các lựa chọn thay thế nếu nó nhạy cảm với các lựa chọn thay thế từ lớp đó, nhưng không nhạy cảm với các lựa chọn thay thế từ các lớp khác. Ví dụ điển hình là các xét nghiệm được hướng tới các lựa chọn thay thế xiên hoặc kurtotic . Các ví dụ đơn giản nhất sử dụng độ lệch mẫu và kurtosis làm thống kê kiểm tra.

Các xét nghiệm có tính định hướng được cho là thường được ưu tiên hơn so với các xét nghiệm omnibus (chẳng hạn như các xét nghiệm Shapiro-Wilk và Jarque-Bera) vì thông thường chỉ có một số loại phi bình thường là mối quan tâm đối với một thủ tục suy luận cụ thể .

Chúng ta hãy xem xét nghiệm của sinh viên là một ví dụ. Giả sử rằng chúng ta có một mẫu iid từ một bản phân phối với độ lệch và (thừa) kurtosisNếu đối xứng về giá trị trung bình của nó, . Cả và đều là 0 cho phân phối bình thường.γ=E(Xμ)3σ3κ=E(Xμ)4σ43.Xγ=0γκ

Theo các giả định về tính đều đặn, chúng tôi có được sự mở rộng tiệm cận sau cho cdf của thống kê kiểm tra : Tn

P(Tnx)=Φ(x)+n1/216γ(2x2+1)ϕ(x)n1x(112κ(x23)118γ2(x4+2x23)14(x2+3))ϕ(x)+o(n1),

trong đó là cdf và là pdf của phân phối chuẩn thông thường.Φ()ϕ()

γ xuất hiện lần đầu tiên trong thuật ngữ , trong khi xuất hiện trong thuật ngữ . Các tiệm cận thực hiện là nhiều hơn nữa nhạy cảm với độ lệch từ bình thường dưới dạng độ lệch so với hình thức nhọn.n1/2κn1 T nTn

Nó có thể được xác minh bằng cách sử dụng mô phỏng rằng điều này cũng đúng với nhỏ . Do đó, bài kiểm tra t của Học sinh rất nhạy cảm với độ lệch nhưng tương đối mạnh mẽ đối với các đuôi nặng và điều hợp lý là sử dụng một bài kiểm tra cho tính quy phạm hướng vào các phương án nghiêng trước khi áp dụng bài kiểm tra t .n

Như một quy luật tự nhiên ( không phải là quy luật tự nhiên), suy luận về phương tiện rất nhạy cảm với sự sai lệch và suy luận về phương sai rất nhạy cảm với kurtosis.

Sử dụng một bài kiểm tra trực tiếp cho tính bình thường có lợi ích là có được sức mạnh cao hơn đối với các lựa chọn thay thế '' nguy hiểm '' và sức mạnh thấp hơn đối với các lựa chọn ít '' nguy hiểm '' hơn, có nghĩa là chúng ta ít từ chối sự bình thường vì những sai lệch so với tính bình thường đã thắng 't ảnh hưởng đến hiệu suất của thủ tục suy luận của chúng tôi. Tính phi quy phạm được định lượng theo cách có liên quan đến vấn đề hiện tại. Điều này không phải lúc nào cũng dễ dàng để làm đồ họa.

Khi trở nên lớn hơn, độ lệch và kurtosis trở nên ít quan trọng hơn - và các xét nghiệm theo chỉ đạo có khả năng phát hiện nếu các đại lượng này lệch khỏi 0 thậm chí chỉ một lượng nhỏ. Trong các trường hợp như vậy, chẳng hạn, có vẻ hợp lý để kiểm tra xem hay (nhìn vào thuật ngữ đầu tiên của bản mở rộng ở trên) thay vì liệu . Điều này quan tâm đến một số vấn đề mà chúng ta phải đối mặt khi trở nên lớn hơn.n|γ|1

|n1/216γ(2zα/22+1)ϕ(zα/2)|0.01
γ=0n


2
Bây giờ đây là một câu trả lời tuyệt vời!
user603

10
Phải đây là câu trả lời được chấp nhận, thực sự tuyệt vời
jenesaisquoi

2
"điều phổ biến là chỉ một số loại phi quy phạm là mối quan tâm đối với một thủ tục suy luận cụ thể." - tất nhiên người ta nên sử dụng một bài kiểm tra hướng tới loại phi quy tắc đó. Nhưng thực tế là một người đang sử dụng một bài kiểm tra tính quy tắc ngụ ý rằng anh ta quan tâm đến tất cả các khía cạnh của tính quy tắc. Câu hỏi là: là một bài kiểm tra tính quy tắc trong trường hợp đó là một lựa chọn tốt.
rbm 04/07/2015

Kiểm tra tính đầy đủ của các giả định cho các thử nghiệm cụ thể đang trở nên phổ biến, điều này rất may loại bỏ một số phỏng đoán.
Carl

1
@Carl: Bạn có thể thêm một số tài liệu tham khảo / ví dụ cho điều đó?
kjetil b halvorsen

58

Các xét nghiệm quy tắc IMHO hoàn toàn vô dụng vì những lý do sau:

  1. Trên các mẫu nhỏ, có nhiều khả năng phân phối dân số thực sự là không bình thường, nhưng thử nghiệm tính quy phạm không mạnh mẽ để chọn ra nó.

  2. Trên các mẫu lớn, những thứ như T-test và ANOVA khá mạnh mẽ đến phi quy tắc.

  3. Dù sao, toàn bộ ý tưởng về một dân số phân phối bình thường chỉ là một xấp xỉ toán học thuận tiện. Không có số lượng nào thường được xử lý theo thống kê có thể có các phân phối hợp lý với sự hỗ trợ của tất cả các số thực. Ví dụ, mọi người không thể có chiều cao âm. Một cái gì đó không thể có khối lượng âm hoặc nhiều hơn khối lượng trong vũ trụ. Do đó, thật an toàn khi nói rằng không có gì được phân phối chính xác trong thế giới thực.


2
Sự khác biệt tiềm năng điện là một ví dụ về đại lượng trong thế giới thực có thể âm.
nico

16
@nico: Chắc chắn nó có thể âm, nhưng có một số giới hạn hữu hạn đối với nó bởi vì chỉ có rất nhiều proton và electron trong Vũ trụ. Tất nhiên điều này không liên quan trong thực tế, nhưng đó là quan điểm của tôi. Không có gì được phân phối chính xác thông thường (mô hình sai), nhưng có rất nhiều thứ đủ gần (mô hình này hữu ích). Về cơ bản, bạn đã biết mô hình là sai và từ chối hoặc không từ chối null về cơ bản không có thông tin nào về việc dù sao nó cũng hữu ích.
dsimcha

1
@dsimcha - Tôi thấy rằng một phản ứng thực sự sâu sắc, hữu ích.
rolando2

5
t

@dsimcha "mô hình sai". Không phải tất cả các mô hình "sai" mặc dù?
Atirag

30

Tôi nghĩ rằng việc kiểm tra trước tính quy phạm (bao gồm các đánh giá không chính thức bằng cách sử dụng đồ họa) đã bỏ lỡ vấn đề.

  1. Những người sử dụng phương pháp này cho rằng đánh giá tính chuẩn có hiệu lực gần 1.0.
  2. Các xét nghiệm không tham số như Wilcoxon, Spearman và Kruskal-Wallis có hiệu quả 0,95 nếu tính bình thường.
  3. Theo quan điểm của 2. người ta có thể chỉ định trước việc sử dụng một bài kiểm tra không tham số nếu người ta thậm chí giải trí khả năng dữ liệu có thể không phát sinh từ một phân phối bình thường.
  4. YY

lưu ý rằng hiệu quả của 0,95 là tiệm cận : FWIW Tôi đoán rằng hiệu quả thấp hơn nhiều cho các kích cỡ mẫu hữu hạn điển hình ... (mặc dù phải thừa nhận là tôi đã không nhìn thấy điều này nghiên cứu, cũng không phải cố gắng để khám phá nó bản thân mình)
Bến Bolker

16

Trước khi hỏi liệu một bài kiểm tra hoặc bất kỳ loại kiểm tra sơ bộ nào về tính quy tắc là "hữu ích", bạn phải trả lời câu hỏi đằng sau câu hỏi: "Tại sao bạn hỏi?"

Ví dụ: nếu bạn chỉ muốn đặt giới hạn độ tin cậy xung quanh giá trị trung bình của một tập hợp dữ liệu, thì việc khởi hành từ tính quy tắc có thể quan trọng hoặc không, tùy thuộc vào số lượng dữ liệu bạn có và mức độ khởi hành lớn. Tuy nhiên, việc khởi hành từ tính quy tắc có thể rất quan trọng nếu bạn muốn dự đoán giá trị cực đoan nhất sẽ là gì trong các quan sát trong tương lai hoặc trong dân số mà bạn đã lấy mẫu từ đó.


12

Hãy để tôi thêm một điều nhỏ:
Thực hiện kiểm tra tính quy tắc mà không đưa lỗi alpha vào tài khoản nâng cao xác suất tổng thể của bạn khi thực hiện lỗi alpha.

Bạn sẽ không bao giờ quên rằng mỗi bài kiểm tra bổ sung sẽ thực hiện việc này miễn là bạn không kiểm soát việc tích lũy lỗi alpha. Do đó, một lý do tốt để loại bỏ kiểm tra tính chuẩn.


Tôi cho rằng bạn đang đề cập đến một tình huống trong đó trước tiên người ta thực hiện một bài kiểm tra tính quy tắc, và sau đó sử dụng kết quả của bài kiểm tra đó để quyết định bài kiểm tra nào sẽ thực hiện tiếp theo.
Harvey Motulsky

3
Tôi đề cập đến tiện ích chung của các bài kiểm tra tính quy phạm khi được sử dụng làm phương pháp để xác định xem có phù hợp để sử dụng một phương pháp nhất định hay không. Nếu bạn áp dụng chúng trong những trường hợp này, thì về mặt xác suất phạm lỗi alpha, tốt hơn là thực hiện một thử nghiệm mạnh mẽ hơn để tránh tích lũy lỗi alpha.
Henrik

4
H0

3
Một cách khác, kiểm tra tính quy tắc có thể làm tăng lỗi loại I là nếu chúng ta đang nói về "xác suất tổng thể thực hiện lỗi alpha". Bản thân bài kiểm tra có tỷ lệ lỗi, vì vậy , về tổng thể , xác suất xảy ra lỗi của chúng tôi tăng lên. Tôi cũng nhấn mạnh vào một điều nhỏ
nhặt

2
@NickStauner Đó chính xác là những gì tôi muốn truyền tải. Cảm ơn đã làm cho điểm này thậm chí rõ ràng hơn.
Henrik

11

Câu trả lời ở đây đã giải quyết một số điểm quan trọng. Để nhanh chóng tóm tắt:

  • Không có thử nghiệm nhất quán nào có thể xác định liệu một tập hợp dữ liệu có thực sự tuân theo phân phối hay không.
  • Các thử nghiệm không thay thế cho việc kiểm tra trực quan dữ liệu và mô hình để xác định đòn bẩy cao, quan sát ảnh hưởng cao và nhận xét về tác động của chúng trên các mô hình.
  • Các giả định cho nhiều thói quen hồi quy thường bị hiểu sai là yêu cầu "dữ liệu" phân phối thông thường [phần dư] và điều này được các nhà thống kê người mới giải thích là yêu cầu nhà phân tích chính thức đánh giá điều này theo một nghĩa nào đó trước khi tiến hành phân tích.

Trước tiên, tôi đang thêm một câu trả lời để trích dẫn một trong những bài viết thống kê được truy cập và đọc thường xuyên nhất của tôi: " Tầm quan trọng của các giả định về tính chuẩn trong các bộ dữ liệu y tế công cộng lớn " của Lumley et. al. Nó đáng để đọc toàn bộ. Tóm tắt nêu rõ:

Hồi quy tuyến tính t-test và bình phương nhỏ nhất không yêu cầu bất kỳ giả định nào về phân phối chuẩn trong các mẫu đủ lớn. Các nghiên cứu mô phỏng trước đây cho thấy rằng, đủ lớn, thường dưới 100 và đối với dữ liệu chi phí y tế cực kỳ bình thường của chúng tôi là dưới 500. Điều này có nghĩa là trong nghiên cứu y tế công cộng, nơi các mẫu thường lớn hơn đáng kể so với điều này, t -test và mô hình tuyến tính là các công cụ mặc định hữu ích để phân tích sự khác biệt và xu hướng trong nhiều loại dữ liệu, không chỉ các loại có phân phối chuẩn. Các thử nghiệm thống kê chính thức cho Normality đặc biệt không mong muốn vì chúng sẽ có công suất thấp trong các mẫu nhỏ trong đó phân phối có vấn đề và công suất cao chỉ trong các mẫu lớn trong đó phân phối không quan trọng.

Trong khi các đặc tính mẫu lớn của hồi quy tuyến tính được hiểu rõ, có rất ít nghiên cứu về kích thước mẫu cần thiết cho giả định Normality là không quan trọng. Cụ thể, không rõ kích thước mẫu cần thiết phụ thuộc vào số lượng dự đoán trong mô hình.

Việc tập trung vào các bản phân phối Bình thường có thể làm sao lãng các giả định thực sự của các phương thức này. Hồi quy tuyến tính cho rằng phương sai của biến kết quả là xấp xỉ không đổi, nhưng hạn chế chính đối với cả hai phương pháp là chúng cho rằng nó đủ để kiểm tra các thay đổi về giá trị trung bình của biến kết quả. Nếu một số tóm tắt khác về phân phối được quan tâm nhiều hơn, thì phép thử t-test và hồi quy tuyến tính có thể không phù hợp.

Tóm lại: tính quy phạm thường không đáng để thảo luận hoặc sự chú ý mà nó nhận được trái ngược với tầm quan trọng của việc trả lời một câu hỏi khoa học cụ thể. Nếu mong muốn là tóm tắt sự khác biệt trung bình trong dữ liệu, thì phép thử t và ANOVA hoặc hồi quy tuyến tính được chứng minh theo nghĩa rộng hơn nhiều. Các thử nghiệm dựa trên các mô hình này vẫn ở mức alpha chính xác, ngay cả khi các giả định phân phối không được đáp ứng, mặc dù sức mạnh có thể bị ảnh hưởng bất lợi.

Lý do tại sao các bản phân phối bình thường có thể nhận được sự chú ý mà họ thực hiện có thể là vì lý do cổ điển, trong đó các thử nghiệm chính xác dựa trên phân phối F cho ANOVAs và phân phối T-Student cho thử nghiệm T có thể thu được. Sự thật là, trong số nhiều tiến bộ hiện đại của khoa học, chúng ta thường xử lý các bộ dữ liệu lớn hơn so với thu thập trước đây. Nếu một người trong thực tế đang xử lý một tập dữ liệu nhỏ, lý do là những dữ liệu đó được phân phối bình thường không thể đến từ chính những dữ liệu đó: đơn giản là không có đủ năng lượng. Theo tôi, nhận xét về các nghiên cứu, sao chép khác, hoặc thậm chí sinh học hoặc khoa học của quá trình đo lường là một cách tiếp cận hợp lý hơn nhiều để thảo luận về một mô hình xác suất có thể có trong dữ liệu quan sát được.

Vì lý do này, việc chọn một bài kiểm tra dựa trên xếp hạng như là một thay thế hoàn toàn bỏ lỡ điểm. Tuy nhiên, tôi sẽ đồng ý rằng việc sử dụng các công cụ ước tính phương sai mạnh mẽ như jackknife hoặc bootstrap cung cấp các lựa chọn tính toán quan trọng cho phép thực hiện các thử nghiệm theo nhiều vi phạm quan trọng hơn về đặc tả mô hình, như độc lập hoặc phân phối các lỗi đó.


10

Tôi đã từng nghĩ rằng các bài kiểm tra về tính quy phạm là hoàn toàn vô dụng.

Tuy nhiên, bây giờ tôi làm tư vấn cho các nhà nghiên cứu khác. Thông thường, việc lấy mẫu là cực kỳ tốn kém, và vì vậy họ sẽ muốn thực hiện suy luận với n = 8, nói.

Trong trường hợp như vậy, rất khó tìm thấy ý nghĩa thống kê với các xét nghiệm không tham số, nhưng các thử nghiệm t với n = 8 rất nhạy cảm với độ lệch so với tính chuẩn. Vì vậy, những gì chúng ta nhận được là chúng ta có thể nói "tốt, có điều kiện dựa trên giả định về tính quy tắc, chúng ta tìm thấy một sự khác biệt có ý nghĩa thống kê" (đừng lo lắng, đây thường là những nghiên cứu thí điểm ...).

Sau đó, chúng ta cần một số cách để đánh giá giả định đó. Tôi đi được nửa đường trong trại, nhìn vào cốt truyện là cách tốt hơn để đi, nhưng sự thật được nói rằng có thể có nhiều sự bất đồng về điều đó, điều này có thể rất rắc rối nếu một trong những người không đồng ý với bạn là xem xét bản thảo của bạn.

Theo nhiều cách, tôi vẫn nghĩ rằng có rất nhiều sai sót trong các bài kiểm tra về tính quy tắc: ví dụ, chúng ta nên suy nghĩ về lỗi loại II nhiều hơn loại I. Nhưng cần phải có chúng.


Lưu ý rằng các đối số ở đây là các bài kiểm tra chỉ vô dụng trong lý thuyết. Về lý thuyết, chúng tôi luôn có thể lấy được nhiều mẫu như chúng tôi muốn ... Bạn vẫn sẽ cần các xét nghiệm để chứng minh rằng dữ liệu của bạn ít nhất là gần với quy tắc.
SmallChess

2
Điểm tốt. Tôi nghĩ những gì bạn đang ám chỉ, và chắc chắn những gì tôi tin, là một thước đo sai lệch so với tính quy tắc quan trọng hơn một bài kiểm tra giả thuyết.
Vách đá AB

Miễn là sau đó họ không chuyển sang thử nghiệm không tham số và cố gắng diễn giải các giá trị p (không hợp lệ bằng thử nghiệm trước có điều kiện), có lẽ điều đó không sao?!
Bjorn

2
Sức mạnh của một bài kiểm tra tính quy phạm sẽ rất thấp ở mức n = 8; đặc biệt, những sai lệch so với tính quy phạm sẽ ảnh hưởng đáng kể đến các tính chất của xét nghiệm giả định rằng nó có thể khá khó phát hiện ở các cỡ mẫu nhỏ (cho dù bằng thử nghiệm hay trực quan).
Glen_b

1
@Glen_b: Tôi đồng ý; Tôi nghĩ rằng tình cảm này phù hợp với việc quan tâm nhiều hơn đến các lỗi loại II hơn là loại I. Quan điểm của tôi là có thế giới thực cần phải kiểm tra tính bình thường. Liệu các công cụ hiện tại của chúng tôi có thực sự đáp ứng nhu cầu đó hay không là một câu hỏi khác nhau.
Vách đá AB

10

Để biết giá trị của nó, tôi đã từng phát triển một bộ lấy mẫu nhanh cho phân phối chuẩn bị cắt ngắn và kiểm tra tính quy tắc (KS) rất hữu ích trong việc gỡ lỗi chức năng. Bộ lấy mẫu này vượt qua thử nghiệm với kích thước mẫu rất lớn, nhưng thật thú vị, bộ lấy mẫu ziggurat của GSL đã không làm được.


8

Lập luận bạn đưa ra là một ý kiến. Tôi nghĩ rằng tầm quan trọng của kiểm tra tính chuẩn là đảm bảo rằng dữ liệu không rời khỏi mức bình thường. Đôi khi tôi sử dụng nó để quyết định giữa việc sử dụng một tham số so với kiểm tra không tham số cho quy trình suy luận của tôi. Tôi nghĩ rằng thử nghiệm có thể hữu ích trong các mẫu vừa và lớn (khi định lý giới hạn trung tâm không đi vào hoạt động). Tôi có xu hướng sử dụng các bài kiểm tra Wilk-Shapiro hoặc Anderson-Darling nhưng khi chạy SAS tôi nhận được tất cả và họ thường đồng ý khá tốt. Ở một khía cạnh khác, tôi nghĩ rằng các quy trình đồ họa như các ô QQ hoạt động tốt như nhau. Ưu điểm của một bài kiểm tra chính thức là nó mang tính khách quan. Trong các mẫu nhỏ, sự thật là các thử nghiệm độ phù hợp này thực tế không có sức mạnh và điều đó có ý nghĩa trực quan bởi vì một mẫu nhỏ từ phân phối bình thường có thể trông khá bất thường và được tính trong thử nghiệm. Độ lệch và độ nhiễu cao cũng phân biệt nhiều phân phối không bình thường với phân phối bình thường không dễ dàng nhìn thấy trong các mẫu nhỏ.


2
Mặc dù chắc chắn nó có thể được sử dụng theo cách đó, tôi không nghĩ bạn sẽ khách quan hơn so với QQ-Plot. Phần chủ quan với các bài kiểm tra là khi nào quyết định rằng dữ liệu của bạn là không bình thường. Với một mẫu lớn loại bỏ ở p = 0,05 rất có thể là quá mức.
Erik

4
Thử nghiệm trước (như được đề xuất ở đây) có thể làm mất hiệu lực tỷ lệ lỗi Loại I của quy trình tổng thể; người ta phải tính đến thực tế là một thử nghiệm trước đã được thực hiện khi diễn giải kết quả của bất kỳ thử nghiệm nào được chọn. Tổng quát hơn, các bài kiểm tra giả thuyết nên được giữ lại để kiểm tra giả thuyết null người ta thực sự quan tâm, nghĩa là không có mối liên hệ nào giữa các biến. Giả thuyết khống cho rằng dữ liệu chính xác là Bình thường không thuộc loại này.
khách

1
(+1) Có lời khuyên tuyệt vời ở đây. Erik, việc sử dụng "mục tiêu" cũng khiến tôi ngạc nhiên, cho đến khi tôi nhận ra quyền của Michael: hai người thực hiện cùng một bài kiểm tra trên cùng một dữ liệu sẽ luôn nhận được cùng một giá trị p, nhưng họ có thể diễn giải cùng một âm mưu QQ khác nhau. Khách: cảm ơn bạn đã lưu ý cảnh báo về lỗi Loại I. Nhưng tại sao chúng ta không nên quan tâm đến việc phân phối dữ liệu? Thường xuyên đó là thông tin thú vị và có giá trị. Ít nhất tôi muốn biết liệu dữ liệu có phù hợp với các giả định mà các bài kiểm tra của tôi đang thực hiện về chúng hay không!
whuber

1
Tôi rất không đồng ý. Cả hai người đều có cùng cốt truyện QQ và cùng giá trị p. Để diễn giải giá trị p, bạn cần tính đến kích thước mẫu và các vi phạm về tính quy tắc mà xét nghiệm của bạn đặc biệt nhạy cảm. Vì vậy, quyết định những gì để làm với giá trị p của bạn chỉ là chủ quan. Lý do bạn có thể thích giá trị p là vì bạn tin rằng dữ liệu có thể tuân theo phân phối chuẩn hoàn hảo - khác, đó chỉ là câu hỏi giá trị p giảm nhanh như thế nào với kích thước mẫu. Hơn nữa, với kích thước mẫu khá, cốt truyện QQ trông khá giống nhau và vẫn ổn định với nhiều mẫu hơn.
Erik

1
Erik, tôi đồng ý rằng kết quả kiểm tra và đồ họa yêu cầu giải thích. Nhưng kết quả kiểm tra là một con số và sẽ không có bất kỳ tranh chấp nào về nó. Cốt truyện QQ, tuy nhiên, thừa nhận nhiều mô tả. Mặc dù mỗi cái có thể khách quan đều đúng, nhưng lựa chọn những gì cần chú ý là ... một lựa chọn. Đó là "chủ quan" nghĩa là gì: kết quả phụ thuộc vào nhà phân tích, không chỉ riêng thủ tục. Ví dụ, đây là lý do tại sao trong các cài đặt khác nhau như biểu đồ kiểm soát và quy định của chính phủ trong đó "tính khách quan" là quan trọng, các tiêu chí dựa trên các bài kiểm tra sốkhông bao giờ có kết quả đồ họa.
whuber

7

Tôi nghĩ rằng một cách tiếp cận entropy tối đa có thể hữu ích ở đây. Chúng tôi có thể chỉ định phân phối bình thường vì chúng tôi tin rằng dữ liệu là "phân phối bình thường" (bất kể điều đó có nghĩa là gì) hoặc vì chúng tôi chỉ mong đợi thấy độ lệch về cùng một Độ lớn. Ngoài ra, vì phân phối bình thường chỉ có hai số liệu thống kê đầy đủ, nên không nhạy cảm với những thay đổi trong dữ liệu không làm thay đổi các đại lượng này. Vì vậy, theo một nghĩa nào đó, bạn có thể nghĩ về một phân phối bình thường là "trung bình" trên tất cả các phân phối có thể có cùng thời điểm thứ nhất và thứ hai. điều này cung cấp một lý do tại sao các hình vuông nhỏ nhất sẽ hoạt động tốt như nó.


Cầu nối tốt đẹp của các khái niệm. Tôi cũng đồng ý rằng trong trường hợp phân phối như vậy có vấn đề, việc suy nghĩ về cách tạo ra dữ liệu sẽ sáng sủa hơn nhiều . Chúng tôi áp dụng nguyên tắc đó trong phù hợp mô hình hỗn hợp. Mặt khác, nồng độ hoặc tỷ lệ luôn bị lệch. Tôi có thể thêm rằng "bình thường ... không nhạy cảm với những thay đổi", ý bạn là bất biến đối với những thay đổi về hình dạng / tỷ lệ.
AdamO

7

Tôi sẽ không nói nó là vô dụng, nhưng nó thực sự phụ thuộc vào ứng dụng. Lưu ý, bạn không bao giờ thực sự biết phân phối dữ liệu đến từ đâu và tất cả những gì bạn có là một tập hợp nhỏ các nhận thức. Giá trị trung bình mẫu của bạn luôn hữu hạn trong mẫu, nhưng giá trị trung bình có thể không xác định hoặc vô hạn đối với một số loại hàm mật độ xác suất. Chúng ta hãy xem xét ba loại phân phối ổn định Levy tức là phân phối chuẩn, phân phối Levy và phân phối Cauchy. Hầu hết các mẫu của bạn không có nhiều quan sát ở đuôi (tức là cách xa trung bình mẫu). Vì vậy, về mặt thực nghiệm, rất khó để phân biệt giữa ba, vì vậy Cauchy (có nghĩa là không xác định) và Levy (có nghĩa là vô hạn) có thể dễ dàng giả trang thành một bản phân phối bình thường.


1
"... theo kinh nghiệm đó là rất khó khăn ..." dường như để tranh luận chống lại , chứ không phải là cho , thử nghiệm phân phối. Điều này là lạ khi đọc trong một đoạn văn mà phần giới thiệu cho thấy thực sự có những cách sử dụng để kiểm tra phân phối. Sau đó, những gì bạn đang thực sự cố gắng để nói ở đây?
whuber

3
Tôi chống lại điều đó, nhưng tôi cũng muốn cẩn thận hơn là chỉ nói điều đó là vô ích vì tôi không biết toàn bộ các tình huống có thể xảy ra ngoài kia. Có nhiều bài kiểm tra phụ thuộc vào giả định quy tắc. Nói rằng kiểm tra quy tắc là vô ích về cơ bản là gỡ lỗi tất cả các kiểm tra thống kê như bạn đang nói rằng bạn không chắc chắn rằng bạn đang sử dụng / làm đúng. Trong trường hợp đó bạn không nên làm điều đó, bạn không nên thực hiện phần thống kê lớn này.
kolonel

Cảm ơn bạn. Các nhận xét trong nhận xét đó dường như tập trung tốt hơn vào câu hỏi so với câu trả lời ban đầu của bạn là! Bạn có thể xem xét cập nhật câu trả lời của mình tại một số điểm để làm cho ý kiến ​​và lời khuyên của bạn rõ ràng hơn.
whuber

@whuber Không có vấn đề. Bạn có thể đề nghị một chỉnh sửa?
kolonel

Bạn có thể bắt đầu bằng cách kết hợp hai bài đăng - câu trả lời và nhận xét của bạn - và sau đó suy nghĩ về việc loại bỏ (hoặc chuyển sang phụ lục hoặc làm rõ) bất kỳ tài liệu nào có thể tiếp tuyến. Ví dụ, tham chiếu đến không xác định có nghĩa là chưa có liên quan rõ ràng đến câu hỏi và vì vậy nó vẫn còn hơi bí ẩn.
whuber

7

Tôi nghĩ rằng 2 câu hỏi đầu tiên đã được trả lời kỹ lưỡng nhưng tôi không nghĩ câu hỏi 3 đã được giải quyết. Nhiều thử nghiệm so sánh phân phối theo kinh nghiệm với phân phối giả thuyết đã biết. Giá trị tới hạn cho thử nghiệm Kolmogorov - Smirnov dựa trên F được chỉ định hoàn toàn. Nó có thể được sửa đổi để kiểm tra phân phối tham số với các tham số ước tính. Vì vậy, nếu fuzzier có nghĩa là ước tính nhiều hơn hai tham số thì câu trả lời cho câu hỏi là có. Các xét nghiệm này có thể được áp dụng 3 họ tham số trở lên. Một số thử nghiệm được thiết kế để có sức mạnh tốt hơn khi thử nghiệm đối với một họ phân phối cụ thể. Ví dụ: khi kiểm tra tính quy tắc, phép thử Anderson-Darling hoặc Shapiro-Wilk có sức mạnh lớn hơn so với KS hoặc bình phương khi phân phối giả thuyết null là bình thường.


5

Các thử nghiệm trong đó "một cái gì đó" quan trọng đối với phân tích được hỗ trợ bởi giá trị p cao là tôi nghĩ đầu sai. Như những người khác đã chỉ ra, đối với các tập dữ liệu lớn, giá trị p dưới 0,05 được đảm bảo. Vì vậy, thử nghiệm về cơ bản là "phần thưởng" cho các tập dữ liệu nhỏ và mờ và "phần thưởng" cho việc thiếu bằng chứng. Một cái gì đó như cốt truyện qq hữu ích hơn nhiều. Mong muốn các số khó quyết định những thứ như thế này luôn luôn (có / không bình thường / không bình thường) bỏ lỡ rằng mô hình hóa là một phần nghệ thuật và cách các giả thuyết thực sự được hỗ trợ.


2
Vẫn còn một mẫu lớn gần như bình thường sẽ có giá trị p thấp trong khi một mẫu nhỏ hơn gần như không bình thường thường sẽ không có. Tôi không nghĩ rằng giá trị p lớn là hữu ích. Một lần nữa, họ thưởng cho việc thiếu bằng chứng. Tôi có thể có một mẫu với vài triệu điểm dữ liệu và gần như sẽ luôn từ chối giả định quy tắc trong các thử nghiệm này trong khi một mẫu nhỏ hơn thì không. Do đó, tôi thấy chúng không hữu ích. Nếu suy nghĩ của tôi là thiếu sót, xin vui lòng cho thấy nó bằng cách sử dụng một số lý luận suy diễn về điểm này.
wvguy8258

Điều này không trả lời câu hỏi nào cả.
SmallChess 2/2/2015

-2

Một cách sử dụng tốt bài kiểm tra quy tắc mà tôi không nghĩ đã được đề cập là xác định xem sử dụng điểm z có ổn không. Giả sử bạn đã chọn một mẫu ngẫu nhiên từ một dân số và bạn muốn tìm xác suất chọn một cá nhân ngẫu nhiên trong dân số và nhận được giá trị từ 80 trở lên. Điều này chỉ có thể được thực hiện nếu phân phối là bình thường, bởi vì để sử dụng điểm z, giả định là phân phối dân số là bình thường.

Nhưng sau đó tôi đoán tôi cũng có thể thấy điều này đang được tranh cãi ...


Giá trị của cái gì? Trung bình, tổng, phương sai, một quan sát cá nhân? Chỉ có cái cuối cùng dựa vào tính quy tắc giả định của phân phối.
whuber

ý tôi là cá nhân
Hotaka

2
Cảm ơn. Tuy nhiên, câu trả lời của bạn vẫn rất mơ hồ đến nỗi khó có thể nói bạn đang đề cập đến thủ tục nào và không thể đánh giá xem kết luận của bạn có hợp lệ hay không.
whuber

2
Vấn đề với việc sử dụng này cũng giống như với các mục đích sử dụng khác: Thử nghiệm sẽ phụ thuộc vào kích thước mẫu, do đó, về cơ bản là vô dụng. Nó không cho bạn biết bạn có thể sử dụng điểm z hay không.
Peter Flom
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.