Các xét nghiệm quy phạm phù hợp cho các mẫu nhỏ


22

Cho đến nay, tôi đã sử dụng thống kê Shapiro-Wilk để kiểm tra các giả định về tính quy tắc trong các mẫu nhỏ.

Bạn có thể vui lòng giới thiệu một kỹ thuật khác?


1
Dưới đây là một vài câu hỏi khác có thể quan tâm: is-Normality-tests-về cơ bản là vô dụng , để thảo luận về giá trị của kiểm tra tính chuẩn, & what-if-Residuals-are-normal-phân phối-but-y-is- không , đối với một cuộc thảo luận / làm rõ ý nghĩa trong đó tính quy phạm là một giả định của mô hình tuyến tính.
gung - Phục hồi Monica

3
Wilk trong Shapiro-Wilk đề cập đến Martin B. Wilk. Thật quá dễ dàng để viết "Wilks", đặc biệt là (a) nếu người khác nói hoặc viết điều đó và bạn đang sao chép (b) bạn biết về công việc trong thống kê của Samuel S. Wilks, một người khá khác biệt (c) bạn nhận được nhầm lẫn về "s" thiết bị đầu cuối trong tiếng Anh, với các cách sử dụng khác cho số nhiều (số liệu thống kê, mèo, chó, ...) và sở hữu, vốn phổ biến ngay cả trong số những người có ngôn ngữ đầu tiên là tiếng Anh. Tôi đã chỉnh sửa chủ đề này trong phạm vi tôi có thể; Tôi không thể đưa ra ý kiến.
Nick Cox

Câu trả lời:


24

Các fBasics gói vào R (một phần của Rmetrics ) bao gồm một số xét nghiệm bình thường , bao gồm rất nhiều các phổ biến kiểm tra frequentist - Kolmogorov-Smirnov, Shapiro-Wilk, Jarque-Bera, và D'Agostino - cùng với một wrapper cho các bài kiểm tra bình thường trong gói hàng cuối - AndersonTHER Darling, CramerTHER von Mises, Lilliefors (Kolmogorov-Smirnov), Pearson chi đấm vuông, và Shapiro cảm Francia. Các tài liệu gói cũng cung cấp tất cả các tài liệu tham khảo quan trọng. Dưới đây là bản demo cho thấy cách sử dụng các bài kiểm tra từ nortest .

Một cách tiếp cận, nếu bạn có thời gian, là sử dụng nhiều hơn một thử nghiệm và kiểm tra thỏa thuận. Các thử nghiệm khác nhau theo một số cách, do đó, không hoàn toàn đơn giản để chọn "tốt nhất". Những nhà nghiên cứu khác trong lĩnh vực của bạn sử dụng những gì? Điều này có thể khác nhau và tốt nhất là nên tuân thủ các phương pháp được chấp nhận để những người khác sẽ chấp nhận công việc của bạn. Tôi thường xuyên sử dụng thử nghiệm Jarque-Bera, một phần vì lý do đó và Anderson Hampshire Darling để so sánh.

Bạn có thể xem "So sánh các thử nghiệm về tính quy phạm đơn biến" (Seier 2002) và "So sánh các thử nghiệm khác nhau về tính quy tắc" (Yazici; Yolacan 2007) để so sánh và thảo luận về các vấn đề.

Việc kiểm tra các phương thức này để so sánh trong R cũng là chuyện nhỏ, nhờ tất cả các hàm phân phối . Đây là một ví dụ đơn giản với dữ liệu mô phỏng (tôi sẽ không in ra kết quả để tiết kiệm dung lượng), mặc dù sẽ cần một giải trình đầy đủ hơn:

library(fBasics); library(ggplot2)
set.seed(1)

# normal distribution
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# cauchy distribution
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Khi bạn có kết quả từ các thử nghiệm khác nhau qua các bản phân phối khác nhau, bạn có thể so sánh loại nào hiệu quả nhất. Chẳng hạn, giá trị p cho phép thử Jarque-Bera ở trên đã trả về 0,276 cho phân phối bình thường (chấp nhận) và <2.2e-16 cho phép rút gọn (từ chối giả thuyết null).


Cảm ơn Shane, câu trả lời tuyệt vời! Chà, "những người khác" từ lĩnh vực của tôi thường sử dụng SPSS, vì vậy họ sử dụng Kolmogorov-Smirnov (nếu họ kiểm tra tính bình thường), mặc dù thử nghiệm của IMHO Lilliefors là lựa chọn tốt hơn khi dữ liệu được thu thập từ một mẫu (khi tham số được thu thập không xác định). Tôi được dạy rằng Shapiro-Wilk thích hợp cho các mẫu nhỏ và chỉ muốn biết thêm thông tin về "các thử nghiệm quy tắc mẫu nhỏ" ... BTW, tôi sử dụng nortest trong R! =)
aL3xa

12

Về tính quy phạm, Shapiro-Wilk thực tế có sức mạnh tốt trong các mẫu khá nhỏ.

Đối thủ cạnh tranh chính trong các nghiên cứu mà tôi đã thấy là Anderson-Darling nói chung, hoạt động khá tốt, nhưng tôi sẽ không nói nó tốt hơn. Nếu bạn có thể làm rõ những gì thay thế bạn quan tâm, có thể một thống kê tốt hơn sẽ rõ ràng hơn. [chỉnh sửa: nếu bạn ước tính các tham số, kiểm tra AD sẽ được điều chỉnh cho điều đó.]

[Tôi thực sự khuyên bạn không nên xem xét Jarque-Bera trong các mẫu nhỏ (có lẽ được biết đến nhiều hơn với tên Bowman-Shenton trong giới thống kê - họ đã nghiên cứu phân phối mẫu nhỏ). Phân phối khớp không triệu chứng của xiên và kurtosis không giống như phân phối mẫu nhỏ - giống như cách một quả chuối không giống như một quả cam. Nó cũng có sức mạnh rất thấp so với một số lựa chọn thay thế thú vị - ví dụ như nó có sức mạnh thấp để thu được phân phối lưỡng kim đối xứng có độ nhiễu gần với phân phối bình thường.]

Mọi người thường kiểm tra mức độ phù hợp của những lý do không phải là lý do đặc biệt tốt hoặc họ đang trả lời một câu hỏi khác với câu hỏi mà họ thực sự muốn trả lời.

Ví dụ, bạn gần như chắc chắn đã biết dữ liệu của mình không thực sự bình thường (không chính xác), vì vậy không có lý do gì để cố gắng trả lời một câu hỏi mà bạn biết câu trả lời - và dù sao thì bài kiểm tra giả thuyết không thực sự trả lời .

Cho bạn biết rằng bạn chưa có tính quy phạm chính xác, bài kiểm tra giả thuyết về tính quy phạm của bạn thực sự cho bạn câu trả lời cho câu hỏi gần hơn "là cỡ mẫu của tôi đủ lớn để nhận số lượng không bình thường mà tôi có", trong khi câu hỏi thực sự mà bạn quan tâm khi trả lời thường gần hơn với " tác động của tính phi quy tắc này đối với những điều khác mà tôi quan tâm là gì?". Kiểm tra giả thuyết là đo kích thước mẫu, trong khi câu hỏi bạn muốn trả lời không phụ thuộc nhiều vào kích thước mẫu.

Có những lúc việc kiểm tra tính quy phạm có ý nghĩa gì đó, nhưng những tình huống đó hầu như không bao giờ xảy ra với các mẫu nhỏ.

Tại sao bạn kiểm tra tính bình thường?


Cảm ơn cho một câu trả lời tuyệt vời, và một câu hỏi tuyệt vời sau đó. Điều cốt yếu là có được cái nhìn sâu sắc về nền tảng của vấn đề. Chà, rất nhiều lần tôi đã thấy những người thực hiện kiểm tra t, Pearson r hoặc ANOVA mà không biết bất kỳ ý tưởng nào về hình dạng phân phối (thường bị sai lệch nặng) - các kỹ thuật tham số "cần" giả định về tính quy tắc thỏa mãn. Trong tâm lý học (đó là lĩnh vực tôi quan tâm), chúng tôi thường xử lý các mẫu nhỏ, do đó tôi cần kiểm tra tính quy phạm phù hợp.
aL3xa

5
Nhưng sự bình thường không bao giờ hài lòng. Đôi khi, đó là một mô tả hợp lý về dữ liệu, nhưng chúng không thực sự bình thường. Trong trường hợp bạn có thể kiểm tra tính không bình thường khi bạn cho rằng nó không đặc biệt hữu ích để kiểm tra dữ liệu (vì những lý do tôi đã mô tả ở trên). Tôi làm một cốt truyện qq, ví dụ, nhưng một bài kiểm tra giả thuyết trả lời câu hỏi sai trong tình huống này. kiểm tra t và anova thường hoạt động tốt nếu phân phối không bị lệch nhiều. Một cách tiếp cận tốt hơn có thể là sử dụng các quy trình không giả định tính quy tắc - có thể là lấy lại các kỹ thuật.
Glen_b -Reinstate Monica

Hoặc bạn có thể sử dụng các bài kiểm tra không tham số, với chi phí có ít năng lượng hơn. Và không có gì hoàn toàn hài lòng trong thống kê, đó không chỉ là vấn đề bình thường. Tuy nhiên, bootstrapping hoặc jackknifing không phải là một giải pháp khi giới thiệu cho ai đó về các giả định t-test và / hoặc ANOVA. Tôi nghi ngờ rằng các kỹ thuật lấy mẫu lại giải quyết các vấn đề thông thường. Người ta phải kiểm tra tính quy phạm cả về đồ họa (biểu đồ mật độ, boxplot, QQplot, biểu đồ) và "số" (kiểm tra tính chuẩn, độ lệch, độ nhiễu, v.v.). Bạn có đề nghị gì? Điều này là hoàn toàn lạc đề, nhưng làm thế nào bạn sẽ kiểm tra, giả sử, giả định về tính quy tắc ANOVA?
aL3xa

@ aL3xa Tôi nghĩ rằng phương pháp ngẫu nhiên hóa phù hợp hơn với lĩnh vực nghiên cứu của bạn; mặc dù thực tế là các xét nghiệm tham số thông thường cung cấp xấp xỉ tốt cho các thử nghiệm hoán vị chính xác, các thử nghiệm không tham số cũng ngụ ý một số loại giả định (ví dụ về hình dạng của phân phối). Tôi thậm chí tự hỏi làm thế nào chúng ta thực sự có thể định nghĩa thế nào là sai lệch so với tính chuẩn trong nghiên cứu mẫu nhỏ. Tôi nghĩ bạn nên yêu cầu thảo luận thêm về điểm này trong một câu hỏi riêng biệt.
chl

10

Có toàn bộ danh mục Wikipedia về các bài kiểm tra quy phạm bao gồm:

Tôi nghĩ rằng AD có lẽ là tốt nhất của họ.


1
Tôi đồng ý. Tôi đã thực hiện một bài kiểm tra nhanh về bài kiểm tra AD, Jarque-Bera và bài kiểm tra của Spiegelhalter (1983), dưới giá trị null, với cỡ mẫu 8, lặp lại 10.000 lần. Thử nghiệm AD duy trì tỷ lệ loại bỏ danh nghĩa và cho các khoảng thời gian thống nhất, trong khi thử nghiệm JB là khủng khiếp, Spiegelhalter đang ở giữa.
shabbychef

1
@shabbychef Thử nghiệm Jarque-Bera dựa trên tính bình thường không triệu chứng của độ lệch mẫu và kurtosis, không hoạt động tốt ngay cả đối với n trong 100 giây thấp . Nhưng để đạt được tỷ lệ loại bỏ mong muốn, bạn có thể điều chỉnh các giá trị tới hạn, ví dụ dựa trên kết quả mô phỏng, như trong Phần 4.1 của Thadewald, T và H. Buning, 2004, thử nghiệm Jarque-Bera và các đối thủ cạnh tranh để kiểm tra tính bình thường - So sánh sức mạnh , Thảo luận Kinh tế giấy 2004/9, Trường Kinh doanh và Kinh tế, Đại học Tự do Berlin.
Cá bạc

3

Để hoàn thiện, các nhà kinh tế lượng cũng thích thử nghiệm Kiefer và Salmon từ bài báo năm 1983 của họ trong tờ Letters Letters - nó tổng hợp các biểu hiện 'lệch chuẩn hóa' và xiên mà sau đó được phân phối vuông góc. Tôi có một phiên bản C ++ cũ mà tôi đã viết khi còn học lớp tôi có thể dịch sang R.

Chỉnh sửa:đây là bài báo gần đây của Bierens (re-) bắt nguồn từ Jarque-Bera và Kiefer-Salmon.

Chỉnh sửa 2: Tôi đã xem qua mã cũ và có vẻ như đó thực sự là thử nghiệm tương tự giữa Jarque-Bera và Kiefer-Salmon.


2

Trên thực tế, xét nghiệm Kiefer Salmon và thử nghiệm Jarque Bera rất khác nhau như được trình bày ở một số nơi nhưng gần đây nhất ở đây - Các thử nghiệm về phân phối lỗi chuẩn hóa: Phương pháp tiếp cận mạnh mẽ đơn giản của Yi-Ting Chen. Thử nghiệm Kiefer Salmon bằng cách xây dựng rất mạnh mẽ khi đối mặt với các cấu trúc lỗi loại ARCH không giống như thử nghiệm Jarque Bera tiêu chuẩn. Bài báo của Yi-Ting Chen phát triển và thảo luận về những gì tôi nghĩ có khả năng là bài kiểm tra tốt nhất vào lúc này.


4
Chen dường như tập trung vào các bộ dữ liệu lớn hơn, điều này có ý nghĩa bởi vì khoảnh khắc thứ tư và thứ sáu và cao hơn liên quan đến các thử nghiệm này sẽ mất một thời gian để ổn định ở mức độ tiệm cận. Nhưng các thử nghiệm phân phối thường được sử dụng cho các bộ dữ liệu nhỏ hơn 250 giá trị (mức tối thiểu được nghiên cứu trong bài viết này). Trên thực tế, hầu hết trong số chúng trở nên mạnh mẽ với lượng dữ liệu lớn hơn đến mức chúng ít hơn so với suy nghĩ trong các ứng dụng như vậy. Hay có nhiều thứ đang diễn ra ở đây hơn tôi đang thấy?
whuber

0

Đối với cỡ mẫu <30 đối tượng, Shapiro-Wilk được coi là có sức mạnh mạnh mẽ - Hãy cẩn thận , khi điều chỉnh mức ý nghĩa của thử nghiệm, vì nó có thể gây ra lỗi loại II! [1]


Trong các mẫu nhỏ, độ tốt của các xét nghiệm phù hợp thường không thể từ chối tính bình thường.
Michael R. Chernick

@MichaelCécick những gì xảy ra trong trường hợp cụ thể sau đó? Lý do đằng sau một nhỏ nhỏ được "phân loại" là không bình thường là gì?
Aliakbar Ahmadi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.