Có ý nghĩa khi kiểm tra tính quy phạm với cỡ mẫu rất nhỏ (ví dụ: n = 6) không?


26

Tôi có cỡ mẫu là 6. Trong trường hợp như vậy, việc kiểm tra tính quy phạm bằng cách sử dụng thử nghiệm Kolmogorov-Smirnov có hợp lý không? Tôi đã sử dụng SPSS. Tôi có một cỡ mẫu rất nhỏ vì phải mất thời gian để lấy từng cái. Nếu nó không có ý nghĩa, có bao nhiêu mẫu là số thấp nhất có ý nghĩa để kiểm tra?

Lưu ý: Tôi đã làm một số thí nghiệm liên quan đến mã nguồn. Mẫu được thời gian dành cho mã hóa trong một phiên bản của phần mềm (phiên bản A) Thực ra, tôi có một kích thước mẫu 6 được thời gian dành cho mã hóa trong một phiên bản của phần mềm (phiên bản B)

Tôi muốn thực hiện kiểm tra giả thuyết bằng cách sử dụng kiểm tra t một mẫu để kiểm tra xem thời gian dành cho phiên bản mã A có khác với thời gian dành cho phiên bản mã B hay không (Đây là H1 của tôi). Điều kiện tiên quyết của kiểm tra một mẫu là dữ liệu cần kiểm tra phải được phân phối bình thường. Đó là lý do tại sao tôi cần kiểm tra tính bình thường.


6
Tôi, trước hết, gặp khó khăn khi tưởng tượng một bối cảnh trong đó n = 6 và tính quy tắc sẽ là một giả thuyết đáng để thử nghiệm. Tôi sợ đây là trường hợp một người dùng thiếu kinh nghiệm thực hiện nhiều thử nghiệm giả thuyết (chạy hồi quy sau đó kiểm tra tính bình thường của phần dư) và chúng tôi đang giải quyết các triệu chứng nhưng bỏ qua các bộ xương trong tủ quần áo, có thể nói như vậy.
user603

3
@user Thật không công bằng khi suy đoán về người hỏi. Chúng ta hãy giải quyết câu hỏi, phải không? Vì vậy, giả sử bạn có kế hoạch tính giới hạn dự đoán trên cho một giá trị sẽ được sử dụng để đưa ra quyết định tốn kém. Giá trị của PL sẽ nhạy cảm với các giả định quy tắc. Bạn khá chắc chắn rằng quá trình tạo dữ liệu là không bình thường, nhưng dữ liệu rất tốn kém và mất thời gian để tạo. Các thử nghiệm trước đây cho thấy sẽ đủ mạnh để từ chối tính quy tắc. (Tôi vừa mô tả một khung tiêu chuẩn cho các chương trình giám sát nước ngầm ở Hoa Kỳ.)n=6
whuber

3
User603 (bình luận đầu tiên của bạn): Tôi muốn chỉ ra rằng @Joris đã không cung cấp câu trả lời, cũng như bình luận của anh ấy đi kèm với bất kỳ lời biện minh nào. Nếu một từ "không" nhấn mạnh là một câu trả lời chung hợp lệ cho câu hỏi này, chúng ta hãy xem nó được viết ra như vậy, với một đối số hỗ trợ, để cộng đồng có thể đánh giá nó lên xuống.
whuber

2
@whuber: Tôi đã thêm một đối số cho "không" nhấn mạnh.
Joris Meys

1
@Joris Cảm ơn bạn! Đó là hữu ích và chiếu sáng.
whuber

Câu trả lời:


38

Vâng.

Tất cả các bài kiểm tra giả thuyết đều có hai đặc tính nổi bật : kích thước của chúng (hoặc "mức ý nghĩa"), một con số liên quan trực tiếp đến độ tin cậy và tỷ lệ dương tính giả dự kiến ​​và sức mạnh của chúng , thể hiện khả năng âm tính giả. Khi kích thước mẫu nhỏ và bạn tiếp tục nhấn mạnh vào kích thước nhỏ (độ tin cậy cao), sức mạnh sẽ trở nên tồi tệ hơn. Điều này có nghĩa là các xét nghiệm mẫu nhỏ thường không thể phát hiện ra sự khác biệt nhỏ hoặc trung bình. Nhưng chúng vẫn có ý nghĩa .

Thử nghiệm KS đánh giá xem mẫu có vẻ như đến từ phân phối Bình thường hay không. Một mẫu gồm sáu giá trị sẽ phải trông rất không bình thường để thực hiện bài kiểm tra này. Nhưng nếu có, bạn có thể diễn giải sự từ chối này của null chính xác như bạn sẽ diễn giải nó với các cỡ mẫu cao hơn. Mặt khác, nếu thử nghiệm không từ chối giả thuyết khống, điều đó cho bạn biết rất ít, do tỷ lệ âm tính giả cao. Cụ thể, sẽ tương đối rủi ro khi hành động như thể phân phối cơ bản là Bình thường.

Một điều nữa cần chú ý ở đây: một số phần mềm sử dụng xấp xỉ để tính giá trị p từ các thống kê kiểm tra. Thông thường các phép tính gần đúng này hoạt động tốt đối với các cỡ mẫu lớn nhưng hoạt động kém đối với các cỡ mẫu rất nhỏ. Khi gặp trường hợp này, bạn không thể tin tưởng rằng giá trị p đã được tính toán chính xác, điều đó có nghĩa là bạn không thể chắc chắn rằng đã đạt được kích thước thử nghiệm mong muốn. Để biết chi tiết, tham khảo tài liệu phần mềm của bạn.

Một số lời khuyên: Thử nghiệm KS về cơ bản ít mạnh mẽ hơn đối với thử nghiệm thông thường so với các thử nghiệm khác được xây dựng cụ thể cho mục đích này. Tốt nhất trong số họ có lẽ là thử nghiệm Shapiro-Wilk , nhưng những thứ khác thường được sử dụng và gần như mạnh mẽ là Shapiro-FranciaAnderson-Darling .

Biểu đồ này hiển thị phân phối thống kê kiểm tra Kolmogorov - Smirnov trong 10.000 mẫu của sáu biến thể phân phối thông thường:

Biểu đồ thống kê của KS

Dựa trên 100.000 mẫu bổ sung, phân vị thứ 95 trên 95 (ước tính giá trị tới hạn cho thống kê này để kiểm tra kích thước ) là 0,520. Một ví dụ về một mẫu vượt qua bài kiểm tra này là tập dữ liệuα=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

Thống kê kiểm tra là 0,5 (nhỏ hơn giá trị tới hạn). Một mẫu như vậy sẽ bị từ chối bằng cách sử dụng các thử nghiệm khác về tính quy phạm.


10
Tôi nghĩ rằng bất kỳ phân phối cung cấp cho một sig. kết quả với N = 6 sẽ không bình thường đến mức nó sẽ vượt qua IOTT với màu sắc bay - đó là thử nghiệm chấn thương nội nhãn. Nó đập vào mắt bạn.
Peter Flom - Tái lập Monica

2
N= =6N= =6

Để giải trí, tôi đã thử set.seed (3833782) x <- runif (6) ks.test (x, pnorm) Điều này rất có ý nghĩa với p = 0,04. Vì vậy, nó có thể xảy ra
Peter Flom - Tái lập Monica

4
@Peter Tốt! Một thử nghiệm KS cho tính quy tắc đã từ chối một mẫu thống nhất. Đó là những gì người ta hy vọng.
whuber

3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)sản xuất p-value = 0.0003255. Tất nhiên tôi phải thử nó với 140 hạt giống trước khi tôi tìm thấy thứ này ...
Spacesman

20

Như @whuber đã hỏi trong các bình luận, một xác nhận cho số KHÔNG phân loại của tôi. chỉnh sửa: với thử nghiệm shapiro, vì thử nghiệm ks một mẫu trên thực tế được sử dụng sai. Whuber là chính xác: Để sử dụng đúng thử nghiệm Kolmogorov-Smirnov, bạn phải chỉ định các tham số phân phối và không trích xuất chúng từ dữ liệu. Tuy nhiên, đây là những gì được thực hiện trong các gói thống kê như SPSS cho thử nghiệm KS một mẫu.

Bạn cố gắng nói điều gì đó về bản phân phối và bạn muốn kiểm tra xem bạn có thể áp dụng bài kiểm tra t không. Vì vậy, thử nghiệm này được thực hiện để xác nhận rằng dữ liệu không rời khỏi tính quy phạm đủ đáng kể để làm cho các giả định cơ bản của phân tích không hợp lệ. Do đó, Bạn không quan tâm đến lỗi loại I, nhưng trong lỗi loại II.

Bây giờ người ta phải định nghĩa "khác biệt đáng kể" để có thể tính n tối thiểu để có công suất chấp nhận được (giả sử là 0,8). Với các bản phân phối, điều đó không đơn giản để xác định. Do đó, tôi đã không trả lời câu hỏi, vì tôi không thể đưa ra một câu trả lời hợp lý ngoài quy tắc ngón tay cái tôi sử dụng: n> 15 và n <50. Dựa trên cái gì? Về cơ bản cảm giác ruột thịt, vì vậy tôi không thể bảo vệ sự lựa chọn đó ngoài kinh nghiệm.

Nhưng tôi biết rằng chỉ với 6 giá trị, lỗi loại II của bạn bị ràng buộc gần như 1, làm cho công suất của bạn gần bằng 0. Với 6 quan sát, thử nghiệm Shapiro không thể phân biệt giữa phân phối bình thường, phân tích, đồng đều hoặc thậm chí theo cấp số nhân. Với lỗi loại II là gần 1, kết quả kiểm tra của bạn là vô nghĩa.

Để minh họa kiểm tra quy tắc với kiểm tra shapiro:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

Chỉ có khoảng một nửa giá trị nhỏ hơn 0,05, là giá trị cuối cùng. Đó cũng là trường hợp cực đoan nhất.


nếu bạn muốn tìm ra n tối thiểu mang lại cho bạn sức mạnh như thế nào với bài kiểm tra shapiro, người ta có thể thực hiện một mô phỏng như thế này:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

cung cấp cho bạn một phân tích sức mạnh như thế này:

nhập mô tả hình ảnh ở đây

từ đó tôi kết luận rằng bạn cần khoảng 20 giá trị tối thiểu để phân biệt hàm mũ với phân phối chuẩn trong 80% trường hợp.

mã cốt truyện:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)

2
@whuber: liên quan đến logic của kiểm tra giả thuyết trên đầu của nó: trong trường hợp nào bạn quan tâm đến giả thuyết thay thế? Trong tất cả các ứng dụng của các thử nghiệm này tôi đã thấy, mọi người quan tâm đến việc xác nhận null: dữ liệu của tôi không khác biệt đáng kể so với phân phối bình thường. Đó là lý do tại sao tôi nhấn mạnh lỗi loại II.
Joris Meys

4
n5

4
n= =số 8n

3
@whuber: Chúng tôi sẽ phải đồng ý khác nhau. Tôi không hoàn toàn là người hâm mộ các hướng dẫn của EPA (và chắc chắn không phải của FDA). Tôi đã thấy điều này bị lạm dụng một lần quá thường xuyên để vẫn tin vào sự hữu ích của nó. Cơ hội là một điều kỳ lạ, và chỉ có 6 trường hợp rất khó đoán. Tôi không tin rằng bạn có thể nói bất cứ điều gì về một chức năng phức tạp như PDF chỉ dựa trên 6 quan sát. YMMV
Joris Meys

5
@ImAlso Thử nghiệm t có thể chịu đựng rất nhiều tính phi quy tắc nếu nó khá đối xứng, nhưng nó không thể chịu đựng được quá nhiều sự bất cân xứng. (Thật vậy, một thử nghiệm độ lệch cho tính quy tắc thực sự có thể là một lựa chọn tốt hơn trong OP so với thử nghiệm KS, vì lý do này.) Điều này chỉ ra một trong những khác biệt lớn nhất giữa độ tốt của các thử nghiệm phù hợp và các thử nghiệm giả thuyết khác: có rất nhiều không gian của các lựa chọn thay thế có thể và các bài kiểm tra GoF có xu hướng tốt đối với một số trong số chúng nhưng không chống lại những người khác. Bạn không thể làm cho chúng hoạt động tốt đối với tất cả các lựa chọn thay thế.
whuber

-2

Câu hỏi được đặt ra ở đây có một số quan niệm sai lầm rằng tại sao cần phải kiểm tra Định mức cho kích thước mẫu là 6. Ở đây, mục tiêu chính là để kiểm tra xem thời gian dành cho phiên bản mã A có khác với thời gian dành cho phiên bản mã B hay không ( Đây là H1) của tôi. Khi sử dụng từ khác nhau, thì đây là một bài kiểm tra đuôi?. Tuy nhiên, kiểm tra Normality là một bước thứ hai. Bước đầu tiên là kiểm tra mức độ đầy đủ của công suất được xác định trước (1-β) của phép thử đối với một cỡ mẫu nhất định khi công suất rất xấu thì việc sử dụng thử nghiệm điều kiện thông thường là gì?. Kiểm tra điều kiện thông thường sẽ giúp chúng tôi quyết định nên đi kiểm tra tham số hay không tham số?. Nếu kích thước mẫu của bạn không có đủ năng lượng, tại sao người ta nên nghĩ đến việc kiểm tra Normality?.


(-1) Điều này rất không rõ ràng. Vui lòng đọc trang này về cách trả lời các câu hỏi: stats.stackexchange.com/help/how-to-answer
mkt - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.