Giải thích thử nghiệm Shapiro-Wilk


29

Tôi khá mới để thống kê và tôi cần sự giúp đỡ của bạn.
Tôi có một mẫu nhỏ, như sau:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Tôi đã chạy thử nghiệm Shapiro-Wilk bằng R:

shapiro.test(precisionH4U$H4U)

và tôi đã nhận được kết quả như sau:

 W = 0.9502, p-value = 0.6921

Bây giờ, nếu tôi giả sử mức ý nghĩa ở mức 0,05 so với giá trị p lớn hơn thì alpha (0,6921> 0,05) và tôi không thể bác bỏ giả thuyết khống về phân phối bình thường, nhưng nó có cho phép tôi nói rằng mẫu có phân phối bình thường không ?

Cảm ơn!

Câu trả lời:


28

Không - bạn không thể nói "mẫu có phân phối bình thường" hoặc "mẫu xuất phát từ dân số có phân phối bình thường", nhưng chỉ "bạn không thể bác bỏ giả thuyết rằng mẫu đến từ dân số có phân phối bình thường".

Trong thực tế, mẫu không có phân phối bình thường (xem qqplot bên dưới), nhưng bạn sẽ không mong đợi nó vì nó chỉ là một mẫu. Câu hỏi về sự phân bố của dân số cơ bản vẫn còn bỏ ngỏ.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot


2
qqplot trông khá giống bình thường tôi nghĩ ... bạn có thể thử qqnorm(rnorm(9))vài lần ...
Tò mò

2
@Tomas: Có lẽ tốt hơn để nói "qqplot trông như thể nó có thể đến từ một dân số bình thường". Thay vào đó, nó có thể đến từ một bản phân phối có đuôi nặng hơn.
Henry

Có, qqnorm(runif(9))có thể tạo ra kết quả tương tự. Vì vậy, chúng tôi thực sự không thể nói bất cứ điều gì ...
Tò mò

sự khác biệt giữa "mẫu có phân phối bình thường" và "mẫu đến từ dân số có phân phối bình thường" là gì?
auraham

1
Một phân phối bình thường là một phân phối liên tục trên tất cả các thực tế. Một mẫu (hữu hạn hoặc thậm chí là vô hạn) không thể có loại phân phối này, ngay cả khi nó được rút ra từ một dân số có phân phối này.
Henry

17

Không từ chối một giả thuyết khống là một dấu hiệu cho thấy mẫu bạn có quá nhỏ để nhận bất kỳ sai lệch nào so với tính quy tắc bạn có - nhưng mẫu của bạn quá nhỏ đến mức thậm chí độ lệch khá lớn so với tính quy tắc có thể sẽ không được phát hiện.

Tuy nhiên, một bài kiểm tra giả thuyết khá nhiều bên cạnh điểm trong hầu hết các trường hợp mọi người sử dụng một bài kiểm tra về tính quy tắc - bạn thực sự biết câu trả lời cho câu hỏi bạn đang kiểm tra - việc phân bổ dân số từ dữ liệu của bạn sẽ không bình thường . (Đôi khi nó có thể khá gần, nhưng thực sự bình thường?)

Câu hỏi bạn nên quan tâm không phải là 'phân phối mà họ rút ra từ bình thường' (nó sẽ không như vậy). Câu hỏi bạn thực sự nên quan tâm giống như 'là ​​sự sai lệch so với tính bình thường mà tôi sẽ ảnh hưởng nghiêm trọng đến kết quả của tôi?'. Nếu đó có khả năng là một vấn đề, bạn có thể xem xét một phân tích ít có khả năng có vấn đề đó.


10

Xem xét rằng bạn khá mới đối với thống kê, tôi nghi ngờ rằng bạn đang nghĩ về điều này bởi vì đây là phần dư của ước tính của một giá trị trung bình và bạn muốn biết liệu giả định về tính quy phạm có hợp lệ đối với ước tính độ tin cậy khi sử dụng phân phối .t

t cuộc kiểm tra khá mạnh mẽ khi vi phạm giả định này, dữ liệu trông có vẻ bình thường trong âm mưu qq của Henry và thử nghiệm Shapiro không chỉ ra rằng dữ liệu đến từ một dân số có phân phối không bình thường, vì vậy tôi sẽ nói rằng test là thích hợp.t

Tôi cũng suy đoán thêm rằng bạn đang xem xét tỷ lệ, trong trường hợp đó bạn có thể sử dụng phân phối nhị thức nếu bạn lo ngại về việc vi phạm các giả định.

Nếu đó là một số mối quan tâm khác đưa bạn đến các bài kiểm tra của Shapiro, bạn có thể bỏ qua mọi điều tôi vừa nói.


Bạn hiểu đúng, tôi muốn biết liệu tôi có thể sử dụng thử nghiệm t cho mẫu của mình không. Cảm ơn!
Jakub

4

Như Henry đã nói bạn không thể nói nó bình thường. Chỉ cần thử chạy lệnh sau trong R vài lần:

shapiro.test(runif(9)) 

Điều này sẽ kiểm tra mẫu của 9 số từ phân phối đồng đều. Nhiều lần giá trị p sẽ lớn hơn 0,05 - có nghĩa là bạn không thể kết luận rằng phân phối là bình thường.


4

Tôi cũng đang tìm cách giải thích chính xác giá trị W trong thử nghiệm Shapiro-Wilk và theo bài viết của Emil OW Kirkegaard "Các giá trị W từ thử nghiệm Shapiro-Wilk được hình dung bằng các bộ dữ liệu khác nhau " rất khó để nói bất cứ điều gì về tính quy phạm của một phân phối chỉ nhìn vào giá trị W.

Như ông nói trong kết luận:

Nói chung, chúng tôi thấy rằng với một mẫu lớn, SW rất nhạy cảm với các lần khởi hành từ tính không quy tắc. Nếu sự khởi hành là rất nhỏ, tuy nhiên, nó không phải là rất quan trọng.

Chúng tôi cũng thấy rằng thật khó để giảm giá trị W ngay cả khi người ta cố tình thử. Người ta cần kiểm tra phân phối cực kỳ không bình thường để nó giảm đáng kể xuống dưới 0,99.

Xem bài viết gốc để biết thêm thông tin.


1

Một vấn đề quan trọng không được đề cập bởi câu trả lời trước đó là các giới hạn kiểm tra:

Thử nghiệm có những hạn chế, quan trọng nhất là thử nghiệm có sai lệch theo cỡ mẫu . Mẫu càng lớn, bạn càng có nhiều kết quả có ý nghĩa thống kê.

Để trả lời câu hỏi ban đầu (cỡ mẫu rất nhỏ): xem các bài viết sau về các lựa chọn thay thế tốt hơn như biểu đồ và biểu đồ QQ cho trường hợp cụ thể này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.