Cốt truyện QQ có vẻ bình thường nhưng thử nghiệm của Shapiro-Wilk lại nói khác


12

Trong R, tôi có một mẫu gồm 349 biện pháp và muốn biết liệu tôi có thể giả sử nó được phân phối bình thường cho các thử nghiệm trong tương lai hay không.

Về cơ bản theo một câu trả lời Stack khác , tôi đang xem xét cốt truyện mật độ và cốt truyện QQ với:

plot(density(Clinical$cancer_age))

nhập mô tả hình ảnh ở đây

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

nhập mô tả hình ảnh ở đây

Tôi không có kinh nghiệm mạnh mẽ về Thống kê, nhưng chúng trông giống như các ví dụ về phân phối bình thường mà tôi đã thấy.

Sau đó, tôi đang chạy thử nghiệm Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Nếu tôi giải thích nó một cách chính xác, nó sẽ cho tôi biết rằng việc từ chối giả thuyết null là an toàn, đó là sự phân phối là bình thường.

Tuy nhiên, tôi đã gặp hai bài viết Stack ( ở đâyở đây ), điều này làm giảm mạnh tính hữu ích của bài kiểm tra này. Có vẻ như nếu mẫu lớn (được coi là lớn?), Nó sẽ luôn nói rằng phân phối không bình thường.

Làm thế nào tôi nên giải thích tất cả những điều đó? Tôi có nên gắn bó với cốt truyện QQ và cho rằng phân phối của tôi là bình thường?


4
Cốt truyện qq dường như cho thấy một sự khởi đầu từ bình thường ở đuôi. Ngoài ra, bất kỳ bài kiểm tra hữu ích nào về mức độ phù hợp sẽ từ chối trong các mẫu rất lớn đơn giản vì sẽ có những sự khởi hành nhỏ từ tính quy tắc được phát hiện .. Đây không phải là chỉ trích về kiểm tra Shapiro - Wilk mà là một tính năng kiểm tra mức độ phù hợp.
Michael R. Chernick

4
Tại sao giả sử một phân phối bình thường quan trọng với bạn? Bạn dự định làm gì dựa trên giả định đó?
Roland

6
Chỉ cần thêm vào nhận xét của Roland - nhiều thử nghiệm chính thức cho rằng phân phối bình thường thực sự khá mạnh mẽ dưới sự khởi hành nhẹ so với tính quy tắc (ví dụ: vì phân phối của thống kê kiểm tra là không chính xác). Nếu bạn có thể giải thích về những gì bạn định làm, bạn có thể nhận được nhiều câu trả lời hữu ích hơn.
P.Windridge

1
@mdewey, quan sát sắc nét! Đó không phải là tuổi mắc bệnh, mà là "tuổi" của khối u được đo bằng cách methyl hóa DNA.
francoiskroll

2
Tôi nghĩ rằng sẽ đáng để kiểm tra số lượng nhỏ các quan sát cực đoan chỉ để kiểm tra xem chúng có phải là lỗi đo lường hay không.
mdewey

Câu trả lời:


11

Bạn không có vấn đề ở đây. Dữ liệu của bạn hơi bất thường, nhưng nó đủ bình thường để không gây ra vấn đề gì. Nhiều nhà nghiên cứu làm các bài kiểm tra thống kê giả định tính bình thường với ít bình thường dữ liệu hơn nhiều so với dữ liệu mà bạn có.

Tôi sẽ tin vào mắt bạn. Mật độ và cốt truyện QQ trông hợp lý, mặc dù có một số sai lệch tích cực nhỏ trên đuôi. Theo tôi, bạn không cần phải lo lắng về tính phi quy tắc cho những dữ liệu này.

Bạn có N khoảng 350 và giá trị p phụ thuộc rất nhiều vào kích thước mẫu. Với một mẫu lớn, hầu hết mọi thứ đều có thể là đáng kể. Điều này đã được thảo luận ở đây.

Có một số câu trả lời đáng kinh ngạc trên bài đăng rất phổ biến này về cơ bản đi đến kết luận rằng việc thực hiện một bài kiểm tra ý nghĩa giả thuyết không có giá trị cho tính phi quy tắc là "về cơ bản là vô dụng". Câu trả lời được chấp nhận trên bài đăng đó là một minh chứng tuyệt vời rằng, ngay cả khi dữ liệu được tạo ra từ một quy trình gần Gaussian, kích thước mẫu đủ cao làm cho thử nghiệm không bình thường trở nên quan trọng.


Xin lỗi, tôi nhận ra rằng tôi đã liên kết với một bài đăng mà bạn đã đề cập trong câu hỏi ban đầu của bạn. Mặc dù vậy, kết luận của tôi vẫn đứng vững: Dữ liệu của bạn không quá bình thường đến nỗi gây ra vấn đề.


Chỉ vì một số người tìm kiếm rất cẩu thả không có nghĩa là bạn có thể hơi cẩu thả :). Tuy nhiên, tôi đồng ý với nhiều thử nghiệm thống kê chính thức giả định tính bình thường thực sự khá khoan dung với những gì bạn cho ăn
P.Windridge

2
"Chỉ vì một số người tìm kiếm rất cẩu thả không có nghĩa là bạn có thể hơi cẩu thả :)" Điểm công bằng; đó là một lập luận xấu về phía tôi. "Tuy nhiên, tôi đồng ý với nhiều thử nghiệm thống kê chính thức giả định tính bình thường thực sự khá khoan dung với những gì bạn cho chúng ăn." Vâng, thực sự. Bất kỳ giáo sư định lượng nào tôi từng xem xét các lô QQ như thế này và nói, "Vâng, không sao đâu."
Đánh dấu trắng

4

Phân phối của bạn không bình thường. Nhìn vào đuôi (hoặc thiếu nó). Dưới đây là những gì bạn mong đợi từ một cốt truyện QQ bình thường.

nhập mô tả hình ảnh ở đây

Tham khảo điều này bài viết về cách diễn giải các lô QQ khác nhau.

Hãy nhớ rằng trong khi phân phối có thể không bình thường về mặt kỹ thuật, nó có thể đủ bình thường để đủ điều kiện cho các thuật toán yêu cầu sự bình thường.


1
Bạn đang nói về điều gì, tôi đã chạy 9 mẫu biểu mẫu qq bình thường trực tiếp tạo thành một bản phân phối bình thường bằng cách sử dụng mã set.seed (100) par (mfrow = c (3,3)) cho (i trong 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} và cốt truyện (3,2) trông rất giống với tình huống của OP.
Josh

1
Thông thường, bạn không muốn tập trung vào đuôi vì chúng thường kỳ lạ, mặc dù đuôi cực kỳ xấu sẽ cho bạn kết quả kém. Bạn thực sự muốn tập trung vào giữa.
Josh

bạn không đúng Josh. vui lòng kháng cáo một bài kiểm tra bình thường để kiểm tra xem giả thuyết khống về sự bình thường có bị bác bỏ không.
khắc phục

1
Bạn đúng. Ban đầu tôi đọc bài viết của bạn vì các lô qq không đủ bình thường và tôi xin lỗi.
Josh

2
@Josh, giữa phân phối hầu như không quan trọng đối với các bài kiểm tra giả thuyết; Đó là cái đuôi quan trọng. Bạn có điều đó ngược.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.