Những thử nghiệm nào tôi sử dụng để xác nhận rằng phần dư được phân phối bình thường?


20

Tôi có một số dữ liệu nhìn từ biểu đồ của phần dư so với thời gian gần như bình thường nhưng tôi muốn chắc chắn. Làm thế nào tôi có thể kiểm tra tính bình thường của phần dư lỗi?


3
Liên quan chặt chẽ: thích hợp-quy tắc-kiểm tra-cho mẫu nhỏ . Dưới đây là một vài câu hỏi khác có thể quan tâm: is-Normality-tests-về cơ bản là vô dụng , để thảo luận về giá trị của kiểm tra tính chuẩn, & what-if-Residuals-are-normal-phân phối-but-y-is- không , đối với một cuộc thảo luận / làm rõ ý nghĩa trong đó tính quy phạm là một giả định của mô hình tuyến tính.
gung - Phục hồi Monica

Có thể thấy một sai lầm rất phổ biến về ý chính của bài kiểm tra Shapiro Wilk! Ý nghĩa chính xác có lợi cho H0 là, H0 không thể bị từ chối, nhưng HÃY THỬ! Nó không tự động có nghĩa là "dữ liệu được phân phối bình thường" !!! Kết quả thay thế là "Dữ liệu thường không được phân phối".
Joe Hallenbeck

Câu trả lời:


28
  1. Không có bài kiểm tra nào sẽ cho bạn biết số dư của bạn thường được phân phối. Trong thực tế, bạn có thể đặt cược một cách đáng tin cậy rằng họ không .

  2. Các thử nghiệm giả thuyết thường không phải là một ý tưởng tốt khi kiểm tra các giả định của bạn. Ảnh hưởng của tính không quy tắc đến suy luận của bạn nói chung không phải là một hàm của cỡ mẫu *, nhưng kết quả của một bài kiểm tra quan trọng . Một sai lệch nhỏ so với tính quy tắc sẽ rõ ràng ở cỡ mẫu lớn mặc dù câu trả lời cho câu hỏi về lợi ích thực tế ('đến mức độ nào điều này đã ảnh hưởng đến suy luận của tôi?') Có thể 'hầu như không'. Tương ứng, độ lệch lớn so với tính chuẩn ở cỡ mẫu nhỏ có thể không đạt được ý nghĩa.

    * (được thêm vào trong chỉnh sửa) - thực sự đó là một tuyên bố quá yếu. Tác động của tính phi quy tắc thực sự giảm theo kích thước mẫu bất cứ khi nào định lý của CLT và Slutsky sẽ được duy trì, trong khi khả năng từ chối tính quy tắc (và có lẽ là tránh các quy trình lý thuyết thông thường) tăng theo kích thước mẫu ... bạn hầu như có thể xác định tính phi quy tắc có xu hướng khi nó không thành vấn đề dù sao ... và thử nghiệm không giúp ích gì khi nó thực sự quan trọng, trong các mẫu nhỏ.

    tốt, ít nhất là đến mức ý nghĩa đi. Công suất vẫn có thể là một vấn đề mặc dù nếu chúng ta đang xem xét các mẫu lớn như ở đây, thì đó cũng có thể là một vấn đề ít hơn.

  3. Những gì đến gần hơn để đo kích thước hiệu ứng là một số chẩn đoán (có thể là hiển thị hoặc thống kê) đo lường mức độ không bình thường theo một cách nào đó. Biểu đồ QQ là một màn hình hiển thị rõ ràng và một biểu đồ QQ từ cùng một dân số ở một cỡ mẫu và ở một cỡ mẫu khác nhau ít nhất là cả hai ước tính ồn ào của cùng một đường cong - hiển thị gần như 'không bình thường'; ít nhất nó phải liên quan đơn điệu đến câu trả lời mong muốn cho câu hỏi quan tâm.

Nếu bạn phải sử dụng một bài kiểm tra, Shapiro-Wilk có thể cũng tốt như mọi thứ khác (bài kiểm tra Chen-Shapiro thường tốt hơn một chút so với các lựa chọn thay thế của mối quan tâm chung, nhưng khó tìm ra cách triển khai hơn) - nhưng nó trả lời một câu hỏi cho bạn đã biết câu trả lời cho; mỗi khi bạn không từ chối, nó sẽ đưa ra câu trả lời mà bạn có thể chắc chắn là sai.


4
+1 Glen_b vì bạn kiếm được nhiều điểm tốt. Tuy nhiên tôi sẽ không quá tiêu cực về việc sử dụng độ tốt của các bài kiểm tra phù hợp. Khi cỡ mẫu nhỏ hoặc vừa phải, thử nghiệm sẽ không có đủ năng lượng để phát hiện các lần khởi hành nhẹ từ phân phối bình thường. Sự khác biệt rất lớn có thể dẫn đến giá trị p rất nhỏ (ví dụ 0,0001 hoặc thấp hơn). Đây có thể là những chỉ dẫn chính thức hơn so với quan sát trực quan của một âm mưu qq nhưng vẫn rất hữu ích. Người ta cũng có thể nhìn vào các ước tính về độ lệch và kurtosis. Đó là trong các mẫu rất lớn rằng sự tốt của các bài kiểm tra phù hợp là có vấn đề.
Michael R. Chernick

4
Trong những trường hợp khởi hành nhỏ sẽ được phát hiện. Chừng nào nhà phân tích nhận ra rằng trong thực tế, sự phân bố dân số sẽ không hoàn toàn bình thường và việc từ chối hpyothesis null chỉ nói với anh ta rằng sự phân phối của anh ta hơi bất thường, anh ta sẽ không đi lạc. Sau đó, điều tra viên nên tự đánh giá xem liệu giả định về tính quy phạm có phải là mối quan tâm hay không với sự ra đi nhẹ mà xét nghiệm phát hiện. Shapiro-Wilk thực sự là một trong những thử nghiệm mạnh mẽ hơn chống lại giả thuyết về tính quy tắc.
Michael R. Chernick

+1, tôi đặc biệt thích điểm # 2; Dọc theo những dòng đó, điều đáng chú ý là ngay cả khi xiên hoặc kurtosis khá tệ, với N thực sự lớn, Định lý giới hạn trung tâm sẽ bao trùm bạn, vì vậy đó là lúc bạn cần ít sự bình thường nhất.
gung - Tái lập Monica

3
@gung có một số trường hợp khi một xấp xỉ tốt với tính quy tắc sẽ có vấn đề. Ví dụ: khi xây dựng các khoảng dự đoán bằng các giả định thông thường. Nhưng tôi vẫn sẽ dựa nhiều vào chẩn đoán (một nghiên cứu cho thấy mức độ không bình thường) so với xét nghiệm
Glen_b -Reinstate Monica

Quan điểm của bạn về khoảng dự đoán là một điều tốt.
gung - Phục hồi Monica

8

Thử nghiệm Shapiro-Wilk là một khả năng.

Thử nghiệm Shapiro-Wilk

Thử nghiệm này được thực hiện trong hầu hết các gói phần mềm thống kê. Giả thuyết null là phần dư được phân phối bình thường, do đó giá trị p nhỏ cho biết bạn nên từ chối null và kết luận phần dư không được phân phối bình thường.

Lưu ý rằng nếu kích thước mẫu của bạn lớn, bạn sẽ hầu như luôn từ chối, vì vậy trực quan của phần dư là quan trọng hơn.


Đó là "Wilk" chứ không phải "Wilks".
Michael R. Chernick

1

Từ wikipedia:

Các thử nghiệm về tính quy tắc đơn biến bao gồm thử nghiệm bình phương K của D'Agostino, thử nghiệm Jarque Muff Bera, thử nghiệm Andersonling Darling, tiêu chí Cramériêu von Mise, thử nghiệm Lilliefors cho tính quy phạm (bản thân nó là một thử nghiệm của Kolmogorov. Thử nghiệm Shapiro về Wilk, thử nghiệm chi bình phương của Pearson và thử nghiệm Shapiro mật Francia. Một bài báo năm 2011 từ Tạp chí Mô hình hóa và Phân tích thống kê [1] kết luận rằng Shapiro-Wilk có sức mạnh tốt nhất cho một ý nghĩa nhất định, theo sát bởi Anderson-Darling khi so sánh Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors và Anderson- Em yêu kiểm tra.


1
-1: Bạn có thể muốn bao gồm một liên kết đến trang Wikipedia, xóa chú thích ("[1]") và sử dụng chức năng blockquote.
Bernd Weiss

1
Sự cảnh báo mà Glen_b đưa ra là không cần thiết phải ghi nhớ bất cứ khi nào bất kỳ điều tốt đẹp nào của các bài kiểm tra phù hợp này được sử dụng. Tôi nghĩ rằng kết quả mà bạn thích về Shapiro-Wilk không phải là chung chung như bạn nghĩ. Tôi không tin rằng có một thử nghiệm mạnh mẽ nhất trên toàn cầu về tính bình thường.
Michael R. Chernick

2
n1

@GregSnow Tôi không có thời gian để xem xét kỹ lưỡng gói hàng của bạn và tôi có thể không đủ tinh thông với R để làm theo mọi thứ. Bạn đang nói rằng có một thử nghiệm mạnh mẽ nhất trên toàn cầu về tính quy phạm hay bạn đang nói rằng bạn cung cấp các ví dụ để hiển thị khi các thử nghiệm khác nhau mạnh nhất và do đó, một thử nghiệm toàn cầu không tồn tại. Tôi nghi ngờ rằng một người tồn tại và tôi không nghĩ Shapiro-Wilk sẽ là nó. Nếu bạn cho rằng một cái tồn tại, tôi muốn xem một bằng chứng toán học hoặc một tài liệu tham khảo cho một cái.
Michael R. Chernick

1
@MichaelCécick, yêu cầu của tôi là thử nghiệm của tôi sẽ có sức mạnh lớn hơn hoặc nhiều hơn (có khả năng bác bỏ giả thuyết khống về dữ liệu đến từ một thông thường chính xác) như bất kỳ thử nghiệm thông thường nào khác. Mã R không khó theo dõi, mã lõi để tính giá trị p là "tmp.p <- if (any (is.rational (x))) {0", bằng chứng về sức mạnh của nó phải rõ ràng ( Tôi chỉ tuyên bố rằng nó rất mạnh mẽ và tài liệu có thể hữu ích, chứ không phải bản thân bài kiểm tra là hữu ích, google cho "câu cách ngôn của Cochrane").
Greg Snow
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.