ANOVA giả định bình thường / phân phối bình thường của phần dư


52

Các trang Wikipedia trên ANOVA liệt kê ba giả định , cụ thể là:

  • Độc lập của các trường hợp - đây là một giả định của mô hình đơn giản hóa việc phân tích thống kê.
  • Bình thường - sự phân phối của phần dư là bình thường.
  • Bình đẳng (hay "đồng nhất") của phương sai, được gọi là đồng đẳng ...

Điểm quan tâm ở đây là giả định thứ hai. Một số nguồn liệt kê các giả định khác nhau. Một số người nói rằng sự bình thường của dữ liệu thô, một số yêu cầu của phần dư.

Một số câu hỏi bật lên:

  • là sự bình thường và phân phối bình thường của cùng một người (dựa trên mục nhập Wikipedia, tôi sẽ khẳng định tính bình thường là một tài sản và không liên quan trực tiếp đến phần dư (nhưng có thể là một tài sản của phần dư (văn bản được lồng sâu trong dấu ngoặc, kỳ dị))?
  • nếu không, giả định nào nên giữ? Một? Cả hai?
  • nếu giả định của phần dư được phân phối bình thường là đúng, liệu chúng ta có phạm sai lầm nghiêm trọng không bằng cách chỉ kiểm tra biểu đồ của các giá trị thô cho tính chuẩn?

Bạn có thể bỏ qua bất cứ điều gì khác mà những nguồn nói rằng nếu họ yêu cầu dữ liệu thô cần được phân phối bình thường. Và ai nói "chúng tôi" chỉ kiểm tra các giá trị thô bằng biểu đồ. Bạn có thuộc một trong sáu lớp Sigma đó không ???
DWin

1
@Andy W: Tôi vừa thêm một liên kết đến phần dường như là phần có liên quan của bài viết Wikipedia trên ANOVA.
vào

@DWin: blog.markanthonylawson.com/?p=296 (xin lỗi, hoàn toàn lạc đề nhưng không thể cưỡng lại)
onestop

@onestop cảm ơn bạn. Tôi chỉ yêu cầu liên kết vì tôi lười biếng và không muốn tự tìm kiếm ANOVA trên wikipedia chứ không phải vì nó cần thiết cho câu hỏi.
Andy W

Câu trả lời:


35

Giả sử đây là một mô hình hiệu ứng cố định . (Lời khuyên không thực sự thay đổi đối với các mô hình hiệu ứng ngẫu nhiên, nó chỉ phức tạp hơn một chút.)

  1. Không, sự bình thường và phân phối bình thường của phần dư không giống nhau . Giả sử bạn đo năng suất từ ​​một loại cây trồng có và không có phân bón. Trong các ô không có phân bón, năng suất dao động từ 70 đến 130. Trong hai ô có phân bón, năng suất dao động trong khoảng từ 470 đến 530. Sự phân bố kết quả rất bất thường: nó tập trung ở hai địa điểm liên quan đến việc bón phân. Giả sử hơn nữa năng suất trung bình là 100 và 500, tương ứng. Sau đó, tất cả các phần dư dao động từ -30 đến +30. Chúng có thể (hoặc có thể không) được phân phối bình thường, nhưng rõ ràng đây là một phân phối hoàn toàn khác.

  2. Sự phân phối của phần dư là vấn đề , bởi vì chúng phản ánh phần ngẫu nhiên của mô hình. Cũng lưu ý rằng các giá trị p được tính từ thống kê F (hoặc t) và các giá trị phụ thuộc vào phần dư, không phụ thuộc vào giá trị ban đầu.

  3. Nếu có những ảnh hưởng quan trọng và quan trọng trong dữ liệu (như trong ví dụ này), thì bạn có thể đang mắc một lỗi "nghiêm trọng" . May mắn thay, bạn có thể đưa ra quyết định chính xác: nghĩa là bằng cách nhìn vào dữ liệu thô, bạn sẽ thu được hỗn hợp phân phối và điều này có thể trông bình thường (hoặc không). Vấn đề là những gì bạn đang tìm kiếm không liên quan.

Phần dư ANOVA không cần phải ở gần mức bình thường để phù hợp với mô hình. Tuy nhiên, tính gần chuẩn của phần dư là điều cần thiết để giá trị p được tính từ phân phối F có ý nghĩa.


6
Tôi nghĩ có một số điểm quan trọng cần thêm: trong ANOVA, tính quy tắc trong mỗi nhóm (không phải tổng thể) tương đương với tính quy tắc của phần dư.
Aniko

2
@Aniko Bạn có thể vui lòng giải thích ý nghĩa của từ "tương đương" trong bình luận của bạn không? Hầu như tautological rằng tính quy phạm trong một nhóm cũng giống như tính quy tắc của phần dư của nhóm đó, nhưng sai là tính quy phạm riêng biệt trong mỗi nhóm ngụ ý (hoặc được ngụ ý bởi) tính quy phạm của phần dư.
whuber

7
Tôi thực sự có nghĩa là ý nghĩa tautological: nếu các nhóm là bình thường thì phần dư là bình thường. Điều ngược lại chỉ đúng nếu tính đồng nhất được thêm vào (như trong ANOVA). Tôi không có ý ủng hộ việc kiểm tra các nhóm thay vì phần dư, nhưng tôi nghĩ đây là lý do cơ bản cho các giai đoạn khác nhau của các giả định.
Aniko

2
Tôi đã nhận thấy rằng những người thực hiện ANOVA thường có vẻ quan tâm đến việc tính toán các giá trị p, và do đó tính quy tắc của phần dư là quan trọng đối với họ. Có bất kỳ lý do phổ biến nào để phù hợp với mô hình ANOVA không nếu chúng ta không quan tâm đến việc tính toán giá trị p từ phân phối F? Xin lỗi nếu câu hỏi này quá rộng cho một bình luận.
user1205901 - Phục hồi Monica

3
@ user1205901 Đó là một điểm rất tốt. Hai cách sử dụng phổ biến của ANOVA không dựa trên thử nghiệm F là (1) đó là một cách thuận tiện để có được ước tính hiệu ứng và (2) đó là một phần và phần của một thành phần tính toán phương sai.
whuber

8

ANOVA một chiều cổ điển tiêu chuẩn có thể được xem như một phần mở rộng của "thử nghiệm T 2 mẫu" cổ điển thành "thử nghiệm T mẫu n". Điều này có thể được nhìn thấy từ việc so sánh ANOVA một chiều chỉ với hai nhóm với thử nghiệm T 2 mẫu cổ điển.

Tôi nghĩ rằng nơi bạn đang nhận được nhầm lẫn là (theo các giả định của mô hình) phần dư và dữ liệu thô được phân phối thường. Tuy nhiên, dữ liệu thô bao gồm các phân phối bình thường với các phương tiện khác nhau (trừ khi tất cả các hiệu ứng hoàn toàn giống nhau) nhưng cùng một phương sai. Mặt khác, phần còn lại có cùng phân phối bình thường . Điều này xuất phát từ giả định thứ ba về tính đồng nhất.

Yijμjσ2Yij=μj+σϵijϵij

ϵij

Yij


1
+1 để chỉ ra (trong đoạn cuối) giả định về tính đồng nhất.
whuber

Có nghĩa là nếu chúng ta đã nói n nhóm phụ thuộc để so sánh, chúng ta cần kiểm tra riêng phần dư của chúng (kết quả là n nhóm dư)?
stan

5

pnjF=SSb/dfbSSw/dfw

SSb=j=1pnj(MMj)2

SSw=j=1pi=1nj(yijMj)2

FFSSb/dfbSSw/dfwχ2dfbdfwSSbSSw0MMjyijMj

yi(j)MjY=μj+ϵ=μ+αj+ϵyi(j)MY=μ+ϵMMj

H0Myi(j)MjMMj


2
SSχ2Mj= =MjyTôij-MjMj-M

@onestop Đã chỉnh sửa để phản ánh sự làm rõ của bạn, cảm ơn!
caracal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.