ANOVA: kiểm tra giả định về tính quy tắc cho nhiều nhóm với vài mẫu trên mỗi nhóm


12

Giả sử tình huống sau:

chúng tôi có một số lượng lớn (ví dụ 20) với kích thước nhóm nhỏ (ví dụ n = 3). Tôi nhận thấy rằng nếu tôi tạo các giá trị từ phân phối đồng đều, phần dư sẽ trông xấp xỉ bình thường mặc dù phân phối lỗi là đồng nhất. Mã R sau đây thể hiện hành vi này:

n.group = 200
n.per.group = 3

x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)

Nếu tôi nhìn vào phần dư của một mẫu trong một nhóm ba, lý do cho hành vi là rõ ràng:

r1= =x1-nghĩa là(x1,x2,x3)= =x1-x1+x2+x33= =23x1-x2-x3.

nhập mô tả hình ảnh ở đây

là tổng của các biến ngẫu nhiên có độ lệch chuẩn không khác nhau, nên phân phối của nó khá gần với phân phối chuẩn hơn các thuật ngữ riêng lẻ.r1

Bây giờ giả sử tôi có tình huống tương tự với dữ liệu thực thay vì dữ liệu mô phỏng. Tôi muốn đánh giá xem các giả định ANOVA liên quan đến tính bình thường có được hay không. Hầu hết các quy trình được đề nghị đề nghị kiểm tra trực quan các phần dư (ví dụ: QQ-Plot) hoặc kiểm tra tính quy tắc trên các phần dư. Như ví dụ của tôi ở trên, điều này không thực sự tối ưu cho kích thước nhóm nhỏ.

Có cách nào khác tốt hơn khi tôi có nhiều nhóm kích cỡ nhỏ không?


1
Vì nhiều lý do, có vẻ như đây không phải là vấn đề. Đầu tiên, phần dư của bạn sẽ xuất hiện thống nhất: nhìn vào biểu đồ cho một số lượng lớn các nhóm để thấy điều này. Thứ hai, tính quy phạm của phần dư ít quan trọng đối với hầu hết các phân tích; điều quan trọng là tính quy phạm gần đúng của phân phối mẫu. Sau đó, khía cạnh đặc biệt nào của ứng dụng của bạn khiến bạn cho rằng có bất kỳ vấn đề thực sự nào?
whuber

1
a) phần dư của tôi sẽ không xuất hiện thống nhất. Tôi đã thử nghiệm điều này cho một số nhóm (không phải mẫu cho mỗi nhóm) từ 20 đến 20000. Tôi đã đính kèm một ví dụ cho câu hỏi; nó xuất hiện như một cái gì đó giữa đồng phục và bình thường, với xu hướng khác biệt so với bình thường. b) Tôi biết rằng đó là về tính quy phạm gần đúng của phân phối mẫu. Đây là toàn bộ điểm của câu hỏi vì phần dư sẽ trông bình thường, nhưng phân phối lấy mẫu thì không. Vì vậy, tôi không thể sử dụng phần dư để kiểm tra các thuộc tính của phân phối lấy mẫu.
Erik

2
Đúng rồi. Nhưng bạn có thực sự quan tâm đến việc phân phối các lỗi hay bạn quan tâm đến việc thực hiện ANOVA? (Tôi không cố gắng ám chỉ câu hỏi nên bỏ qua - đó là một vấn đề hấp dẫn bạn đã nêu ra - nhưng tôi chỉ tự hỏi liệu bạn có thực sự cần câu trả lời để tiến hành phân tích dữ liệu của mình không.)
whuber

3
Nhưng bạn có thể sử dụng các mô phỏng tương tự để điều tra sự mạnh mẽ của ANOVA trong trường hợp của bạn!
kjetil b halvorsen

4
Một nhận xét hơi tiếp tuyến nhưng có liên quan: Nói chung, sử dụng một thử nghiệm cho tính quy tắc (hoặc giả định mô hình khác) trước khi thực hiện kiểm tra giả thuyết trình bày (ít nhất) ba vấn đề: 1) Nếu bạn làm điều đó, bạn cần tính đến nhiều thử nghiệm; 2) Từ chối giả thuyết thay thế, ví dụ: "không bình thường" không có nghĩa là bạn có thể kết luận tính quy phạm; 3) Các thử nghiệm cho các giả định mô hình có các giả định mô hình riêng, vậy bạn dừng ở đâu?
Martha

Câu trả lời:


1

một<bmột+b2σ(một,b)σ<mộtσ>bSD<σn>100

Bây giờ, thay vì giơ tay lên trong thất vọng, chúng ta có thể áp dụng hiệu chỉnh số nhỏ cho SD của mình trong điều kiện bình thường. (Ha! Có một giải pháp cho sự khốn khổ của chúng ta.)

SD(n)μ(n)= =2n-1Γ(n2)Γ(n-12)= =1-14n-732n2-19128n3+Ôi(n-4)E[μ]

n= =3Γ(32)= =π20.8862269255σ

Bây giờ trong trường hợp bạn trình bày, bạn có một số điều khác đang diễn ra là tốt. Khi nó xảy ra, thước đo tốt nhất về vị trí của phân phối đồng đều không phải là giá trị trung bình. Mặc dù cả trung bình mẫu và trung bình mẫu đều là các ước lượng không thiên vị của trung điểm, nhưng không hiệu quả như trung bình mẫu, nghĩa là trung bình số học của tối đa mẫu và tối thiểu mẫu, là ước lượng không thiên vị tối thiểu UMVU ước tính của điểm giữa (và cũng là ước tính khả năng tối đa).

Bây giờ đến thịt của vấn đề. Nếu bạn sử dụng trung bình của các giá trị cực trị, phương sai của thước đo vị trí sẽ nhỏ hơn, miễn là dữ liệu của bạn được phân phối thực sự thống nhất. Nó có thể được phân phối bình thường vì một đuôi giá trị cực trị có thể là bình thường. Tuy nhiên, chỉ với 3 mẫu, độ lệch chuẩn sẽ cần hiệu chỉnh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.