Điều tồi tệ nhất có thể xảy ra khi giả định homoscedasticity bị vi phạm trong ANOVA là gì?


8

Đây là câu hỏi tiếp theo tôi có sau khi xem bài đăng này: Sự khác biệt về phương tiện kiểm tra thống kê đối với dữ liệu không bình thường, không đồng nhất?

Để rõ ràng, tôi đang hỏi từ góc độ thực dụng (không cho rằng các phản ứng lý thuyết không được hoan nghênh). Khi sự bình thường giữa các nhóm mặt (khác với tiêu đề của câu hỏi được đề cập ở trên), nhưng phương sai của nhóm là khác nhau đáng kể, điều tồi tệ nhất mà một nhà nghiên cứu có thể quan sát là gì?

Theo kinh nghiệm của tôi, vấn đề phát sinh nhiều nhất với kịch bản này là các mẫu "lạ" trong các so sánh sau hoc . (. Điều này đã được quan sát cả trong công việc xuất bản của tôi, mà còn trong môi trường sư phạm ... rất vui khi được cung cấp chi tiết về điều này trong các ý kiến dưới đây) Những gì tôi đã quan sát là một cái gì đó tương tự như thế này: Bạn có ba nhóm với . ANOVA (omnibus) cho và các test cặp cho thấy khác biệt đáng kể về mặt thống kê so với hai nhóm khác ... nhưng vàM1<M2<M3p<αtM2M1M3không có ý nghĩa thống kê khác nhau. Một phần câu hỏi của tôi là nếu đây là những gì người khác đã quan sát, nhưng ngoài ra, những vấn đề khác bạn đã quan sát với các kịch bản so sánh là gì?

Một đánh giá nhanh về các văn bản tham khảo của tôi cho thấy ANOVA khá mạnh mẽ đến mức vi phạm nhẹ đến trung bình đối với giả định đồng đẳng, và thậm chí còn hơn thế với các cỡ mẫu lớn. Tuy nhiên, các tài liệu tham khảo này không nêu cụ thể (1) những gì có thể sai hoặc (2) những gì có thể xảy ra với một số lượng lớn các nhóm.


1
không chắc chắn tại sao liên kết đến câu hỏi ban đầu không hiển thị (chỉ hiển thị dưới dạng văn bản thuần túy) ... ngoài ra, trong câu hỏi khác, tiêu đề nói "không bình thường", nhưng cuộc thảo luận là về dữ liệu bình thường
Gregg H

Đó là bởi vì bạn đã bao gồm HTML trong câu hỏi của bạn. Chỉ cần sử dụng các tùy chọn định dạng được trình bày trong thanh công cụ định dạng - nó sẽ định dạng mọi thứ chính xác.
Sycorax nói Phục hồi Monica

2
Bạn nhận được asupernova
dùng541686

Câu trả lời:


5

So sánh nhóm các phương tiện dựa trên mô hình tuyến tính nói chung thường được cho là nói chung là mạnh mẽ đối với các vi phạm về tính đồng nhất của giả định phương sai. Tuy nhiên, có một số điều kiện nhất định trong đó điều này chắc chắn không phải là trường hợp và một điều kiện tương đối đơn giản là tình huống đồng nhất của giả định phương sai bị vi phạm bạn có sự chênh lệch về quy mô nhóm. Sự kết hợp này có thể làm tăng tỷ lệ lỗi Loại I hoặc Loại II của bạn, tùy thuộc vào sự phân phối chênh lệch theo phương sai và kích thước mẫu giữa các nhóm .

pptpp

nSims <- 10000
h0 <-numeric(nSims)

for(i in 1:nSims){ 
x<-rnorm(n = 200, mean = 0, sd = 1) 
y<-rnorm(n = 200, mean = 0, sd = 1)  
z<-t.test(x,y, var.equal = T) 
h0[i]<-z$p.value 
}

hist(h0, main="Histogram of p-values [H0 = T, HoV = T, Cell.Eq = T]", xlab=("Observed p-value"), breaks=100)

nhập mô tả hình ảnh ở đây

p

nhập mô tả hình ảnh ở đây

Vẫn đồng phục khá đẹp. Nhưng khi chúng tôi kết hợp vi phạm tính đồng nhất của giả định phương sai với chênh lệch về kích thước nhóm (hiện giảm kích thước mẫu của nhóm x xuống còn 20), chúng tôi gặp phải vấn đề lớn. nhập mô tả hình ảnh ở đây

Sự kết hợp của độ lệch chuẩn lớn hơn trong một nhóm và kích thước nhóm nhỏ hơn trong nhóm kia tạo ra lạm phát khá lớn trong tỷ lệ lỗi Loại I của chúng tôi. Nhưng sự khác biệt trong cả hai cũng có thể làm việc theo cách khác. Thay vào đó, nếu chúng ta chỉ định một quần thể trong đó null là sai (giá trị trung bình của nhóm x là .4 thay vì 0) và một nhóm (trong trường hợp này, nhóm y ) có độ lệch chuẩn lớn hơn và kích thước mẫu lớn hơn, sau đó chúng ta thực sự có thể làm tổn thương sức mạnh của mình để phát hiện ra một hiệu ứng thực sự:

nhập mô tả hình ảnh ở đây

Vì vậy, tóm lại, tính đồng nhất của phương sai không phải là vấn đề lớn khi kích thước nhóm tương đối bằng nhau, nhưng khi kích thước nhóm không bằng nhau (vì chúng có thể nằm trong nhiều lĩnh vực nghiên cứu gần đúng), tính đồng nhất của phương sai có thể thực sự làm tăng loại I của bạn hoặc tỷ lệ lỗi II.


4

Gregg, bạn có nghĩa là cho dữ liệu bình thường, không đồng nhất? Đoạn thứ hai của bạn dường như đề nghị như vậy.

Tôi đã thêm một câu trả lời cho bài đăng gốc mà bạn tham khảo, trong đó tôi đề nghị rằng nếu dữ liệu là bình thường nhưng không đồng nhất, sử dụng bình phương tối thiểu tổng quát cung cấp cách tiếp cận linh hoạt nhất để xử lý các tính năng dữ liệu bạn đề cập. Không hạch toán rõ ràng cho các tính năng đó sẽ dẫn đến kết quả không tối ưu và có thể gây hiểu lầm, như bạn nhận thấy trong thực tiễn của riêng bạn. Làm thế nào tối ưu hoặc sai lệch kết quả có thể cuối cùng sẽ phụ thuộc vào đặc thù của từng bộ dữ liệu.

Một cách hay để hiểu điều này sẽ là thiết lập một nghiên cứu mô phỏng trong đó bạn có thể thay đổi hai yếu tố: số lượng nhóm và mức độ thay đổi giữa các nhóm. Sau đó, bạn có thể theo dõi tác động của các yếu tố này đến kết quả kiểm tra sự khác biệt giữa bất kỳ phương tiện nào và kết quả so sánh sau hoc giữa các cặp phương tiện khi bạn sử dụng ANOVA tiêu chuẩn (bỏ qua sự không đồng nhất) so với gls (chiếm tính không đồng nhất).

Có lẽ bạn có thể bắt đầu bài tập mô phỏng của mình bằng một ví dụ đơn giản chỉ với 3 nhóm, trong đó bạn giữ độ biến thiên của hai nhóm đầu giống nhau nhưng thay đổi độ biến thiên của nhóm thứ ba theo hệ số f khi f trở nên ngày càng lớn. Điều này sẽ cho phép bạn xem nếu và khi nào nhóm thứ ba đó bắt đầu thống trị kết quả. (Để đơn giản, sự khác biệt về giá trị kết quả trung bình giữa mỗi nhóm trong số ba nhóm có thể được giữ nguyên, mặc dù bạn có thể nhìn xem mức độ khác biệt phổ biến đóng vai trò như thế nào với độ lớn của biến thiên trong nhóm thứ ba.)

Tôi nghĩ rằng thật khó để đưa ra một đánh giá chung về chính xác những gì có thể sai khi bỏ qua tính không đồng nhất, ngoài việc cảnh báo mọi người rằng bỏ qua tính không đồng nhất là không phù hợp khi phương pháp tốt hơn để xử lý nó tồn tại.


vâng, kịch bản ở đây có nghĩa là chỉ tham khảo các hành vi vi phạm giả định homoscedastic
Gregg H

Vâng, bài viết gốc đó là một chút khó hiểu, vì nó đề cập đến tính phi quy tắc của dữ liệu trong tiêu đề của nó nhưng tính quy tắc trong câu hỏi thực tế. Cảm ơn bạn đã làm rõ!
Isabella Ghement 24/03/18

3

12πσ[(r1-μ1)2+(r2-μ2)2+σ2]32,

cảm ơn vì điều này, mặc dù kịch bản cụ thể mà tôi quan tâm ở đây là bình thường nhưng không đồng nhất (xin lỗi về sự nhầm lẫn từ liên kết đến câu hỏi trước đó)
Gregg H
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.