Mối quan hệ giữa thử nghiệm omnibus và so sánh nhiều?


8

Wikipedia nói

Các phương pháp dựa trên thử nghiệm omnibus trước khi tiến hành nhiều so sánh . Thông thường, các phương pháp này yêu cầu thử nghiệm phạm vi ANOVA / Tukey đáng kể trước khi tiến hành nhiều so sánh. Các phương thức này có kiểm soát "yếu" lỗi Loại I.

Cũng thế

Thử nghiệm F trong ANOVA là một ví dụ về thử nghiệm omnibus, thử nghiệm tầm quan trọng tổng thể của mô hình. Thử nghiệm F đáng kể có nghĩa là trong số các phương tiện được thử nghiệm, ít nhất hai trong số các phương tiện khác nhau đáng kể, nhưng kết quả này không xác định chính xác phương tiện nào khác với phương tiện khác. Trên thực tế, kiểm tra có nghĩa là 'sự khác biệt đã được thực hiện bởi thống kê F hợp lý bậc hai (F = MSB / MSW). Để xác định nghĩa trung bình nào khác với trung bình khác hoặc độ tương phản của phương tiện khác nhau đáng kể, các bài kiểm tra Post Hoc (Nhiều bài kiểm tra so sánh) hoặc các bài kiểm tra theo kế hoạch nên được tiến hành sau khi có được bài kiểm tra F omnibus F đáng kể. Có thể cân nhắc sử dụng hiệu chỉnh Bonferroni đơn giản hoặc hiệu chỉnh phù hợp khác.

Vì vậy, một thử nghiệm omnibus được sử dụng để kiểm tra tầm quan trọng tổng thể, trong khi nhiều so sánh là để tìm ra sự khác biệt nào là đáng kể.

Nhưng nếu tôi hiểu chính xác, mục đích chính của so sánh nhiều là để kiểm tra ý nghĩa tổng thể, và nó cũng có thể tìm thấy sự khác biệt nào là đáng kể. Nói cách khác, nhiều so sánh có thể làm những gì một loài ăn tạp có thể làm. Vậy thì tại sao chúng ta cần một bài kiểm tra omnibus?

Câu trả lời:


7

Mục đích của nhiều thủ tục so sánh không phải là để kiểm tra tầm quan trọng tổng thể, mà là để kiểm tra các hiệu ứng riêng lẻ có ý nghĩa trong khi kiểm soát tỷ lệ lỗi thử nghiệm. Ví dụ, một bài kiểm tra F omnibus có thể có ý nghĩa ở một mức độ nhất định trong khi không có bài kiểm tra Tukey cặp nào được đề cập ở đây & tại đây .

Hãy xem xét một ví dụ rất đơn giản: kiểm tra xem hai biến thiên bình thường độc lập với phương sai đơn vị đều có nghĩa là 0 hay không, do đó

H0:μ1= =0μ2= =0
H1:μ10μ20

Kiểm tra # 1: từ chối khi

X12+X22Fχ22-1(1-α)

Bài kiểm tra số 2: từ chối khi

|X1||X2|FN-1(1-1-1-α2)

(sử dụng hiệu chỉnh Sidak để duy trì kích thước tổng thể). Cả hai thử nghiệm có cùng kích thước ( ) nhưng các vùng loại bỏ khác nhau:α

Âm mưu của các khu vực từ chối

Thử nghiệm # 1 là một thử nghiệm omnibus điển hình: mạnh hơn Thử nghiệm # 2 khi cả hai hiệu ứng đều lớn nhưng không quá lớn. Thử nghiệm # 2 là thử nghiệm so sánh nhiều điển hình: mạnh hơn Thử nghiệm số 1 khi hiệu ứng lớn và nhỏ khác, và cũng cho phép thử nghiệm độc lập các thành phần riêng lẻ của null toàn cầu.

Vì vậy, hai quy trình kiểm tra hợp lệ kiểm soát tỷ lệ lỗi thử nghiệm tại là:α

(1) Thực hiện Kiểm tra số 1 và (a) không từ chối null toàn cầu hoặc (b) từ chối null toàn cầu, sau đó (& chỉ trong trường hợp này) thực hiện Kiểm tra # 2 và (i) từ chối cả hai thành phần, (ii) từ chối thành phần đầu tiên, (ii) từ chối thành phần thứ hai hoặc (iv) từ chối cả hai thành phần.

(2) Chỉ thực hiện Kiểm tra số 2 và (a) từ chối không thành phần nào (do đó không từ chối null toàn cầu), (b) từ chối thành phần đầu tiên (do đó cũng từ chối null toàn cầu), (c) từ chối thành phần thứ hai ( do đó cũng từ chối null toàn cầu) hoặc (d) từ chối cả hai thành phần (do đó cũng từ chối null toàn cầu).

Bạn không thể có bánh của mình và ăn nó bằng cách thực hiện Bài kiểm tra số 1 và không từ chối null toàn cầu, nhưng vẫn tiếp tục thực hiện Bài kiểm tra số 2: tỷ lệ lỗi Loại I lớn hơn cho quy trình này.α


Cảm ơn! (1) Không phải là null toàn cầu bị từ chối nếu và chỉ khi có ít nhất một null cá nhân bị từ chối? Vì vậy, nhiều thủ tục so sánh có thể kiểm tra null toàn cầu, tức là tầm quan trọng tổng thể? (2) "nhưng chỉ để kiểm tra các hiệu ứng riêng lẻ có ý nghĩa trong khi kiểm soát tỷ lệ lỗi thử nghiệm", bạn có nghĩa là nhiều quy trình so sánh có thể xác định null nào bị từ chối khi null toàn cầu bị từ chối không?
Tim

2
(1) Điều đó đúng nếu bạn gạch bỏ 'và chỉ khi'. Poirot có thể chắc chắn rằng có một kẻ giết người trên tàu Orient Express mà không chắc chắn đó là ai. (Nhưng tôi nên xóa ' chỉ ' khỏi câu trả lời của mình) (2) Có.
Scortchi - Phục hồi Monica

Cảm ơn! Trong (1), "nếu bạn gạch bỏ 'và chỉ khi'", bạn có nghĩa là có thể sử dụng nhiều quy trình so sánh để kiểm tra null toàn cầu, nhưng nó gây ra nhiều lỗi âm tính giả hơn so với thử nghiệm omnibus?
Tim

Tỷ lệ lỗi âm tính phụ thuộc vào cách null là sai. Xem ví dụ tôi đã thêm.
Scortchi - Phục hồi Monica

1

2mHTôi0

Một thử nghiệm omnibus thường là một tên để kiểm tra giả thuyết null toàn cầu. Một yêu cầu tối thiểu của một quy trình thử nghiệm, là kiểm soát lỗi theo null toàn cầu. Điều này được gọi là kiểm soát "FWER yếu". Nhưng có lẽ bạn sẽ không dừng lại ở đó - với mục đích suy luận về các giả thuyết cụ thể, bạn sẽ muốn một thủ tục cung cấp kiểm soát FWER dưới bất kỳ sự kết hợp nào của null thực sự. Điều này được gọi là kiểm soát "FWER mạnh".


2mkk(k-1)/2k

Tôi nghĩ điều JohnRos muốn nói là có 2 ^ m khả năng kết hợp các giả thuyết null đúng / sai. Ví dụ: nếu có 3 giả thuyết null và mỗi giả thuyết có thể đúng (T) hoặc sai (F), thì có 2 ^ 3 = 8 tình huống có thể xảy ra: TTT, TTF, TFT, TFF, FTT, FTF, FFT, FFF . Làm thế nào điều đó có liên quan Tôi không chắc chắn, vì đối với nhiều so sánh, chúng tôi quan tâm đến số lượng thử nghiệm (là 3), chứ không phải số lượng kết hợp duy nhất của Ts và Fs.
Bonferroni

1

Ngoài các tính toán liên quan đến các bài kiểm tra Pair-Wise, còn có một lý do khác tại sao ANOVA được sử dụng thay vì thực hiện tất cả các bài kiểm tra PAIR-WISE.

Đôi khi, có thể trong khi ANOVA bác bỏ giả thuyết khống rằng tất cả các phương tiện dân số đều giống nhau ở một mức độ tin cậy nào đó, nhưng nếu bạn thực hiện tất cả các bài kiểm tra theo cặp (nói LSD), bạn có thể không tìm thấy dù chỉ một ít phương tiện vượt quá sự khác biệt ở mức độ tự tin đó.

Bằng chứng toán học cho tuyên bố trên, xem xét các bài kiểm tra theo cặp LSD của FISHER

nhập mô tả hình ảnh ở đâySp

NN(N-1)/2

N(N-1)/2

(N-1)

N/2

Vì vậy, ngay cả khi tất cả các thử nghiệm LSD cặp đôi cùng nhau không thể từ chối các giả thuyết null, vẫn có khả năng ANOVA có thể từ chối các giả thuyết null.

Do đó, ANOVA chứa nhiều thông tin hơn trong tất cả các thử nghiệm khôn ngoan được xem xét cùng nhau.

PS: Xin lỗi vì đã sử dụng hình ảnh thay vì gõ các phương trình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.