Khi nào cần sửa giá trị p trong nhiều so sánh?


11

Tôi sợ rằng những câu hỏi liên quan đã không trả lời tôi. Chúng tôi đánh giá hiệu suất của> 2 phân loại (học máy). Giả thuyết Null của chúng tôi là các màn trình diễn không khác nhau. Chúng tôi thực hiện các xét nghiệm tham số (ANOVA) và không tham số (Friedman) để đánh giá giả thuyết này. Nếu chúng quan trọng, chúng tôi muốn tìm hiểu phân loại nào khác nhau trong một nhiệm vụ hậu hoc.

Câu hỏi của tôi có hai mặt:

1) Việc hiệu chỉnh giá trị p sau khi thử nghiệm so sánh nhiều có cần thiết không? Trang Wikipedia tiếng Đức trên "Alphafehler Kumulierung" nói rằng vấn đề chỉ xảy ra nếu nhiều giả thuyết được kiểm tra trên cùng một dữ liệu. Khi so sánh các phân loại (1,2), (1,3), (2,3), dữ liệu chỉ trùng lặp một phần. Nó vẫn được yêu cầu để sửa các giá trị p?

2) Hiệu chỉnh giá trị P thường được sử dụng sau khi thử nghiệm cặp đôi với thử nghiệm t. Có phải cũng cần thiết khi làm các bài kiểm tra sau đại học chuyên ngành, chẳng hạn như bài kiểm tra HSD của Nemenyi (không tham số) hoặc Tukey không? Câu trả lời này nói "không" cho Tukey's HSD: Thử nghiệm Tukey HSD có đúng với nhiều so sánh không? . Có một quy tắc hay tôi phải tìm kiếm điều này cho mọi bài kiểm tra sau đại học tiềm năng?

Cảm ơn!


Tại sao bạn thực hiện cả hai bài kiểm tra ANOVA và Friedman?
Alexis

Đó là về một khung kiểm tra tự động sẽ cung cấp cho người đánh giá cả sự thay thế tham số và không tham số, nếu các giả định tham số không được đáp ứng.
Chris

1
Về các thử nghiệm omnibus mà bạn đã đề cập: (A) nếu các nhóm dữ liệu của bạn độc lập, bạn nên sử dụng thử nghiệm ANOVA (tham số) hoặc Kruskal-Wallis (không tham số); (B) nếu các nhóm của bạn phụ thuộc (ví dụ: các biện pháp lặp lại) thì bạn nên sử dụng thử nghiệm lặp lại ANOVA (tham số) hoặc Friedman (không tham số). (Cổ điển) Thử nghiệm ANOVA và Friedman thay thế có vẻ không chính xác.
GegznaV

Câu trả lời:


10

Trả lời cho câu hỏi 1
Bạn cần điều chỉnh để so sánh nhiều lần nếu bạn quan tâm đến xác suất bạn sẽ mắc lỗi Loại I. Một sự kết hợp đơn giản của thí nghiệm ẩn dụ / suy nghĩ có thể giúp:

Hãy tưởng tượng rằng bạn muốn trúng xổ số. Xổ số này, đủ kỳ lạ, mang lại cho bạn 0,05 cơ hội chiến thắng (tức là 1 trên 20). M là chi phí của vé trong xổ số này, có nghĩa là tiền lãi dự kiến ​​của bạn cho một cuộc gọi xổ số duy nhất là M / 20. Bây giờ thậm chí xa lạ, hãy tưởng tượng rằng vì lý do không rõ, chi phí này, M , cho phép bạn có nhiều vé số như bạn muốn (hoặc ít nhất là nhiều hơn hai). Suy nghĩ cho bản thân "bạn càng chơi nhiều, bạn càng thắng" bạn lấy một loạt vé. Lợi nhuận dự kiến ​​của bạn trong một cuộc gọi xổ số không còn là M / 20, mà là một cái gì đó lớn hơn một chút. Bây giờ thay thế "trúng xổ số" bằng "tạo ra lỗi loại I".

Nếu bạn không quan tâm đến lỗi và bạn không quan tâm đến mọi người nhiều lần và chế giễu sự chú ý của bạn đến một phim hoạt hình nhất định về thạch , thì hãy tiếp tục và không điều chỉnh để so sánh nhiều.

Vấn đề "cùng một dữ liệu" phát sinh trong các phương pháp sửa lỗi thông minh trong gia đình (ví dụ Bonferroni, Holm-Sidák, v.v.), vì khái niệm "gia đình" có phần mơ hồ. Tuy nhiên, các phương pháp tỷ lệ phát hiện sai (ví dụ: Stewamini và Hochberg, Stewamini và Yeologneeli, v.v.) có một đặc tính là kết quả của họ rất mạnh mẽ trong các nhóm suy luận khác nhau.


Trả lời cho câu hỏi 2
Hầu hết các bài kiểm tra theo cặp đều yêu cầu chỉnh sửa, mặc dù có sự khác biệt về phong cách và kỷ luật trong những gì được gọi là bài kiểm tra. Ví dụ, một số người tham khảo "Bonferroni t tests" (đây là một thủ thuật gọn gàng, vì Bonferroni không phát triển thử nghiệm t , cũng không phải điều chỉnh Bonferroni cho nhiều so sánh :). Cá nhân tôi thấy điều này không hài lòng, vì (1) tôi muốn phân biệt giữa tiến hành một nhóm kiểm tra thống kê và điều chỉnh nhiều so sánh để hiểu một cách hiệu quả những suy luận tôi đang thực hiện và (2) khi có ai đó đi cùng một thử nghiệm cặp đôi mới được thiết lập dựa trên định nghĩa vững chắc về , sau đó tôi biết tôi có thể thực hiện các điều chỉnh cho nhiều so sánh.α


2
+1 cho câu trả lời toàn diện và hài hước (và để tham khảo xkcd). Đặc biệt, bạn cũng đã giải quyết câu hỏi chưa được cân bằng của tôi liệu có sự khác biệt giữa "Bonferroni-test" và "Bonferroni-hiệu chỉnh". Tuy nhiên, bạn có phiền để giải thích vấn đề nhiều so sánh theo mô tả vấn đề của tôi không? Tôi hiểu rằng một phân loại giống như một nhóm điều trị với hạt đậu không / xanh / xanh / ... trong truyện tranh.
Chris

@Chris Bạn được chào đón ... Tôi không chắc chắn những gì bạn đang hỏi. Có nhiều so sánh là cần thiết. Có, bạn có thể thực hiện điều chỉnh FWER hoặc FDR trên bất kỳ thử nghiệm cặp đôi nào trả về giá trị (quy trình thường sửa đổi giá trị hoặc sửa đổi mức độ từ chối, tổng thể hoặc tuần tự). ppp
Alexis

Tôi nghĩ điều đó tốt, cảm ơn bạn rất nhiều! Tôi có thể mất thêm thời gian để áp dụng ví dụ xổ số cho trường hợp sử dụng của mình, nhưng tôi đã có ý tưởng.
Chris

@Chris hiểu rằng xổ số chỉ là một phép ẩn dụ. Nếu bạn cần trợ giúp áp dụng các phương pháp FWER hoặc FDR, hãy xem các mục Wikipedia, tìm kiếm các câu hỏi liên quan ở đây, hoặc, có lẽ, hỏi một câu hỏi mới về điều đó. :)
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.