Bảng dự phòng: kiểm tra những gì để làm và khi nào?


17

Tôi muốn thấy một phần mở rộng của cuộc thảo luận này về cuộc tranh luận thử nghiệm chính xác giữa tuổi và so với tuổi của Fisher, mở rộng phạm vi một chút. Có rất nhiều bài kiểm tra về sự tương tác trong một bảng dự phòng, đủ để khiến đầu óc tôi quay cuồng. Tôi hy vọng sẽ có được lời giải thích về việc tôi nên sử dụng thử nghiệm nào và khi nào, và tất nhiên là một lời giải thích về lý do tại sao một thử nghiệm nên được ưu tiên hơn thử nghiệm khác.

Vấn đề hiện tại của tôi là trường hợp cổ điển , nhưng câu trả lời liên quan đến chiều cao hơn được hoan nghênh, cũng như các mẹo để thực hiện các giải pháp khác nhau trong R, ít nhất, trong trường hợp không rõ ràng về cách tiến hành.n×m

Dưới đây tôi đã liệt kê tất cả các bài kiểm tra mà tôi biết; Tôi hy vọng bằng cách phơi bày các lỗi của tôi, chúng có thể được sửa chữa.

  • . Chế độ chờ cũ. Có ba lựa chọn chính ở đây:χ2

    • Hiệu chỉnh được tích hợp trong R cho các bảng 2x2: "một nửa được trừ khỏi tất cả các khác biệt ". Tôi có nên luôn luôn làm điều này?|Ôi-E|
    • Thử nghiệm " " χ 2 , không biết cách thực hiện trong R.N-1χ2
    • Mô phỏng Monte Carlo. Điều này luôn luôn tốt nhất? Tại sao R không cho tôi df khi tôi làm điều này?
  • Kiểm tra chính xác của Fisher .

    • Theo truyền thống, khi bất kỳ tế bào nào được dự kiến ​​là <4, nhưng rõ ràng một số tranh chấp lời khuyên này.
    • Có phải giả định (thường là sai) rằng các lề được cố định thực sự là vấn đề lớn nhất với thử nghiệm này?
  • Kiểm tra chính xác của Barnard

    • Một thử nghiệm chính xác khác, ngoại trừ tôi chưa bao giờ nghe về nó.
  • Hồi quy Poisson

    • Một điều luôn làm tôi bối rối về glms là chính xác làm thế nào để thực hiện các bài kiểm tra quan trọng này để giúp đỡ về điều đó sẽ được đánh giá cao. Là tốt nhất để làm so sánh mô hình lồng nhau? Điều gì về một bài kiểm tra Wald cho một người dự đoán cụ thể?
    • Tôi có nên thực sự luôn luôn thực hiện hồi quy Poisson? Sự khác biệt thực tế giữa thử nghiệm này và thử nghiệm gì?χ2

Câu trả lời:


13

Đây là một câu hỏi hay, nhưng là một câu hỏi lớn. Tôi không nghĩ rằng tôi có thể cung cấp một câu trả lời hoàn chỉnh, nhưng tôi sẽ bỏ ra một số thực phẩm để suy nghĩ.

Đầu tiên, dưới điểm gạch đầu dòng của bạn, hiệu chỉnh mà bạn đang đề cập được gọi là hiệu chỉnh liên tục của Yates . Vấn đề là chúng tôi tính toán một thống kê suy luận rời rạc :
(Nó rời rạc bởi vì, chỉ với một số lượng hữu hạn các trường hợp được trình bày trong bảng dự phòng, có một số hữu hạn các giá trị nhận ra có thể có mà thống kê này có thể đảm nhận.) Mặc dù thực tế này, nó được so sánh vớiphân phối tham chiếuliên tục(viz.,phân phốiχ2với bậc tự do(r-1)(c-1)). Điều này nhất thiết dẫn đến một sự không phù hợp ở một số cấp độ. Với một tập dữ liệu đặc biệt nhỏ và nếu một số ô có giá trị mong đợi nhỏ hơn 5, có thể giá trị p có thể quá nhỏ. Điều chỉnh của Yates điều chỉnh cho điều này.

χ2= =Σ(Ôi-E)2E

χ2 (r-1)(c-1)

Trớ trêu thay, cùng một vấn đề tiềm ẩn (sự không phù hợp liên tục rời rạc) có thể dẫn đến giá trị p quá cao . Cụ thể, giá trị p được quy ước là xác suất nhận được dữ liệu cực trị hoặc cao hơnhơn dữ liệu quan sát. Với dữ liệu liên tục, có thể hiểu rằng xác suất nhận được bất kỳ giá trị chính xác nào là rất nhỏ, và do đó chúng tôi thực sự có xác suất dữ liệu cực đoan hơn. Tuy nhiên, với dữ liệu rời rạc, có một xác suất hữu hạn để có được dữ liệu giống như của bạn. Chỉ tính xác suất nhận được dữ liệu cực đoan hơn giá trị p của bạn mang lại giá trị p danh nghĩa quá thấp (dẫn đến lỗi loại I tăng), nhưng bao gồm xác suất nhận dữ liệu giống như của bạn dẫn đến giá trị p danh nghĩa quá cao (điều này sẽ dẫn đến tăng lỗi loại II). Những sự thật này gợi ý tưởng về giá trị p giữa . Theo cách tiếp cận này, giá trị p là xác suất dữ liệu cực hơn so với một nửa của bạn xác suất của dữ liệu giống như của bạn.

Như bạn chỉ ra, có nhiều khả năng để kiểm tra dữ liệu bảng dự phòng. Điều trị toàn diện nhất về ưu và nhược điểm của các phương pháp khác nhau là ở đây . Bài viết đó dành riêng cho các bảng 2x2, nhưng bạn vẫn có thể tìm hiểu rất nhiều về các tùy chọn cho dữ liệu bảng dự phòng bằng cách đọc nó.

Tôi cũng nghĩ rằng đáng để xem xét các mô hình một cách nghiêm túc. Các bài kiểm tra cũ hơn như bình phương là nhanh chóng, dễ dàng và được nhiều người hiểu, nhưng không để lại cho bạn sự hiểu biết toàn diện về dữ liệu của bạn khi bạn có được từ việc xây dựng một mô hình phù hợp. Nếu hợp lý khi nghĩ về các hàng [cột] của bảng dự phòng của bạn như là một biến trả lời và các cột [hàng] như một biến giải thích / dự đoán, thì cách tiếp cận mô hình hóa khá dễ dàng. Chẳng hạn, nếu bạn chỉ có hai hàng, bạn có thể xây dựng mô hình hồi quy logistic ; nếu có một số cột, bạn có thể sử dụng mã hóa ô tham chiếu (mã giả) để xây dựng mô hình kiểu ANOVA. Mặt khác, nếu bạn có nhiều hơn hai hàng, hồi quy logistic đa thứccó thể được sử dụng theo cách tương tự. Nếu các hàng của bạn có một trật tự nội tại, hồi quy logistic thông thường sẽ mang lại hiệu suất vượt trội cho đa quốc gia. Mô hình log-linear (hồi quy Poisson) có lẽ ít liên quan hơn trừ khi bạn có các bảng dự phòng có nhiều hơn hai chiều, theo ý kiến ​​của tôi.

Để xử lý toàn diện các chủ đề như thế này, các nguồn tốt nhất là các cuốn sách của Agresti: hoặc là điều trị toàn diện (nghiêm ngặt hơn), cuốn sách giới thiệu của anh ấy (dễ dàng hơn nhưng vẫn toàn diện và rất tốt), hoặc có thể là cuốn sách thứ tự của anh ấy .

G2-kiểm tra

G2= =ΣÔiln(ÔiE)


1
Đó là một lời giải thích tuyệt vời về vấn đề tiềm ẩn, cảm ơn! Ngoài ra, trước đây tôi đã nói rằng văn bản của Agresti là một tài nguyên tuyệt vời vì vậy tôi sẽ kiểm tra nó.
JVMcDonnell

4

Tôi sẽ cố gắng giải quyết một số câu hỏi của bạn tốt nhất có thể theo quan điểm của tôi. Đầu tiên, Thử nghiệm Fisher-Irwin chỉ là một tên gọi khác của thử nghiệm chính xác của Fisher. Ngoại trừ thực tế là đôi khi cường độ tính toán, tôi thường thích sử dụng thử nghiệm Fisher. Nếu có bất kỳ vấn đề nào với bài kiểm tra này thì đó là điều chỉnh về tổng số biên. Cái hay của thử nghiệm là theo giả thuyết null, tập hợp các bảng dự phòng có tổng số biên tương tự như bảng quan sát có phân bố siêu bội. Một số người tranh luận rằng họ không thấy cơ sở lý luận cho việc hạn chế xem xét các bảng có cùng tổng số biên.

Kiểm tra chi bình phương của Pearson rất thường được sử dụng để kiểm tra sự liên kết trong các bảng dự phòng. Giống như nhiều thử nghiệm khác, nó gần đúng và do đó mức ý nghĩa không phải lúc nào cũng chính xác. Cochran đã chỉ ra rằng trong các mẫu nhỏ khi một số ô rất thưa thớt (ví dụ chứa ít hơn 5 trường hợp trong một số ô) thì phép tính gần đúng sẽ kém.

Có nhiều bài kiểm tra gần đúng khác. Thông thường khi áp dụng thử nghiệm của Fisher bằng cách sử dụng SAS, tôi nhận được kết quả từ tất cả các thử nghiệm này và chúng thường cho kết quả gần như giống nhau. Nhưng bài kiểm tra của Fisher luôn có điều kiện chính xác trên tổng số biên.

Về hồi quy Poisson, đó là một mô hình liên quan đến các biến phân loại với tổng số ô. Giống như bất kỳ mô hình nào, nó phụ thuộc vào một nhóm các giả định. Quan trọng nhất là số lượng tế bào tuân theo phân phối Poisson, có nghĩa là số lượng trung bình của số lượng bằng với phương sai của nó. Điều này thường không đúng với phân phối số lượng tế bào. Trong trường hợp quá mức (phương sai lớn hơn trung bình), một mô hình nhị thức âm có thể phù hợp hơn.


"Thử nghiệm của Fisher-Irwin chỉ là một tên gọi khác của thử nghiệm chính xác của Fisher" ... aha, điều này làm cho nhận xét này bớt khó hiểu với tôi, cảm ơn!
JVMcDonnell

3
Câu trả lời của bạn đã không thực sự làm giảm sự nhầm lẫn của tôi về khi nào nên làm những điều này. Tôi đoán một trong những điều tôi hy vọng được nghe là ở mức độ nào các vấn đề với chi ^ 2 có thể giải quyết được bằng cách mô phỏng hoặc sửa chữa monte carlo, v.v; hoặc mức độ mà nó có thể được thay thế bởi glms. Vì vậy, tôi sẽ để nó mở một chút để xem liệu tôi có thể cắn nhiều hơn không. Nhưng nếu không ai cân nhắc sau một lát tôi sẽ chấp nhận câu trả lời của bạn.
JVMcDonnell

Đối với Fisher và Chi-vuông tôi nghĩ tôi đã nói với bạn khi bạn có thể sử dụng chi vuông. Nếu bạn chấp nhận ý tưởng của Fisher rằng bạn phải luôn luôn dựa vào tổng số cận biên, thử nghiệm của Fisher luôn được áp dụng. Nhưng nếu bạn không chấp nhận điều đó thì tôi đoán bạn sẽ phải chọn một bài kiểm tra vô điều kiện. Đối với các loại thử nghiệm khác có sẵn, tôi không biết gì về tính chất của chúng và do đó không thể thực sự tư vấn cho bạn khi sử dụng chúng. Kinh nghiệm về hình thức Tôi đã thấy các trường hợp quan trọng vì kết quả thường nằm trong thỏa thuận chặt chẽ.
Michael R. Chernick

Có thật là Fisher nghĩ rằng "bạn nên luôn luôn dựa vào tổng số biên"? Giả định này chỉ có giá trị khi tổng số biên được cố định. Trong ví dụ nếm trà của người phụ nữ, người phụ nữ biết rằng 5 là sữa đầu tiên và 5 là sữa cuối cùng. Nhưng nó phổ biến hơn trong các thí nghiệm rằng không có lực lượng nào thực thi các lề. Hãy xem xét trường hợp lật hai đồng tiền mỗi lần 10 lần. Khi 5 đầu cuộn quanh đồng xu không bắt đầu đưa ra các đuôi để bảo toàn các lề. Trong những trường hợp như vậy, người ta đã ghi nhận rằng Fisher rất bảo thủ. Đó là lý do tại sao tôi quan tâm đến các lựa chọn thay thế.
JVMcDonnell

Đúng. Theo hiểu biết của tôi, Fisher tin tưởng vào việc lựa chọn các bản phân phối giới thiệu sử dụng thông tin từ dữ liệu đã cho. Vì vậy, anh ta sẽ nghĩ rằng cho dù tổng số của người gốc về dữ liệu quan sát của bạn như thế nào thì cũng chỉ nên được so sánh với dữ liệu đã xảy ra theo giả thuyết khống theo các điều khoản trên dữ liệu cụ thể là các tổng biên đã cho. Như với những ý tưởng khác mà Fisher có điều này đã gây tranh cãi.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.