Với sức mạnh của máy tính ngày nay, có bao giờ có lý do để thực hiện kiểm tra chi bình phương hơn là kiểm tra chính xác của Fisher không?


86

Do phần mềm có thể thực hiện phép tính kiểm tra chính xác của Fisher ngày nay một cách dễ dàng , liệu có bất kỳ tình huống nào, về mặt lý thuyết hay thực tế, kiểm tra chi bình phương thực sự thích hợp hơn kiểm tra chính xác của Fisher không?

Ưu điểm của bài kiểm tra chính xác của Fisher bao gồm:

  • chia tỷ lệ cho các bảng dự phòng lớn hơn 2x2 (tức là bất kỳ bảng r x c nào )
  • đưa ra một giá trị p chính xác
  • không cần phải có số lượng tế bào dự kiến ​​tối thiểu là hợp lệ

10
Bởi vì nó là kinh điển cũ tốt. Nó sẽ sớm trở thành cổ điển tinh tế. Sau đó, khi con người chống lại máy tính, nó sẽ sống tuổi trẻ thứ hai.
ttnphns

7
Bạn đã bao giờ thử tính toán thống kê kiểm tra chính xác của Fisher trên một cái bàn lớn chưa? (Mất quá nhiều thời gian ...)
whuber

22
Ngoài những nhận xét và câu trả lời hay mà bạn đã nhận được, tôi nghĩ câu hỏi hay hơn là "Với sức mạnh của máy tính, tại sao không thử nghiệm mô phỏng / hoán vị mọi lúc?".
Peter Flom

1
@whuber Tôi đã thực hiện (độc quyền) mà không có (số lượng lớn) bảng, trong C ++. Nó chạy hàng ngàn giá trị P cho các số có tới 8 chữ số trong vài giây.
Michel de Ruiter

1
@Michel Ý tôi là tổng số ô trong bảng. Việc tính toán dễ dàng đối với các bảng 2 x 2, nhưng khi các bảng phát triển lớn, các phép tính trở nên khó khăn.
whuber

Câu trả lời:


61

Bạn có thể chuyển câu hỏi xung quanh. Vì thử nghiệm Pearson thông thường hầu như luôn chính xác hơn thử nghiệm chính xác của Fisher và tính toán nhanh hơn nhiều, tại sao mọi người sử dụng thử nghiệm của Fisher?χ2

Lưu ý rằng điều sai lầm là tần số ô dự kiến ​​phải vượt quá 5 đối với của Pearson để mang lại giá trị chính xác . Thử nghiệm là chính xác miễn là tần số ô dự kiến ​​vượt quá 1.0 nếu hiệu chỉnh rất đơn giản được áp dụng cho thống kê kiểm tra.χ2PN1N


Từ R-help, 2009 :

Các xét nghiệm Campbell, I. Chi-squared và Fisher-Irwin của hai bảng hai với các khuyến nghị mẫu nhỏ. Thống kê trong Y học 2007; 26 : 3651-3675. ( trừu tượng )

  • ... phiên bản mới nhất của cuốn sách của Armitage khuyến nghị rằng không bao giờ nên sử dụng các điều chỉnh liên tục cho các bài kiểm tra chi bình phương của bảng dự phòng;

  • E. Sửa đổi Pearson của kiểm tra chi bình phương Pearson, khác với bản gốc theo hệ số (N-1) / N;

  • Cochran lưu ý rằng số 5 trong "tần suất dự kiến ​​nhỏ hơn 5" là tùy ý;

  • kết quả của các nghiên cứu được công bố có thể được tóm tắt như sau , cho các thử nghiệm so sánh:

    1. Kiểm tra chi bình phương của Yate có tỷ lệ lỗi loại I nhỏ hơn danh nghĩa, thường nhỏ hơn một nửa so với danh nghĩa;

    2. Các thử nghiệm Fisher-Irwin có kiểu tôi tỷ lệ lỗi thấp hơn không đáng kể;

    3. Phiên bản kiểm tra chi bình phương của K Pearson có tỷ lệ lỗi loại I gần với danh nghĩa hơn so với kiểm tra chi bình phương của Yate và kiểm tra Fisher-Irwin, nhưng trong một số trường hợp, các lỗi loại I lớn hơn đáng kể so với giá trị danh nghĩa;

    4. Thử nghiệm chi bình phương 'N-1', hoạt động giống như phiên bản 'N' của K. Pearson, nhưng xu hướng cao hơn giá trị danh nghĩa bị giảm;

    5. Các hai mặt test Fisher-Irwin sử dụng quy tắc Irwin là ít bảo thủ hơn so với phương pháp tăng gấp đôi khả năng một chiều;

    6. Thử nghiệm giữa P-Irwin bằng cách nhân đôi xác suất một phía thực hiện tốt hơn các phiên bản tiêu chuẩn của thử nghiệm Fisher-Irwin, và phương pháp giữa P theo quy tắc của Irwin thực hiện tốt hơn khi vẫn có lỗi loại I thực tế gần với mức danh nghĩa hơn. ";

  • hỗ trợ mạnh mẽ cho thử nghiệm 'N-1' với tần suất dự kiến ​​vượt quá 1;

  • lỗ hổng trong thử nghiệm Fisher dựa trên tiền đề của Fisher rằng tổng số biên không có thông tin hữu ích;

  • trình diễn thông tin hữu ích của họ trong các cỡ mẫu rất nhỏ;

  • Điều chỉnh liên tục của Yate về N / 2 là một sự điều chỉnh lớn và không phù hợp;

  • đối số tồn tại để sử dụng các thử nghiệm ngẫu nhiên trong các thử nghiệm ngẫu nhiên;

  • tính toán các trường hợp xấu nhất;

  • khuyến nghị chung : sử dụng thử nghiệm chi bình phương 'N-1' khi tất cả các tần số dự kiến ​​ít nhất là 1, nếu không, hãy sử dụng thử nghiệm Fisher-Irwin bằng quy tắc của Irwin cho các thử nghiệm hai mặt, có thể lấy các bảng từ một trong hai đuôi, hoặc ít hơn, như đã quan sát; xem thư gửi cho biên tập viên của Antonio Andres và trả lời của tác giả trong 27: 1791-1796; 2008.


Crans GG, Shuster JJ. Làm thế nào bảo thủ là thử nghiệm chính xác của Fisher? Một đánh giá định lượng của thử nghiệm nhị thức so sánh hai mẫu. Thống kê trong Y học 2008; 27 : 3598-3611. ( trừu tượng )

  • ... bài báo đầu tiên thực sự định lượng tính bảo thủ của bài kiểm tra của Fisher;

  • "cỡ thử nghiệm của FET nhỏ hơn 0,035 đối với gần như tất cả các cỡ mẫu trước 50 và không đạt 0,05 ngay cả đối với cỡ mẫu trên 100.";

  • tính bảo thủ của các phương pháp "chính xác";

  • xem Stat trong Med 28 : 173-179, 2009 cho một lời chỉ trích chưa được trả lời


Lyderen S, Fagerland MW, Laake P. Các thử nghiệm được đề xuất cho liên kết trong bảng. Thống kê trong Y học 2009; 28 : 1159-1175. ( trừu tượng )2×2

  • ... Không bao giờ nên sử dụng thử nghiệm chính xác của Fisher trừ khi áp dụng hiệu chỉnh giữa ;P

  • giá trị của các bài kiểm tra vô điều kiện;

  • xem thư gửi biên tập viên 30: 890-891; 2011


1
Bạn có thể đề nghị làm thế nào để áp dụng hiệu chỉnh (N-1) / N không? Có bất kỳ máy tính trực tuyến nào kết hợp điều chỉnh này? Có cách nào dễ dàng để tự điều chỉnh kết quả của bài kiểm tra chi bình phương để tự sửa lỗi này không?
DW

Một trong những tài liệu tham khảo tôi liệt kê ở trên là đặt cược tốt nhất của bạn.
Frank Harrell

1
Tại sao bạn nói "hầu như luôn luôn chính xác hơn thử nghiệm chính xác của Fisher" ? Tôi muốn nói ngược lại, vì không phải là thử nghiệm "chính xác". χ2 χ2
Stéphane Laurent

2
Dán nhãn một cái gì đó là "chính xác" không làm cho nó như vậy. Xem lời giải thích tuyệt vời dưới đây của @suncoolsu mà bạn phải bỏ qua (bạn cũng đã bỏ lỡ tất cả các giải thích ở trên). Bài kiểm tra Pearson thậm chí còn chính xác hơn Pearson nghĩ. Xem citeulike.org/user/harrelfe/article/13265687citeulike.org/user/harrelfe/article/13263676 chẳng hạn. Thử nghiệm "chính xác" của Fisher chỉ chính xác theo nghĩa là lỗi loại I thực sự không lớn hơn yêu cầu. Nhưng hóa ra nó nhỏ hơn so với yêu cầu, do đó, lỗi loại II cao hơn, nghĩa là ít năng lượng hơn.
Frank Mitchell

Tôi biết ý nghĩa của tính chính xác. Điểm chính xác tôi không thích với các bài kiểm tra không chính xác là khả năng lỗi loại I cao hơn mức danh nghĩa. Nhưng bạn đã đúng, tôi đã đọc sai câu trả lời của bạn và câu trả lời khác (cả hai đều tuyệt vời)
Stéphane Laurent

47

Đâ là một câu hỏi tuyệt vời.

Thử nghiệm chính xác của Fisher là một trong những ví dụ tuyệt vời về việc sử dụng thiết kế thử nghiệm thông minh của Fisher , cùng với việc điều chỉnh dữ liệu (về cơ bản trên các bảng có hàng và tổng biên được quan sát) và sự khéo léo của anh ấy trong việc tìm phân phối xác suất (mặc dù đây không phải là ví dụ tốt nhất , cho một ví dụ tốt hơn xem ở đây ). Việc sử dụng máy tính để tính giá trị p "chính xác" chắc chắn đã giúp có được câu trả lời chính xác.

Tuy nhiên, thật khó để biện minh cho các giả định của bài kiểm tra chính xác của Fisher trong thực tế. Bởi vì cái gọi là "chính xác" xuất phát từ thực tế là trong "thử nghiệm nếm trà" hoặc trong trường hợp bảng dự phòng 2x2, tổng số hàng và tổng cột, nghĩa là tổng số biên được cố định theo thiết kế. Giả định này hiếm khi được biện minh trong thực tế. Để tham khảo tốt đẹp xem tại đây .

Tên "chính xác" khiến người ta tin rằng các giá trị p được đưa ra bởi thử nghiệm này là chính xác, một lần nữa trong hầu hết các trường hợp không may là không chính xác vì những lý do này

  1. Nếu các biên không được cố định theo thiết kế (điều này xảy ra gần như mọi lúc trong thực tế), các giá trị p sẽ được bảo thủ.
  2. Do thử nghiệm sử dụng phân phối xác suất rời rạc (cụ thể là phân phối siêu hình học), nên đối với các mức cắt nhất định, không thể tính được "xác suất null chính xác", nghĩa là giá trị p.

Trong hầu hết các trường hợp thực tế, sử dụng kiểm tra tỷ lệ khả năng hoặc kiểm tra Chi bình phương không nên đưa ra các câu trả lời rất khác nhau (giá trị p) từ kiểm tra chính xác của Fisher. Có, khi các lề được cố định, thử nghiệm chính xác của Fisher là một lựa chọn tốt hơn, nhưng điều này sẽ hiếm khi xảy ra. Do đó, sử dụng kiểm tra Chi bình phương kiểm tra tỷ lệ khả năng luôn được khuyến nghị để kiểm tra tính nhất quán.

Những ý tưởng tương tự được áp dụng khi thử nghiệm chính xác của Fisher được khái quát hóa cho bất kỳ bảng nào, về cơ bản tương đương với việc tính toán các phép đo siêu bội đa biến. Do đó, người ta phải luôn cố gắng tính giá trị p dựa trên tỷ lệ phân phối và khả năng phân phối tỷ lệ, ngoài giá trị p "chính xác".

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.