Bạn có thể tái tạo kết quả kiểm tra chi bình phương này?


7

Tại Skeptics.StackExchange , một câu trả lời trích dẫn một nghiên cứu về quá mẫn điện từ:

Tôi nghi ngờ về một số số liệu thống kê được sử dụng, và sẽ đánh giá cao một số chuyên môn trong việc kiểm tra hai lần rằng chúng được sử dụng một cách thích hợp.

Hình 5a cho thấy kết quả của một đối tượng đang cố gắng phát hiện khi máy phát điện từ trường được bật.

Đây là một phiên bản đơn giản hóa:

 Actual:   Yes  No
Detected:
  Yes       32  19
  No       261 274

Họ tuyên bố đã sử dụng một bài kiểm tra chi bình phương và thấy có ý nghĩa (p <0,05, mà không nêu rõ p là gì.)

Tần số của các phản ứng soma và hành vi trong sự hiện diện và vắng mặt của trường được đánh giá bằng phép thử chi bình phương (bảng 2 × 2) hoặc phần mở rộng Freeman xông Halton của bài kiểm tra xác suất chính xác của Fisher (bảng 2 × 3; Freeman & Halton, 1951).

Tôi thấy một số vấn đề.

  • Họ đã loại trừ một số dữ liệu - xem Bảng 5b - nơi họ đã tắt thiết bị trong thời gian dài. Tôi không thể thấy sự biện minh trong việc tách dữ liệu đó.

  • Họ dường như tuyên bố kết quả có ý nghĩa thống kê khi thiết bị thực sự được bật, nhưng không phải khi nó không hoạt động. (Tôi có thể đang đọc sai điều này; nó không rõ ràng.) Đó không phải là kết quả mà bài kiểm tra chi bình phương có thể đưa ra, phải không?

  • Khi tôi cố gắng sao chép bài kiểm tra này bằng một máy tính trực tuyến, tôi đã thấy nó không có ý nghĩa thống kê.

Đây là câu hỏi thực sự của tôi: Tôi có đúng không khi nói điều này?: Một bài kiểm tra hai chi, bình phương sử dụng Kiểm tra chính xác của Fisher là cách đúng để phân tích dữ liệu này VÀ nó KHÔNG có ý nghĩa thống kê.


Các biến "được phát hiện" và "thực tế" có được quan sát tại cùng một đơn vị không? Nếu vậy thì tôi sẽ nói đây là một vấn đề đối xứng.
Momo

@Momo: Tôi nghĩ câu trả lời là Có. Có 600 thử nghiệm. Vào năm 300, thiết bị đã thực sự bật và trong 300 thiết bị khác thực sự đã tắt. Đối tượng được hỏi liệu cô có thể phát hiện ra bức xạ điện từ hay không, và trả lời Có hoặc Không. Trong 14 trường hợp, cô không trả lời được và họ đã bị loại trừ. Trong 535 trường hợp cô ấy nói Không, điều đó có nghĩa là độ nhạy của cô ấy thấp (nếu nó tồn tại). Không chắc chắn làm thế nào điều đó tạo ra một vấn đề đối xứng - bất kỳ liên kết nào tôi có thể đọc để tìm hiểu thêm?
Oddthinking

Được rồi cảm ơn. Tôi chỉ nhận ra rằng vấn đề đối xứng dường như là một biểu thức không được sử dụng trong tiếng Anh, vì vậy xin lỗi vì điều đó. Điều tôi muốn nói là nó được phân loại chéo không xuất phát từ các đơn vị độc lập mà là cùng một đơn vị đã được hỏi nhiều lần và do đó nó là một phép đo được ghép nối hoặc lặp lại được thiết lập.
Momo

2
Đối với hồ sơ: Đã có Thư gửi Biên tập viên về bài viết này. Nó đã thách thức một số phân loại (hậu hoc?) Về mức độ nghiêm trọng được sử dụng trong Bảng 3a (Thí nghiệm 1 và 2), cảnh báo về rủi ro sai lệch xuất bản và nhu cầu nhân rộng. Nó đã không phàn nàn về dữ liệu trong Bảng 5.
Oddthinking

2
Cũng có thể đáng lưu ý rằng bảng này nằm ngay bên lề xuất hiện "đáng kể": chỉ có một phát hiện duy nhất bị phân loại sai, thử nghiệm Fisher (là cách thích hợp để sử dụng) sẽ trả về giá trị p là 10,9%. Nếu yêu cầu bồi thường là phi thường hay gây tranh cãi, người ta sẽ đòi hỏi nhiều bằng chứng mạnh hơn này để chấp nhận một kết luận của hiệp hội tích cực.
whuber

Câu trả lời:


3

Dường như với tôi có ba điều sai với kết luận.

Đầu tiên, như @caracal nói: Họ đang báo cáo "tầm quan trọng" bằng cách sử dụng thử nghiệm một đầu, mà không nói rằng họ đang làm như vậy. Hầu hết mọi người, tôi nghĩ, khuyên bạn nên sử dụng các bài kiểm tra hai đuôi hầu như luôn luôn. Chắc chắn sẽ không ổn khi sử dụng thử nghiệm một đuôi mà không nói như vậy.

Thứ hai, hiệu quả rất nhỏ. Khi có tín hiệu, đối tượng (chỉ có một) phát hiện ra nó 11% thời gian (32/293). Khi không có tín hiệu, cô phát hiện tín hiệu 6,5% thời gian. Sự khác biệt đó có vẻ khá nhỏ. Và đối tượng không thể phát hiện tín hiệu 89%!

Thứ ba, như @oddthinking đã chỉ ra, có một số báo cáo dữ liệu chọn lọc không được giải thích hoặc chứng minh chính xác (tôi đã không đọc kỹ bài báo, vì vậy chỉ đơn giản là lặp lại những gì trong bài viết gốc).


0

Một thử nghiệm chính xác của Fisher trên bảng đã cho, theo mã này

actual <- c(rep("Y", 32), rep("N", 19), rep("Y", 261), rep("N", 274))
det <- c(rep("Y", 51), rep("N", 535))
table(det,actual) 
fisher.test(det,actual)

ap = 0,08


3
bạn có thể nói rằng một bài kiểm tra Fisher phù hợp với bảng dự phòng này không?
Momo

2
p("Đúng"|Đúng)>p("Đúng"|Không)

@caracal: Bạn có muốn giải thích lý lẽ của mình và biến điều này thành một câu trả lời không?
Oddthinking

@Oddthinking Xin lỗi, hiện tại tôi không có thời gian để đọc lướt giấy và suy nghĩ về các vấn đề lấy mẫu / thiết kế thử nghiệm có liên quan đến câu hỏi.
caracal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.