Tại sao kiểm tra giả thuyết thường xuyên trở nên thiên vị đối với việc bác bỏ giả thuyết khống với các mẫu đủ lớn?


46

Tôi chỉ đọc bài viết này về yếu tố Bayes cho một vấn đề hoàn toàn không liên quan khi tôi tình cờ thấy đoạn văn này

Thử nghiệm giả thuyết với các yếu tố Bayes mạnh hơn thử nghiệm giả thuyết thường xuyên, vì dạng Bayes tránh sai lệch lựa chọn mô hình, đánh giá bằng chứng ủng hộ giả thuyết null, bao gồm độ không đảm bảo của mô hình và cho phép so sánh các mô hình không lồng nhau (mặc dù mô hình phải được so sánh có cùng biến phụ thuộc). Ngoài ra, các thử nghiệm có ý nghĩa thường xuyên trở nên thiên vị trong việc bác bỏ giả thuyết khống với kích thước mẫu đủ lớn. [nhấn mạnh thêm]

Tôi đã thấy tuyên bố này trước đây trong bài báo năm 2012 của Karl Friston trên tờ NeuroImage , nơi ông gọi đó là sai lầm của suy luận cổ điển .

Tôi đã có một chút khó khăn khi tìm một tài khoản sư phạm thực sự về lý do tại sao điều này là đúng. Cụ thể, tôi đang tự hỏi:

  1. tại sao điều này xảy ra
  2. làm thế nào để bảo vệ chống lại nó
  3. thất bại, làm thế nào để phát hiện ra nó

7
Điều này hơi gây tranh cãi bởi vì nó không đúng khi null hoàn toàn đúng theo nghĩa đen, nhưng vì điều đó rất hiếm khi xảy ra (do tất cả các loại phức tạp như tương quan giả), có lẽ nó đúng với hầu hết các ứng dụng thực tế. Về mặt giả thuyết, người ta có thể phát hiện ra điểm yếu nhất của các mối tương quan giả (ví dụ: r = 0,001) do một chuỗi các bộ trung gian dài hàng trăm biến mặc dù có số lượng bộ điều tiết không kiểm soát tương tự nếu mẫu đủ lớn. Có thể cho rằng, mối quan hệ đó thực sự tồn tại mặc dù vậy, cho dù đó có thực sự là "thiên vị" hay không vẫn còn gây tranh cãi IMO ...
Nick Stauner

@NickStauner, Ah thật sự rất có ý nghĩa! Cảm ơn đã giải thích trực quan!
blz

3
Tal Yarkoni đã viết một bài phê bình rất sáng sủa về bài viết của Friston: talyarkoni.org/blog/2012/04/26/ợi
jona

@jona, Có vẻ như tôi đang chạy vào toàn bộ đám đông cogsci ở đây =) Cảm ơn bạn đã tham khảo, điều này thực sự trông giống như đọc tốt!
blz

8
Với các giả định được giữ, tuyên bố đó dường như hoàn toàn sai, nhưng nó đang gặp vấn đề thực sự (với các mẫu đủ lớn, NHST sẽ trở nên gần như chắc chắn để từ chối null, cho dù hiệu ứng có nhỏ đến đâu) . Khi mọi người thấy rằng có vấn đề, nó thường chỉ ra rằng kiểm tra giả thuyết không phải là thứ họ cần. Vấn đề cơ bản tương tự (mặc dù được đóng khung trong điều khoản của các TCTD thay vì kiểm tra giả thuyết) được thảo luận trong câu trả lời này
Glen_b

Câu trả lời:


44

Trả lời cho câu hỏi 1: Điều này xảy ra do giá trị trở nên nhỏ tùy ý khi kích thước mẫu tăng trong các thử nghiệm thường xuyên về sự khác biệt (tức là các thử nghiệm với giả thuyết không có sự khác biệt / một số dạng bằng) khi chênh lệch thực sự chính xác bằng 0 , trái ngược với số 0 tùy ý, không thực tế (xem bình luận của Nick Stauner cho OP). Giá trị trở nên nhỏ tùy ý vì lỗi thống kê kiểm tra thường xuyên thường giảm theo cỡ mẫu, với kết quả là tất cả các khác biệt đều có ý nghĩa đối với mức tùy ý với cỡ mẫu đủ lớn . Cosma Shalizi đã viết một cách uyên bác về điều này .ppp

Trả lời cho câu hỏi 2: Trong khuôn khổ kiểm tra giả thuyết thường xuyên, người ta có thể bảo vệ chống lại điều này bằng cách không suy luận chỉ về việc phát hiện sự khác biệt . Ví dụ, người ta có thể kết hợp các suy luận về sự khác biệttương đương để người ta không ủng hộ (hoặc xúi giục!) Gánh nặng bằng chứng về bằng chứng về hiệu lực so với bằng chứng không có hiệu lực . Bằng chứng về sự vắng mặt của một hiệu ứng đến từ, ví dụ:

  1. hai thử nghiệm một phía cho tương đương (TOST),
  2. kiểm tra tương đương mạnh mẽ nhất cho tương đương , và
  3. phương pháp khoảng tin cậy để tính tương đương (ví dụ: nếu % CI thống kê kiểm định là trong các tiên phạm vi -defined tương đương / phù hợp, sau đó một kết luận tương đương tại mức ý nghĩa).alpha12αα

Tất cả những gì các phương pháp tiếp cận này đều chia sẻ là một quyết định tiên nghiệm về kích thước hiệu ứng tạo thành sự khác biệt có liên quan và giả thuyết khống đóng khung về sự khác biệt ít nhất là lớn như những gì được coi là có liên quan.

Suy luận kết hợp từ các thử nghiệm về sự khác biệt và các thử nghiệm về tính tương đương, do đó bảo vệ chống lại sự thiên vị mà bạn mô tả khi kích thước mẫu lớn theo cách này (bảng hai nhân hai cho thấy bốn khả năng do các thử nghiệm kết hợp cho giả thuyết null khác biệt của nhà nghiên cứu, H Tương đương với nhau và giả thuyết null negativist null, H ):- 00+0

Bốn khả năng từ các thử nghiệm kết hợp cho sự khác biệt và thử nghiệm cho sự tương đương

Chú ý góc phần tư phía trên bên trái: một thử nghiệm áp đảo là một trong những nơi bạn bác bỏ giả thuyết không có sự khác biệt, nhưng bạn cũng bác bỏ giả thuyết của sự khác biệt có liên quan, do đó, có có sự khác biệt, nhưng bạn phải tiên quyết định bạn không quan tâm đến Nó vì nó quá nhỏ.

Trả lời cho câu hỏi 3: Xem câu trả lời cho 2.


2
Câu trả lời như thế này là lý do tại sao tôi tiếp tục đến đây. Cảm ơn bạn!
blz

2
Các xét nghiệm kết hợp này được gọi là "các xét nghiệm liên quan" và chỉ được nghiên cứu ít. Tuy nhiên, có thể tìm thấy quyết định liên quan (bảo thủ) nếu người ta bác bỏ giả thuyết Null nếu khoảng tin cậy thông thường không khớp với vùng liên quan. Vì vậy, @Alexis, trong trường hợp kiểm tra mức độ liên quan, bạn lấy , trong trường hợp kiểm tra tương đương, bạn lấy . α 2 α1αα2α
Horst Grünbusch

Để bổ sung câu trả lời cho Câu hỏi 1, một bài đăng trên blog có liên quan từ Cosma Shalizi

2
Tôi hơi ngạc nhiên khi mọi người thấy câu hỏi này rất hữu ích mặc dù "Trả lời cho câu hỏi 1" thực sự được trả lời thích hợp hơn nhiều bởi Michael Lew - Alexis, vì dường như gần như rõ ràng rằng điều này sẽ ở lại, có lẽ bạn có thể sửa câu trả lời của mình để nói rằng, về mặt toán học, các thử nghiệm giả thuyết trên thực tế KHÔNG ĐƯỢC BIẾT bởi cỡ mẫu lớn, theo định nghĩa thông thường về sai lệch (theo cách khác, thực tế, cỡ mẫu nhỏ có thể là một vấn đề)!
Florian Hartig

3
Tôi hiểu vấn đề và tôi đồng ý với đánh giá - việc kiểm tra giả thuyết là không chính xác hoặc sai lệch khi! H0 hoàn toàn có khả năng ở vị trí đầu tiên và bạn có sức mạnh gần 1. Nhưng điều đó không làm cho bài kiểm tra bị sai lệch, trừ khi định nghĩa của bạn về thiên vị là một phương pháp mang lại kết quả đúng cho một câu hỏi mà bạn nghĩ không nên hỏi.
Florian Hartig

21

Các xét nghiệm thường xuyên với các mẫu lớn KHÔNG thể hiện sự thiên vị đối với việc từ chối giả thuyết null nếu giả thuyết null là đúng. Nếu các giả định của thử nghiệm là hợp lệ và giả thuyết null là đúng thì sẽ không có nhiều rủi ro về một mẫu lớn dẫn đến bác bỏ giả thuyết null so với một mẫu nhỏ. Nếu null không đúng thì chúng tôi chắc chắn sẽ vui lòng từ chối nó, vì vậy thực tế là một mẫu lớn sẽ thường xuyên từ chối null sai hơn một mẫu nhỏ không phải là 'thiên vị' mà là hành vi phù hợp.

Nỗi sợ hãi về 'các thí nghiệm áp đảo' dựa trên việc cho rằng việc từ chối giả thuyết khống khi nó gần như không phải là một điều tốt. Nhưng nếu nó chỉ gần đúng thì nó thực sự là sai! Từ chối, nhưng không nhận thấy (và báo cáo rõ ràng) kích thước hiệu ứng quan sát được. Nó có thể nhỏ không đáng kể và do đó không đáng để xem xét nghiêm túc, nhưng quyết định về vấn đề đó phải được đưa ra sau khi xem xét thông tin từ bên ngoài bài kiểm tra giả thuyết.


2
Niềm tin rằng kiểm tra thường xuyên không thiên về việc bác bỏ giả thuyết khống khi kích thước mẫu tăng lên dựa trên giả định rằng khác biệt về mặt ý nghĩa và thực chất so với . 0 + thực sự rất nhỏ00+really frickin' tiny
Alexis

6
@Alexis Đọc đoạn thứ hai một lần nữa. Tôi hoàn toàn đồng ý rằng thực sự nhỏ bé của frickin không thực sự quan trọng, nhưng nó cũng không phải là số không.
Michael Lew

6
Xin lỗi vì một bình luận không có giá trị với công chúng, nhưng @MichaelLew, tôi thực sự thích câu trả lời của bạn. Câu đầu tiên khá quan trọng và tôi không nghĩ nó đã được làm sáng tỏ một cách hiệu quả trong câu trả lời của Alexis (tất nhiên cũng tốt).
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.