Khi nào thì câu cá của Fisher có được nhiều dữ liệu hơn Cách tiếp cận có ý nghĩa?


26

Trích dẫn câu trả lời tuyệt vời của gung

Bị cáo buộc, một nhà nghiên cứu đã từng tiếp cận với Fisher với kết quả 'không đáng kể', hỏi anh ta nên làm gì, và Fisher nói, 'hãy lấy thêm dữ liệu'.

Từ góc độ Neyman-Pearson, đây là trắng trợn -hacking, nhưng là có một trường hợp sử dụng nơi go-get-hơn-dữ liệu Fisher cách tiếp cận có ý nghĩa?p


10
Fisher (lặp đi lặp lại) nhấn mạnh tầm quan trọng của việc nhân rộng các thí nghiệm và tôi mong đó là ý định của anh ta ở đây (giả sử cuộc trò chuyện đã xảy ra). Chắc chắn Fisher sẽ nhận thức rõ rằng bạn không thể kiểm tra mức độ quan trọng và sau đó mở rộng mẫu ban đầu của bạn nếu bạn không nhận được nó.
Glen_b -Reinstate Monica

@Glen_b Tôi đã nghe cụm từ "sao chép các thí nghiệm" trước đây nhưng không hiểu lắm. Bạn có thể xây dựng? Giả sử, mười bản sao của một thử nghiệm có kích thước mẫu tốt hơn 10 thử nghiệm so với một thử nghiệm có kích thước mẫu là 100?
nalzok

Trong nghiên cứu thăm dò, go-get-more-data có thể được chấp nhận. Trong nghiên cứu xác nhận, không có vị trí nào cho dữ liệu go-get-more.
dùng158565

5
Một trong những quan điểm gây tranh cãi của tôi về thực tiễn thống kê là trong khi điều quan trọng là phải xem xét vấn đề dương tính giả, chúng ta không nên đặt tỷ lệ lỗi loại 1 trên bệ cao đến mức chúng ta từ chối học từ dữ liệu để bảo tồn loại 1 tỷ lệ lỗi.
Vách đá AB

Câu trả lời:


29

Mô hình thường xuyên là sự kết hợp giữa quan điểm của Fisher và Neyman-Pearson. Chỉ khi sử dụng một cách tiếp cận và một cách giải thích khác mới phát sinh vấn đề.

Bất kỳ ai cũng có vẻ lạ khi thu thập nhiều dữ liệu là có vấn đề, vì càng nhiều dữ liệu càng có nhiều bằng chứng. Thật vậy, vấn đề không nằm ở việc thu thập thêm dữ liệu, mà là sử dụng giá trị p để quyết định làm như vậy, khi đó cũng là thước đo quan tâm. Thu thập thêm dữ liệu dựa trên p -giá trị chỉ p -hacking nếu bạn tính toán một mới p -giá trị.

Nếu bạn không đủ bằng chứng để đưa ra kết luận thỏa đáng về câu hỏi nghiên cứu, thì bằng mọi cách, hãy lấy thêm dữ liệu. Tuy nhiên, thừa nhận rằng bạn hiện đã qua giai đoạn NHST trong nghiên cứu của mình và thay vào đó tập trung vào việc định lượng hiệu quả của sự quan tâm.


Một lưu ý thú vị là người Bayes không gặp phải tình huống khó xử này. Hãy xem xét những điều sau đây là một ví dụ:

  • Nếu một người thường xuyên kết luận không có sự khác biệt đáng kể và sau đó chuyển sang một thử nghiệm tương đương, chắc chắn tỷ lệ dương tính giả đã tăng lên;
  • Một người Bayes có thể biểu thị khoảng mật độ cao nhất và vùng tương đương thực tế của sự khác biệt đồng thời và ngủ giống nhau vào ban đêm.

Về cơ bản, giả sử tôi muốn kiểm tra xem giá trị trung bình của dân số A có bằng dân số B. Ban đầu, tôi nhận được một số dữ liệu, thực hiện kiểm tra cho : "phương tiện là bằng nhau" và tôi không từ chối. Trong trường hợp này, tôi không nên tiến hành một thử nghiệm khác cho H 0 : "phương tiện KHÔNG bằng". Tất cả những gì tôi có thể làm là ước tính khoảng thời gian bí mật của phương tiện, điều đó có đúng không? Điều gì nếu không có sự chồng chéo giữa hai khoảng? H0H0
nalzok

6
"Chỉ hack p nếu bạn tính giá trị p mới." Điều này có thực sự phụ thuộc hoàn toàn vào phương pháp được sử dụng để tính giá trị p không? Bỏ qua phân tích tuần tự và quyết định thu thập thêm dữ liệu sẽ dẫn đến giá trị p không chính xác. Tuy nhiên, nếu bạn kết hợp quy tắc quyết định để thu thập thêm dữ liệu vào tính toán giá trị p, thì bạn sẽ tạo ra giá trị p hợp lệ.
JSK

4
@jsk Tôi nghĩ rằng ít hơn các giá trị p được tính toán sau đó theo một cách nào đó không hợp lệ và hơn nữa bạn đang sử dụng một tiêu chuẩn tùy ý và không dựa trên dữ liệu để đánh giá khi thử nghiệm của bạn là "chính xác" và nghiên cứu của bạn về dự án đó là " làm xong". Quyết định rằng tất cả các p-giá trị không đáng kể là sai, và thu thập dữ liệu cho đến khi bạn có được một mà đáng kể và sau đó dừng lại vì bạn đã nhận được kết quả "đúng" là trái ngược với khoa học thực nghiệm.
Upper_Case-Stop Làm hại Monica

1
@Upper_Case Tôi đã bình luận về một phần rất nhỏ của bài đăng liên quan đến hack-p, đó là lý do tại sao tôi đưa phần đó vào dấu ngoặc kép. Bạn đang đọc quá nhiều vào tuyên bố của tôi. Quan điểm của tôi là BẤT K rule quy tắc quyết định nào được sử dụng để quyết định thu thập thêm dữ liệu phải được đưa vào để tính giá trị p. Miễn là bạn kết hợp các quyết định đưa ra vào tính toán giá trị p, bạn vẫn có thể tiến hành NHST hợp lệ nếu bạn mong muốn. Điều này không có nghĩa là tôi ủng hộ quy tắc dừng có nội dung: "thu thập thêm dữ liệu cho đến khi bạn tìm thấy kết quả quan trọng".
JSK

@jsk À, tôi hiểu quan điểm của bạn hơn rồi. Cảm ơn bạn đã làm rõ.
Upper_Case-Stop Làm hại Monica

10

Với kích thước mẫu đủ lớn, một thử nghiệm sẽ luôn hiển thị kết quả quan trọng, trừ khi kích thước hiệu ứng thực sự chính xác bằng 0, như được thảo luận ở đây . Trong thực tế, kích thước hiệu ứng thực sự không phải là 0, do đó, việc thu thập nhiều dữ liệu hơn cuối cùng sẽ có thể phát hiện ra những khác biệt nhỏ nhất.

Câu trả lời thẳng thắn (IMO) từ Fisher là để trả lời cho một câu hỏi tương đối tầm thường rằng tại tiền đề của nó là "sự khác biệt đáng kể" với "sự khác biệt thực tế có liên quan".

Nó sẽ tương đương với một nhà nghiên cứu đến văn phòng của tôi và hỏi "Tôi đã cân trọng lượng chì này có nhãn '25 gram 'và nó đo được 25,0 gram. Tôi tin rằng nó bị dán nhãn sai, tôi phải làm gì?" Để tôi có thể trả lời, "Lấy một tỷ lệ chính xác hơn."

Tôi tin rằng phương pháp tiếp cận dữ liệu nhiều hơn là phù hợp nếu thử nghiệm ban đầu bị thiếu sức mạnh để phát hiện mức độ khác biệt có liên quan thực tế.


Mặc dù vậy, vấn đề là bạn cần kết hợp quyết định để có thêm dữ liệu vào tính toán giá trị p.
JSK

@jsk ngay cả khi bạn thay đổi giá trị p, bạn vẫn có thể thu thập thêm dữ liệu để tìm kết quả quan trọng (mặc dù bạn cần nhiều dữ liệu hơn nữa).
Underminer

1
Tôi có thể đã rõ ràng hơn. Tôi không chắc chính xác ý bạn là gì bởi "bạn vẫn có thể thu thập thêm dữ liệu để tìm kết quả quan trọng". Tôi hiểu điều đó bởi vì giả thuyết null nói chung không bao giờ thực sự đúng, việc thu thập thêm dữ liệu cuối cùng sẽ dẫn đến một kết quả quan trọng. Tôi chỉ muốn thu hút sự chú ý đến thực tế là khi tính giá trị p, bạn cần kết hợp quyết định thu thập thêm dữ liệu vào tính toán giá trị p. Điều này có nghĩa là các quy tắc quyết định (về việc thu thập thêm dữ liệu) cần được chỉ định trước trước khi thu thập dữ liệu gốc.
JSK

@jsk ngay cả với một phương pháp rất thận trọng để điều chỉnh giá trị p (ví dụ Bonferroni đúng, áp dụng trong phân tích hậu hoc), vẫn tồn tại một cỡ mẫu bổ sung đủ lớn để khắc phục sự điều chỉnh. Vấn đề là: Nếu bạn cung cấp cho tôi phương pháp điều chỉnh giá trị p (được chỉ định trước khi thu thập dữ liệu gốc hay không), thì sự khác biệt thực sự giữa phân phối dân số của các nhóm quan tâm và kết quả sơ bộ không đáng kể; và tôi có thể cung cấp cho bạn một cỡ mẫu đủ lớn để bạn có được kết quả quan trọng. Do đó, nhiều dữ liệu hơn LUÔN là một câu trả lời.
Underminer

7

Cảm ơn. Có một vài điều cần lưu ý ở đây:

  1. Các trích dẫn có thể là ngày tận thế.
  2. Khá hợp lý để lấy thêm / dữ liệu tốt hơn hoặc dữ liệu từ một nguồn khác (thang đo chính xác hơn, nhận xét, câu trả lời của @ Underminer ; tình huống hoặc kiểm soát khác nhau, v.v.), cho một nghiên cứu thứ hai ( nhận xét của @ Glen_b ) . Nghĩa là, bạn sẽ không phân tích dữ liệu bổ sung kết hợp với dữ liệu gốc: giả sử bạn có N = 10 với kết quả không đáng kể, bạn có thể thu thập dữ liệu N = 20 khác và phân tích chúng một mình (không kiểm tra toàn bộ 30 cùng nhau ). Nếu trích dẫn không phải là ngày tận thế, thì đó có thể là điều mà Fisher nghĩ đến.
  3. Triết lý khoa học của Fisher về cơ bản là Popperian . Đó là, null không nhất thiết phải từ chối một cách khéo léo để xác nhận lý thuyết của bạn, nhưng lý tưởng nhất có thể là lý thuyết của bạn, như vậy từ chối có nghĩa là lý thuyết thú cưng của bạn sai và bạn cần quay lại bảng vẽ. Trong trường hợp như vậy, lạm phát loại I sẽ không có lợi cho nhà nghiên cứu. (Mặt khác, cách giải thích này chống lại Fisher đưa ra lời khuyên này trừ khi anh ta là một người hay gây gổ, điều đó sẽ không nằm ngoài tính cách.)
  4. Ở mức độ nào, đáng để chỉ ra rằng lý do tôi đưa ra nhận xét đó là nó minh họa một cái gì đó cơ bản về sự khác biệt về bản chất của hai cách tiếp cận.

1
p

Nhân tiện, sẽ thật tuyệt nếu bạn có thể giải thích về "sự khác biệt về bản chất của hai cách tiếp cận". Phương pháp của Fisher nghe có vẻ ... chủ quan hơn, vì tôi cảm thấy như anh ta không thực sự quan tâm đến tỷ lệ lỗi, nhưng tôi có thể thiếu một cái gì đó.
nalzok

1
@nalzok, sự khác biệt được thảo luận trong chủ đề ban đầu: phương pháp Neyman-Pearson cho rằng nghiên cứu là một sự kiện riêng biệt, bạn thực hiện nó & bỏ đi; Cách tiếp cận của Fisher cho rằng vấn đề đang được tiếp tục điều tra. Re: # 2, nếu bạn phân tích dữ liệu một cách cô lập, đó không phải là hack (trừ khi bạn có thể chạy nhiều nghiên cứu & chỉ xuất bản dữ liệu cho thấy những gì bạn muốn). Re: # 3, không, null không được chấp nhận, bạn cần tiếp tục tìm cách tốt hơn để kiểm tra lý thuyết của mình.
gung - Tái lập Monica

1
pp

1
(+1) Đôi khi tôi nghĩ rằng chúng ta tập trung vào cây và bỏ lỡ khu rừng. Nói thẳng ra, khi chúng ta gặp vấn đề khó khăn, nhiều dữ liệu thường tốt hơn ít dữ liệu hơn . Trong hầu hết các trường hợp, nhiều dữ liệu không tốt hơn nhiều. Như bài viết sâu sắc năm 2018 của Mạnh "Những thiên đường thống kê và nghịch lý trong dữ liệu lớn (I) " cho thấy, việc có được dữ liệu tốt hơn (ví dụ như một mẫu được chọn tốt) có lợi hơn nhiều so với dữ liệu lớn hơn khi chúng ta đang cố gắng ước tính số lượng không xác định. Nhưng nhiều dữ liệu thường giúp!
usεr11852 nói Phục hồi Monic

6

Cái mà chúng tôi gọi là hack P đang áp dụng thử nghiệm ý nghĩa nhiều lần và chỉ báo cáo kết quả quan trọng. Cho dù điều này là tốt hay xấu là tùy thuộc vào tình huống.

Để giải thích, chúng ta hãy nghĩ về các hiệu ứng thực sự theo thuật ngữ Bayes, thay vì các giả thuyết không và thay thế. Miễn là chúng tôi tin rằng tác động của lợi ích của chúng tôi đến từ một phân phối liên tục, thì chúng tôi biết giả thuyết null là sai. Tuy nhiên, trong trường hợp thử nghiệm hai mặt, chúng tôi không biết liệu đó là dương tính hay âm tính. Dưới ánh sáng này, chúng ta có thể nghĩ về giá trị p cho các thử nghiệm hai mặt như một thước đo xem mức độ mạnh mẽ của bằng chứng là ước tính của chúng ta có hướng chính xác (nghĩa là hiệu ứng dương hay âm).

p<α

Bây giờ, hãy xem xét những gì xảy ra khi bạn tiếp tục quay lại để lấy thêm dữ liệu. Mỗi khi bạn nhận được nhiều dữ liệu hơn, xác suất của bạn có được hướng chính xác có điều kiện trên dữ liệu đủ chỉ tăng lên. Vì vậy, trong kịch bản này, chúng ta nên nhận ra rằng bằng cách lấy thêm dữ liệu, mặc dù trên thực tế chúng ta đang tăng xác suất xảy ra lỗi loại I, chúng ta cũng đang giảm xác suất kết luận sai hướng.

Ngược lại, việc lạm dụng P-hack điển hình hơn; chúng tôi kiểm tra 100 kích thước hiệu ứng có xác suất rất nhỏ và chỉ báo cáo những kích thước quan trọng. Lưu ý rằng trong trường hợp này, nếu tất cả các hiệu ứng là nhỏ, chúng tôi có gần 50% cơ hội nhận sai hướng khi chúng tôi tuyên bố ý nghĩa.

Tất nhiên, giá trị p được tạo ra từ dữ liệu này - tăng gấp đôi vẫn phải đi kèm với một hạt muối. Mặc dù, nói chung, bạn không nên gặp vấn đề với những người thu thập nhiều dữ liệu để chắc chắn hơn về kích thước hiệu ứng, điều này có thể bị lạm dụng theo những cách khác. Ví dụ, một PI thông minh có thể nhận ra rằng thay vì thu thập tất cả 100 điểm dữ liệu cùng một lúc, họ có thể tiết kiệm một loạt tiền tăng sức mạnh bằng cách trước tiên thu thập 50 điểm dữ liệu, phân tích dữ liệu và sau đó thu thập 50 điểm tiếp theo nếu không đáng kể . Trong kịch bản này, chúng làm tăng xác suất nhận được hướng của hiệu ứng sai điều kiện khi khai báo ý nghĩa, vì chúng có nhiều khả năng nhận được hướng của hiệu ứng sai với 50 điểm dữ liệu so với 100 điểm dữ liệu.

Và cuối cùng, hãy xem xét những tác động của việc không nhận được nhiều dữ liệu hơn khi chúng ta có một kết quả không đáng kể. Điều đó có nghĩa là không bao giờ thu thập thêm thông tin về chủ đề này, điều này sẽ không thực sự thúc đẩy khoa học tiến lên, phải không? Một nghiên cứu thiếu năng lực sẽ giết chết cả một lĩnh vực.


1
(+1) Đây là một quan điểm thú vị, nhưng bạn có thể nói rõ hơn về sự khác biệt giữa phương pháp của Fisher và của PI thông minh không? Cả hai đều thu thập nhiều dữ liệu hơn vì dường như thử nghiệm ban đầu không đáng kể.
nalzok

Ngoài ra, tôi không chắc ý của bạn là gì "mặc dù trên thực tế chúng tôi đang tăng xác suất xảy ra lỗi loại I, chúng tôi cũng đang giảm xác suất kết luận sai hướng". Giả thuyết null ở đây là gì? IMO nếu bạn đang thực hiện kiểm tra một phía, thì "kết luận sai hướng" là "lỗi loại I" và đối với các thử nghiệm hai mặt, bạn không nên kết luận hướng.
nalzok

Sửa lỗi cho tôi nếu tôi sai, nhưng tôi nghĩ bạn nên tiếp tục thu thập thêm dữ liệu cho đến khi thử nghiệm hai mặt có ý nghĩa và trong trường hợp này, tỷ lệ lỗi loại I sẽ là 100%.
nalzok

1
Sự khác biệt chính giữa những gì Fisher khuyến nghị và PI thông minh / ngây thơ là Fisher thực hiện cuộc gọi đó từ nghiên cứu được kết luận. Các lựa chọn của anh ta hoặc là thu thập thêm dữ liệu, hoặc quyết định rằng anh ta sẽ không bao giờ biết hướng của hiệu ứng. Mặt khác, PI quyết định underpower nghiên cứu ban đầu của mình trước khi ông thậm chí nhìn thấy dữ liệu.
Vách đá AB

1
@nalzok: chắc chắn tôi sẽ cố gắng xem trong giờ làm việc :)
Cliff AB

1

Nếu giải pháp thay thế có xác suất tiên nghiệm nhỏ , thì một thử nghiệm không từ chối null sẽ làm giảm thêm, làm cho bất kỳ nghiên cứu nào khác thậm chí ít hiệu quả hơn về chi phí. Chẳng hạn, giả sử xác suất tiên nghiệm là 0,01. Sau đó, entropy của bạn là 0,08 bit. Nếu xác suất giảm xuống còn 0,001, thì entropy của bạn bây giờ là 0,01. Vì vậy, tiếp tục thu thập dữ liệu thường không hiệu quả chi phí. Một lý do tại sao nó sẽ có hiệu quả về mặt chi phí là vì việc biết là rất quan trọng đến nỗi ngay cả 0,01 bit entropy còn lại cũng đáng để giảm.

Một lý do khác là nếu xác suất tiên nghiệm thực sự cao. Nếu xác suất tiên nghiệm của bạn là hơn 50%, thì việc không từ chối null sẽ làm tăng entropy của bạn, khiến việc tiếp tục thu thập dữ liệu trở nên hiệu quả hơn về mặt chi phí. Một ví dụ sẽ là khi bạn gần như chắc chắn rằng có hiệu ứng, nhưng không biết theo hướng nào.

Chẳng hạn, nếu bạn là một nhân viên phản gián và bạn chắc chắn rằng một bộ phận có nốt ruồi và đã thu hẹp nó xuống còn hai nghi phạm, và đang thực hiện một số phân tích thống kê để quyết định xem cái nào, thì kết quả không đáng kể về mặt thống kê sẽ chứng minh việc thu thập thêm dữ liệu.


Tại sao không từ chối null làm giảm xác suất của nó? Mặc dù sự vắng mặt của bằng chứng không phải là bằng chứng vắng mặt, tôi không thể hiểu tại sao đó là bằng chứng chống lại sự vắng mặt.
nalzok

@nalzok Tôi đã viết "Nếu thay thế có xác suất tiên nghiệm nhỏ, thì một thử nghiệm không từ chối null sẽ làm giảm thêm" Trong khi "null" là danh từ gần nhất với "nó", null không phải là một đại lượng và do đó không thể giảm và không phải là tiền đề hợp lệ cho "nó". Ngoài ra "thêm" chỉ ra rằng "nó" đề cập đến một cái gì đó đã nhỏ. Những sự thật này chỉ ra tiền đề của "nó" là "xác suất tiên nghiệm nhỏ" của phương án.
Tích lũy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.