Là cách lai giữa những người khác giữa Fisher và Neyman-Pearson để kiểm tra thống kê có thực sự là một mớ hỗn độn không liên tục?


56

Có tồn tại một trường phái tư tưởng nhất định theo đó cách tiếp cận phổ biến nhất để kiểm tra thống kê là "lai" giữa hai cách tiếp cận: của Fisher và của Neyman-Pearson; hai cách tiếp cận này, theo yêu cầu, là "không tương thích" và do đó, kết quả "lai" là một "sự nhầm lẫn không liên tục". Tôi sẽ cung cấp một thư mục và một số trích dẫn dưới đây, nhưng bây giờ đủ để nói rằng có rất nhiều bài viết về điều đó trong bài viết trên wikipedia về kiểm tra giả thuyết thống kê . Ở đây trên CV, điểm này được lặp lại bởi @Michael Lew (xem tại đâyđây ).

Câu hỏi của tôi là: tại sao các cách tiếp cận F và NP được tuyên bố là không tương thích và tại sao phép lai được tuyên bố là không mạch lạc? Lưu ý rằng tôi đã đọc ít nhất sáu bài báo chống lai (xem bên dưới), nhưng vẫn không hiểu được vấn đề hoặc lập luận. Cũng lưu ý rằng tôi không đề nghị tranh luận nếu F hoặc NP là cách tiếp cận tốt hơn; tôi cũng không đề nghị thảo luận về khuôn khổ thường xuyên so với Bayesian. Thay vào đó, câu hỏi là: chấp nhận rằng cả F và NP đều là những cách tiếp cận hợp lệ và có ý nghĩa, điều gì là quá tệ đối với phép lai của chúng?


Đây là cách tôi hiểu tình hình. Cách tiếp cận của Fisher là tính toán giá trị và lấy nó làm bằng chứng chống lại giả thuyết khống. càng nhỏ , bằng chứng càng thuyết phục. Nhà nghiên cứu có nhiệm vụ kết hợp bằng chứng này với kiến ​​thức nền tảng của mình, quyết định xem nó có đủ sức thuyết phục hay không và tiến hành theo đó. (Lưu ý rằng quan điểm của Fisher đã thay đổi qua nhiều năm, nhưng đây là điều mà dường như cuối cùng anh ấy đã hội tụ.) Ngược lại, cách tiếp cận của Neyman-Pearson là chọn trước thời hạn và sau đó kiểm tra xemp α p αppαpα; nếu vậy, hãy gọi nó là quan trọng và bác bỏ giả thuyết khống (ở đây tôi bỏ qua phần lớn câu chuyện NP không liên quan đến cuộc thảo luận hiện tại). Xem thêm một câu trả lời xuất sắc của @gung trong Khi nào nên sử dụng khung của Fisher và Neyman-Pearson?

Phương pháp lai là tính toán giá trị , báo cáo nó (mặc nhiên giả định rằng càng nhỏ càng tốt) và cũng gọi các kết quả có ý nghĩa nếu (thường là ) và không có ý nghĩa khác. Điều này được cho là không mạch lạc. Làm thế nào có thể không hợp lệ để làm hai điều hợp lệ cùng một lúc, đánh bại tôi.p α α = 0,05ppαα=0.05

Đặc biệt là những người chống lai xem thực tiễn phổ biến về báo cáo giá trị là , hoặc (hoặc thậm chí ), trong đó luôn luôn chọn bất đẳng thức mạnh nhất. Lập luận dường như là (a) sức mạnh của bằng chứng không thể được đánh giá đúng vì chính xác không được báo cáo và (b) mọi người có xu hướng diễn giải số bên phải trong bất đẳng thức là và xem đó là lỗi loại I tỷ lệ, và đó là sai. Tôi không thấy một vấn đề lớn ở đây. Đầu tiên, báo cáo chính xác chắc chắn là một cách thực hành tốt hơn, nhưng không ai thực sự quan tâm nếu là hoặcp < 0,05 p < 0,01 p < 0,001 p « 0,0001 p α p p 0.02 0.03 ~ 0,0001 0,05 α = 0,05 p α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , vì vậy làm tròn nó trên thang đo log không quá tệ (và đi xuống dưới dù sao cũng không có ý nghĩa gì, hãy xem Báo cáo giá trị p nhỏ như thế nào? ). Thứ hai, nếu sự đồng thuận là gọi mọi thứ dưới đáng kể, thì tỷ lệ lỗi sẽ là và , như @gung giải thích trong Giải thích giá trị p trong kiểm tra giả thuyết . Mặc dù đây có thể là một vấn đề khó hiểu, nhưng nó không gây cho tôi nhiều rắc rối hơn các vấn đề khác trong kiểm tra thống kê (bên ngoài kết hợp). Ngoài ra, mọi người đọc đều có thể có suy nghĩ yêu thích của riêng mình khi đọc một bài báo lai và tỷ lệ lỗi của chính cô ấy là hậu quả.0.00010.05α=0.05pααVì vậy, các vấn đề lớn là gì?

Một trong những lý do tôi muốn đặt câu hỏi này là bởi vì thật sự đau lòng khi thấy bao nhiêu bài viết trên wikipedia về thử nghiệm giả thuyết thống kê được dành cho lai ghép. Theo Halpin & Stam, họ tuyên bố rằng một Lindquist nào đó đáng trách (thậm chí còn có một bản quét lớn trong sách giáo khoa của anh ta với "lỗi" được tô màu vàng), và dĩ nhiên bài viết wiki về chính Lindquist bắt đầu với cùng một lời buộc tội. Nhưng sau đó, có lẽ tôi đang thiếu một cái gì đó.


Người giới thiệu

Báo giá

Gigerenzer: Những gì đã được thể chế hóa thành thống kê suy luận trong tâm lý học không phải là thống kê Ngư nghiệp. Đó là một sự nhầm lẫn không nhất quán của một số ý tưởng của Fisher trên một mặt và mặt khác là một số ý tưởng của Neyman và ES Pearson. Tôi gọi sự pha trộn này là "logic lai" của suy luận thống kê.

Goodman: Cách tiếp cận kiểm tra giả thuyết [Neyman-Pearson] đã mang đến cho các nhà khoa học một món hời Pháp - một cách dường như tự động để hạn chế số lượng kết luận sai lầm trong thời gian dài, nhưng chỉ bằng cách từ bỏ khả năng đo lường bằng chứng [a la Fisher] và đánh giá sự thật từ một thí nghiệm duy nhất.

Hubbard & Bayarri: Thử nghiệm thống kê cổ điển là sự kết hợp ẩn danh của các phương pháp cạnh tranh và thường xuyên mâu thuẫn [...]. Cụ thể, có một sự thất bại rộng rãi trong việc đánh giá cao sự không tương thích của giá trị bằng chứng của Fisher với tỷ lệ lỗi Loại I, , của chính thống thống kê Neyman-Pearson. [...] Là một ví dụ điển hình cho sự hoang mang phát sinh từ sự pha trộn [này] [...], hãy xem xét thực tế không được đánh giá rộng rãi rằng giá trị của trình định dạng không tương thíchα ppαpvới bài kiểm tra giả thuyết Neyman-Pearson trong đó nó đã được nhúng. [...] Ví dụ, Gibbons và Pratt [...] đã nói sai: "Báo cáo giá trị P, cho dù chính xác hay trong một khoảng thời gian, thực tế cho phép mỗi cá nhân chọn mức ý nghĩa của riêng mình là xác suất chấp nhận được tối đa của lỗi loại I. "

Halpin & Stam: Văn bản năm 1940 của Lindquist là một nguồn gốc của sự lai tạo giữa phương pháp tiếp cận của Fisher và Neyman-Pearson. [...] Thay vì tuân thủ bất kỳ cách giải thích cụ thể nào về kiểm tra thống kê, các nhà tâm lý học vẫn tỏ ra mơ hồ và thực sự không biết gì về những khó khăn về khái niệm liên quan đến tranh cãi của Fisher và Neyman-Pearson.

Luân: Những gì chúng tôi có là một phương pháp lai không kiểm soát tỷ lệ lỗi cũng như không cho phép đánh giá sức mạnh của bằng chứng.


+1 cho câu hỏi này được nghiên cứu kỹ lưỡng (ngay cả khi dài). Nó sẽ giúp tôi nghĩ có lẽ tiếp tục xác định chính xác những gì khó hiểu. Liệu có đủ để biết rằng đối với Fisher không tồn tại một giả thuyết thay thế nào trong khi đối với NP, thế giới khả năng đã cạn kiệt với cả null và thay thế? Có vẻ không đủ với tôi nhưng than ôi tôi làm điều lai mọi lúc vì bạn không thể tránh, vì vậy nó đã ăn sâu vào nó.
Momo

2
@Momo: cho bạn câu hỏi về "chính xác điều gì là khó hiểu" - tốt, khó hiểu là sự điên cuồng của các biện pháp tu từ chống lai. "Sự nhầm lẫn không thường xuyên" là những từ mạnh mẽ, vì vậy tôi muốn thấy một sự mâu thuẫn khá tồi tệ. Những gì bạn nói về giả thuyết thay thế không có vẻ như vậy đối với tôi (trong trường hợp giống vườn của sự thay thế rõ ràng là , và tôi không thấy nhiều chỗ cho sự không nhất quán), nhưng nếu tôi thiếu quan điểm của bạn thì có lẽ bạn muốn cung cấp nó như một câu trả lời. H 1 : μ 0H0:μ=0H1:μ0
amip nói phục hồi Monica

2
Chỉ cần đọc Lew (và nhận ra tôi đã đọc nó trước đây, có lẽ khoảng năm 2006), tôi thấy nó khá hay, nhưng tôi không nghĩ nó đại diện cho cách tôi sử dụng giá trị p. Mức độ quan trọng của tôi - trong những trường hợp hiếm hoi tôi sử dụng thử nghiệm giả thuyết ở tất cả * - luôn ở phía trước và nơi tôi có bất kỳ kiểm soát nào đối với kích thước mẫu, sau khi xem xét về quyền lực, một số xem xét về chi phí của hai loại lỗi, v.v. về cơ bản là Neyman-Pearson. Tôi vẫn trích dẫn giá trị p, nhưng không nằm trong khuôn khổ của phương pháp của Fisher .... (ctd)
Glen_b

2
(ctd) ... * (Tôi thường lèo lái mọi người khỏi kiểm tra giả thuyết - vì vậy thường các câu hỏi thực tế của họ có liên quan đến hiệu ứng đo lường và được trả lời tốt hơn bằng cách xây dựng các khoảng). Vấn đề cụ thể mà Lew nêu ra cho quy trình 'lai' áp dụng cho những điều tôi không làm và sẽ có xu hướng cảnh báo mọi người không làm. Nếu có những người thực sự thực hiện pha trộn các cách tiếp cận mà anh ta ngụ ý, bài báo có vẻ ổn. Các cuộc thảo luận trước đó về ý nghĩa của giá trị p và lịch sử của các phương pháp tiếp cận có vẻ xuất sắc.
Glen_b

1
@Glen_b, tổng quan lịch sử của Lew rất hay và rõ ràng, tôi hoàn toàn đồng ý. Vấn đề của tôi là đặc biệt với vấn đề lai (phần "Cách tiếp cận nào được sử dụng nhiều nhất?"). Chắc chắn có những người làm những gì anh ta mô tả ở đó, tức là báo cáo mạnh nhất của p <.001, <.01 hoặc <.05; Tôi thấy nó mọi lúc trong khoa học thần kinh. Hãy xem xét một trong những trường hợp khi bạn sử dụng thử nghiệm. Bạn chọn ví dụ alpha = 0,05 và theo khung NP. Khi bạn nhận được p = 0,00011, sự chắc chắn của bạn về H1 và sự lựa chọn từ ngữ của bạn sẽ khác với khi bạn nhận được p = .049? Nếu vậy, nó là lai! Nếu không, làm thế nào đến?
amip nói rằng Phục hồi Monica

Câu trả lời:


16

Tôi tin rằng các bài báo, bài báo, bài đăng, vv mà bạn siêng năng thu thập, chứa đủ thông tin và phân tích về vị trí và lý do hai cách tiếp cận khác nhau. Nhưng khác biệt không có nghĩa là không tương thích .

Vấn đề với "lai" là nó là một lai và không phải là một tổng hợp , và đây là lý do tại sao nó được xử lý bởi nhiều như một hybris , nếu bạn tha thứ từ-play.
Không phải là một tổng hợp, nó không cố gắng kết hợp sự khác biệt của hai cách tiếp cận, và tạo ra một cách tiếp cận thống nhất và thống nhất trong nội bộ, hoặc giữ cả hai cách tiếp cận trong kho vũ khí như là sự thay thế bổ sung, để đối phó hiệu quả hơn với sự phức tạp thế giới chúng ta cố gắng phân tích thông qua Thống kê (may mắn thay, điều cuối cùng này là những gì dường như đang xảy ra với cuộc nội chiến vĩ đại khác của lĩnh vực này, một người thường xuyên-bayesian).

Tôi không hài lòng với nó, tôi tin rằng nó thực sự đã tạo ra sự hiểu lầm trong việc áp dụng các công cụ thống kê và giải thích các kết quả thống kê , chủ yếu bởi các nhà khoa học không phải là thống kê , hiểu lầm có thể có những tác động rất nghiêm trọng và có hại của y học giúp đưa ra vấn đề giọng điệu phù hợp của nó). Theo tôi, sự áp dụng sai lầm này được chấp nhận rộng rãi như một sự thật - và theo nghĩa đó, quan điểm "chống lai" có thể được coi là phổ biến (ít nhất là do hậu quả của nó, nếu không phải là do các vấn đề phương pháp luận của nó).

p

Theo tôi, sự kết hợp đã xuất hiện từ việc nhận ra rằng không có câu trả lời dễ dàng như vậy tồn tại và có những hiện tượng trong thế giới thực mà cách tiếp cận này phù hợp hơn phương pháp khác (xem bài này để biết ví dụ như vậy, theo tôi tại ít nhất, trong đó cách tiếp cận Ngư dân có vẻ phù hợp hơn). Nhưng thay vì giữ hai "riêng biệt và sẵn sàng hành động", họ đã chắp vá một cách không cần thiết với nhau.

Tôi cung cấp một nguồn tóm tắt phương pháp "thay thế bổ sung" này: Spanos, A. (1999). Lý thuyết xác suất và suy luận thống kê: mô hình toán kinh tế với dữ liệu quan sát. Nhà xuất bản Đại học Cambridge. , ch. 14 , đặc biệt là Mục 14,5, trong đó sau khi trình bày chính thức và rõ ràng hai cách tiếp cận, tác giả có thể chỉ ra sự khác biệt của họ một cách rõ ràng, và cũng cho rằng chúng có thể được coi là sự thay thế bổ sung.


6
pα

6
pα

6
CONTD Đối với tôi, đây là vấn đề "ăn bánh của bạn và ăn nó" của phương pháp lai. Ví dụ, một cách tiếp cận NP không có tính toán kiểm tra công suất sẽ không thể tưởng tượng được, nhưng tất cả thời gian chúng ta thấy kiểm tra được đặt ra trong khung NP, nhưng không đề cập đến tính toán công suất.
Alecos Papadopoulos

Không có chủ đề, nhưng ... Vì bạn đang trích dẫn Aris Spanos, tôi tự hỏi liệu bạn có thể trả lời câu hỏi này về phương pháp của anh ấy không? (Tôi đã từng hỏi trực tiếp câu hỏi với Aris Spanos, và anh ấy vui lòng bỏ chút nỗ lực để trả lời nó. Thật không may, câu trả lời của anh ấy có cùng ngôn ngữ với bài báo của anh ấy, vì vậy nó không giúp tôi nhiều.)
Richard Hardy

13

Tôi tự đưa ra câu hỏi của mình là không có gì đặc biệt không phù hợp trong phương pháp lai (tức là được chấp nhận). Nhưng vì tôi không chắc là mình có thể không hiểu được tính hợp lệ của các lập luận được trình bày trong các bài báo chống lai hay không, tôi rất vui khi tìm thấy cuộc thảo luận được xuất bản cùng với bài báo này:

Thật không may, hai câu trả lời được xuất bản dưới dạng một cuộc thảo luận không được định dạng thành các bài viết riêng biệt và do đó không thể được trích dẫn chính xác. Tuy nhiên, tôi muốn trích dẫn từ cả hai:

Berk: Chủ đề của Phần 2 và 3 dường như là Fisher không thích những gì Neyman và Pearson đã làm, và Neyman không thích những gì mà Fisher đã làm, và do đó chúng ta không nên làm bất cứ điều gì kết hợp cả hai cách tiếp cận. Không có tiền đề thoát khỏi đây, nhưng lý do thoát khỏi tôi.

Carlton:Các tác giả kiên quyết khẳng định rằng hầu hết sự nhầm lẫn bắt nguồn từ cuộc hôn nhân của ý tưởng Ngư dân và Neyman-Pearsonian, rằng một cuộc hôn nhân như vậy là một lỗi thảm khốc đối với các nhà thống kê hiện đại [...] [T] hey dường như có ý định thiết lập giá trị P đó và Lỗi loại I không thể cùng tồn tại trong cùng vũ trụ. Không rõ liệu các tác giả đã đưa ra bất kỳ lý do thực sự tại sao chúng ta không thể thốt ra "giá trị p" và "lỗi loại I" trong cùng một câu. [...] "Sự thật" về tính không tương thích [F và NP] của họ là một tin đáng ngạc nhiên đối với tôi, vì tôi chắc chắn rằng nó sẽ làm với hàng ngàn nhà thống kê có trình độ đọc bài báo. Các tác giả thậm chí dường như gợi ý rằng trong số các lý do, các nhà thống kê nên ly dị hai ý tưởng này là vì Fisher và Neyman không thích nhau một cách khủng khiếp (hoặc lẫn nhau ' triết lý về kiểm tra). Tôi đã luôn xem thực tiễn hiện tại của chúng tôi, trong đó tích hợp các triết lý của Fisher và Neyman và cho phép thảo luận về cả hai giá trị P và lỗi Loại I - mặc dù chắc chắn không song song - là một trong những chiến thắng lớn hơn của môn học của chúng tôi.

Cả hai câu trả lời đều rất đáng đọc. Ngoài ra còn có một câu trả lời của các tác giả gốc, mà âm thanh không có sức thuyết phục đối với tôi chút nào .


1
Đó là một thứ để cùng tồn tại, nó là một thứ khác để được coi là một thứ khác. Nhưng thực ra, cách tiếp cận chống lai này là theo tinh thần "không thể có sự tổng hợp nào" - điều mà tôi hoàn toàn không đồng ý. Nhưng tôi không thấy con lai hiện tại là một cuộc hôn nhân thành công .
Alecos Papadopoulos

2
@Livid, cảm ơn ý kiến ​​của bạn, điều này thật thú vị, nhưng tôi muốn kiềm chế thảo luận thêm ở đây. Tôi muốn khuyến khích bạn gửi một câu trả lời mới, nếu bạn muốn. Nhưng nếu bạn quyết định làm như vậy, hãy cố gắng tập trung vào vấn đề chính, đó là: điều gì là quá tệ về "hybrid", so với cả Fisher và NP một mình. Bạn dường như ghét toàn bộ cách tiếp cận của thử nghiệm ý nghĩa, "giả thuyết không có giá trị", v.v., nhưng đây không phải là câu hỏi này!
amip nói rằng Phục hồi lại

1
@Livid: Hmmm, bạn thực sự có thể làm rõ lý do tại sao bạn nói đó là một đặc điểm phân biệt của hybrid? Điều gì sẽ là null trong Fisher thuần túy hoặc NP thuần túy? Giả sử bạn có hai nhóm và muốn kiểm tra sự khác biệt đáng kể ("nil null"). Không ai có thể tiếp cận tình huống này với cả ba cách tiếp cận: Fisher thuần túy, NP thuần túy và hybrid?
amip nói rằng Phục hồi lại

2
@ Sống động, tôi hiểu lập luận của bạn chống lại con số không, tôi chỉ nghĩ rằng vấn đề này là trực giao với vấn đề lai. Tôi phải làm mới các bài báo chống lai trong bộ nhớ, nhưng theo như tôi nhớ thì bài phê bình của họ về bài lai không hoàn toàn tập trung vào con số không. Thay vào đó, đó là về việc kết hợp Fisher và NP. Một lần nữa, nếu bạn không đồng ý với điều này, xin vui lòng xem xét đăng một câu trả lời; Hiện tại, hãy để nó ở đó.
amip nói rằng Phục hồi lại

2
Một lưu ý cho bản thân tôi: Tôi nên kết hợp vào câu trả lời này một số trích dẫn từ bài viết này: Lehmann 1992, The Fisher, Neyman-Pearson Theory of tests Giả thuyết: Một lý thuyết hay hai?
amip nói phục hồi Monica

8

Tôi sợ rằng một câu trả lời thực sự cho câu hỏi xuất sắc này sẽ yêu cầu một bài viết dài. Tuy nhiên, đây là một vài điểm không có trong câu hỏi hoặc câu trả lời hiện tại.

  1. Tỷ lệ lỗi 'thuộc về' thủ tục nhưng bằng chứng 'thuộc về' kết quả thử nghiệm. Do đó, có thể với các quy trình nhiều giai đoạn với các quy tắc dừng tuần tự để có kết quả với bằng chứng rất mạnh chống lại giả thuyết khống nhưng kết quả kiểm tra giả thuyết không đáng kể. Điều đó có thể được coi là một sự không tương thích mạnh mẽ.

  2. Nếu bạn quan tâm đến sự không tương thích, bạn nên quan tâm đến những triết lý cơ bản. Khó khăn về triết học xuất phát từ sự lựa chọn giữa việc tuân thủ Nguyên tắc Khả năng sống và việc tuân thủ Nguyên tắc Lấy mẫu lặp đi lặp lại. LP nói đại khái rằng, được đưa ra một mô hình thống kê, bằng chứng trong bộ dữ liệu liên quan đến tham số quan tâm hoàn toàn được chứa trong hàm khả năng liên quan. RSP nói rằng người ta nên ưu tiên các thử nghiệm đưa ra tỷ lệ lỗi trong thời gian dài bằng với giá trị danh nghĩa của chúng.


3
Chuyên khảo của JO Berger và RL Wolpert "Nguyên tắc khả năng sống" (tái bản lần thứ 2 năm 1988), là một giải thích bình tĩnh, cân bằng và tốt về điểm 2., theo ý kiến ​​của tôi.
Alecos Papadopoulos

5
Berger và Wolpert thực sự là một giải trình tốt, và cũng có thẩm quyền. Tuy nhiên, tôi thích cuốn sách "Likabilities" theo hướng thực tế hơn và ít tính toán hơn của AWF Edwards. Vẫn còn in, tôi nghĩ. Books.google.com.vn/books/about/Likabilities.html?id=LL08AAAAIAAJ
Michael Lew

2
@MichaelLew đã giải thích rằng việc sử dụng hợp lệ các giá trị p là một bản tóm tắt về kích thước hiệu ứng. Ông đã làm một điều tuyệt vời bằng cách viết bài báo này: arxiv.org/abs/1311.0081
Sống động vào

@Livid Bài báo rất thú vị, nhưng đối với người đọc mới, bạn cần lưu ý những điều sau: ý chính, rằng giá trị p 'index' (có lẽ: nằm trong một mối quan hệ với) các hàm khả năng, thường được hiểu là sai vì có những trường hợp khả năng giống nhau tương ứng với các giá trị p khác nhau tùy thuộc vào sơ đồ lấy mẫu. Vấn đề này được thảo luận một chút trong bài báo, nhưng lập chỉ mục là một vị trí rất bất thường (tất nhiên không nhất thiết làm cho nó sai, tất nhiên).
liên hợp chiến

8

Một liên minh thường thấy (và được cho là được chấp nhận) (hoặc tốt hơn: "lai") giữa hai cách tiếp cận như sau:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    Nếu giá trị p không đủ nhỏ, bạn sẽ nói

    • Ho
    • HoH1

Ở đây, các khía cạnh từ Neyman-Pearson là:

  • Bạn quyết định một cái gì đó
  • Ho
  • Bạn biết tỷ lệ lỗi loại I

Các khía cạnh ngư dân là:

  • Bạn nêu giá trị p. Do đó, bất kỳ độc giả nào cũng có khả năng sử dụng cấp độ của riêng mình (ví dụ: sửa lỗi nghiêm ngặt cho nhiều thử nghiệm) để quyết định
  • Về cơ bản, chỉ có giả thuyết không được yêu cầu vì sự thay thế hoàn toàn ngược lại
  • μ0

THÊM VÀO

Mặc dù thật tốt khi biết về các cuộc thảo luận về các vấn đề triết học của Fisher, NP hoặc phương pháp lai này (như được dạy trong một số sự điên cuồng tôn giáo của một số người), có nhiều vấn đề liên quan hơn trong thống kê để chống lại:

  • Đặt câu hỏi không chính xác (như câu hỏi có / không có nhị phân thay vì câu hỏi "bao nhiêu" định lượng, tức là sử dụng các bài kiểm tra thay vì khoảng tin cậy)
  • Phương pháp phân tích theo hướng dữ liệu dẫn đến kết quả sai lệch (hồi quy từng bước, giả định thử nghiệm, v.v.)
  • Chọn sai phương pháp hoặc phương pháp
  • Giải thích sai kết quả
  • Sử dụng số liệu thống kê cổ điển cho các mẫu không ngẫu nhiên

1
(+1) Đây là một mô tả hay về phép lai (và tại sao chính xác nó là phép lai), nhưng bạn không nói rõ ràng đánh giá của bạn về nó là gì. Bạn có đồng ý rằng những gì bạn mô tả là một "mớ hỗn độn không liên tục" không? Nếu vậy, tại sao? Hay bạn nghĩ đó là một thủ tục hợp lý? Nếu vậy, những người tuyên bố nó không mạch lạc có một điểm, hoặc họ chỉ đơn giản là sai?
amip nói phục hồi Monica

1
α

4

chấp nhận rằng cả F và NP đều là những cách tiếp cận hợp lệ và có ý nghĩa, điều gì là xấu về lai của chúng?

Câu trả lời ngắn gọn: việc sử dụng một con số không (không khác biệt, không tương quan) giả thuyết null bất kể bối cảnh. Mọi thứ khác là "lạm dụng" bởi những người đã tạo ra huyền thoại cho chính họ về những gì quá trình có thể đạt được. Các huyền thoại phát sinh từ những người cố gắng dung hòa việc sử dụng niềm tin (đôi khi phù hợp) của họ vào quyền lực và sự đồng thuận với sự không thể áp dụng của thủ tục đối với vấn đề của họ.

Theo như tôi biết thì Gerd Gigerenzer đã đưa ra thuật ngữ "lai":

Tôi đã hỏi tác giả [một tác giả sách giáo khoa thống kê nổi tiếng, cuốn sách đã trải qua nhiều phiên bản, và tên của họ không quan trọng] tại sao ông lại xóa chương về Bayes cũng như câu vô tội khỏi tất cả các phiên bản tiếp theo. Điều gì khiến bạn trình bày số liệu thống kê như thể nó chỉ có một cây búa, chứ không phải là một hộp công cụ? Tại sao bạn trộn lẫn lý thuyết của Fisher và Neyman, Pear Pearson thành một sự lai ghép không nhất quán mà mọi nhà thống kê đàng hoàng sẽ từ chối?

Đối với tín dụng của anh ta, tôi nên nói rằng tác giả đã không cố gắng phủ nhận rằng anh ta đã tạo ra ảo tưởng rằng chỉ có một công cụ. Nhưng anh ấy cho tôi biết ai là người đổ lỗi cho việc này. Có ba thủ phạm: các nhà nghiên cứu đồng nghiệp của ông, chính quyền đại học và nhà xuất bản của ông. Hầu hết các nhà nghiên cứu, ông lập luận, không thực sự quan tâm đến tư duy thống kê, mà chỉ về cách làm thế nào để bài báo của họ được xuất bản [...]

Nghi thức null:

  1. Thiết lập một giả thuyết khống về thống kê về sự khác biệt không có ý nghĩa về mối quan hệ giữa không hoặc khác biệt. Hay không xác định các dự đoán về giả thuyết nghiên cứu của bạn hoặc về bất kỳ giả thuyết thực tế thay thế nào.

  2. p<0.05p<0.01p<0.001p

  3. Luôn luôn thực hiện thủ tục này.

Gigerenzer, G (tháng 11 năm 2004). " Thống kê vô tâm ". Tạp chí kinh tế xã hội 33 (5): 587 216060. doi: 10.1016 / j.socec.2004.09.033.

Chỉnh sửa: Và chúng ta nên luôn luôn phải đề cập đến, bởi vì "hybrid" rất trơn và không xác định, nên việc sử dụng nil null để lấy giá trị p là hoàn toàn tốt như một cách để so sánh các kích thước hiệu ứng với các kích thước mẫu khác nhau. Đó là khía cạnh "kiểm tra" giới thiệu vấn đề.

Chỉnh sửa 2: @amoeba Giá trị p có thể tốt như một thống kê tóm tắt, trong trường hợp này, giả thuyết không có giá trị chỉ là một mốc tùy ý: http://arxiv.org/abs/1311.0081 . Tuy nhiên, ngay khi bạn bắt đầu cố gắng đưa ra kết luận hoặc đưa ra quyết định (nghĩa là "kiểm tra" giả thuyết khống), nó sẽ ngừng có ý nghĩa. Trong ví dụ so sánh hai nhóm, chúng tôi muốn biết hai nhóm khác nhau như thế nào và các giải thích khác nhau có thể có về sự khác biệt về cường độ và loại đó.

Giá trị p có thể được sử dụng như một thống kê tóm tắt cho chúng ta biết mức độ khác biệt. Tuy nhiên, sử dụng nó để "từ chối / từ chối" khác biệt không phục vụ mục đích mà tôi có thể nói. Ngoài ra, tôi nghĩ rằng nhiều trong số các thiết kế nghiên cứu này so sánh các phép đo trung bình của các sinh vật sống tại một mốc thời gian duy nhất là sai lầm. Chúng ta nên quan sát cách các cá thể của hệ thống thay đổi theo thời gian, sau đó đưa ra một quy trình giải thích mô hình được quan sát (bao gồm mọi khác biệt nhóm).


2
+1, Cảm ơn câu trả lời của bạn và cho liên kết. Có vẻ như tôi chưa đọc bài báo đặc biệt này, tôi sẽ xem qua. Như tôi đã nói trước đây, tôi có ấn tượng rằng "nil null" là một vấn đề trực giao với vấn đề "lai", nhưng tôi đoán tôi nên đọc lại các tác phẩm của Gigerenzer để kiểm tra xem. Sẽ cố gắng tìm thời gian trong những ngày tiếp theo. Ngoài ra: bạn có thể vui lòng làm rõ đoạn cuối của bạn ("chỉnh sửa") không? Tôi đã hiểu chính xác rằng bạn có nghĩa là có một con số không khi so sánh hai kích thước hiệu ứng là được, nhưng có một con số không khi so sánh kích thước hiệu ứng với số 0 thì không ổn?
amip nói rằng Phục hồi lại

1

Tôi thấy rằng những người có chuyên môn cao hơn bản thân tôi đã cung cấp câu trả lời, nhưng tôi nghĩ câu trả lời của tôi có khả năng bổ sung thêm điều gì đó, vì vậy tôi sẽ đưa ra điều này như một quan điểm của giáo dân khác.

Là cách tiếp cận lai không mạch lạc?   Tôi muốn nói điều đó phụ thuộc vào việc nhà nghiên cứu có kết thúc hành động không nhất quán với các quy tắc mà họ bắt đầu hay không: cụ thể là quy tắc có / không có hiệu lực với cài đặt giá trị alpha.

Không thường xuyên

Bắt đầu với Neyman-Pearson. Nhà nghiên cứu đặt alpha = 0,05, chạy thử nghiệm, tính toán p = 0,052. Nhà nghiên cứu xem xét giá trị p đó và, bằng cách sử dụng suy luận Ngư dân (thường là ngầm), coi kết quả này không đủ tương thích với giả thuyết thử nghiệm rằng họ vẫn sẽ tuyên bố "điều gì đó" đang diễn ra. Kết quả là bằng cách nào đó "đủ tốt" mặc dù giá trị p lớn hơn giá trị alpha. Thông thường, điều này được kết hợp với ngôn ngữ như "gần như đáng kể" hoặc "xu hướng có ý nghĩa" hoặc một số từ ngữ dọc theo các dòng đó.

Tuy nhiên, đặt giá trị alpha trước khi chạy thử nghiệm có nghĩa là người ta đã chọn cách tiếp cận hành vi quy nạp của Neyman-Pearson. Chọn bỏ qua giá trị alpha đó sau khi tính giá trị p, và do đó tuyên bố một cái gì đó vẫn còn thú vị, làm suy yếu toàn bộ cách tiếp cận mà người ta bắt đầu. Nếu một nhà nghiên cứu bắt đầu Con đường A (Neyman-Pearson), nhưng sau đó nhảy qua một con đường khác (Fisher) một khi họ không thích con đường họ đang đi, tôi cho rằng điều đó không mạch lạc. Họ không nhất quán với các quy tắc (ngụ ý) mà họ bắt đầu.

Coherent (có thể)

Bắt đầu với NP. Nhà nghiên cứu đặt alpha = 0,05, chạy thử nghiệm, tính p = 0,0014. Nhà nghiên cứu quan sát rằng p <alpha, và do đó bác bỏ giả thuyết thử nghiệm (thường không có hiệu lực null) và chấp nhận giả thuyết thay thế (hiệu ứng là có thật). Tại thời điểm này, nhà nghiên cứu, ngoài việc quyết định coi kết quả là hiệu ứng thực sự (NP), quyết định suy luận (Fisher) rằng thí nghiệm cung cấp bằng chứng rất mạnh mẽ cho thấy hiệu quả là có thật. Họ đã thêm sắc thái cho cách tiếp cận mà họ bắt đầu, nhưng không mâu thuẫn với các quy tắc được đặt ra bằng cách chọn một giá trị alpha ở đầu.

Tóm lược

Nếu một người bắt đầu bằng cách chọn một giá trị alpha, thì người ta đã quyết định chọn con đường Neyman-Pearson và tuân theo các quy tắc cho phương pháp đó. Nếu tại một thời điểm nào đó, họ vi phạm các quy tắc đó bằng cách sử dụng suy luận của Ngư dân làm lý lẽ, thì họ đã hành động không nhất quán / không mạch lạc.

Tôi cho rằng người ta có thể tiến thêm một bước và tuyên bố rằng vì có thể sử dụng phép lai không mạch lạc, do đó cách tiếp cận vốn đã không mạch lạc, nhưng dường như ngày càng đi sâu vào các khía cạnh triết học, mà tôi không cho rằng mình đủ điều kiện để thậm chí đưa ra ý kiến ​​về.

Mũ cho Michael Lew. Bài báo năm 2006 của anh ấy đã giúp tôi hiểu những vấn đề này tốt hơn bất kỳ tài nguyên nào khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.