Có tồn tại một trường phái tư tưởng nhất định theo đó cách tiếp cận phổ biến nhất để kiểm tra thống kê là "lai" giữa hai cách tiếp cận: của Fisher và của Neyman-Pearson; hai cách tiếp cận này, theo yêu cầu, là "không tương thích" và do đó, kết quả "lai" là một "sự nhầm lẫn không liên tục". Tôi sẽ cung cấp một thư mục và một số trích dẫn dưới đây, nhưng bây giờ đủ để nói rằng có rất nhiều bài viết về điều đó trong bài viết trên wikipedia về kiểm tra giả thuyết thống kê . Ở đây trên CV, điểm này được lặp lại bởi @Michael Lew (xem tại đây và đây ).
Câu hỏi của tôi là: tại sao các cách tiếp cận F và NP được tuyên bố là không tương thích và tại sao phép lai được tuyên bố là không mạch lạc? Lưu ý rằng tôi đã đọc ít nhất sáu bài báo chống lai (xem bên dưới), nhưng vẫn không hiểu được vấn đề hoặc lập luận. Cũng lưu ý rằng tôi không đề nghị tranh luận nếu F hoặc NP là cách tiếp cận tốt hơn; tôi cũng không đề nghị thảo luận về khuôn khổ thường xuyên so với Bayesian. Thay vào đó, câu hỏi là: chấp nhận rằng cả F và NP đều là những cách tiếp cận hợp lệ và có ý nghĩa, điều gì là quá tệ đối với phép lai của chúng?
Đây là cách tôi hiểu tình hình. Cách tiếp cận của Fisher là tính toán giá trị và lấy nó làm bằng chứng chống lại giả thuyết khống. càng nhỏ , bằng chứng càng thuyết phục. Nhà nghiên cứu có nhiệm vụ kết hợp bằng chứng này với kiến thức nền tảng của mình, quyết định xem nó có đủ sức thuyết phục hay không và tiến hành theo đó. (Lưu ý rằng quan điểm của Fisher đã thay đổi qua nhiều năm, nhưng đây là điều mà dường như cuối cùng anh ấy đã hội tụ.) Ngược lại, cách tiếp cận của Neyman-Pearson là chọn trước thời hạn và sau đó kiểm tra xemp α p ≤ α; nếu vậy, hãy gọi nó là quan trọng và bác bỏ giả thuyết khống (ở đây tôi bỏ qua phần lớn câu chuyện NP không liên quan đến cuộc thảo luận hiện tại). Xem thêm một câu trả lời xuất sắc của @gung trong Khi nào nên sử dụng khung của Fisher và Neyman-Pearson?
Phương pháp lai là tính toán giá trị , báo cáo nó (mặc nhiên giả định rằng càng nhỏ càng tốt) và cũng gọi các kết quả có ý nghĩa nếu (thường là ) và không có ý nghĩa khác. Điều này được cho là không mạch lạc. Làm thế nào có thể không hợp lệ để làm hai điều hợp lệ cùng một lúc, đánh bại tôi.p ≤ α α = 0,05
Đặc biệt là những người chống lai xem thực tiễn phổ biến về báo cáo giá trị là , hoặc (hoặc thậm chí ), trong đó luôn luôn chọn bất đẳng thức mạnh nhất. Lập luận dường như là (a) sức mạnh của bằng chứng không thể được đánh giá đúng vì chính xác không được báo cáo và (b) mọi người có xu hướng diễn giải số bên phải trong bất đẳng thức là và xem đó là lỗi loại I tỷ lệ, và đó là sai. Tôi không thấy một vấn đề lớn ở đây. Đầu tiên, báo cáo chính xác chắc chắn là một cách thực hành tốt hơn, nhưng không ai thực sự quan tâm nếu là hoặcp < 0,05 p < 0,01 p < 0,001 p « 0,0001 p α p p 0.02 0.03 ~ 0,0001 0,05 α = 0,05 p ≠ α α , vì vậy làm tròn nó trên thang đo log không quá tệ (và đi xuống dưới dù sao cũng không có ý nghĩa gì, hãy xem Báo cáo giá trị p nhỏ như thế nào? ). Thứ hai, nếu sự đồng thuận là gọi mọi thứ dưới đáng kể, thì tỷ lệ lỗi sẽ là và , như @gung giải thích trong Giải thích giá trị p trong kiểm tra giả thuyết . Mặc dù đây có thể là một vấn đề khó hiểu, nhưng nó không gây cho tôi nhiều rắc rối hơn các vấn đề khác trong kiểm tra thống kê (bên ngoài kết hợp). Ngoài ra, mọi người đọc đều có thể có suy nghĩ yêu thích của riêng mình khi đọc một bài báo lai và tỷ lệ lỗi của chính cô ấy là hậu quả.Vì vậy, các vấn đề lớn là gì?
Một trong những lý do tôi muốn đặt câu hỏi này là bởi vì thật sự đau lòng khi thấy bao nhiêu bài viết trên wikipedia về thử nghiệm giả thuyết thống kê được dành cho lai ghép. Theo Halpin & Stam, họ tuyên bố rằng một Lindquist nào đó đáng trách (thậm chí còn có một bản quét lớn trong sách giáo khoa của anh ta với "lỗi" được tô màu vàng), và dĩ nhiên bài viết wiki về chính Lindquist bắt đầu với cùng một lời buộc tội. Nhưng sau đó, có lẽ tôi đang thiếu một cái gì đó.
Người giới thiệu
Gigerenzer, 1993, Superego, cái tôi và id trong lý luận thống kê - đã đưa ra thuật ngữ "lai" và gọi nó là "mớ hỗn độn"
- Xem thêm các giải trình gần đây của Gigerenzer et al.: Ví dụ: thống kê Mindless (2004) và Nghi thức Null. Những gì bạn luôn muốn biết về kiểm tra ý nghĩa nhưng lại ngại hỏi (2004).
Cohen, 1994, Trái đất tròn ( ) - một bài báo rất phổ biến với gần 3k trích dẫn, chủ yếu là về các vấn đề khác nhau nhưng ưu tiên trích dẫn Gigerenzer
Goodman, 1999, Hướng tới thống kê y tế dựa trên bằng chứng. 1: Sai lầm giá trị P
Hubbard & Bayarri, 2003, Lẫn lộn qua các biện pháp của bằng chứng ( 's) so với các lỗi ( ' s) trong thử nghiệm thống kê cổ điểnα - một trong những giấy tờ hùng hồn hơn lập luận chống lại 'lai'
Halpin & Stam, 2006, Suy luận quy nạp hoặc Hành vi quy nạp: Phương pháp tiếp cận kiểm tra thống kê của Fisher và Neyman-Pearson trong nghiên cứu tâm lý (1940-1960) [miễn phí sau khi đăng ký] - đổ lỗi cho sách giáo khoa năm 1940 của Lindquist đã giới thiệu phương pháp "lai"
@Michael Lew, 2006, Thực hành thống kê tồi trong dược lý (và các ngành y sinh cơ bản khác): bạn có thể không biết P - một đánh giá và tổng quan đẹp
Báo giá
Gigerenzer: Những gì đã được thể chế hóa thành thống kê suy luận trong tâm lý học không phải là thống kê Ngư nghiệp. Đó là một sự nhầm lẫn không nhất quán của một số ý tưởng của Fisher trên một mặt và mặt khác là một số ý tưởng của Neyman và ES Pearson. Tôi gọi sự pha trộn này là "logic lai" của suy luận thống kê.
Goodman: Cách tiếp cận kiểm tra giả thuyết [Neyman-Pearson] đã mang đến cho các nhà khoa học một món hời Pháp - một cách dường như tự động để hạn chế số lượng kết luận sai lầm trong thời gian dài, nhưng chỉ bằng cách từ bỏ khả năng đo lường bằng chứng [a la Fisher] và đánh giá sự thật từ một thí nghiệm duy nhất.
Hubbard & Bayarri: Thử nghiệm thống kê cổ điển là sự kết hợp ẩn danh của các phương pháp cạnh tranh và thường xuyên mâu thuẫn [...]. Cụ thể, có một sự thất bại rộng rãi trong việc đánh giá cao sự không tương thích của giá trị bằng chứng của Fisher với tỷ lệ lỗi Loại I, , của chính thống thống kê Neyman-Pearson. [...] Là một ví dụ điển hình cho sự hoang mang phát sinh từ sự pha trộn [này] [...], hãy xem xét thực tế không được đánh giá rộng rãi rằng giá trị của trình định dạng không tương thíchα pvới bài kiểm tra giả thuyết Neyman-Pearson trong đó nó đã được nhúng. [...] Ví dụ, Gibbons và Pratt [...] đã nói sai: "Báo cáo giá trị P, cho dù chính xác hay trong một khoảng thời gian, thực tế cho phép mỗi cá nhân chọn mức ý nghĩa của riêng mình là xác suất chấp nhận được tối đa của lỗi loại I. "
Halpin & Stam: Văn bản năm 1940 của Lindquist là một nguồn gốc của sự lai tạo giữa phương pháp tiếp cận của Fisher và Neyman-Pearson. [...] Thay vì tuân thủ bất kỳ cách giải thích cụ thể nào về kiểm tra thống kê, các nhà tâm lý học vẫn tỏ ra mơ hồ và thực sự không biết gì về những khó khăn về khái niệm liên quan đến tranh cãi của Fisher và Neyman-Pearson.
Luân: Những gì chúng tôi có là một phương pháp lai không kiểm soát tỷ lệ lỗi cũng như không cho phép đánh giá sức mạnh của bằng chứng.