Khi nào nên sử dụng khung của Fisher và Neyman-Pearson?


73

Gần đây tôi đã đọc rất nhiều về sự khác biệt giữa phương pháp kiểm tra giả thuyết của Fisher và trường phái tư tưởng Neyman-Pearson.

Câu hỏi của tôi là, bỏ qua những phản đối triết học trong một khoảnh khắc; Khi nào chúng ta nên sử dụng phương pháp mô hình thống kê của Fisher và khi nào nên sử dụng phương pháp Neyman-Pearson về mức độ quan trọng et cetera? Có cách nào thực tế để quyết định quan điểm nào để chứng thực trong bất kỳ vấn đề thực tế nào không?


Bạn đã đọc về điều đó ở đâu? Xin vui lòng, trích dẫn nguồn của bạn.
xmjx

8
Xem, ví dụ, ở đây ( jstor.org/ sóng / 291263 ) hoặc ở đây ( stats.org.uk/statistic-inference/Lenhard2006.pdf ).
Stijn

Câu trả lời:


83

|x¯100|

Fisher nghĩ rằng giá trị p có thể được hiểu là thước đo bằng chứng liên tục chống lại giả thuyết khống . Không có giá trị cố định cụ thể mà tại đó kết quả trở nên 'đáng kể'. Cách tôi thường cố gắng truyền đạt cho mọi người là chỉ ra rằng, đối với tất cả ý định và mục đích, p = .049 và p = .051 tạo thành một lượng bằng chứng giống hệt nhau chống lại giả thuyết khống (xem câu trả lời của @ Henrik tại đây ) .

Mặt khác, Neyman & Pearson nghĩ rằng bạn có thể sử dụng giá trị p như một phần của quy trình ra quyết định chính thức . Vào cuối cuộc điều tra của bạn, bạn phải từ chối giả thuyết null hoặc không từ chối giả thuyết null. Ngoài ra, giả thuyết khống có thể đúng hoặc không đúng. Do đó, có bốn khả năng lý thuyết (mặc dù trong bất kỳ tình huống cụ thể nào, chỉ có hai khả năng): bạn có thể đưa ra quyết định chính xác (không từ chối một giả thuyết đúng - hoặc từ chối một giả thuyết sai - null) hoặc bạn có thể đưa ra một loại Lỗi I hoặc loại II (bằng cách từ chối một null thực sự, hoặc không từ chối một giả thuyết null sai, tương ứng). (Lưu ý rằng giá trị p không giống với tỷ lệ lỗi loại I, mà tôi sẽ thảo luận ở đây.) Giá trị p cho phép quá trình quyết định có từ chối giả thuyết null hay không được chính thức hóa. Trong khuôn khổ Neyman-Pearson, quy trình sẽ hoạt động như thế này: có một giả thuyết không có giá trị mà mọi người sẽ tin theo mặc định nếu không có đủ bằng chứng ngược lại, và một giả thuyết thay thế mà bạn tin có thể đúng. Có một số tỷ lệ lỗi dài hạn mà bạn sẽ sẵn sàng sống cùng (lưu ý rằng không có lý do gì chúng phải là 5% và 20%). Với những điều này, bạn thiết kế nghiên cứu của mình để phân biệt giữa hai giả thuyết đó trong khi duy trì, nhiều nhất là các tỷ lệ lỗi đó, bằng cách tiến hành phân tích công suất và tiến hành nghiên cứu của bạn theo đó. (Thông thường, điều này có nghĩa là có đủ dữ liệu.) Sau khi nghiên cứu của bạn hoàn tất, bạn so sánh giá trị p của mình với αvà bác bỏ giả thuyết khống nếu ; nếu không, bạn không từ chối giả thuyết khống. Dù bằng cách nào, việc học của bạn đã hoàn tất và bạn đã đưa ra quyết định của mình. p<α

Cách tiếp cận của Ngư dân và Neyman-Pearson không giống nhau . Sự tranh chấp trung tâm của khung Neyman-Pearson là khi kết thúc nghiên cứu của bạn, bạn phải đưa ra quyết định và bỏ đi. Bị cáo buộc, một nhà nghiên cứu đã từng tiếp cận với Fisher với kết quả 'không đáng kể', hỏi anh ta nên làm gì, và Fisher nói, 'hãy lấy thêm dữ liệu'.


Cá nhân, tôi thấy logic thanh lịch của phương pháp Neyman-Pearson rất hấp dẫn. Nhưng tôi không nghĩ nó luôn phù hợp. Theo tôi, ít nhất hai điều kiện phải được đáp ứng trước khi khung Neyman-Pearson nên được xem xét:

  1. Cần có một số giả thuyết thay thế cụ thể ( cường độ hiệu ứng ) mà bạn quan tâm vì một số lý do. (Tôi không quan tâm kích thước hiệu ứng là gì, lý do của bạn là gì, liệu nó có căn cứ hay mạch lạc, v.v., chỉ có bạn có một cái.)
  2. Cần có một số lý do để nghi ngờ rằng hiệu ứng sẽ là 'đáng kể', nếu giả thuyết thay thế là đúng. (Trong thực tế, điều này thường có nghĩa là bạn đã tiến hành phân tích công suất và có đủ dữ liệu.)

Khi các điều kiện này không được đáp ứng, giá trị p vẫn có thể được hiểu theo ý tưởng của Fisher. Hơn nữa, dường như hầu hết thời gian những điều kiện này không được đáp ứng. Dưới đây là một số ví dụ dễ hiểu, trong đó các bài kiểm tra được chạy, nhưng các điều kiện trên không được đáp ứng:

  • ANOVA omnibus cho mô hình hồi quy bội (có thể tìm hiểu làm thế nào tất cả các tham số độ dốc khác không được giả thuyết kết hợp với nhau để tạo ra một tham số phi tập trung cho phân phối F , nhưng nó không trực quan từ xa và tôi nghi ngờ bất kỳ ai Phải không)
  • W
  • giá trị của phép thử độ đồng nhất của phương sai (ví dụ: phép thử của Levene ; cùng nhận xét như trên)
  • bất kỳ thử nghiệm nào khác để kiểm tra các giả định, v.v.
  • các thử nghiệm t của hiệp phương sai khác với biến giải thích về mối quan tâm chính trong nghiên cứu
  • nghiên cứu ban đầu / thăm dò (ví dụ, nghiên cứu thí điểm)

Mặc dù đây là một chủ đề cũ hơn, câu trả lời được đánh giá cao. +1
Stijn

+1 Câu trả lời tuyệt vời! Tôi ấn tượng bởi khả năng của bạn để giải thích các khái niệm này một cách ngắn gọn như vậy.
COOLSerdash

1
Đây là một câu trả lời thực sự tuyệt vời, @gung
Patrick S. Forscher

5
AFAIK Neyman-Pearson đã không sử dụng các giá trị p của Ngư dân và do đó, một tiêu chí "p <alpha". Cái mà bạn gọi là "Neyman-Pearson" thực sự là "Thử nghiệm ý nghĩa giả thuyết Null" (lai giữa Fisher và NP), chứ không phải lý thuyết quyết định thuần túy của Neyman-Pearson.
Frank

"nếu giá trị tham chiếu là tham số dân số thực sự." Nói chính xác, đó là "nếu phân phối xác suất là phân định được chỉ định trong giả thuyết null". Giả thuyết khống không chỉ đơn thuần chỉ định các thống kê tóm tắt như trung bình, nó chỉ định toàn bộ phân phối xác suất. Thông thường họ phân phối được coi là ẩn (ví dụ phân phối bình thường), tại đó chỉ định các tham số chỉ định phân phối.
Tích lũy

18

Thực tiễn là trong mắt của kẻ si tình, nhưng;

  • Thử nghiệm tầm quan trọng của Fisher có thể được hiểu là một cách để quyết định liệu dữ liệu có gợi ý bất kỳ 'tín hiệu' thú vị nào hay không. Chúng tôi hoặc bác bỏ giả thuyết khống (có thể là lỗi Loại I) hoặc không nói gì cả. Ví dụ, trong rất nhiều ứng dụng 'omics' hiện đại, cách giải thích này phù hợp; chúng tôi không muốn mắc quá nhiều lỗi Loại I, chúng tôi muốn rút ra những tín hiệu thú vị nhất, mặc dù chúng tôi có thể bỏ lỡ một số.

  • Giả thuyết của Neyman-Pearson có ý nghĩa khi có hai lựa chọn thay thế khác nhau (ví dụ như hạt Higgs có hoặc không tồn tại) giữa chúng ta quyết định. Cũng như nguy cơ xảy ra lỗi Loại I, ở đây chúng ta cũng có thể mắc lỗi Loại II - khi có tín hiệu thực sự nhưng chúng ta nói rằng nó không có ở đó, đưa ra quyết định "không". Lập luận của NP là, không tạo ra quá nhiều tỷ lệ lỗi loại I, chúng tôi muốn giảm thiểu rủi ro xảy ra lỗi Loại II.

Thông thường, cả hai hệ thống sẽ không hoàn hảo - ví dụ bạn có thể chỉ muốn ước tính điểm và đo lường độ không chắc chắn tương ứng. Ngoài ra, nó có thể không quan trọng mà phiên bản bạn sử dụng, bởi vì bạn báo cáo p-giá trị và để lại giải thích thử nghiệm để người đọc. Nhưng để lựa chọn giữa các cách tiếp cận ở trên, hãy xác định xem (hoặc không) lỗi Loại II có liên quan đến ứng dụng của bạn hay không.


5

Toàn bộ vấn đề là bạn không thể bỏ qua những khác biệt về triết học. Một thủ tục toán học trong thống kê không chỉ đứng một mình như một thứ bạn áp dụng mà không có một số giả thuyết cơ bản, giả định, lý thuyết ... triết học.

Điều đó nói rằng, nếu bạn khăng khăng gắn bó với những triết lý thường xuyên, có thể có một vài loại vấn đề rất cụ thể mà Neyman-Pearson thực sự cần phải xem xét. Tất cả đều thuộc nhóm thử nghiệm lặp lại như kiểm soát chất lượng hoặc fMRI. Đặt một alpha cụ thể trước và xem xét toàn bộ Loại I, Loại II và khung công suất trở nên quan trọng hơn trong cài đặt đó.


Tôi không khăng khăng bám vào các số liệu thống kê thường xuyên, nhưng tôi chỉ tự hỏi liệu có những tình huống áp dụng quan điểm của Fisher hay Neyman-Pearson có thể là tự nhiên. Tôi biết có một sự phân biệt triết học, nhưng có lẽ cũng có một khía cạnh thực tế cần được xem xét?
Stijn

3
OK, cũng khá nhiều như những gì tôi đã nói ... Neyman-Pearson thực sự quan tâm đến các tình huống mà bạn làm rất nhiều bài kiểm tra mà không có bất kỳ nền tảng lý thuyết thực sự nào cho từng người. Quan điểm của Fisher không thực sự giải quyết vấn đề đó.
John

1

Hiểu biết của tôi là: giá trị p là cho chúng ta biết nên tin vào điều gì (xác minh một lý thuyết có đủ dữ liệu) trong khi phương pháp của Neyman-Pearson là cho chúng ta biết phải làm gì (đưa ra quyết định tốt nhất có thể ngay cả với dữ liệu hạn chế). Vì vậy, đối với tôi, giá trị p (nhỏ) nghiêm ngặt hơn trong khi cách tiếp cận của Neyman-Pearson thực dụng hơn; Đó có lẽ là lý do tại sao giá trị p được sử dụng nhiều hơn trong việc trả lời các câu hỏi khoa học trong khi Neyman và Pearson được sử dụng nhiều hơn trong việc đưa ra các quyết định thống kê / thực tế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.