Ziliak (2011) phản đối việc sử dụng giá trị p và đề cập đến một số lựa chọn thay thế; họ là ai?


25

Trong một bài báo gần đây thảo luận về những hạn chế của việc dựa vào giá trị p để suy luận thống kê, được gọi là "Matrixx v. Siracusano và Student v. Fisher Ý nghĩa thống kê về thử nghiệm" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak phản đối việc sử dụng giá trị p. Trong đoạn kết luận, ông nói:

Dữ liệu là một điều mà chúng ta đã biết và chắc chắn. Những gì chúng ta thực sự muốn biết là một cái gì đó khá khác biệt: xác suất của một giả thuyết là đúng (hoặc ít nhất là thực tế hữu ích), dựa trên dữ liệu chúng ta có. Chúng tôi muốn biết xác suất hai loại thuốc này khác nhau, và bằng bao nhiêu, đưa ra bằng chứng có sẵn. Bài kiểm tra quan trọng - dựa trên sự sai lầm của điều kiện chuyển vị, cái bẫy mà Fisher rơi vào - không và không thể cho chúng ta biết xác suất đó. Hàm năng lượng, hàm mất mát dự kiến ​​và nhiều phương pháp lý thuyết quyết định và Bayes khác xuất phát từ Student và Jeffreys, hiện có sẵn rộng rãi và miễn phí trên mạng.

Hàm năng lượng, hàm mất mát dự kiến ​​và "các phương pháp lý thuyết quyết định và Bayes" khác là gì? Là những phương pháp được sử dụng rộng rãi? Họ có sẵn trong R? Làm thế nào là những phương pháp mới được đề xuất thực hiện? Ví dụ, làm thế nào tôi có thể sử dụng các phương pháp này để kiểm tra giả thuyết của mình trong bộ dữ liệu nếu không tôi sẽ sử dụng các thử nghiệm t-test hai mẫu và giá trị p thông thường?


Có rất nhiều bài viết lập luận chống lại việc sử dụng giá trị một mình, nhưng nó thực sự phụ thuộc vào bối cảnh, IMO. Bạn có thể thêm thông tin về những gì bạn quan tâm (xem câu cuối cùng của bạn)? p
chl

2
Tôi không có quyền truy cập vào bài viết, nhưng lập luận này cho thấy sự hiểu biết khá thiếu sót về những gì đang diễn ra. Mặc dù hiểu biết thiếu sót, kết luận rằng các số liệu thống kê khác đáng được xem xét là hợp lý. Hàm mất mát dự kiến ​​chỉ đơn giản là ước tính giá trị dự kiến của hàm mất (ví dụ lỗi bình phương, logistic, v.v.).
Lặp đi lặp lại

Do một chủ đề tương tự được đăng gần đây , tôi đã đưa ra một truy vấn về chủ đề này trên Meta CV
Silverfish

Câu trả lời:


17

Điều này nghe giống như một bài báo khác bởi một cá nhân bối rối. Fisher đã không rơi vào bất kỳ cái bẫy nào như vậy, mặc dù nhiều sinh viên thống kê đã làm.

Kiểm định giả thuyết là một vấn đề lý thuyết quyết định. Nói chung, bạn kết thúc với một bài kiểm tra với một ngưỡng nhất định giữa hai quyết định (giả thuyết đúng hoặc giả thuyết sai). Nếu bạn có một giả thuyết tương ứng với một điểm, chẳng hạn như , thì bạn có thể tính xác suất dữ liệu của mình dẫn đến kết quả đúng. Nhưng bạn sẽ làm gì nếu đó không phải là một điểm duy nhất? Bạn có một chức năng của . Giả thuyết là một giả thuyết như vậy và bạn có được một hàm như vậy cho xác suất tạo ra dữ liệu quan sát của bạn cho rằng đó là sự thật. Chức năng đó là chức năng quyền lực. Nó rất cổ điển. Fisher biết tất cả về nó.θ=0θθ0

Sự mất mát dự kiến ​​là một phần của bộ máy cơ bản của lý thuyết quyết định. Bạn có nhiều trạng thái tự nhiên và nhiều dữ liệu có thể có từ chúng và một số quyết định có thể bạn có thể đưa ra và bạn muốn tìm một chức năng tốt từ dữ liệu đến quyết định. Làm thế nào để bạn xác định tốt? Đưa ra một trạng thái tự nhiên cụ thể làm cơ sở cho dữ liệu bạn có được và quyết định của thủ tục đó, tổn thất dự kiến ​​của bạn là gì? Điều này được hiểu đơn giản nhất trong các vấn đề kinh doanh (nếu tôi làm điều này dựa trên doanh số tôi quan sát được trong ba quý vừa qua, thì tổn thất tiền tệ dự kiến ​​là bao nhiêu?).

Các thủ tục Bayes là một tập hợp con của các thủ tục lý thuyết quyết định. Mất mát dự kiến ​​là không đủ để chỉ định các thủ tục tốt nhất duy nhất trong tất cả các trường hợp ngoại trừ. Nếu một thủ tục tốt hơn một thủ tục ở cả trạng thái A và B, rõ ràng bạn sẽ thích nó, nhưng nếu một thủ tục tốt hơn ở trạng thái A và một thủ tục tốt hơn ở trạng thái B, bạn chọn cái nào? Đây là nơi các ý tưởng phụ trợ như thủ tục Bayes, tối thiểu hóa và không thiên vị nhập vào.

Bài kiểm tra t thực sự là một giải pháp hoàn toàn tốt cho một vấn đề lý thuyết quyết định. Câu hỏi là làm thế nào bạn chọn điểm cắt trên bạn tính toán. Giá trị cho trước tương ứng với giá trị đã cho là , xác suất xảy ra lỗi loại I và với một tập hợp lũy thừa , tùy thuộc vào kích thước của tham số cơ bản mà bạn đang ước tính. Có phải là một xấp xỉ để sử dụng một giả thuyết điểm null? Vâng. Nó thường là một vấn đề trong thực tế? Không, giống như sử dụng lý thuyết gần đúng của Bernoulli cho độ lệch chùm thường chỉ tốt trong kỹ thuật kết cấu. Là có giá trị vô dụng? Không. Một người khác đang xem dữ liệu của bạn có thể muốn sử dụngttαβpαhơn bạn, và giá trị phù hợp với việc sử dụng đó.p

Tôi cũng có một chút bối rối về lý do tại sao anh ấy đặt tên cho Sinh viên và Jeffreys cùng nhau, xem xét rằng Fisher chịu trách nhiệm phổ biến rộng rãi công việc của Sinh viên.

Về cơ bản, việc sử dụng giá trị p một cách mù quáng là một ý tưởng tồi và chúng là một khái niệm khá tinh tế, nhưng điều đó không làm cho chúng trở nên vô dụng. Chúng ta có nên phản đối việc lạm dụng chúng bởi các nhà nghiên cứu có nền tảng toán học kém? Tuyệt đối, nhưng chúng ta hãy nhớ nó trông như thế nào trước khi Fisher cố gắng chưng cất thứ gì đó cho người đàn ông trong lĩnh vực này sử dụng.


5
+1 để thực sự trả lời câu hỏi và +1 bổ sung (nhưng ảo) để thách thức trích dẫn, điều này gây khiêu khích nhưng có vấn đề. Tôi thấy bạn là một người tham gia gần đây ở đây nhưng đã đóng góp nhiều câu trả lời: cảm ơn rất nhiều và hoan nghênh (một chút muộn màng) cho trang web của chúng tôi!
whuber

Cảm ơn rất nhiều cho câu trả lời chi tiết của bạn. Nó giúp suy nghĩ về các chiến lược thay thế được đề xuất trong bài báo đó. Tôi đã hỏi câu hỏi này bởi vì một số đồng nghiệp đã sử dụng bài báo này để nói rằng chúng ta không nên xem xét giá trị p và tôi nhận ra rằng tôi không hiểu những sự thay thế này thực sự có ý nghĩa gì. Cảm ơn bạn đã làm rõ!
Ariel

@whuber Tôi không nghĩ điều này trả lời câu hỏi nào cả. OP đã hỏi về các lựa chọn thay thế mà Ziliak đang đề xuất, và câu trả lời này không giải quyết chúng. Chẳng hạn, bài phê bình về tầm quan trọng của Ziliak chạm vào lý do tại sao mọi người sử dụng mức ý nghĩa 5% hoặc 1%. Thực sự không có lý do vững chắc, và anh ta có thể theo dõi các cấp độ này trở lại các bài báo của Fisher. Nó chỉ là một số tùy ý, số thuận tiện. Trái ngược với các phương pháp "thay thế" dựa trên lợi thế bằng tiền, tức là giá trị đồng đô la.
Aksakal

1
@Aksakal Tôi tin rằng một đóng góp quan trọng được thực hiện cho cuộc trò chuyện bằng cách kiểm tra giả thuyết liên quan đến một vấn đề lý thuyết quyết định và kết nối rõ ràng giá trị p với rủi ro dự kiến ​​(dựa trên hàm mất 0-1).
whuber


5

Các ez gói cung cấp tỷ lệ khả năng khi bạn sử dụng ezMixed()chức năng để làm người mẫu ảnh hưởng hỗn hợp. Các tỷ lệ khả năng nhằm mục đích định lượng bằng chứng cho một hiện tượng bằng cách so sánh khả năng (được cung cấp dữ liệu quan sát) của hai mô hình: mô hình "bị hạn chế" hạn chế ảnh hưởng của hiện tượng xuống 0 và mô hình "không giới hạn" cho phép ảnh hưởng khác không hiện tượng. Sau khi sửa các khả năng quan sát được về độ phức tạp vi sai của các mô hình (thông qua Tiêu chí Thông tin của Akaike, tương đương với việc xác thực chéo), tỷ lệ này định lượng bằng chứng cho hiện tượng.


4

Tất cả những kỹ thuật này đều có sẵn trong R theo cùng một nghĩa là tất cả các đại số đều có sẵn trong bút chì của bạn. Ngay cả giá trị p cũng có sẵn thông qua nhiều hàm khác nhau trong R, việc quyết định sử dụng hàm nào để lấy giá trị p hoặc giá trị Bayesian phức tạp hơn một con trỏ tới một hàm hoặc gói.

Khi bạn tìm hiểu về các kỹ thuật đó và quyết định câu hỏi nào bạn thực sự muốn có câu trả lời thì bạn có thể xem (hoặc chúng tôi có thể cung cấp thêm trợ giúp) cách thực hiện bằng R (hoặc các công cụ khác). Chỉ cần nói rằng bạn muốn giảm thiểu chức năng mất của mình hoặc để phân phối sau cũng hữu ích như trả lời "thực phẩm" khi được hỏi bạn muốn ăn gì cho bữa tối.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.