Các tỷ lệ khả năng và so sánh mô hình Bayes có cung cấp các lựa chọn thay thế vượt trội và đủ để kiểm tra giả thuyết không?


13

Để đáp ứng với một nhóm các nhà thống kê và nhà nghiên cứu đang chỉ trích rằng tiện ích của kiểm tra giả thuyết null (NHT) đối với khoa học là một nỗ lực tích lũy, Lực lượng đặc nhiệm của Hiệp hội Tâm lý học Hoa Kỳ đã tránh một lệnh cấm hoàn toàn đối với NHT, nhưng thay vào đó, các nhà nghiên cứu cho rằng báo cáo kích thước hiệu ứng ngoài giá trị p có nguồn gốc từ NHT.

Tuy nhiên, kích thước hiệu ứng không dễ dàng tích lũy qua các nghiên cứu. Các phương pháp phân tích tổng hợp có thể tích lũy phân phối kích thước hiệu ứng, nhưng kích thước hiệu ứng thường được tính là tỷ lệ giữa cường độ hiệu ứng thô và "nhiễu" không giải thích được trong dữ liệu của một thử nghiệm nhất định, có nghĩa là phân phối kích thước hiệu ứng không chỉ bị ảnh hưởng bởi sự thay đổi về cường độ thô của hiệu ứng trong các nghiên cứu, nhưng cũng có thể thay đổi trong biểu hiện của tiếng ồn trong các nghiên cứu.

Ngược lại, một thước đo thay thế của cường độ hiệu ứng, tỷ lệ khả năng, cho phép cả hai diễn giải trực quan trên cơ sở nghiên cứu và có thể dễ dàng tổng hợp qua các nghiên cứu để phân tích tổng hợp. Trong mỗi nghiên cứu, khả năng đại diện cho trọng số bằng chứng cho một mô hình có chứa hiệu ứng nhất định so với mô hình không chứa hiệu ứng đó và thường được báo cáo là, ví dụ: "Tính toán tỷ lệ khả năng cho hiệu ứng của X tiết lộ gấp 8 lần bằng chứng về hiệu ứng so với null tương ứng ". Hơn nữa, tỷ lệ khả năng cũng cho phép biểu thị trực quan về sức mạnh của phát hiện null trong khi tỷ lệ khả năng dưới 1 đại diện cho các tình huống trong đó null được ưa chuộng và lấy giá trị đối ứng của giá trị này đại diện cho trọng số của bằng chứng về hiệu lực. Đáng chú ý là tỷ lệ khả năng được biểu diễn dưới dạng toán học là tỷ lệ phương sai không giải thích được của hai mô hình, chỉ khác nhau về phương sai được giải thích bởi hiệu ứng và do đó không phải là một sự khởi đầu khái niệm lớn từ kích thước hiệu ứng. Mặt khác, việc tính toán tỷ lệ khả năng phân tích tổng hợp, đại diện cho trọng lượng của bằng chứng cho một hiệu ứng trong các nghiên cứu, chỉ đơn giản là vấn đề lấy sản phẩm của tỷ lệ khả năng trong các nghiên cứu.

Vì vậy, tôi lập luận rằng đối với khoa học đang tìm cách thiết lập mức độ bằng chứng thô có lợi cho một hiệu ứng / mô hình, tỷ lệ khả năng là con đường để đi.

Có nhiều trường hợp sắc thái hơn khi các mô hình chỉ khác nhau về kích thước cụ thể của hiệu ứng, trong trường hợp đó, một số biểu diễn của khoảng mà chúng tôi tin rằng dữ liệu phù hợp với các giá trị tham số hiệu ứng có thể được ưu tiên. Thật vậy, lực lượng đặc nhiệm APA cũng khuyến nghị báo cáo khoảng tin cậy, có thể được sử dụng cho mục đích này, nhưng tôi nghi ngờ rằng đây cũng là một cách tiếp cận không cân nhắc.

Khoảng tin cậy thường được giải thích sai ( bởi các sinh viên và các nhà nghiên cứu như nhau ). Tôi cũng sợ rằng khả năng sử dụng NHT của họ (bằng cách đánh giá bao gồm số 0 trong CI) sẽ chỉ phục vụ để trì hoãn hơn nữa sự tuyệt chủng của NHT như là một thực tiễn suy luận.

Thay vào đó, khi các lý thuyết chỉ khác nhau theo kích thước của hiệu ứng, tôi đề nghị rằng phương pháp Bayes sẽ phù hợp hơn, trong đó phân phối trước của từng hiệu ứng được xác định riêng cho từng mô hình và phân phối hậu quả được so sánh.

Liệu phương pháp này, thay thế giá trị p, kích thước hiệu ứng và khoảng tin cậy bằng tỷ lệ khả năng và, nếu cần, so sánh mô hình Bayes, có vẻ đủ? Liệu nó có bỏ lỡ một số tính năng suy luận cần thiết mà các lựa chọn thay thế ở đây cung cấp không?


Có thể là một câu hỏi tập trung hơn? Có lẽ một về cách tiếp cận định hướng khả năng cho một vấn đề suy luận cụ thể?
liên hợp chiến binh

2
Nhưng trong khi chúng ta ở đây: Về giải trình: bạn đã trộn lẫn các biện pháp kích thước hiệu ứng, thường được xác định với một tham số, cho các biện pháp bằng chứng so sánh cho một mô hình hoàn chỉnh? LR chỉ trông giống như các ứng cử viên cho sau này. Ngoài ra, nếu bạn muốn các chức năng Khả năng một mình hoặc kết hợp để cho bạn biết mọi thứ mà dữ liệu đang cố cho bạn biết về một mô hình, thì về cơ bản bạn là một Bayesian. Bởi vì đó là Nguyên tắc Khả năng. (Thôi nào, nước đáng yêu :-)
liên hợp

Tiêu đề của bạn và đoạn kết luận của bạn dường như không đồng ý về việc bạn có đề xuất sử dụng khoảng tin cậy hay thay thế chúng hay không.
vào

@onestop: quả thực, tôi mới nhận ra mình đã quên thay đổi tiêu đề; Tôi đã thay đổi suy nghĩ về khoảng tin cậy trong khi viết câu hỏi. Tôi đã chỉnh sửa tiêu đề bây giờ. Xin lỗi vì sự nhầm lẫn.
Mike Lawrence

@Conjugate Prior: Hoàn toàn đồng ý với hai câu đầu tiên của bạn. Nhưng bạn có thể chấp nhận nguyên tắc khả năng mà không phải là người Bayes nếu bạn không thích ý tưởng của các linh mục và suy luận dựa trên khả năng một mình - xem sách của Edwards Books.google.com/books?id=2a_XZ-gvct4C và Royall book.google .com / sách? id = oysWLTFaI_gC . Mặc dù ai đó (và tôi ước tôi nhớ ai và ở đâu) đã từng thích việc này để phá trứng nhưng không ăn trứng tráng.
vào

Câu trả lời:


3

Những ưu điểm chính của cách tiếp cận Bayes, ít nhất với tôi là một nhà nghiên cứu về Tâm lý học là:

1) cho phép bạn tích lũy bằng chứng ủng hộ null

2) giải quyết các vấn đề lý thuyết và thực tiễn của kiểm tra tuần tự

3) không dễ bị từ chối null chỉ vì một N lớn (xem điểm trước)

4) phù hợp hơn khi làm việc với các hiệu ứng nhỏ (với các hiệu ứng lớn cả phương pháp Thường xuyên và Bayes có xu hướng đồng ý khá nhiều)

5) cho phép một người thực hiện mô hình phân cấp một cách khả thi. Ví dụ, việc giới thiệu các hiệu ứng vật phẩm và người tham gia trong một số lớp mô hình như các mô hình Cây đa xử lý sẽ cần phải được thực hiện trong khung Bayes nếu không thời gian tính toán sẽ rất dài.

6) giúp bạn có khoảng tin cậy "thực sự"

7) Bạn yêu cầu 3 điều: khả năng, các linh mục và xác suất của dữ liệu. lần đầu tiên bạn nhận được từ dữ liệu của mình, lần thứ hai bạn tạo nên và lần thứ ba bạn không cần ở tất cả các tỷ lệ nhất định. Ok, có lẽ tôi phóng đại một chút ;-)

Nhìn chung, người ta có thể đảo ngược câu hỏi của bạn: Tất cả điều này có nghĩa là số liệu thống kê thường xuyên cổ điển là không đủ? Tôi nghĩ rằng nói "không" là một bản án quá khắc nghiệt. Hầu hết các vấn đề có thể tránh được phần nào nếu vượt quá giá trị p và xem xét các thứ như kích thước hiệu ứng, khả năng hiệu ứng vật phẩm và sao chép liên tục các phát hiện (quá nhiều bài báo thử nghiệm được công bố!).

Nhưng không phải mọi thứ đều dễ dàng với Bayes. Lấy ví dụ lựa chọn mô hình với các mô hình không lồng nhau. Trong những trường hợp này, các linh mục cực kỳ quan trọng vì chúng ảnh hưởng rất lớn đến kết quả và đôi khi bạn không có nhiều kiến ​​thức về hầu hết các mô hình mà bạn muốn làm việc để có được linh mục của mình. Ngoài ra, mất nhiều thời gian ....

Tôi để lại hai tài liệu tham khảo cho bất kỳ ai có thể quan tâm đến việc lặn xuống Bayes.

"Một khóa học về mô hình đồ họa Bayes cho khoa học nhận thức" của Lee và Wagenmakers

"Mô hình Bayes sử dụng WinBUGS" của Ntzoufras

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.