Tìm hiểu về Gelman & Carlin Vượt xa các tính toán về sức mạnh: Mạnh Hồi (2014)


11

Tôi đang đọc Gelman & Carlin "Ngoài tính toán sức mạnh: Đánh giá lỗi loại S (Dấu hiệu) và Loại M (Độ lớn)" (2014). Tôi đang cố gắng để hiểu ý chính, phần chính, nhưng tôi bối rối. Bất cứ ai có thể giúp chắt lọc tôi bản chất?

Bài báo đi một cái gì đó như thế này (nếu tôi hiểu chính xác).

  • Các nghiên cứu thống kê trong tâm lý học thường bị vấy bẩn bởi các mẫu nhỏ.
  • Có điều kiện về kết quả có ý nghĩa thống kê trong một nghiên cứu nhất định,
    (1) kích thước hiệu ứng thực sự có khả năng bị đánh giá quá cao và
    (2) dấu hiệu của hiệu ứng có thể ngược lại với xác suất cao - trừ khi cỡ mẫu đủ lớn.
  • Ở trên được hiển thị bằng cách sử dụng dự đoán trước về kích thước hiệu ứng trong dân số và hiệu ứng đó thường được coi là nhỏ.

Vấn đề đầu tiên của tôi là, tại sao điều kiện về kết quả có ý nghĩa thống kê? Là nó để phản ánh sự thiên vị xuất bản? Nhưng đó không phải là trường hợp. Vậy tại sao?

Vấn đề thứ hai của tôi là, nếu tôi tự nghiên cứu, tôi có nên đối xử với kết quả của mình khác với trước đây không (tôi có thống kê thường xuyên, không quen thuộc lắm với Bayesian)? Ví dụ: tôi sẽ lấy một mẫu dữ liệu, ước tính mô hình và ghi lại ước tính điểm cho một số hiệu ứng quan tâm và độ tin cậy ràng buộc xung quanh nó. Bây giờ tôi có nên nghi ngờ kết quả của mình không? Hay tôi nên nghi ngờ nó nếu nó có ý nghĩa thống kê? Làm thế nào để thay đổi trước đó?

Takeaway chính (1) cho một "nhà sản xuất" nghiên cứu thống kê và (2) cho người đọc các bài báo thống kê ứng dụng là gì?

Người giới thiệu:

PS Tôi nghĩ rằng yếu tố mới đối với tôi ở đây là bao gồm các thông tin trước đó, mà tôi không chắc chắn làm thế nào để điều trị (đến từ mô hình thường xuyên).


Như bạn có thể thấy, tôi khá bối rối, vì vậy các câu hỏi của tôi có vẻ không mạch lạc hoặc hợp lý. Tôi sẽ đánh giá cao bất kỳ gợi ý nào để hiểu rõ hơn về bài báo tôi đang nghiên cứu. Tôi hy vọng có thể đặt ra những câu hỏi hợp lý hơn khi sự hiểu biết của tôi về vấn đề này tiến triển.
Richard Hardy

7
Lưu ý rằng họ đã đặt tiền đề cho bài báo ngay khi bắt đầu: " Bạn vừa hoàn thành một thử nghiệm. Bạn phân tích kết quả và bạn tìm thấy một hiệu quả đáng kể . Thành công! Nhưng hãy chờ đợi, nghiên cứu của bạn thực sự mang lại cho bạn bao nhiêu thông tin ? Bạn nên tin tưởng vào kết quả của mình đến mức nào? "--- họ đang mô tả những gì xảy ra / điều gì được ngụ ý khi bạn có ý nghĩa. Họ sử dụng những hậu quả đó để thúc đẩy tập trung vào những thứ khác ngoài ý nghĩa.
Glen_b -Reinstate Monica

Bạn nên không tin tưởng vào kết quả của mình - có - nếu bạn chạy nhiều bài kiểm tra quan trọng và lọc ra tất cả những điều đó không đáng kể; đây là một loại "xu hướng xuất bản" nhưng nó có thể xảy ra mà không có bất kỳ ấn phẩm nào, chỉ đơn giản là trong phòng thí nghiệm của một người trong suốt vài tháng hoặc vài năm thử nghiệm. Mọi người đều làm một cái gì đó như thế ở một mức độ nhất định, do đó mối quan tâm sư phạm trong việc điều chỉnh kết quả quan trọng.
amip nói rằng Phục hồi Monica

@amoeba, OK, nhưng nếu (theo giả thuyết) tôi chỉ ước tính một mô hình và chỉ tập trung vào một tham số được chỉ định trước (vì vậy hoàn toàn không có nhiều thử nghiệm), kết quả của Gelman & Carlin có thay đổi gì không? Làm thế nào về bao gồm các thông tin trước?
Richard Hardy

2
Thông tin trước là cần thiết để khẳng định tỷ lệ phát hiện sai; logic thông thường của kiểm tra ý nghĩa chỉ đảm bảo tỷ lệ lỗi loại I P (Signif | null). Để ước tính P (null | Signif), bạn cần phải gọi một số trước. Đó là những gì Gelman & Carlin đang làm ở đây. Nếu bạn chỉ ước tính một mô hình thì "tỷ lệ phát hiện sai" là vô nghĩa (theo cách tiếp cận thường xuyên); nhưng thông thường mọi người ước tính nhiều mô hình :-) hoặc ít nhất họ đọc tài liệu bao gồm những người khác ước tính nhiều mô hình.
amip nói phục hồi Monica

Câu trả lời:


5

Tôi đọc lại bài báo và lần này có vẻ rõ ràng hơn nhiều. Bây giờ cũng là những bình luận hữu ích của @Glen_b và @amoeba rất có ý nghĩa.

Toàn bộ cuộc thảo luận dựa trên điểm bắt đầu mà đã thu được kết quả có ý nghĩa thống kê. Có điều kiện, chúng tôi có kích thước hiệu ứng ước tính được phân phối khác với điều kiện sẽ vắng mặt điều hòa: Bài báo dường như nhắm đến hai vấn đề:

Pβ^(|β^ is statistically significant)Pβ^().
  1. Xu hướng xuất bản (chỉ kết quả có ý nghĩa thống kê mới được công bố) và
  2. Xu hướng trong tính toán thiết kế cho các nghiên cứu mới (lấy kích thước hiệu ứng dự kiến ​​quá lớn làm điểm chuẩn).

Tin tốt là, cả hai vấn đề có thể được giải quyết một cách thỏa đáng.

  1. Với kích thước hiệu ứng mong đợi hợp lý , kích thước hiệu ứng ước tính (giả sử nó được xuất bản vì nó có ý nghĩa thống kê, trong khi nếu không thì nó sẽ không được công bố), một lỗi tiêu chuẩn ước tính và họ phân phối (ví dụ: Bình thường hoặc Sinh viên ) của công cụ ước tính, chúng tôi có thể quay lại phân phối vô điều kiện của kích thước hiệu ứng .βplausibleβ^s.e.(β^)tPβ^()
  2. Sử dụng các phát hiện trước đó, với sự trợ giúp của 1. kích thước hiệu ứng hợp lý có thể được xác định và sử dụng trong thiết kế nghiên cứu.βplausible

Để trả lời ngắn gọn hai câu hỏi của riêng tôi:

  1. Đó là về xu hướng xuất bản, mặc dù không phải trong ý nghĩa của việc nạo vét dữ liệu mà trong bối cảnh các nghiên cứu còn thiếu; có một kết quả có ý nghĩa thống kê có khả năng thuộc về, từ chối 5% theo null (vì vậy null thực sự đúng nhưng chúng tôi tình cờ kết thúc cách xa nó một cách tình cờ) chứ không phải là từ chối theo cách khác (trong đó null là không đúng sự thật và kết quả là "chính hãng").
  2. Tôi nên thận trọng về việc từ chối null, vì kết quả có ý nghĩa thống kê có thể là do cơ hội (mặc dù cơ hội bị giới hạn ở mức 5%) thay vì do hiệu ứng "chính hãng" (vì công suất thấp) .

2
Câu trả lời này của Glen_b cũng rất hữu ích.
Richard Hardy

Idk nếu thực sự có bất cứ điều gì không dư thừa trong đó nhưng tôi cũng đã viết một câu trả lời cho câu hỏi đó có thể hữu ích. Một điểm: Tôi nghĩ rằng họ không nhất thiết ủng hộ việc ước tính phân phối "đúng" của kích thước hiệu ứng bằng cách sử dụng (được gọi là trong bài báo) mà sử dụng nó để ước tính xác suất tạo ra Loại S hoặc Lỗi loại M dựa trên kết quả kiểm tra hiện tại của bạn. Đó là Bayes, nhưng IMHO thuộc loại "Bayesian-lite";) bởi vì bạn vẫn đang sử dụng nó để diễn giải kết quả của một bài kiểm tra thường xuyên. βplausibleD
Patrick B.

@PatrickB., Cảm ơn bạn. Tôi sẽ xem xét một chút sau. (Tôi thấy tôi đã nêu lên câu trả lời của bạn trước đó; điều đó có nghĩa là tôi đã thấy nó hữu ích.)
Richard Hardy

1
Richard, tôi đã phát triển một hàm R để ước tính lỗi Loại "S" và Loại "M" cho trường hợp kích thước hiệu ứng tổng quát hơn, chứ không phải những gì Gelman thể hiện trong phân phối bình thường. Có khi bạn đọc bài báo về một quá trình phục hồi đơn giản từ một phát hiện trước đây và có ý nghĩa thống kê. Nhưng toàn bộ quá trình hoàn toàn dựa trên một phân tích sức mạnh. Về bản chất, đối với các nghiên cứu ồn ào, SE rất lớn và bằng cách giả sử một số hợp lý bằng các kích cỡ hiệu quả có thể kiểm chứng bằng thực nghiệm, bạn có thể có được hợp lý ...
rnorouzian

1
... ước tính những gì một nghiên cứu trong tương lai nên bao gồm về kích thước mẫu nói cần thiết để tránh nhận được tỷ lệ Loại "S" cao và tỷ lệ phóng đại cao (ví dụ: Loại "M"). Đối với các bản ghi, Loại "S" của Gelman chỉ đơn giản là phần đó dưới sự phân bố kích thước hiệu ứng cơ bản nằm ở phía đối diện với hiệu ứng dưới quyền chia cho sức mạnh. Dù sao, hãy nhìn vào chức năng trong trường hợp nó có thể giúp đỡ.
rnorouzian

2

Có một góc khác của bài viết này có thể hữu ích nếu bạn đang áp dụng phân tích Bayes và không quan tâm đến phần ý nghĩa thống kê.

Giả sử là CDF sau của số lượng (kích thước hiệu ứng) mà bạn quan tâm để ước tính. Trong tình huống Bayes, sử dụng ký hiệu và chuyển sang nói về các hàm mật độ xác suất, bạn sẽ có hàm khả năng dựa trên một số lượng có thể quan sát được và một số thuần túy trước :PβVβ

p(β|V)p(V|β)p(β)

Ở đây có thể là một đại lượng vectơ, trong trường hợp đơn giản nhất là vectơ của nhiều quan sát độc lập mà từ đó sản phẩm thông thường của các thuật ngữ khả năng phát sinh, biến thành một tổng các thuật ngữ nhật ký, v.v. Độ dài của vectơ đó sẽ là một tham số hóa kích thước mẫu. Trong các mô hình khác, giả sử là Poisson, nó có thể được cuộn thành tham số Poisson, cũng biểu thị tham số hóa kích thước mẫu.VVp(V|β)

Bây giờ, giả sử bạn đưa ra một giả thuyết dựa trên đánh giá tài liệu hoặc các phương tiện khác. Bạn có thể sử dụng quy trình tạo dữ liệu giả định với để tạo mô phỏng của , đại diện cho dữ liệu nào bạn sẽ thấy nếu mô hình của bạn được chỉ định rõ và là kích thước hiệu ứng thực sự.βplausibleP(V|β)β=βplausibleVβplausible

Sau đó, bạn có thể làm điều gì đó ngu ngốc: quay lại và hành động như mẫu là dữ liệu được quan sát và vẽ một loạt các mẫu từ tổng thể sau. Từ các mẫu này, bạn có thể tính toán các số liệu thống kê như được đề cập trong bài báo.Vβ

Các đại lượng từ giấy được liên kết, lỗi loại S và tỷ lệ phóng đại, đã thể hiện khá nhiều điều tương tự. Đối với kích thước hiệu ứng đó, với các lựa chọn mô hình của bạn, chúng sẽ cho bạn biết một tham số đã cho của cỡ mẫu được chọn cho , xác suất sau của dấu hiệu sai là gì và tỷ lệ dự kiến ​​(ở phía sau) sẽ nằm giữa kích thước hiệu ứng được tạo bởi mô hình và kích thước hiệu ứng hợp lý giả định, khi bạn thay đổi bất kỳ khía cạnh nào của liên quan đến kích thước mẫu.VV

Phần khó nhất là diễn giải "sức mạnh" sau là xác suất sau mà giá trị ước tính của ít nhất bằng giá trị giả định . Đây không phải là thước đo năng lực để bác bỏ giả thuyết khống, vì kích thước của xác suất này sẽ không được sử dụng như một thước đo quan trọng theo nghĩa thông thường.ββplausible

Tôi thực sự không biết nên gọi nó là gì, ngoại trừ việc nói rằng tôi đã có một vài ứng dụng trong thực tế, đó là một số liệu rất hữu ích để lý giải cho thiết kế nghiên cứu. Về cơ bản, nó cung cấp cho bạn một số cách để xem bạn cần cung cấp bao nhiêu dữ liệu (giả sử dữ liệu của bạn được tạo hoàn hảo từ quy trình sử dụng ) cho một giả định cụ thể về khả năng và hình dạng trước đó dẫn đến một số "đủ cao" xác suất sau của một hiệu ứng của một kích thước nhất định.βplausible

Trong trường hợp điều này hữu ích nhất cho tôi trong thực tế là trong các tình huống mà cùng một mô hình chung cần được áp dụng nhiều lần cho các tập dữ liệu khác nhau, nhưng trong đó các sắc thái giữa các tập dữ liệu có thể biện minh cho việc thay đổi phân phối trước hoặc sử dụng một tập hợp con khác của đánh giá tài liệu quyết định lựa chọn thực tế của , và sau đó nhận được chẩn đoán sơ bộ về việc liệu những điều chỉnh này cho các tập dữ liệu khác nhau có dẫn đến trường hợp bạn sẽ cần nhiều dữ liệu hơn để có xác suất không tầm thường ở phía sau tập trung ở phần bên phải của phân phối.βplausible

Bạn phải cẩn thận rằng không ai lạm dụng số liệu "sức mạnh" này giống như tính toán công suất thường xuyên, điều này khá khó. Nhưng tất cả các số liệu này khá hữu ích cho phân tích thiết kế hồi cứu và hồi cứu ngay cả khi toàn bộ quy trình mô hình hóa là Bayes và sẽ không đề cập đến bất kỳ kết quả có ý nghĩa thống kê nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.