Là một phân tích sức mạnh tiên nghiệm về cơ bản là vô dụng?


23

Tôi đã tham dự một cuộc họp của Hiệp hội Tâm lý học Xã hội và Cá tính vào tuần trước khi tôi thấy một cuộc nói chuyện của Uri Simonsohn với tiền đề rằng việc sử dụng phân tích sức mạnh tiên nghiệm để xác định kích thước mẫu về cơ bản là vô dụng vì kết quả của nó rất nhạy cảm với các giả định.

Tất nhiên, yêu cầu này đi ngược lại với những gì tôi được dạy trong lớp phương pháp của mình và chống lại các khuyến nghị của nhiều nhà phương pháp học nổi tiếng (đáng chú ý nhất là Cohen, 1992 ), vì vậy Uri đã đưa ra một số bằng chứng về yêu cầu của mình. Tôi đã cố gắng tạo lại một số bằng chứng này dưới đây.

Để đơn giản, hãy tưởng tượng một tình huống trong đó bạn có hai nhóm quan sát và đoán rằng kích thước hiệu ứng (được đo bằng mức chênh lệch trung bình chuẩn) là . Một tính toán công suất tiêu chuẩn (được thực hiện trong việc sử dụng gói bên dưới) sẽ cho bạn biết bạn sẽ cần quan sát để có được 80% năng lượng với thiết kế này.128.5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Tuy nhiên, thông thường, dự đoán của chúng tôi về kích thước dự đoán của hiệu ứng là (ít nhất là trong khoa học xã hội, lĩnh vực nghiên cứu của tôi) chỉ là như vậy - những phỏng đoán rất thô sơ. Điều gì xảy ra sau đó nếu dự đoán của chúng tôi về kích thước của hiệu ứng là một chút? Một phép tính công suất nhanh cho bạn biết rằng nếu kích thước của hiệu ứng là thay vì , bạn cần quan sát - gấp lần số bạn cần có đủ năng lượng cho kích thước hiệu ứng là . Tương tự, nếu kích thước của hiệu ứng là , bạn chỉ cần quan sát, 70% những gì bạn cần có đủ năng lượng để phát hiện kích thước hiệu ứng là.5 200 1.56 .5 .6 90 .50 90 200.4.52001,56.5.690.50. Thực tế mà nói, phạm vi trong các quan sát ước tính là khá lớn - đến .90200

Một câu trả lời cho vấn đề này là, thay vì đoán chính xác kích cỡ của hiệu ứng có thể là gì, bạn thu thập bằng chứng về kích thước của hiệu ứng, thông qua tài liệu trong quá khứ hoặc qua thử nghiệm thí điểm. Tất nhiên, nếu bạn đang thực hiện thử nghiệm thí điểm, bạn sẽ muốn thử nghiệm thử nghiệm của mình đủ nhỏ để bạn không chỉ đơn giản chạy phiên bản nghiên cứu của mình chỉ để xác định kích thước mẫu cần thiết để thực hiện nghiên cứu (ví dụ: bạn muốn cỡ mẫu được sử dụng trong thử nghiệm thí điểm nhỏ hơn cỡ mẫu nghiên cứu của bạn).

Uri Simonsohn lập luận rằng thử nghiệm thí điểm cho mục đích xác định kích thước hiệu ứng được sử dụng trong phân tích sức mạnh của bạn là vô ích. Hãy xem xét các mô phỏng sau đây mà tôi chạy R. Mô phỏng này giả định rằng kích thước hiệu ứng dân số là . Sau đó, nó tiến hành "thử nghiệm thí điểm" có kích thước 40 và lập bảng đề xuất từ mỗi trong số 10000 thử nghiệm thí điểm.1000 N.51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Dưới đây là một âm mưu mật độ dựa trên mô phỏng này. Tôi đã bỏ qua trong số các thử nghiệm thí điểm đề xuất một số quan sát trên 500 để làm cho hình ảnh dễ hiểu hơn. Ngay cả khi tập trung vào các kết quả cực ít của mô phỏng, có sự khác biệt lớn trong N s được đề xuất bởi 1000 thử nghiệm thí điểm.204500NS1000

nhập mô tả hình ảnh ở đây

Tất nhiên, tôi chắc chắn rằng độ nhạy đối với vấn đề giả định chỉ trở nên tồi tệ hơn khi thiết kế của một người trở nên phức tạp hơn. Ví dụ, trong một thiết kế yêu cầu đặc điểm kỹ thuật của cấu trúc hiệu ứng ngẫu nhiên, bản chất của cấu trúc hiệu ứng ngẫu nhiên sẽ có ý nghĩa lớn đối với sức mạnh của thiết kế.

Vì vậy, tất cả các bạn nghĩ gì về lập luận này? Là một phân tích sức mạnh tiên nghiệm về cơ bản là vô dụng? Nếu có thì các nhà nghiên cứu nên lập kế hoạch cho quy mô nghiên cứu của họ như thế nào?


10
Điều này nghe có vẻ như một sự lên án của phân tích sức mạnh vô trí , không phải của phân tích sức mạnh. Câu hỏi lớn hơn là liệu đây có phải là một cuộc tấn công vào người rơm hay thực sự có nhiều người tiến hành phân tích sức mạnh của họ (hoặc bất kỳ phân tích nào khác) mà không quan tâm đến sự nhạy cảm của họ với các giả định. Nếu điều sau là đúng thì thật tốt khi khai sáng cho họ, nhưng tôi hy vọng họ không trở nên chán nản đến mức từ bỏ mọi nỗ lực để lên kế hoạch cho các thí nghiệm của họ!
whuber

2
Nhắc nhở tôi khá nhiều số liệu thống kê.stackexchange.com/q/2492/32036 , và không chỉ vì sự giống nhau về cú pháp trong cách đặt câu hỏi tiêu đề. Có vẻ như một câu hỏi làm thế nào để hiểu các giả định. Một điểm quan trọng trong cả hai là hiểu được sự nhạy cảm của các phân tích này đối với sự thiên vị thay vì đưa ra những phán đoán, tất cả hoặc không có gì cho rằng các giả định của chúng là (a) hoàn toàn quan trọng hoặc (b) hoàn toàn không đáng kể. Đây là chìa khóa cho suy luận hữu ích và không gây hại nói chung. Tôi sợ đó không phải là người rơm; mọi người nghĩ tuyệt đối quá thường xuyên khi họ không biết hoặc không quan tâm.
Nick Stauner

5
Tôi không muốn thêm câu hỏi này vào câu hỏi vì tôi quan tâm đến các khuyến nghị mà người khác đưa ra, nhưng khuyến nghị của Uri Simonsohn vào cuối buổi nói chuyện là tăng sức mạnh cho nghiên cứu của bạn để phát hiện ra hiệu quả nhỏ nhất mà bạn quan tâm.
Patrick S. Forscher

9
@ PatrickS.Forscher: Vì vậy, sau khi tất cả được nói và thực hiện, anh ấy tin vào một phân tích sức mạnh tiên nghiệm. Anh ta chỉ nghĩ rằng kích thước hiệu ứng nên được chọn một cách khôn ngoan: không phải là dự đoán về nó có thể là gì, mà là giá trị tối thiểu mà bạn quan tâm. Âm thanh khá giống với mô tả trong sách giáo khoa về phân tích sức mạnh: đảm bảo rằng bạn có đủ dữ liệu mà những gì bạn tin là khác biệt có ý nghĩa thực tế sẽ hiển thị như một sự khác biệt có ý nghĩa thống kê.
Wayne

2
Cách Uri đóng khung cuộc nói chuyện, tôi nghĩ rằng anh ấy tin rằng phân tích sức mạnh tiên nghiệm là vô ích vì nó thường được thực hiện trong khoa học xã hội, nhưng có lẽ không như nó được dạy ở nơi khác. Thật vậy, tôi được dạy dựa trên phân tích sức mạnh của mình dựa trên dự đoán hợp lý về quy mô của hiệu ứng mà tôi đang tìm kiếm, chứ không phải về hiệu ứng mà tôi sẽ quan tâm về mặt thực tế.
Patrick S. Forscher

Câu trả lời:


20

Vấn đề cơ bản ở đây là đúng và khá nổi tiếng trong thống kê. Tuy nhiên, giải thích / yêu cầu của ông là cực đoan. Có một số vấn đề sẽ được thảo luận:

NNN50%80%ddd= =.5N= =1287,9%5,5%.116,9%.112.6%

nhập mô tả hình ảnh ở đây

d

80%

Thứ hai, liên quan đến tuyên bố rộng hơn rằng các phân tích sức mạnh (a-prori hay nói cách khác) dựa trên các giả định, không rõ điều gì để đưa ra lập luận đó. Tất nhiên họ làm. Mọi thứ khác cũng vậy. Không chạy phân tích sức mạnh, nhưng chỉ thu thập một lượng dữ liệu dựa trên số bạn đã chọn từ một chiếc mũ, sau đó phân tích dữ liệu của bạn, sẽ không cải thiện tình hình. Hơn nữa, các phân tích kết quả của bạn vẫn sẽ dựa trên các giả định, giống như tất cả các phân tích (sức mạnh hoặc cách khác) luôn luôn làm. Nếu thay vào đó bạn quyết định rằng bạn sẽ tiếp tục dữ liệu thu thập và tái phân tích chúng cho đến khi bạn có được một bức tranh bạn thích hoặc cảm thấy mệt mỏi của nó, đó sẽ là nhiều ít có giá trị (và sẽ giả định vẫn đòi hỏi mà bạn có thể nhìn thấy bằng loa, nhưng dù sao cũng tồn tại). Đơn giản thôi,không có cách nào xung quanh thực tế là các giả định đang được thực hiện trong nghiên cứu và phân tích dữ liệu .

Bạn có thể tìm thấy các tài nguyên quan tâm:


1
Tôi nghĩ rằng lập luận của Uri Simonsohn không cho rằng các giả định trên mỗi phương diện là xấu, nhưng các phân tích sức mạnh nói chung rất nhạy cảm với các giả định khiến chúng trở nên vô dụng đối với việc lên kế hoạch cho các cỡ mẫu. Tuy nhiên, điểm của bạn là tuyệt vời, cũng như các tài liệu tham khảo mà bạn đã cung cấp (+1).
Patrick S. Forscher

Chỉnh sửa của bạn tiếp tục cải thiện câu trả lời đã xuất sắc này. :)
Patrick S. Forscher

3
Tôi đồng ý đây là một câu trả lời tuyệt vời và tôi chỉ muốn cho bạn (và những người khác) biết rằng tôi đã trích dẫn bạn trong một bài đăng trên blog gần đây mà tôi đã viết về chủ đề này: jakewestfall.org/blog/index.php/2015/06/ 16 /
Lọ

2
@JakeWestfall, bài đăng hay! Một lưu ý khác, khi bạn học cookie, bạn có làm như vậy chủ yếu bằng cách ăn chúng không? Bạn có cần một nhà tư vấn thống kê về bất kỳ dự án nào trong số này không?
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.