Tôi đã tham dự một cuộc họp của Hiệp hội Tâm lý học Xã hội và Cá tính vào tuần trước khi tôi thấy một cuộc nói chuyện của Uri Simonsohn với tiền đề rằng việc sử dụng phân tích sức mạnh tiên nghiệm để xác định kích thước mẫu về cơ bản là vô dụng vì kết quả của nó rất nhạy cảm với các giả định.
Tất nhiên, yêu cầu này đi ngược lại với những gì tôi được dạy trong lớp phương pháp của mình và chống lại các khuyến nghị của nhiều nhà phương pháp học nổi tiếng (đáng chú ý nhất là Cohen, 1992 ), vì vậy Uri đã đưa ra một số bằng chứng về yêu cầu của mình. Tôi đã cố gắng tạo lại một số bằng chứng này dưới đây.
Để đơn giản, hãy tưởng tượng một tình huống trong đó bạn có hai nhóm quan sát và đoán rằng kích thước hiệu ứng (được đo bằng mức chênh lệch trung bình chuẩn) là . Một tính toán công suất tiêu chuẩn (được thực hiện trong việc sử dụng gói bên dưới) sẽ cho bạn biết bạn sẽ cần quan sát để có được 80% năng lượng với thiết kế này.128R
pwr
require(pwr)
size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")
Tuy nhiên, thông thường, dự đoán của chúng tôi về kích thước dự đoán của hiệu ứng là (ít nhất là trong khoa học xã hội, lĩnh vực nghiên cứu của tôi) chỉ là như vậy - những phỏng đoán rất thô sơ. Điều gì xảy ra sau đó nếu dự đoán của chúng tôi về kích thước của hiệu ứng là một chút? Một phép tính công suất nhanh cho bạn biết rằng nếu kích thước của hiệu ứng là thay vì , bạn cần quan sát - gấp lần số bạn cần có đủ năng lượng cho kích thước hiệu ứng là . Tương tự, nếu kích thước của hiệu ứng là , bạn chỉ cần quan sát, 70% những gì bạn cần có đủ năng lượng để phát hiện kích thước hiệu ứng là.5 200 1.56 .5 .6 90 .50 90 200. Thực tế mà nói, phạm vi trong các quan sát ước tính là khá lớn - đến .
Một câu trả lời cho vấn đề này là, thay vì đoán chính xác kích cỡ của hiệu ứng có thể là gì, bạn thu thập bằng chứng về kích thước của hiệu ứng, thông qua tài liệu trong quá khứ hoặc qua thử nghiệm thí điểm. Tất nhiên, nếu bạn đang thực hiện thử nghiệm thí điểm, bạn sẽ muốn thử nghiệm thử nghiệm của mình đủ nhỏ để bạn không chỉ đơn giản chạy phiên bản nghiên cứu của mình chỉ để xác định kích thước mẫu cần thiết để thực hiện nghiên cứu (ví dụ: bạn muốn cỡ mẫu được sử dụng trong thử nghiệm thí điểm nhỏ hơn cỡ mẫu nghiên cứu của bạn).
Uri Simonsohn lập luận rằng thử nghiệm thí điểm cho mục đích xác định kích thước hiệu ứng được sử dụng trong phân tích sức mạnh của bạn là vô ích. Hãy xem xét các mô phỏng sau đây mà tôi chạy R
. Mô phỏng này giả định rằng kích thước hiệu ứng dân số là . Sau đó, nó tiến hành "thử nghiệm thí điểm" có kích thước 40 và lập bảng đề xuất từ mỗi trong số 10000 thử nghiệm thí điểm.1000 N
set.seed(12415)
reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)
for(i in 1:reps)
{
x <- rep(c(-.5, .5), pilot_n_per_group)
y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
# Calculate the standardized mean difference
size <- (mean(y[x == -.5]) - mean(y[x == .5])) /
sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)
n <- 2 * pwr.t.test(d = size,
sig.level = .05,
power = .80,
type = "two.sample",
alternative = "two.sided")$n
ns[i] <- n
}
Dưới đây là một âm mưu mật độ dựa trên mô phỏng này. Tôi đã bỏ qua trong số các thử nghiệm thí điểm đề xuất một số quan sát trên 500 để làm cho hình ảnh dễ hiểu hơn. Ngay cả khi tập trung vào các kết quả cực ít của mô phỏng, có sự khác biệt lớn trong N s được đề xuất bởi 1000 thử nghiệm thí điểm.
Tất nhiên, tôi chắc chắn rằng độ nhạy đối với vấn đề giả định chỉ trở nên tồi tệ hơn khi thiết kế của một người trở nên phức tạp hơn. Ví dụ, trong một thiết kế yêu cầu đặc điểm kỹ thuật của cấu trúc hiệu ứng ngẫu nhiên, bản chất của cấu trúc hiệu ứng ngẫu nhiên sẽ có ý nghĩa lớn đối với sức mạnh của thiết kế.
Vì vậy, tất cả các bạn nghĩ gì về lập luận này? Là một phân tích sức mạnh tiên nghiệm về cơ bản là vô dụng? Nếu có thì các nhà nghiên cứu nên lập kế hoạch cho quy mô nghiên cứu của họ như thế nào?