Tổng quan về câu hỏi
Cảnh báo: Câu hỏi này đòi hỏi rất nhiều thiết lập. Xin vui lòng chịu với tôi.
Một đồng nghiệp của tôi và tôi đang làm việc trên một thiết kế thử nghiệm. Thiết kế phải làm việc xung quanh một số lượng lớn các ràng buộc, mà tôi sẽ liệt kê dưới đây. Tôi đã phát triển một thiết kế thỏa mãn các ràng buộc và điều đó mang lại cho chúng tôi các ước tính không thiên vị về các tác động của chúng tôi. Tuy nhiên, đồng nghiệp của tôi tin rằng có một sự nhầm lẫn trong thiết kế. Chúng tôi đã tranh luận điểm này quảng cáo mà không đi đến một giải pháp, vì vậy tại thời điểm này tôi muốn có một số ý kiến bên ngoài.
Tôi sẽ mô tả mục tiêu của nghiên cứu, những hạn chế của chúng tôi, mối quan hệ tiềm năng và lý do tại sao tôi tin rằng "sự nhầm lẫn" này không phải là vấn đề dưới đây. Khi bạn đọc từng phần, hãy ghi nhớ câu hỏi tổng thể của tôi:
Có một sự nhầm lẫn trong thiết kế mà tôi mô tả?
[Các chi tiết của thí nghiệm này đã được sửa đổi, nhưng các yếu tố cần thiết để hỏi câu hỏi của tôi vẫn giữ nguyên]
Mục tiêu thử nghiệm
Chúng tôi muốn xác định xem các bài tiểu luận được viết bởi nam giới Trắng được đánh giá thuận lợi hơn các bài tiểu luận được viết bởi nữ Trắng, nam Đen hay Nữ Đen ( biến số tác giả tiểu luận ). Chúng tôi cũng muốn xác định xem bất kỳ sự thiên vị nào chúng tôi tìm thấy sẽ xuất hiện nhiều hơn trong các khoản trợ cấp chất lượng cao hay thấp ( biến chất lượng ). Cuối cùng, chúng tôi muốn bao gồm các bài tiểu luận viết về 12 chủ đề khác nhau ( biến chủ đề ). Tuy nhiên, chỉ có hai biến đầu tiên được quan tâm thực sự; mặc dù chủ đề phải khác nhau giữa các bài tiểu luận, chúng tôi không thực sự quan tâm đến cách đánh giá khác nhau giữa các chủ đề.
Những ràng buộc
- Có giới hạn cho cả số lượng người tham gia và số lượng bài tiểu luận mà chúng tôi có thể thu thập. Kết quả là quyền tác giả không thể bị thao túng hoàn toàn giữa những người tham gia và cũng không thể bị thao túng hoàn toàn giữa các bài tiểu luận (nghĩa là mỗi bài tiểu luận phải được gán cho nhiều điều kiện).
- Mặc dù mỗi bài luận có thể có các phiên bản Nam trắng, Nữ trắng, Nam đen và Đen, nhưng mỗi bài luận chỉ có thể là một trong những chất lượng cao và thấp và chỉ có thể về một chủ đề. Hoặc, để đặt ràng buộc này theo một cách khác, cả chất lượng và chủ đề đều không thể bị thao túng trong các bài tiểu luận, vì chúng là những đặc điểm vốn có của một bài luận nhất định.
- Do mệt mỏi, có một giới hạn về số lượng bài tiểu luận mà một người tham gia nhất định có thể đánh giá.
- Tất cả các bài luận mà một người nhất định đọc phải là về một chủ đề duy nhất. Nói cách khác, các bài tiểu luận không thể được chỉ định hoàn toàn ngẫu nhiên cho người tham gia, vì chúng tôi cần đảm bảo rằng mỗi người tham gia chỉ đọc các bài tiểu luận của một chủ đề tương tự.
- Mỗi người tham gia chỉ có thể xem một bài luận được cho là của tác giả nam không phải người da trắng, vì chúng tôi không muốn người tham gia nghi ngờ về mục đích của thí nghiệm vì quá nhiều bài tiểu luận của họ được viết bởi các tác giả Đen hoặc nữ.
Thiết kế đề xuất
Thiết kế đề xuất của tôi trước tiên thao túng mỗi bài tiểu luận thành 4 phiên bản quyền tác giả khác nhau (Trắng nam, Trắng nữ, v.v.). Bốn bài luận từ một chủ đề tương tự sau đó được sử dụng để định nghĩa một "tập hợp", mỗi bài bao gồm hai bài tiểu luận chất lượng cao và thấp. Mỗi người tham gia nhận được ba bài luận từ một bộ nhất định như sau trong hình dưới đây. Mỗi người tham gia sau đó cung cấp một đánh giá duy nhất cho mỗi trong ba bài tiểu luận mà mình được chỉ định.
Các mối quan hệ tiềm năng
Đồng nghiệp của tôi tin rằng thiết kế trên có chứa một sự nhầm lẫn. Vấn đề, theo ông, là, khi một bài luận chất lượng cao được chỉ định là tác giả của một nhà văn nam không phải người da trắng, nó luôn được kết hợp với một bài luận chất lượng cao và một bài luận chất lượng thấp (đối với Bài tiểu luận 1, xem Người tham gia 1-3 trong hình). Mặt khác, khi cùng một bài tiểu luận được chỉ định là tác giả của các nhà văn nam Trắng, nó được kết hợp với một bài luận chất lượng cao và một bài luận chất lượng thấp ba lần (đối với Bài tiểu luận 1, Người tham gia 4-6) và hai bài tiểu luận chất lượng thấp ba lần (đối với Tiểu luận 1, Người tham gia 7-9).
Một vấn đề tương tự tồn tại cho các bài tiểu luận chất lượng thấp. Khi một bài luận chất lượng thấp có một tác giả nam không phải người da trắng, nó luôn được nhìn thấy với một bài luận chất lượng thấp và một bài luận chất lượng cao (đối với Bài tiểu luận 3, xem Người tham gia 7-9). Tuy nhiên, khi cùng một bài tiểu luận có một tác giả nam Trắng, nó được nhìn thấy với một bài luận chất lượng cao và một bài luận chất lượng thấp ba lần (cho Bài luận 3, Người tham gia 10-12) và với hai bài tiểu luận chất lượng cao ba lần (cho Bài tiểu luận 3, Người tham gia 1-3).
Lý do các mô hình trên có thể có vấn đề là nếu chúng ta giả sử sự tồn tại của "hiệu ứng tương phản". Cụ thể, nếu trung bình các bài tiểu luận chất lượng cao được đánh giá thuận lợi hơn khi chúng được kết hợp với hai bài tiểu luận chất lượng thấp so với khi chúng được kết hợp với một bài luận chất lượng thấp và một bài luận chất lượng cao (một giả định hợp lý), bài tiểu luận nam trắng có thể nhận được xếp hạng cao hơn Các bài tiểu luận nữ trắng, nam đen và đen vì một lý do khác ngoài quyền tác giả.
Hiệu ứng tương phản cho các bài tiểu luận chất lượng cao có thể hoặc không thể được cân bằng bởi hiệu ứng tương phản cho các bài tiểu luận chất lượng thấp; đó là, có thể hoặc không phải là trường hợp các bài tiểu luận chất lượng thấp kết hợp với hai bài tiểu luận chất lượng cao được đánh giá đặc biệt bất lợi. Bất kể, đồng nghiệp của tôi tuyên bố, tiềm năng cho các hiệu ứng tương phản của bất kỳ loại nào làm cho thiết kế này có vấn đề với mục đích xác định xem các bài tiểu luận của nam giới White được đánh giá có lợi hơn so với các bài tiểu luận của các tác giả khác.
Tại sao tôi tin rằng mối quan hệ tiềm năng không phải là một vấn đề
Điều quan trọng đối với tôi là liệu chúng ta có thể ước tính mức độ mà các bài tiểu luận nam Trắng được đánh giá khác so với các bài tiểu luận khác (nghĩa là chúng ta có thể ước tính tác động của chúng ta về lợi ích hay không), ngay cả khi có hiệu ứng tương phản. Do đó, tôi đã tiến hành một mô phỏng trong đó tôi mô phỏng 50 bộ dữ liệu có chứa các hiệu ứng tương phản và phù hợp với một mô hình kiểm tra các hiệu ứng quan tâm của chúng tôi.
Mô hình cụ thể là một mô hình hiệu ứng hỗn hợp với các lần chặn ngẫu nhiên cho bài luận (mỗi bài luận được đánh giá bởi nhiều người tham gia) và người tham gia (mỗi người tham gia đánh giá nhiều bài tiểu luận). Cấp độ bài luận cũng chứa các độ dốc ngẫu nhiên về chủng tộc, giới tính và sự tương tác của chúng (cả hai biến được thao tác trong bài tiểu luận) và cấp độ người tham gia chứa một độ dốc ngẫu nhiên về chất lượng (chất lượng được thao túng trong những người tham gia). Tác động của sự quan tâm là ảnh hưởng của chủng tộc, giới tính, sự tương tác giữa chủng tộc và giới tính và sự tương tác bậc cao giữa mỗi biến số và chất lượng này. Mục tiêu của mô phỏng này là xác định xem việc đưa các hiệu ứng tương phản vào dữ liệu có tạo ra các hiệu ứng giả về chủng tộc, giới tính, sự tương tác giữa chủng tộc và giới tính hay không, và các tương tác bậc cao hơn giữa các biến và chất lượng này. Xem đoạn mã dưới đây để biết thêm chi tiết.
Theo mô phỏng, sự hiện diện của các hiệu ứng tương phản không làm sai lệch các ước tính về bất kỳ hiệu ứng quan tâm nào của chúng tôi. Ngoài ra, kích thước của hiệu ứng tương phản có thể được ước tính trong cùng một mô hình thống kê như các hiệu ứng khác trong thiết kế; đối với tôi, điều này đã gợi ý rằng "hiệu ứng tương phản" được xác định bởi đồng nghiệp của tôi không phải là một vấn đề. Đồng nghiệp của tôi, tuy nhiên, vẫn còn hoài nghi.
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
Một lần nữa, câu hỏi chung của tôi là, có một sự nhầm lẫn trong thiết kế mà tôi đã mô tả? Nếu một sự nhầm lẫn không có mặt, tôi sẽ quan tâm đến một mô tả về lý do tại sao "hiệu ứng tương phản" tiềm năng không gây nhiễu để tôi có thể giải thích điều này với đồng nghiệp của mình.