Một mối quan hệ tiềm năng trong một thiết kế thí nghiệm

Tổng quan về câu hỏi

Cảnh báo: Câu hỏi này đòi hỏi rất nhiều thiết lập. Xin vui lòng chịu với tôi.

Một đồng nghiệp của tôi và tôi đang làm việc trên một thiết kế thử nghiệm. Thiết kế phải làm việc xung quanh một số lượng lớn các ràng buộc, mà tôi sẽ liệt kê dưới đây. Tôi đã phát triển một thiết kế thỏa mãn các ràng buộc và điều đó mang lại cho chúng tôi các ước tính không thiên vị về các tác động của chúng tôi. Tuy nhiên, đồng nghiệp của tôi tin rằng có một sự nhầm lẫn trong thiết kế. Chúng tôi đã tranh luận điểm này quảng cáo mà không đi đến một giải pháp, vì vậy tại thời điểm này tôi muốn có một số ý kiến bên ngoài.

Tôi sẽ mô tả mục tiêu của nghiên cứu, những hạn chế của chúng tôi, mối quan hệ tiềm năng và lý do tại sao tôi tin rằng "sự nhầm lẫn" này không phải là vấn đề dưới đây. Khi bạn đọc từng phần, hãy ghi nhớ câu hỏi tổng thể của tôi:

Có một sự nhầm lẫn trong thiết kế mà tôi mô tả?

[Các chi tiết của thí nghiệm này đã được sửa đổi, nhưng các yếu tố cần thiết để hỏi câu hỏi của tôi vẫn giữ nguyên]

Mục tiêu thử nghiệm

Chúng tôi muốn xác định xem các bài tiểu luận được viết bởi nam giới Trắng được đánh giá thuận lợi hơn các bài tiểu luận được viết bởi nữ Trắng, nam Đen hay Nữ Đen ( biến số tác giả tiểu luận ). Chúng tôi cũng muốn xác định xem bất kỳ sự thiên vị nào chúng tôi tìm thấy sẽ xuất hiện nhiều hơn trong các khoản trợ cấp chất lượng cao hay thấp ( biến chất lượng ). Cuối cùng, chúng tôi muốn bao gồm các bài tiểu luận viết về 12 chủ đề khác nhau ( biến chủ đề ). Tuy nhiên, chỉ có hai biến đầu tiên được quan tâm thực sự; mặc dù chủ đề phải khác nhau giữa các bài tiểu luận, chúng tôi không thực sự quan tâm đến cách đánh giá khác nhau giữa các chủ đề.

Những ràng buộc

Có giới hạn cho cả số lượng người tham gia và số lượng bài tiểu luận mà chúng tôi có thể thu thập. Kết quả là quyền tác giả không thể bị thao túng hoàn toàn giữa những người tham gia và cũng không thể bị thao túng hoàn toàn giữa các bài tiểu luận (nghĩa là mỗi bài tiểu luận phải được gán cho nhiều điều kiện).
Mặc dù mỗi bài luận có thể có các phiên bản Nam trắng, Nữ trắng, Nam đen và Đen, nhưng mỗi bài luận chỉ có thể là một trong những chất lượng cao và thấp và chỉ có thể về một chủ đề. Hoặc, để đặt ràng buộc này theo một cách khác, cả chất lượng và chủ đề đều không thể bị thao túng trong các bài tiểu luận, vì chúng là những đặc điểm vốn có của một bài luận nhất định.
Do mệt mỏi, có một giới hạn về số lượng bài tiểu luận mà một người tham gia nhất định có thể đánh giá.
Tất cả các bài luận mà một người nhất định đọc phải là về một chủ đề duy nhất. Nói cách khác, các bài tiểu luận không thể được chỉ định hoàn toàn ngẫu nhiên cho người tham gia, vì chúng tôi cần đảm bảo rằng mỗi người tham gia chỉ đọc các bài tiểu luận của một chủ đề tương tự.
Mỗi người tham gia chỉ có thể xem một bài luận được cho là của tác giả nam không phải người da trắng, vì chúng tôi không muốn người tham gia nghi ngờ về mục đích của thí nghiệm vì quá nhiều bài tiểu luận của họ được viết bởi các tác giả Đen hoặc nữ.

Thiết kế đề xuất

Thiết kế đề xuất của tôi trước tiên thao túng mỗi bài tiểu luận thành 4 phiên bản quyền tác giả khác nhau (Trắng nam, Trắng nữ, v.v.). Bốn bài luận từ một chủ đề tương tự sau đó được sử dụng để định nghĩa một "tập hợp", mỗi bài bao gồm hai bài tiểu luận chất lượng cao và thấp. Mỗi người tham gia nhận được ba bài luận từ một bộ nhất định như sau trong hình dưới đây. Mỗi người tham gia sau đó cung cấp một đánh giá duy nhất cho mỗi trong ba bài tiểu luận mà mình được chỉ định.

Thiết kế thí nghiệm

Các mối quan hệ tiềm năng

Đồng nghiệp của tôi tin rằng thiết kế trên có chứa một sự nhầm lẫn. Vấn đề, theo ông, là, khi một bài luận chất lượng cao được chỉ định là tác giả của một nhà văn nam không phải người da trắng, nó luôn được kết hợp với một bài luận chất lượng cao và một bài luận chất lượng thấp (đối với Bài tiểu luận 1, xem Người tham gia 1-3 trong hình). Mặt khác, khi cùng một bài tiểu luận được chỉ định là tác giả của các nhà văn nam Trắng, nó được kết hợp với một bài luận chất lượng cao và một bài luận chất lượng thấp ba lần (đối với Bài tiểu luận 1, Người tham gia 4-6) và hai bài tiểu luận chất lượng thấp ba lần (đối với Tiểu luận 1, Người tham gia 7-9).

Một vấn đề tương tự tồn tại cho các bài tiểu luận chất lượng thấp. Khi một bài luận chất lượng thấp có một tác giả nam không phải người da trắng, nó luôn được nhìn thấy với một bài luận chất lượng thấp và một bài luận chất lượng cao (đối với Bài tiểu luận 3, xem Người tham gia 7-9). Tuy nhiên, khi cùng một bài tiểu luận có một tác giả nam Trắng, nó được nhìn thấy với một bài luận chất lượng cao và một bài luận chất lượng thấp ba lần (cho Bài luận 3, Người tham gia 10-12) và với hai bài tiểu luận chất lượng cao ba lần (cho Bài tiểu luận 3, Người tham gia 1-3).

Lý do các mô hình trên có thể có vấn đề là nếu chúng ta giả sử sự tồn tại của "hiệu ứng tương phản". Cụ thể, nếu trung bình các bài tiểu luận chất lượng cao được đánh giá thuận lợi hơn khi chúng được kết hợp với hai bài tiểu luận chất lượng thấp so với khi chúng được kết hợp với một bài luận chất lượng thấp và một bài luận chất lượng cao (một giả định hợp lý), bài tiểu luận nam trắng có thể nhận được xếp hạng cao hơn Các bài tiểu luận nữ trắng, nam đen và đen vì một lý do khác ngoài quyền tác giả.

Hiệu ứng tương phản cho các bài tiểu luận chất lượng cao có thể hoặc không thể được cân bằng bởi hiệu ứng tương phản cho các bài tiểu luận chất lượng thấp; đó là, có thể hoặc không phải là trường hợp các bài tiểu luận chất lượng thấp kết hợp với hai bài tiểu luận chất lượng cao được đánh giá đặc biệt bất lợi. Bất kể, đồng nghiệp của tôi tuyên bố, tiềm năng cho các hiệu ứng tương phản của bất kỳ loại nào làm cho thiết kế này có vấn đề với mục đích xác định xem các bài tiểu luận của nam giới White được đánh giá có lợi hơn so với các bài tiểu luận của các tác giả khác.

Tại sao tôi tin rằng mối quan hệ tiềm năng không phải là một vấn đề

Điều quan trọng đối với tôi là liệu chúng ta có thể ước tính mức độ mà các bài tiểu luận nam Trắng được đánh giá khác so với các bài tiểu luận khác (nghĩa là chúng ta có thể ước tính tác động của chúng ta về lợi ích hay không), ngay cả khi có hiệu ứng tương phản. Do đó, tôi đã tiến hành một mô phỏng trong đó tôi mô phỏng 50 bộ dữ liệu có chứa các hiệu ứng tương phản và phù hợp với một mô hình kiểm tra các hiệu ứng quan tâm của chúng tôi.

Mô hình cụ thể là một mô hình hiệu ứng hỗn hợp với các lần chặn ngẫu nhiên cho bài luận (mỗi bài luận được đánh giá bởi nhiều người tham gia) và người tham gia (mỗi người tham gia đánh giá nhiều bài tiểu luận). Cấp độ bài luận cũng chứa các độ dốc ngẫu nhiên về chủng tộc, giới tính và sự tương tác của chúng (cả hai biến được thao tác trong bài tiểu luận) và cấp độ người tham gia chứa một độ dốc ngẫu nhiên về chất lượng (chất lượng được thao túng trong những người tham gia). Tác động của sự quan tâm là ảnh hưởng của chủng tộc, giới tính, sự tương tác giữa chủng tộc và giới tính và sự tương tác bậc cao giữa mỗi biến số và chất lượng này. Mục tiêu của mô phỏng này là xác định xem việc đưa các hiệu ứng tương phản vào dữ liệu có tạo ra các hiệu ứng giả về chủng tộc, giới tính, sự tương tác giữa chủng tộc và giới tính hay không, và các tương tác bậc cao hơn giữa các biến và chất lượng này. Xem đoạn mã dưới đây để biết thêm chi tiết.

Theo mô phỏng, sự hiện diện của các hiệu ứng tương phản không làm sai lệch các ước tính về bất kỳ hiệu ứng quan tâm nào của chúng tôi. Ngoài ra, kích thước của hiệu ứng tương phản có thể được ước tính trong cùng một mô hình thống kê như các hiệu ứng khác trong thiết kế; đối với tôi, điều này đã gợi ý rằng "hiệu ứng tương phản" được xác định bởi đồng nghiệp của tôi không phải là một vấn đề. Đồng nghiệp của tôi, tuy nhiên, vẫn còn hoài nghi.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Một lần nữa, câu hỏi chung của tôi là, có một sự nhầm lẫn trong thiết kế mà tôi đã mô tả? Nếu một sự nhầm lẫn không có mặt, tôi sẽ quan tâm đến một mô tả về lý do tại sao "hiệu ứng tương phản" tiềm năng không gây nhiễu để tôi có thể giải thích điều này với đồng nghiệp của mình.

— Patrick S. Forscher
nguồn

Chỉ cần một nhận xét: làm thế nào các bài tiểu luận sẽ được đánh giá? Tôi hỏi bởi vì nếu nhiều người xếp loại sẽ được tuyển dụng, thì bạn phải nhớ rằng xếp hạng của những người khác nhau không nhất quán nên bạn cũng nên nhớ về sự thay đổi giữa những người xếp loại.

— Tim

Mỗi người tham gia cung cấp một đánh giá cho mỗi trong ba bài tiểu luận mà người đó được chỉ định.

— Patrick S. Forscher

Tôi đã thêm chi tiết về thủ tục xếp hạng vào phần thân của câu hỏi.

— Patrick S. Forscher

Đối với những người trong chúng ta không quen thuộc với lmer (), bạn có thể giải thích ngắn gọn về phân tích và "tác động của lợi ích" không?

— Anthony

Không vấn đề gì, @Anthony. Tôi đã thêm những chi tiết đó vào câu hỏi.

— Patrick S. Forscher

Tôi lo ngại về một vấn đề liên quan - 'Mỗi người tham gia chỉ có thể xem một bài luận được cho là của tác giả nam không phải người da trắng, vì chúng tôi không muốn người tham gia nghi ngờ về mục đích của thí nghiệm vì có quá nhiều bài tiểu luận của họ được viết bởi Black hoặc nữ tác giả. '

Điều này có nghĩa là bất kể kết quả như thế nào, bạn sẽ không thể xác định liệu đó có phải là do sự khác biệt giữa quyền tác giả nam da trắng và quyền tác giả khác hay đơn giản là giữa 'quyền tác giả đa số' và 'quyền tác giả thiểu số'.

Nếu thiết kế như được hiển thị cũng phản ánh thứ tự trình bày (tôi cho rằng nó không, nhưng tốt hơn để kiểm tra) thì đó có vẻ là một vấn đề khác.

— Charlie
nguồn

Con số không phản ánh thứ tự trình bày.

— Patrick S. Forscher

Tôi giả sử theo quyền tác giả "đa số" và "thiểu số", ý bạn là tỷ lệ các bài tiểu luận là sự kết hợp chủng tộc / giới tính nhất định (ví dụ: 2/3 Nam trắng, 1/3 khác)? Đúng là với mỗi người tham gia, các bài tiểu luận nam Trắng chiếm tỷ lệ lớn hơn các bài tiểu luận hiện diện so với những người khác. Tuy nhiên, những người đàn ông da trắng chiếm tỷ lệ lớn hơn trong số những người viết tiểu luận mà chúng tôi muốn nghiên cứu. Chúng tôi đã quyết định rằng "mối quan hệ" này (thực sự có thể là một phần của vấn đề) ít gây ra vấn đề hơn so với việc tạo ra một tình huống nhân tạo trong đó có chính xác một nửa các bài tiểu luận viết về nam và thiểu số.

— Patrick S. Forscher

Thiết kế sẽ không đơn giản hơn nếu mỗi người tham gia chỉ đánh giá hai bài tiểu luận (một nam Trắng và một khác)? Là như vậy, có người tham gia đánh giá hai bài tiểu luận nhưng họ tin rằng đống bài chứa chủ yếu là bài tiểu luận nam. Họ chỉ tình cờ có được hai người đó một cách tình cờ. Các pháp sư thẻ gọi đây là "buộc". Nếu điều này đòi hỏi quá nhiều người tham gia, hãy kiểm tra ít hơn 12 chủ đề. Mười hai là rất nhiều.

— kéo
nguồn

Với kích thước mẫu này, làm thế nào bạn có thể kết luận bất cứ điều gì? Nếu bạn lặp lại thí nghiệm này nhiều lần, thì bốn điểm đánh dấu cả nam trắng và nam đen đều trao giải cho nam trắng tốt hơn trong một thử nghiệm trong số 16 thử nghiệm.

— Hugh Morris
nguồn

Đây là một phiên bản rất nhỏ của nghiên cứu này. Nghiên cứu đầy đủ có 432 người đánh giá các bài tiểu luận.

— Patrick S. Forscher