Đặt biểu thị vectơ phản ứng và dự đoán (tương ứng) của học sinh trong trường . i jyij,xijij
(1) Đối với dữ liệu nhị phân, tôi nghĩ rằng cách tiêu chuẩn để thực hiện phân tách phương sai tương tự như dữ liệu được thực hiện cho dữ liệu liên tục là cách mà các tác giả gọi Phương thức D (tôi sẽ nhận xét về các phương pháp khác bên dưới) trong liên kết của bạn - hình dung dữ liệu nhị phân như phát sinh từ một biến liên tục cơ bản được điều chỉnh bởi một mô hình tuyến tính và phân rã phương sai trên thang đo tiềm ẩn đó. Lý do là các mô hình logistic (và các GLM khác) tự nhiên phát sinh theo cách này--
Để thấy điều này, hãy xác định sao cho nó được điều chỉnh bởi mô hình hỗn hợp tuyến tính:y⋆ij
y⋆ij=α+xijβ+ηj+εij
nơi là hệ số hồi quy, η j ~ N ( 0 , σ 2 ) là hiệu ứng ngẫu nhiên cấp trường và ε i j là một thuật ngữ sai còn lại và có một tiêu chuẩn phân phối logistic . Bây giờ hãy đểα,βηj∼N(0,σ2)εij
yij=⎧⎩⎨⎪⎪10if y⋆ij≥0if y⋆ij<0
bây giờ hãy để , chỉ cần sử dụng CDF logistic chúng ta cópij=P(yij=1|xij,ηj)
ptôi j= 1 - P( y⋆tôi j< 0 | xtôi j, ηj) = điểm kinh nghiệm{ - ( α + xtôi jβ + ηj)}1+exp{−(α+xijβ+ηj)}
Bây giờ thực hiện chuyển đổi logit của cả hai bên, bạn có
log(pij1−pij)=α+xijβ+ηj
đó chính xác là mô hình hiệu ứng hỗn hợp logistic. Vì vậy, mô hình logistic tương đương với mô hình biến tiềm ẩn được chỉ định ở trên. Một lưu ý quan trọng:
- Quy mô của không được xác định từ đó, nếu bạn đã quy mô nó xuống nhưng một hằng số s , nó sẽ chỉ đơn giản là thay đổi ở trên đểεijs
exp{−(α+xijβ+ηj)/s}1+exp{−(α+xijβ+ηj)/s}
do đó, các hệ số và hiệu ứng ngẫu nhiên sẽ được tăng lên theo số lượng tương ứng. Vì vậy, s = 1 được sử dụng, trong đó hàm ý v một r ( ε i j ) = π 2 / 3 .
s=1var(εij)=π2/3
Bây giờ, nếu bạn sử dụng mô hình này và sau đó số lượng
σ^2ησ^2η+π2/3
ước tính tương quan nội hàm của các biến tiềm ẩn cơ bản . Một lưu ý quan trọng khác:
- εij
σ^2ησ^2η+1
Về các phương pháp khác được đề cập trong bài báo mà bạn liên kết:
xij
(B) Phương pháp mô phỏng hấp dẫn trực quan với một nhà thống kê vì nó sẽ cung cấp cho bạn một phân tách phương sai ước tính trên thang đo ban đầu của dữ liệu, nhưng tùy thuộc vào đối tượng, có thể (i) rất phức tạp để mô tả điều này trong "phương pháp" của bạn phần và (ii) có thể tắt một người đánh giá đang tìm kiếm thứ gì đó "chuẩn hơn"
(C) Giả vờ dữ liệu liên tục có lẽ không phải là một ý tưởng hay, mặc dù nó sẽ không thực hiện khủng khiếp nếu hầu hết các xác suất không quá gần 0 hoặc 1. Nhưng, làm điều này gần như chắc chắn sẽ giơ cờ đỏ cho người đánh giá vì vậy tôi sẽ tránh xa
Cuối cùng,
(2) Nếu các hiệu ứng cố định rất khác nhau qua các năm, thì bạn có thể nghĩ rằng khó có thể so sánh các phương sai hiệu ứng ngẫu nhiên qua các năm, vì chúng có khả năng ở các thang đo khác nhau (điều này có liên quan đến tính không thể nhận dạng vấn đề mở rộng quy mô nêu trên).
Ik=1k
α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6
this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor
α+xijβ+η1+η2t
but I don't recommend this, since that will only allow your associations to increase over time, not decrease.