Phân vùng phương sai và thay đổi theo chiều dọc trong tương quan với dữ liệu nhị phân


14

Tôi đang phân tích dữ liệu về 300.000 học sinh ở 175 trường với mô hình hiệu ứng hỗn hợp tuyến tính logistic (chặn ngẫu nhiên). Mỗi học sinh xảy ra chính xác một lần và dữ liệu kéo dài 6 năm.

  1. Làm cách nào để phân vùng phương sai giữa trường và cấp học sinh, theo cách tương tự với VPC / ICC cho kết quả liên tục? Tôi đã thấy này bài viết trong đó đề xuất 4 phương pháp, trong đó A và B xuất hiện thú vị với tôi, nhưng tôi muốn biết những gì ưu điểm / nhược điểm có thể có trong việc sử dụng một trong hai trong số này, và dĩ nhiên là nếu có bất kỳ cách nào khác để làm nó

  2. Làm thế nào tôi có thể so sánh phương sai còn lại ở cấp trường từ năm này sang năm khác (hoặc bất kỳ khoảng thời gian nào khác)? Cho đến nay tôi đã thực hiện điều này bằng cách chia dữ liệu theo năm và chạy mô hình theo từng năm dữ liệu nhưng tôi nghĩ rằng điều này là thiếu sót bởi vì: i) không có lý do rõ ràng tại sao tôi nên chia theo năm ; và ii) vì ước tính hiệu ứng cố định là khác nhau cho mỗi năm, so sánh hiệu ứng ngẫu nhiên theo năm có thể không có ý nghĩa (đây chỉ là trực giác của tôi sẽ rất tuyệt nếu ai đó có thể giải thích điều này chính thức hơn, nếu nó chính xác).

LƯU Ý: Tôi đã viết lại câu hỏi này sau khi thảo luận về meta với whuber và Macro


3
Tôi nghĩ rằng đây là một cải tiến lớn. Câu hỏi bây giờ rất rõ ràng. Ngay bây giờ tôi không có thời gian để đưa ra phản hồi có tổ chức nhưng tôi sẽ đăng câu trả lời sau.
Macro

3
Các mô hình hiệu ứng hỗn hợp hậu cần có vẻ như là một chủ đề cực kỳ tiên tiến cho trường trung học. Chúng có phải là một phần của giáo trình trung học của bạn hay bạn đang học độc lập?
đánh dấu999

4
@ mark999 Tôi đang học độc lập. Thật ra tôi đang cố chứng minh anh tôi đã sai khi nói rằng "không có cách nào bạn có thể hiểu điều này" . Anh ấy đang làm một văn bằng về thống kê để tôi có quyền truy cập vào tất cả các cuốn sách của anh ấy, v.v. (khi anh ấy đang tốt đẹp).
Joe King

Câu trả lời:


15

Đặt biểu thị vectơ phản ứng và dự đoán (tương ứng) của học sinh trong trường . i jyij,xijij

(1) Đối với dữ liệu nhị phân, tôi nghĩ rằng cách tiêu chuẩn để thực hiện phân tách phương sai tương tự như dữ liệu được thực hiện cho dữ liệu liên tục là cách mà các tác giả gọi Phương thức D (tôi sẽ nhận xét về các phương pháp khác bên dưới) trong liên kết của bạn - hình dung dữ liệu nhị phân như phát sinh từ một biến liên tục cơ bản được điều chỉnh bởi một mô hình tuyến tính và phân rã phương sai trên thang đo tiềm ẩn đó. Lý do là các mô hình logistic (và các GLM khác) tự nhiên phát sinh theo cách này--

Để thấy điều này, hãy xác định sao cho nó được điều chỉnh bởi mô hình hỗn hợp tuyến tính:yij

yij=α+xijβ+ηj+εij

nơi là hệ số hồi quy, η j ~ N ( 0 , σ 2 ) là hiệu ứng ngẫu nhiên cấp trường và ε i j là một thuật ngữ sai còn lại và có một tiêu chuẩn phân phối logistic . Bây giờ hãy đểα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

bây giờ hãy để , chỉ cần sử dụng CDF logistic chúng ta cópij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

Bây giờ thực hiện chuyển đổi logit của cả hai bên, bạn có

log(pij1pij)=α+xijβ+ηj

đó chính xác là mô hình hiệu ứng hỗn hợp logistic. Vì vậy, mô hình logistic tương đương với mô hình biến tiềm ẩn được chỉ định ở trên. Một lưu ý quan trọng:

  • Quy mô của không được xác định từ đó, nếu bạn đã quy mô nó xuống nhưng một hằng số s , nó sẽ chỉ đơn giản là thay đổi ở trên đểεijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       do đó, các hệ số và hiệu ứng ngẫu nhiên sẽ được tăng lên theo số lượng tương ứng. Vì vậy, s = 1 được sử dụng, trong đó hàm ý v một r ( ε i j ) = π 2 / 3 .
      s=1var(εij)=π2/3

Bây giờ, nếu bạn sử dụng mô hình này và sau đó số lượng

σ^η2σ^η2+π2/3

ước tính tương quan nội hàm của các biến tiềm ẩn cơ bản . Một lưu ý quan trọng khác:

  • εij
    σ^η2σ^η2+1

Về các phương pháp khác được đề cập trong bài báo mà bạn liên kết:

  • xij

  • (B) Phương pháp mô phỏng hấp dẫn trực quan với một nhà thống kê vì nó sẽ cung cấp cho bạn một phân tách phương sai ước tính trên thang đo ban đầu của dữ liệu, nhưng tùy thuộc vào đối tượng, có thể (i) rất phức tạp để mô tả điều này trong "phương pháp" của bạn phần và (ii) có thể tắt một người đánh giá đang tìm kiếm thứ gì đó "chuẩn hơn"

  • (C) Giả vờ dữ liệu liên tục có lẽ không phải là một ý tưởng hay, mặc dù nó sẽ không thực hiện khủng khiếp nếu hầu hết các xác suất không quá gần 0 hoặc 1. Nhưng, làm điều này gần như chắc chắn sẽ giơ cờ đỏ cho người đánh giá vì vậy tôi sẽ tránh xa

Cuối cùng,

(2) Nếu các hiệu ứng cố định rất khác nhau qua các năm, thì bạn có thể nghĩ rằng khó có thể so sánh các phương sai hiệu ứng ngẫu nhiên qua các năm, vì chúng có khả năng ở các thang đo khác nhau (điều này có liên quan đến tính không thể nhận dạng vấn đề mở rộng quy mô nêu trên).

Ik=1k

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

I will indeed. At the moment I'm a bit uncertain about a few points and I'd like to come back to you after I've had a little time (couple of days) to read around a little, and look at the data some more, if you don't mind ?
Joe King

@JoeKing Tất nhiên - một số thành viên mới không biết, vì vậy tôi nghĩ tôi đã chỉ ra điều đó - nó không có nghĩa là gây áp lực cho bạn cả
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.