Tôi bối rối trước câu hỏi của bạn. Tôi biết bạn nói rằng bạn hiểu các hiệu ứng cố định và ngẫu nhiên, nhưng có lẽ bạn không hiểu chúng giống như cách tôi làm. Tôi đã đăng một đoạn trích khá dài từ một chương sách báo chí ở đây để giải thích quan điểm của tôi (khá thực dụng, khá gần với Andrew Gelman).
Trả lời trực tiếp hơn câu hỏi:
- nó không (IMO) có ý nghĩa bao gồm các tác động chính của các biến số kinh tế xã hội như thu nhập là ngẫu nhiên. Nếu bạn có nhiều hơn một phép đo thu nhập cho mỗi cá nhân, bạn có thể bao gồm cá nhân dưới dạng biến nhóm và cho phép ảnh hưởng của thu nhập đến phản hồi (bất kể đó là gì) khác nhau giữa các cá nhân.
- Chủng tộc dường như có ý nghĩa nhất là một hiệu ứng cố định và không chắc là bạn sẽ có thể đo lường một cá nhân dưới tác động của nhiều chủng tộc, nhưng bạn có thể (ví dụ) có thể mô tả sự thay đổi ngẫu nhiên trong các hiệu ứng của chủng tộc trên các quốc gia khác nhau. Bạn có thể coi đó là một hiệu ứng ngẫu nhiên (nghĩa là sự khác biệt về mô hình giữa các chủng tộc được rút ra từ phân phối Bình thường), nhưng điều đó có thể không thực tế vì có lẽ bạn sẽ không có đủ các chủng tộc khác nhau trong tập dữ liệu của mình và điều đó thật khó cho tôi đưa ra một lập luận khái niệm tốt cho việc này ...
- "Khu vực sinh sống" có ý nghĩa như một biến nhóm, chắc chắn có thể là một hiệu ứng ngẫu nhiên hợp lý (nghĩa là việc đánh chặn sẽ khác nhau giữa các khu vực sinh sống). Cá nhân có thể sẽ được lồng trong khu vực, trừ khi cá nhân di chuyển giữa các khu vực theo quy mô thời gian nghiên cứu của bạn.
- tình huống của bạn có vẻ là một trường hợp trong đó bạn có một số biến thể ngẫu nhiên giữa các cá nhân, nhưng bạn cũng có các đồng biến cấp độ cá nhân. Việc thêm các đồng biến cấp độ cá nhân này (chủng tộc, thu nhập, v.v.) vào mô hình sẽ chiếm một số biến thiên giữa các cá nhân (và có lẽ là một ý tưởng hay).
Có thể thêm sự rõ ràng để phân biệt giữa các biến nhóm (phải phân loại), đại diện cho các nhóm mà mọi thứ khác nhau và hiệu ứng , đó là sự khác biệt trong một số tham số / hiệu ứng (thường là đánh chặn, nhưng có thể là ảnh hưởng của thu nhập / giáo dục / bất cứ điều gì) trên các cấp độ của một số biến nhóm.
cập nhật : Tôi sẽ tự do đưa ra một số phản biện cho bạn
Sự hiểu biết của tôi về các hiệu ứng ngẫu nhiên: các yếu tố được lựa chọn ngẫu nhiên từ dân số;
- Có lẽ, nó phụ thuộc vào quan điểm triết học của bạn. Điều này là bắt buộc trong mô hình thường xuyên cổ điển, nhưng tôi sẽ thư giãn nó bằng cách hỏi liệu có hợp lý để coi các hiệu ứng là sự rút ngẫu nhiên từ một số dân giả định hay không. (Các ví dụ kinh điển ở đây là (1) lấy mẫu toàn diện (điều gì sẽ xảy ra nếu bạn có số đo cho mọi khu vực trong thành phố, hoặc mọi vùng / tỉnh / bang trong một quốc gia? ) các khoảng thời gian được đo liên tục (ví dụ: năm 2002-2012). Trong cả hai trường hợp này, tôi sẽ nói rằng nó có ý nghĩa thực dụng để mô hình hóa chúng bằng cách sử dụng các hiệu ứng ngẫu nhiên.)
mức độ của yếu tố ít được quan tâm;
- không cần thiết. Tôi không nghĩ rằng các hiệu ứng ngẫu nhiên phải là các biến số phiền toái trong thực tế. Ví dụ, trong các phân tích nhân giống động vật, người ta có thể rất quan tâm đến việc biết giá trị giống (BLUP) của một loài động vật cụ thể. (Mức độ tập trung được gọi là có một số hàm ý về cách so sánh các mô hình.)
các biến là các yếu tố không quan sát được.
Tôi không chắc cái này nghĩa là gì. Bạn biết khu phố mà mỗi quan sát đến từ đâu, phải không? Làm thế nào mà "không quan sát"? (Nếu bạn nghi ngờ phân cụm dữ liệu của mình dựa trên các yếu tố không quan sát được, bạn sẽ cần phải phù hợp với mô hình hỗn hợp rời rạc .) Nếu bạn muốn biết tại sao các vùng lân cận khác nhau, tôi không nghĩ rằng vấn đề ở đây.
Vì vậy, lấy khu phố làm ví dụ. Đây là biến quan tâm chính của tôi, các cấp độ rất quan trọng. Tôi sử dụng các mô hình hỗn hợp và xác minh rằng rất nhiều phương sai nằm trong đó.
Lý do duy nhất tôi có thể nghĩ về việc không sử dụng vùng lân cận như một hiệu ứng ngẫu nhiên sẽ là nếu bạn chỉ đo được một số lượng nhỏ (giả sử <6) các vùng lân cận.