Có phải các hiệu ứng nhóm trong một mô hình hiệu ứng hỗn hợp được cho là đã được chọn từ một phân phối bình thường?

Giả sử chúng tôi quan tâm đến việc điểm thi của học sinh bị ảnh hưởng như thế nào bởi số giờ học của những học sinh đó. Chúng tôi lấy mẫu học sinh từ một số trường khác nhau. Chúng tôi chạy mô hình hiệu ứng hỗn hợp sau:

{kỳ thi.}_{Tôi} = = một + β_{1} \times {giờ}_{Tôi} + {trường học}_{j} + e_{Tôi}

$\text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i$

Tôi có đúng không khi nói rằng, trong mô hình này, mỗi trường được cho là đã được chọn từ một số lượng lớn hơn các trường và hiệu ứng của trường thường được phân phối? Do đó, chúng tôi có thể thực hiện tất cả các quy trình loại phân phối thông thường 'thông thường' cho hiệu ứng nhóm của trường không? Chúng ta có thể nói những điều như 68% trường học sẽ nằm trong phạm vi 1 độ lệch chuẩn của hiệu ứng nhóm trung bình của trường không? Và chúng ta có thể tính khoảng tin cậy 95% cho hiệu ứng nhóm trung bình chung của trường không?

Tôi cũng đúng khi nói rằng hồi quy tuyến tính với hiệu ứng cố định của trường học không thể tính được các thống kê phân phối bình thường này bởi vì chúng sử dụng một nhóm tham chiếu và các biến giả?

— luciano
nguồn

Bạn đã đúng khi nói rằng trong các mô hình hiệu ứng hỗn hợp tuyến tính tiêu chuẩn, các hiệu ứng ngẫu nhiên được giả sử là được phân phối bình thường. Do đó, nếu giả định này giữ (ít nhất là xấp xỉ), chúng ta có thể sử dụng những gì chúng ta biết về phân phối bình thường để giúp mô tả phân phối các hiệu ứng ngẫu nhiên, chẳng hạn như 95% hiệu ứng ngẫu nhiên phải nằm trong hai độ lệch chuẩn là 0 (vì ngẫu nhiên hiệu ứng được tập trung xung quanh 0).

Điều đó đang được nói, điều quan trọng là kiểm tra các giả định này, và nó không phải lúc nào cũng dễ dàng! Nếu bạn có nhiều dữ liệu về từng cụm, bạn có thể làm một cái gì đó như phân tích phân tầng và vẽ các khoảng tin cậy cho mỗi cụm. Điều này vẫn có thể là một chút khó khăn; giả sử bạn có một ngoại lệ cực đoan, tức là khoảng tin cậy chặt chẽ một vài độ lệch chuẩn so với 0. Đây có phải là vì hiệu ứng ngẫu nhiên này thực sự rất lớn và chúng tôi rất chắc chắn về điều này? Hay điều này là do chúng ta không có nhiều dữ liệu về hiệu ứng ngẫu nhiên này và chúng ta đã đánh giá thấp phương sai do kích thước mẫu nhỏ?

Đối với sự khác biệt giữa mô hình hồi quy tuyến tính đơn giản và mô hình hiệu ứng hỗn hợp, câu trả lời là mô hình hiệu ứng hỗn hợp phức tạp hơn đáng kể. Các hiệu ứng ngẫu nhiên được giả định là tất cả đã được tạo ra từ cùng một phân phối (thường là bình thường). Như vậy, ước tính của một hiệu ứng ngẫu nhiên thực sự được kéo về 0 (hãy nhớ rằng các hiệu ứng ngẫu nhiên được tập trung ở mức 0) so với nếu bạn chỉ phù hợp với mô hình hồi quy tuyến tính đơn giản với tất cả các hiệu ứng cố định.

Ngoài ra, một điểm khác biệt là các hiệu ứng ngẫu nhiên được cố định có giá trị trung bình 0, cho phép nhận dạng đầy đủ của mô hình: nếu bạn cố gắng phù hợp với hiệu ứng chính VÀ tất cả các hiệu ứng ngẫu nhiên trong mô hình tuyến tính đơn giản, mô hình của bạn sẽ không thể nhận dạng được. Điều này là do việc thêm 1 vào hiệu ứng chính và trừ đi 1 từ các hiệu ứng "ngẫu nhiên" (trích dẫn được sử dụng vì bạn sẽ điều chỉnh chúng dưới dạng hiệu ứng cố định) sẽ dẫn đến các giá trị dự đoán chính xác. Vấn đề này không quá quan trọng: người ta có thể dễ dàng loại trừ hiệu ứng chính khỏi mô hình, và sau đó nếu chúng ta quan tâm đến việc kiểm tra hiệu ứng chính, chúng ta sẽ chỉ lấy trung bình của tất cả các hiệu ứng "ngẫu nhiên". Tuy nhiên, như đã lưu ý ở trên, các hiệu ứng "ngẫu nhiên" ước tính sẽ ồn hơn nhiều so với việc chúng có phù hợp với mô hình hiệu ứng hỗn hợp: trên thông tin của cụm đó, thay vì mượn thông tin được cung cấp về việc phân phối hiệu ứng cụm.

— Vách đá AB
nguồn