Tôi có nên chạy hồi quy riêng cho mọi cộng đồng hay cộng đồng có thể đơn giản là biến kiểm soát trong mô hình tổng hợp không?

11

Tôi đang chạy một mô hình OLS với biến chỉ số tài sản liên tục là DV. Dữ liệu của tôi được tổng hợp từ ba cộng đồng tương tự gần nhau về mặt địa lý. Mặc dù vậy, tôi nghĩ điều quan trọng là sử dụng cộng đồng như một biến kiểm soát. Hóa ra, cộng đồng có ý nghĩa ở mức 1% (điểm t -4,52). Cộng đồng là một biến danh nghĩa / phân loại được mã hóa là 1,2,3 cho 1 trong 3 cộng đồng khác nhau.

Câu hỏi của tôi là nếu mức độ quan trọng cao này có nghĩa là tôi nên thực hiện hồi quy trên các cộng đồng riêng lẻ chứ không phải là một tổng hợp. Mặt khác, sử dụng cộng đồng như một biến kiểm soát về cơ bản làm điều đó?

— cadamt
nguồn

Sẽ có ý nghĩa khi sử dụng một mô hình phân cấp với cộng đồng như một hiệu ứng ngẫu nhiên? Các cộng đồng không phải là mối quan tâm chính của bạn, phải không? Bằng cách sử dụng một mô hình phân cấp, bạn chia sẻ sức mạnh.

— Wayne

14

Câu hỏi gợi ý so sánh ba mô hình liên quan. Để làm cho phép so sánh rõ ràng, hãy đặt là biến phụ thuộc, đặt là mã cộng đồng hiện tại và xác định và tương ứng là các chỉ số của cộng đồng 1 và 2. (Điều này có nghĩa là cho cộng đồng 1 và cho cộng đồng 2 và 3; cho cộng đồng 2 và cho cộng đồng 1 và 3.) $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$

Phân tích hiện tại có thể là một trong những điều sau đây:

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

hoặc là

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

Trong cả hai trường hợp đại diện cho một tập hợp các biến ngẫu nhiên độc lập phân tán giống hệt nhau với kỳ vọng bằng không. Mô hình thứ hai có khả năng là mô hình dự định, nhưng mô hình đầu tiên là mô hình sẽ phù hợp với mã hóa được mô tả trong câu hỏi. $\varepsilon$

Đầu ra của hồi quy OLS là một tập hợp các tham số được trang bị (được biểu thị bằng "mũ" trên các ký hiệu của chúng) cùng với ước tính phương sai chung của các lỗi. Trong mô hình đầu tiên, có một thử nghiệm t để so sánh với . Trong mô hình thứ hai, có hai bài kiểm tra t: một để so sánh với và một để so sánh với . Vì câu hỏi chỉ báo cáo một bài kiểm tra, hãy bắt đầu bằng cách kiểm tra mô hình đầu tiên. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

Kết luận rằng khác đáng kể , chúng tôi có thể ước tính = = cho mọi cộng đồng: $\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

cho cộng đồng 1, và ước tính bằng ; $X=1$ $\alpha+\beta$

cho cộng đồng 2, và ước tính bằng ; và $X=2$ $\alpha+2\beta$

cho cộng đồng 3, và ước tính bằng . $X=3$ $\alpha+3\beta$

Cụ thể, mô hình đầu tiên buộc các hiệu ứng cộng đồng phải theo tiến trình số học. Nếu mã hóa cộng đồng được dự định chỉ là một cách phân biệt tùy ý giữa các cộng đồng, thì hạn chế tích hợp này cũng tùy tiện và có thể sai.

Đó là hướng dẫn để thực hiện phân tích chi tiết tương tự các dự đoán của mô hình thứ hai:

Đối với cộng đồng 1, trong đó và , giá trị dự đoán của bằng . Đặc biệt, $X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

Đối với cộng đồng 2, trong đó và , giá trị dự đoán của bằng . Đặc biệt, $X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

Đối với cộng đồng 3, trong đó , giá trị dự đoán của bằng . Đặc biệt, $X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

Ba thông số một cách hiệu quả cung cấp cho các mô hình đầy đủ tự do thứ hai để ước tính ba giá trị kỳ vọng của riêng. $Y$ Các bài kiểm tra t đánh giá xem (1) ; đó là, liệu có sự khác biệt giữa các cộng đồng 1 và 3 hay không; và (2) ; nghĩa là, có sự khác biệt giữa cộng đồng 2 và 3. Ngoài ra, người ta có thể kiểm tra "độ tương phản" bằng thử nghiệm t để xem liệu cộng đồng 2 và 1 có khác nhau không: điều này có hiệu quả vì sự khác biệt của chúng là = . $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Bây giờ chúng ta có thể đánh giá hiệu quả của ba hồi quy riêng biệt. Họ sẽ là

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

So sánh mô hình này với mô hình thứ hai, chúng tôi thấy rằng nên đồng ý với , nên đồng ý với và nên đồng ý với . Vì vậy, về tính linh hoạt của các thông số phù hợp, cả hai mô hình đều tốt như nhau. Tuy nhiên, các giả định trong mô hình này về các điều khoản lỗi yếu hơn. Tất cả phải độc lập và phân phối giống hệt nhau (iid); tất cả phải là iid và tất cả phải là iid, nhưng không có gì được giả định về quan hệ thống kê giữa các hồi quy riêng biệt. $\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ Do đó, hồi quy riêng biệt cho phép linh hoạt bổ sung:

Quan trọng nhất, sự phân bố của có thể khác nhau từ đó của mà có thể khác nhau từ đó của . $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
Trong một số trường hợp, có thể tương quan với . Không có mô hình nào trong số này xử lý rõ ràng điều này, nhưng mô hình thứ ba (hồi quy riêng) ít nhất sẽ không bị ảnh hưởng xấu bởi nó. $\varepsilon_i$ $\varepsilon_j$

Tính linh hoạt bổ sung này có nghĩa là kết quả kiểm tra t cho các tham số có thể sẽ khác nhau giữa mô hình thứ hai và thứ ba. (Tuy nhiên, nó không nên dẫn đến các ước tính tham số khác nhau.)

Để xem có cần hồi quy riêng không , hãy làm như sau:

Phù hợp với mô hình thứ hai. Vẽ các phần dư chống lại cộng đồng, ví dụ như một tập hợp các ô vuông cạnh nhau hoặc một bộ ba biểu đồ hoặc thậm chí là ba ô xác suất. Tìm kiếm bằng chứng về các hình dạng phân phối khác nhau và đặc biệt là các phương sai khác nhau đáng kể. Nếu bằng chứng đó vắng mặt, mô hình thứ hai sẽ ổn. Nếu nó có mặt, hồi quy riêng biệt được bảo hành.

Khi các mô hình là đa biến - nghĩa là, chúng bao gồm các yếu tố khác - một phân tích tương tự là có thể, với kết luận tương tự (nhưng phức tạp hơn). Nói chung, thực hiện hồi quy riêng biệt tương đương với tất cả các tương tác hai chiều có thể có với biến cộng đồng (được mã hóa như trong mô hình thứ hai, không phải mô hình thứ nhất) và cho phép phân phối lỗi khác nhau cho mỗi cộng đồng.

— whuber
nguồn

-3

lựa chọn mô hình (IMHO) có thể được đề xuất. Bởi vì các mô hình phức tạp (Độ dốc riêng biệt) sẽ có hình phạt cứng hơn, do đó các mô hình ngắn gọn và dễ hiểu hơn sẽ "tốt hơn".

— Ivan Kshnyasev
nguồn

1

Nó không hoàn toàn rõ ràng những gì bạn đề xuất ở đây, hoặc bảng này liên quan đến nó như thế nào.

— Scortchi - Phục hồi Monica