Sự khác biệt giữa dữ liệu bảng và mô hình hỗn hợp


14

Tôi muốn biết sự khác biệt giữa phân tích dữ liệu bảng và phân tích mô hình hỗn hợp. Theo hiểu biết của tôi, cả dữ liệu bảng và mô hình hỗn hợp đều sử dụng các hiệu ứng cố định và ngẫu nhiên. Nếu vậy, tại sao họ có tên khác nhau? Hay chúng là đồng nghĩa?

Tôi đã đọc bài viết sau, mô tả định nghĩa về hiệu ứng cố định, ngẫu nhiên và hỗn hợp, nhưng không trả lời chính xác câu hỏi của tôi: sự khác biệt giữa hiệu ứng cố định, hiệu ứng ngẫu nhiên và mô hình hiệu ứng hỗn hợp là gì?

Tôi cũng sẽ biết ơn nếu ai đó có thể giới thiệu cho tôi một tài liệu tham khảo ngắn gọn (khoảng 200 trang) về phân tích mô hình hỗn hợp. Chỉ cần thêm, tôi thích tham chiếu mô hình hỗn hợp bất kể điều trị phần mềm. Chủ yếu là giải thích lý thuyết của mô hình hỗn hợp.



Câu trả lời:


22

Cả dữ liệu bảng và dữ liệu mô hình hiệu ứng hỗn hợp đều xử lý các biến ngẫu nhiên được lập chỉ mục kép . Chỉ số đầu tiên dành cho nhóm, chỉ số thứ hai dành cho các cá nhân trong nhóm. Đối với dữ liệu bảng, chỉ số thứ hai thường là thời gian và giả định rằng chúng ta quan sát các cá nhân theo thời gian. Khi thời gian là chỉ số thứ hai cho mô hình hiệu ứng hỗn hợp, các mô hình được gọi là mô hình dọc. Mô hình hiệu ứng hỗn hợp được hiểu rõ nhất theo các hồi quy 2 cấp. (Để dễ giải thích chỉ giả sử một biến giải thích)yij

Hồi quy cấp đầu tiên là như sau

yij=αi+xijβi+εij.

Điều này được giải thích đơn giản là hồi quy riêng cho từng nhóm. Hồi quy cấp thứ hai cố gắng giải thích sự thay đổi của các hệ số hồi quy:

β i = δ 0 + z i 2 δ 1 + v i

αi=γ0+zi1γ1+ui
βi=δ0+zi2δ1+vi

Khi bạn thay thế phương trình thứ hai thành phương trình thứ nhất bạn nhận được

yij=γ0+zi1γ1+xijδ0+xijzi2δ1+ui+xijvi+εij

Các hiệu ứng cố định là những gì là cố định, phương tiện này . Các hiệu ứng ngẫu nhiên là u iv i .γ0,γ1,δ0,δ1uivi

Bây giờ đối với dữ liệu bảng điều khiển thuật ngữ thay đổi, nhưng bạn vẫn có thể tìm thấy điểm chung. Các mô hình hiệu ứng ngẫu nhiên dữ liệu bảng điều khiển giống như mô hình hiệu ứng hỗn hợp với

β i = δ 0

αi=γ0+ui
βi=δ0

với mô hình

yit=γ0+xitδ0+ui+εit,

trong đó là hiệu ứng ngẫu nhiên.ui

xij

uiviεijxijzixijzixijxitui

yit=γ0+xitδ0+ui+εit,

xituiδ0

yity¯i.=(xitx¯i.)δ0+εitε¯i.,

ui

Có rất nhiều lịch sử đằng sau các hiệu ứng cố định và thuật ngữ hiệu ứng ngẫu nhiên trong kinh tế lượng dữ liệu bảng điều khiển, mà tôi đã bỏ qua. Theo ý kiến ​​cá nhân của tôi, các mô hình này được giải thích tốt nhất trong " Phân tích kinh tế lượng của dữ liệu mặt cắt và bảng điều khiển " của Wooldridge . Theo như tôi biết thì không có lịch sử như vậy trong mô hình hiệu ứng hỗn hợp, nhưng mặt khác tôi đến từ nền kinh tế lượng, vì vậy tôi có thể bị nhầm lẫn.


...+xijvi+ui+εij

Lời giải thích này thật tuyệt vời! Cảm ơn rất nhiều vì đã dành tất cả nỗ lực đã cho tôi một cuộc triển lãm tuyệt vời như vậy. Tôi muốn hỏi một điều. Ý bạn là gì khi hồi quy 2 cấp?
Beta

2
@Ari, hồi quy cấp hai là hồi quy cho các hệ số hồi quy của hồi quy cấp một. Hồi quy cấp độ thứ nhất cố gắng giải thích sự thay đổi trong nhóm, trong khi hồi quy cấp độ thứ hai cố gắng giải thích sự thay đổi giữa các nhóm. Bộ phận này là nhân tạo, nhưng tôi thích nó vì nó ít nhất là tự nhiên đối với tôi. Kiểu phân chia này cũng được sử dụng trong các mô hình Bayes phân cấp.
mpiktas

δ0

3

Tôi hiểu rằng bạn đang tìm kiếm một văn bản mô tả lý thuyết mô hình hỗn hợp mà không cần tham khảo gói phần mềm.

Tôi muốn giới thiệu Phân tích đa cấp, Giới thiệu về mô hình đa cấp cơ bản và nâng cao của Tom Snijder và Roel Bosker, khoảng 250pp. Nó có một chương về phần mềm ở phần cuối (hiện đã hơi lỗi thời) nhưng phần còn lại là lý thuyết rất dễ tiếp cận.

Mặc dù vậy, tôi phải đồng ý rằng tôi đồng ý với khuyến nghị ở trên đối với Mô hình đa cấp và theo chiều dọc sử dụng Stata của Sophia Rabe-Hesketh và Anders Skrondal. Cuốn sách rất lý thuyết và thành phần phần mềm thực sự chỉ là một bổ sung tốt đẹp cho một văn bản đáng kể. Tôi thường không sử dụng Stata và để văn bản trên bàn và thấy nó được viết rất tốt. Tuy nhiên, nó dài hơn 200pp.

Các văn bản sau đây đều được viết bởi các chuyên gia hiện tại trong lĩnh vực này và sẽ hữu ích cho bất kỳ ai muốn biết thêm thông tin về các kỹ thuật này (mặc dù chúng không phù hợp với yêu cầu của bạn): [Tôi không thể liên kết với những điều này vì tôi là người mới người dùng, xin lỗi]

Hoox, Joop (2010). Phân tích đa cấp, Kỹ thuật và Ứng dụng.

Phân tích dữ liệu của Gelman, A. và Hill, J. (2006) bằng mô hình hồi quy và đa cấp / phân cấp.

Ca sĩ, J. (2003) Phân tích dữ liệu theo chiều dọc được áp dụng: Thay đổi mô hình và sự kiện xảy ra

Raudenbush, SW và Bryk, A., S. (2002). Mô hình tuyến tính phân cấp: Ứng dụng và phương pháp phân tích dữ liệu

Luke, Douglas, (2004). Mô hình đa cấp

Tôi cũng muốn văn bản thứ hai của Wooldridge được đề cập ở trên, cũng như văn bản R và Trung tâm mô hình đại học B ristol có nhiều hướng dẫn và thông tin


Cảm ơn Playitagain! Đây là một thông tin rất hữu ích. Ngay cả tên bạn cũng thú vị :)
Beta

2

Tôi cũng đã tự hỏi về sự khác biệt giữa cả hai và gần đây đã tìm thấy một tài liệu tham khảo về chủ đề này. Tôi hiểu rằng "dữ liệu bảng" là một tên truyền thống cho các bộ dữ liệu đại diện cho "mặt cắt ngang hoặc nhóm người được khảo sát định kỳ qua một khoảng thời gian nhất định ". Vì vậy, "bảng điều khiển" là một cấu trúc nhóm trong tập dữ liệu và có một nhóm như vậy cách phân tích dữ liệu tự nhiên nhất này là thông qua cách tiếp cận mô hình hỗn hợp.

Một tài liệu tham khảo tốt (bất kể bạn có "nói" R hay không) về mô hình hiệu ứng hỗn hợp là bản nháp của một cuốn sách sắp tới (?) Của Douglas Bates ( lme4: Mô hình hiệu ứng hỗn hợp với R ).


1
Cảm ơn ils đã tham khảo! Nhưng vấn đề vẫn còn.
Beta

2

@mpiktas đã đưa ra một câu trả lời thấu đáo. Tôi cũng khuyên bạn nên đọc các Chương 7 của tài liệu cho gói plm trong R . Thảo luận của các tác giả về sự khác biệt giữa các mô hình hỗn hợp và dữ liệu bảng điều khiển đáng để đọc.


1

Nếu bạn sử dụng Mô hình Stata, Đa cấp và theo chiều dọc Sử dụng Stata của Sophia Rabe-Hesketh và Anders Skrondal sẽ là một lựa chọn tốt. Tùy thuộc vào chính xác những gì bạn quan tâm, 200 trang có thể đúng.


Cảm ơn Dimitriy đã tham khảo. Nhưng thật không may, tôi không sử dụng STATA. Tôi chủ yếu sử dụng SAS, và đôi khi R. Nhưng dù sao cũng cảm ơn.
Beta

2
Tôi đã nghe những điều hay về wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html , nhưng tôi không tự mình đọc nó.
Dimitriy V. Masterov

Cảm ơn Dimitriy! Điều này có vẻ rất hứa hẹn. Ưu điểm của việc đặt câu hỏi thay vì chạy bộ là bạn sẽ có được kết quả thực sự tốt :)
Beta

1

Theo kinh nghiệm của tôi, lý do để sử dụng 'kinh tế lượng bảng điều khiển' là các công cụ ước tính 'hiệu ứng cố định' của bảng điều khiển có thể được sử dụng để kiểm soát các dạng sai lệch biến thiên khác nhau.

Tuy nhiên, có thể thực hiện loại ước tính này trong một mô hình đa cấp bằng cách sử dụng cách tiếp cận kiểu Mundlak , nghĩa là bao gồm cả nhóm có nghĩa là các biến hồi quy phụ. Cách tiếp cận này loại bỏ mối tương quan giữa thuật ngữ lỗi và các yếu tố bị bỏ qua ở cấp độ nhóm tiềm năng, cho thấy hệ số 'bên trong'. Tuy nhiên, vì một lý do mà tôi không biết, điều này thường không được thực hiện trong nghiên cứu ứng dụng. Những slidetài liệu này cung cấp một công phu.


(+1) Nhà xã hội học thường giải thích các nhóm có nghĩa là hiệu ứng theo ngữ cảnh (mặc dù điều này thường xảy ra đối với dữ liệu cắt ngang lồng nhau so với dữ liệu bảng điều khiển chuỗi thời gian). Tôi sẽ cần đọc lên, lưu ý liên quan Manski (1993) ( PDF tại đây ) có một bài viết cho thấy các hiệu ứng theo ngữ cảnh như vậy thường không được xác định. Vì "lý do này không được thực hiện" Tôi nghi ngờ đó là sự khác biệt nhiều giữa thực tiễn khoa học xã hội như bất cứ điều gì, nó có thể là một câu hỏi hay để hỏi.
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.