Trong những điều kiện nào người ta nên sử dụng phân tích đa cấp / phân cấp?


36

Trong những điều kiện nào đó ai đó nên xem xét sử dụng phân tích đa cấp / phân cấp trái ngược với các phân tích cơ bản / truyền thống hơn (ví dụ: ANOVA, hồi quy OLS, v.v.)? Có bất kỳ tình huống trong đó điều này có thể được coi là bắt buộc? Có những tình huống trong đó sử dụng phân tích đa cấp / phân cấp là không phù hợp? Cuối cùng, một số tài nguyên tốt cho người mới bắt đầu học phân tích đa cấp / phân cấp là gì?


Câu trả lời:


22

Khi cấu trúc dữ liệu của bạn được phân cấp hoặc lồng nhau một cách tự nhiên, mô hình đa cấp là một ứng cử viên tốt. Tổng quát hơn, đó là một phương pháp để mô hình hóa các tương tác.

Một ví dụ tự nhiên là khi dữ liệu của bạn đến từ một cấu trúc có tổ chức như quốc gia, tiểu bang, quận, nơi bạn muốn kiểm tra hiệu ứng ở các cấp độ đó. Một ví dụ khác mà bạn có thể phù hợp với cấu trúc như vậy là phân tích theo chiều dọc, trong đó bạn đã lặp lại các phép đo từ nhiều đối tượng theo thời gian (ví dụ như một số phản ứng sinh học với liều thuốc). Một cấp độ của mô hình của bạn giả định một phản ứng có nghĩa là nhóm cho tất cả các đối tượng theo thời gian. Một mức độ khác của mô hình của bạn sau đó cho phép nhiễu loạn (hiệu ứng ngẫu nhiên) từ ý nghĩa của nhóm, để mô hình sự khác biệt cá nhân.

Một cuốn sách phổ biến và hay để bắt đầu là Phân tích dữ liệu của Gelman bằng mô hình hồi quy và mô hình đa cấp / chữ tượng hình .


3
Tôi thứ hai câu trả lời này và chỉ muốn thêm một tài liệu tham khảo tuyệt vời khác về chủ đề này: Văn bản Phân tích dữ liệu theo chiều dọc được áp dụng của ca sĩ < gseacademia.harvard.edu/alda >. Mặc dù nó đặc trưng cho phân tích theo chiều dọc, nhưng nó cung cấp một cái nhìn tổng quan tốt đẹp về MLM nói chung. Tôi cũng thấy Phân tích đa cấp của Snidjers và Bosker tốt và dễ đọc < stat.gamma.rug.nl/multilevel.htmlm >. John Fox cũng cung cấp một đoạn giới thiệu tuyệt vời cho các mô hình này trong R tại đây < cran.r-project.org/doc/contrib/Fox-Compmate/ Lỗi >.
Brett

Cảm ơn tất cả các câu trả lời của bạn :) Như một câu hỏi tiếp theo, hầu hết dữ liệu không thể được khái niệm hóa như là phân cấp / lồng nhau một cách tự nhiên? Ví dụ, trong hầu hết các nghiên cứu tâm lý, có một số biến phụ thuộc (bảng câu hỏi, câu trả lời kích thích, v.v.) được lồng trong các cá nhân, được lồng trong hai hoặc nhiều nhóm (được gán ngẫu nhiên hoặc không ngẫu nhiên). Bạn có đồng ý rằng điều này thể hiện cấu trúc dữ liệu được phân cấp và / hoặc lồng nhau một cách tự nhiên không?
Patrick

Nếu bất kỳ ai trong số các bậc thầy đa cấp / phân cấp của bạn có thể dành vài phút, tôi sẽ rất biết ơn nếu bạn có thể cân nhắc các câu hỏi phân tích được đặt ra trong một bài đăng khác ( stats.stackexchange.com/questions/1799/iêu ). Cụ thể, bạn có nghĩ rằng dữ liệu nhận thức đau được nêu trong bài đăng đó sẽ được phân tích tốt hơn bằng các phân tích phân cấp hơn so với phân tích không phân cấp? Hoặc nó sẽ không làm cho một sự khác biệt hoặc thậm chí là không phù hợp? Cảm ơn: D
Patrick

18

Trung tâm Mô hình đa cấp có một số hướng dẫn trực tuyến miễn phí tốt cho mô hình đa cấp và họ có hướng dẫn phần mềm để phù hợp với các mô hình trong cả phần mềm MLwiN và STATA của họ.

Hãy coi điều này là dị giáo, bởi vì tôi chưa đọc nhiều hơn một chương trong cuốn sách, nhưng các mô hình tuyến tính phân cấp: các ứng dụng và phương pháp phân tích dữ liệu của Stephen W. Raudenbush, Anthony S. Bryk rất được khuyến khích. Tôi cũng đã thề có một cuốn sách về mô hình hóa đa cấp bằng phần mềm R trong Springer Use R! sê-ri, nhưng dường như tôi không thể tìm thấy nó vào lúc này (tôi nghĩ rằng nó được viết bởi chính những người đã viết cuốn sách Hướng dẫn cho người mới bắt đầu).

chỉnh sửa: Cuốn sách sử dụng R cho các mô hình đa cấp là Mô hình hiệu ứng hỗn hợp và mở rộng trong sinh thái học với R của Zuur, AF, Ieno, EN, Walker, N., Saveliev, AA, Smith, GM

chúc may mắn


9

Đây là một góc nhìn khác về việc sử dụng các mô hình đa cấp so với hồi quy: Trong một bài viết thú vị của Afshartous và de Leeuw, họ cho thấy rằng nếu mục đích của mô hình là dự đoán (nghĩa là để dự đoán các quan sát mới), việc lựa chọn mô hình sẽ khác với khi nào mục tiêu là suy luận (nơi bạn cố gắng khớp mô hình với cấu trúc dữ liệu). Bài báo mà tôi đang đề cập đến là

Phi thường, D., de Leeuw, J. (2005). Dự đoán trong các mô hình đa cấp. J. Giáo dục. Hành vi. Thống kê. 30 (2): 109 Từ139.

Tôi vừa tìm thấy một bài báo liên quan khác của các tác giả ở đây: http://moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf


6

Đây là một ví dụ trong đó một mô hình đa cấp có thể là "thiết yếu". Giả sử bạn muốn đánh giá "chất lượng" giáo dục được cung cấp bởi một nhóm trường sử dụng điểm kiểm tra của học sinh. Một cách để xác định chất lượng trường học là về hiệu suất kiểm tra trung bình sau khi tính đến các đặc điểm của học sinh. Bạn có thể khái niệm hóa này như, nơi là số điểm kiểm tra liên tục cho sinh viên đi học , là Các thuộc tính của học sinh tập trung ở trường có nghĩa là, là một hệ số đặc thù của trường đối với các thuộc tính này, là "hiệu ứng trường học" đo lường chất lượng trường học vày i s i s X i s β s α s ϵ i s α s

yis=αs+Xisβs+ϵis,
yisisXisβsαsϵis là những đặc điểm riêng ở cấp độ sinh viên trong hoạt động kiểm tra. Sự quan tâm ở đây tập trung vào việc ước tính các , đo lường "giá trị gia tăng" mà trường cung cấp cho sinh viên khi các thuộc tính của họ được hạch toán. Bạn muốn tính đến các thuộc tính của học sinh, vì bạn không muốn trừng phạt một trường học tốt phải đối phó với những học sinh có những bất lợi nhất định, do đó làm giảm điểm kiểm tra trung bình coi thường "giá trị gia tăng" cao mà trường cung cấp cho học sinh. αs

Với mô hình trong tay, vấn đề trở thành một trong những ước tính. Nếu bạn có nhiều trường học và nhiều dữ liệu cho mỗi trường, các thuộc tính tuyệt vời của OLS (xem Angrist và Pischke, Chủ yếu là vô hại ..., đối với đánh giá hiện tại) đề xuất rằng bạn muốn sử dụng điều đó, với các điều chỉnh phù hợp với các lỗi tiêu chuẩn để giải thích cho các phụ thuộc, và sử dụng các biến và tương tác giả để đạt được hiệu ứng cấp trường và các can thiệp cụ thể của trường. OLS có thể không hiệu quả, nhưng nó minh bạch đến mức có thể dễ dàng thuyết phục khán giả hoài nghi hơn nếu bạn sử dụng nó. Nhưng nếu dữ liệu của bạn thưa thớt theo một số cách nhất định --- đặc biệt nếu bạn có một vài quan sát cho một số trường --- bạn có thể muốn áp đặt thêm "cấu trúc" cho vấn đề. Bạn có thể muốn "mượn sức mạnh" từ các trường mẫu lớn hơn để cải thiện các ước tính ồn ào mà bạn sẽ nhận được ở các trường mẫu nhỏ nếu việc ước tính được thực hiện không có cấu trúc. Sau đó, bạn có thể chuyển sang mô hình hiệu ứng ngẫu nhiên được ước tính thông qua FGLS,

Trong ví dụ này, việc sử dụng một mô hình đa cấp (tuy nhiên chúng tôi quyết định phù hợp với nó, cuối cùng) được thúc đẩy bởi sự quan tâm trực tiếp đến các can thiệp ở cấp trường. Tất nhiên, trong các tình huống khác, các tham số cấp độ nhóm này có thể không có gì nhiều hơn sự phiền toái. Việc bạn có cần điều chỉnh cho chúng hay không (và do đó, vẫn hoạt động với một loại mô hình đa cấp nào đó) tùy thuộc vào việc các giả định ngoại sinh có điều kiện nhất định có được giữ hay không. Về điều đó, tôi khuyên bạn nên tham khảo tài liệu kinh tế lượng về các phương pháp dữ liệu bảng; hầu hết các hiểu biết từ đó mang đến bối cảnh dữ liệu được nhóm chung.


1
Đây là một chủ đề cũ, nhưng trong trường hợp bạn đọc điều này: OLS với các biến giả và tương tác không mượn sức mạnh như các kỹ thuật khác mà bạn đề cập, phải không? Tôi có một số dữ liệu trong đó tôi đã chia phân tích của mình thành hai phần và sử dụng hai lệnh lm (mô hình tuyến tính R) để mô hình hóa hai phần. Tôi đã giới thiệu một biến giả để chỉ ra hai phần, sau đó sử dụng lại lm trên mô hình "hợp nhất" này và các câu trả lời gần đúng, nhưng không giống nhau. Câu hỏi của tôi sẽ là: câu trả lời đó "tốt hơn" hay đơn giản là do thuật toán?
Wayne

@Wayne: nếu bạn đã sử dụng các hình nộm và bộ tương tác đầy đủ trong lần thứ hai, các ước tính điểm sẽ giống nhau. Các lỗi tiêu chuẩn có thể khác nhau bởi vì phương pháp thứ hai có thể giả định mức độ tự do cao hơn, nhưng bạn sẽ muốn kiểm tra xem đó có phải là một giả định mô hình chính xác hay không.
Cyrus S

6

Mô hình đa cấp là phù hợp, như tên cho thấy, khi dữ liệu của bạn có ảnh hưởng xảy ra ở các cấp khác nhau (cá nhân, theo thời gian, trên các miền, v.v.). Mô hình cấp đơn giả định mọi thứ đang diễn ra ở mức thấp nhất. Một điều khác mà một mô hình đa cấp làm là giới thiệu mối tương quan giữa các đơn vị lồng nhau. Vì vậy, các đơn vị cấp 1 trong cùng đơn vị cấp 2 sẽ có mối tương quan.

Ở một khía cạnh nào đó, bạn có thể nghĩ về mô hình đa cấp là tìm ra điểm trung gian giữa "ngụy biện cá nhân" và "ngụy biện sinh thái". Sai lầm theo chủ nghĩa cá nhân là khi "hiệu ứng cộng đồng" bị bỏ qua, chẳng hạn như sự tương thích giữa phong cách của giáo viên với phong cách học tập của học sinh, chẳng hạn (hiệu ứng được cho là đến từ cá nhân, do đó, chỉ cần thực hiện hồi quy ở cấp 1). trong khi "sai lầm sinh thái" thì ngược lại, và sẽ giống như giả sử giáo viên giỏi nhất có học sinh đạt điểm cao nhất (và do đó không cần cấp 1, chỉ cần thực hiện hồi quy hoàn toàn ở cấp 2). Trong hầu hết các cài đặt, không thích hợp (giáo viên-học sinh là một ví dụ "cổ điển").

Lưu ý rằng trong ví dụ về trường học, có một cụm hoặc cấu trúc "tự nhiên" trong dữ liệu. Nhưng đây không phải là một tính năng thiết yếu của mô hình đa cấp / chữ tượng hình. Tuy nhiên, phân cụm tự nhiên làm cho toán học và tính toán dễ dàng hơn. Thành phần chính là thông tin trước đó nói rằng có các quá trình xảy ra ở các cấp độ khác nhau. Trong thực tế, bạn có thể nghĩ ra các thuật toán phân cụm bằng cách áp đặt cấu trúc đa cấp cho dữ liệu của bạn với sự không chắc chắn về đơn vị nào ở cấp cao hơn. Vì vậy, bạn có với chỉ số không xác định. jyijj


4

Nói chung, việc phân tích Bayesian phân cấp (HB) sẽ dẫn đến ước tính cấp độ cá nhân hiệu quả và ổn định trừ khi dữ liệu của bạn sao cho các hiệu ứng cấp độ cá nhân hoàn toàn đồng nhất (một kịch bản không thực tế). Các ước tính tham số hiệu quả và ổn định của các mô hình HB trở nên thực sự quan trọng khi bạn có dữ liệu thưa thớt (ví dụ: ít quan sát hơn so với không có tham số nào ở cấp độ cá nhân) và khi bạn muốn ước tính các ước tính cấp độ riêng lẻ.

Tuy nhiên, các mô hình HB không phải lúc nào cũng dễ ước tính. Do đó, trong khi phân tích HB thường vượt qua phân tích không phải HB, bạn phải cân nhắc chi phí tương đối so với lợi ích dựa trên kinh nghiệm trong quá khứ và các ưu tiên hiện tại của bạn về thời gian và chi phí.

Đã nói rằng nếu bạn không quan tâm đến ước tính cấp độ cá nhân thì bạn chỉ có thể ước tính mô hình cấp độ tổng hợp nhưng ngay cả trong các bối cảnh này ước tính mô hình tổng hợp thông qua HB sử dụng ước tính cấp độ cá nhân có thể có ý nghĩa rất lớn.

Tóm lại, mô hình HB phù hợp là cách tiếp cận được đề xuất miễn là bạn có thời gian và sự kiên nhẫn để phù hợp với chúng. Sau đó, bạn có thể sử dụng các mô hình tổng hợp làm điểm chuẩn để đánh giá hiệu suất của mô hình HB.


Cảm ơn bạn đã trả lời chi tiết Srikant :) Tôi hiện không quen thuộc với các phân tích Bayes, nhưng tôi là một trong những chủ đề mà tôi có ý nghĩa để điều tra. Phân tích Bayes phân cấp có khác với các phân tích đa cấp / phân cấp khác được thảo luận trên trang này không? Nếu vậy bạn có tài nguyên được đề nghị cho các bên quan tâm để tìm hiểu thêm không?
Patrick

Từ góc độ phân tích Phân tích HB = mô hình đa cấp. Tuy nhiên, thuật ngữ mô hình đa cấp được sử dụng khi bạn có các cấp độ khác nhau xảy ra một cách tự nhiên (Xem ví dụ về @ars). Các mô hình HB được sử dụng khi bạn không nhất thiết phải có các cấp độ khác nhau trong tình huống. Ví dụ: nếu bạn đang lập mô hình phản hồi của người tiêu dùng với các biến tiếp thị khác nhau (ví dụ: giá, chi tiêu, v.v.) thì bạn có thể có cấu trúc sau ở cấp độ người tiêu dùng: và ở cấp độ dân số. Để tham khảo: Xem các câu trả lời khác. βiN(β¯,Σ)β¯N(.,.)

4

Tôi đã học được từ Snijder và Bosker, Phân tích đa cấp: Giới thiệu về mô hình đa cấp cơ bản và nâng cao. Tôi nghĩ nó rất tốt ở người mới bắt đầu, chắc chắn là vì tôi là một người dày, nơi những điều này được quan tâm và nó có ý nghĩa với tôi.

Tôi cũng thứ hai Gelman và Hill, một cuốn sách thực sự xuất sắc.


1

Các mô hình đa cấp nên được sử dụng khi dữ liệu được lồng trong cấu trúc phân cấp, đặc biệt khi có sự khác biệt đáng kể giữa các đơn vị cấp cao hơn trong biến phụ thuộc (ví dụ: định hướng thành tích của học sinh khác nhau giữa các học sinh và giữa các lớp mà học sinh được lồng nhau). Trong những trường hợp này, các quan sát được nhóm lại thay vì độc lập. Việc không tính đến việc phân cụm dẫn đến việc đánh giá thấp các lỗi của ước tính tham số, kiểm tra ý nghĩa sai lệch và xu hướng từ chối null khi cần giữ lại. Lý do sử dụng các mô hình đa cấp, cũng như giải thích cặn kẽ về cách thực hiện các phân tích, được cung cấp bởi

Raudenbush, SW Bryk, AS (2002). Mô hình tuyến tính phân cấp: Ứng dụng và phương pháp phân tích dữ liệu. Ấn bản lần 2. Công viên Newbury, CA: Hiền nhân.

Cuốn sách R & B cũng được tích hợp tốt với gói phần mềm HLM của tác giả, giúp ích rất nhiều cho việc học gói. Một lời giải thích tại sao các mô hình đa cấp là cần thiết và thích hợp hơn với một số lựa chọn thay thế (như mã hóa giả các đơn vị cấp cao hơn) được cung cấp trong một bài báo cổ điển

Hoffman, DA (1997). Tổng quan về logic và lý do của mô hình tuyến tính Hierachical. Tạp chí Quản lý, 23, 723-744.

Có thể tải xuống miễn phí giấy Hoffman nếu bạn Google "Hoffman 1997 HLM" và truy cập pdf trực tuyến.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.