Tôi sợ rằng tôi có thể có câu trả lời sắc thái và có lẽ không thỏa mãn rằng đó là một lựa chọn chủ quan của nhà nghiên cứu hoặc nhà phân tích dữ liệu. Như đã đề cập ở những nơi khác trong chủ đề này, không đủ để nói rằng dữ liệu có "cấu trúc lồng nhau". Mặc dù vậy, công bằng mà nói, đây là cách nhiều sách mô tả khi sử dụng các mô hình đa cấp. Ví dụ: tôi vừa rút cuốn sách Phân tích đa cấp của Joop Hox ra khỏi kệ sách của mình, đưa ra định nghĩa này:
Một vấn đề đa cấp liên quan đến một dân số có cấu trúc phân cấp.
Ngay cả trong một cuốn sách giáo khoa khá tốt, định nghĩa ban đầu dường như là hình tròn. Tôi nghĩ rằng điều này một phần là do sự chủ quan của việc xác định khi nào nên sử dụng loại mô hình nào (bao gồm cả mô hình đa cấp).
Một cuốn sách khác, Các mô hình hỗn hợp tuyến tính West, Welch, & Galecki cho biết những mô hình này là dành cho:
biến kết quả trong đó phần dư được phân phối bình thường nhưng có thể không độc lập hoặc có phương sai không đổi. Các thiết kế nghiên cứu dẫn đến các bộ dữ liệu có thể được phân tích phù hợp bằng LMM bao gồm (1) nghiên cứu với dữ liệu được nhóm lại, chẳng hạn như học sinh trong lớp học, hoặc thiết kế thử nghiệm với các khối ngẫu nhiên, chẳng hạn như các lô nguyên liệu thô cho quy trình công nghiệp và (2) nghiên cứu theo chiều dọc hoặc lặp đi lặp lại, trong đó các đối tượng được đo lặp đi lặp lại theo thời gian hoặc trong các điều kiện khác nhau.
Mô hình đa cấp của Finch, Bolin, & Kelley trong R cũng nói về việc vi phạm giả định iid và phần dư tương quan:
Đặc biệt quan trọng trong bối cảnh mô hình đa cấp là giả định [trong hồi quy chuẩn] của các thuật ngữ lỗi phân tán độc lập cho các quan sát riêng lẻ trong một mẫu. Giả định này về cơ bản có nghĩa là không có mối quan hệ giữa các cá nhân trong mẫu cho biến phụ thuộc một khi các biến độc lập trong phân tích được tính đến.
Tôi tin rằng một mô hình đa cấp có ý nghĩa khi có lý do để tin rằng các quan sát không nhất thiết phải độc lập với nhau. Bất cứ "cụm" nào cho sự không độc lập này đều có thể được mô hình hóa.
Một ví dụ rõ ràng là trẻ em trong lớp học, tất cả chúng đều tương tác với nhau, điều này có thể khiến điểm kiểm tra của chúng không độc lập. Điều gì xảy ra nếu một lớp học có người hỏi một câu hỏi dẫn đến tài liệu được bao phủ trong lớp đó không được bao phủ trong các lớp khác? Điều gì sẽ xảy ra nếu giáo viên tỉnh táo hơn đối với một số lớp học so với những người khác? Trong trường hợp này, sẽ có một số dữ liệu không độc lập; trong các từ đa cấp, chúng ta có thể mong đợi một số phương sai trong biến phụ thuộc là do cụm (tức là lớp).
Ví dụ của bạn về một con chó so với một con voi phụ thuộc vào các biến quan tâm độc lập và phụ thuộc, tôi nghĩ vậy. Ví dụ: giả sử chúng tôi đang hỏi liệu có ảnh hưởng của caffeine đến mức độ hoạt động không. Động vật từ khắp nơi trong sở thú được chỉ định ngẫu nhiên để có được một thức uống chứa caffein hoặc đồ uống kiểm soát.
Nếu chúng tôi là một nhà nghiên cứu quan tâm đến caffeine, chúng tôi có thể chỉ định một mô hình đa cấp độ, bởi vì chúng tôi thực sự quan tâm đến tác dụng của caffeine. Mô hình này sẽ được chỉ định là:
activity ~ condition + (1+condition|species)
Điều này đặc biệt hữu ích nếu có một số lượng lớn các loài chúng tôi đang thử nghiệm giả thuyết này. Tuy nhiên, một nhà nghiên cứu có thể quan tâm đến tác dụng đặc trưng của loài caffeine. Trong trường hợp đó, họ có thể chỉ định các loài là một hiệu ứng cố định:
activity ~ condition + species + condition*species
Đây rõ ràng là một vấn đề nếu có, giả sử, 30 loài, tạo ra một thiết kế 2 x 30 khó sử dụng. Tuy nhiên, bạn có thể trở nên khá sáng tạo với cách mô hình hóa các mối quan hệ này.
Ví dụ, một số nhà nghiên cứu đang tranh luận về việc sử dụng mô hình đa cấp thậm chí còn rộng hơn. Gelman, Hill, & Yajima (2012) cho rằng mô hình đa cấp có thể được sử dụng như một sự điều chỉnh cho nhiều so sánh ngay cả trong nghiên cứu thử nghiệm trong đó cấu trúc của dữ liệu không rõ ràng là phân cấp:
Các vấn đề khó hơn phát sinh khi mô hình hóa nhiều so sánh có cấu trúc nhiều hơn. Ví dụ: giả sử chúng ta có năm biện pháp kết quả, ba loại phương pháp điều trị và phân nhóm được phân loại theo hai giới tính và bốn nhóm chủng tộc. Chúng tôi không muốn mô hình cấu trúc 2 × 3 × 4 × 5 này thành 120 nhóm có thể trao đổi. Ngay cả trong những tình huống phức tạp hơn này, chúng tôi nghĩ rằng mô hình đa cấp nên và cuối cùng sẽ thay thế các thủ tục so sánh cổ điển.
Các vấn đề có thể được mô hình hóa theo nhiều cách khác nhau và trong các trường hợp mơ hồ, nhiều cách tiếp cận có vẻ hấp dẫn. Tôi nghĩ rằng công việc của chúng tôi là chọn một cách tiếp cận hợp lý, có hiểu biết và làm như vậy một cách minh bạch.