Lắp mô hình đa cấp cho dữ liệu khảo sát phức tạp trong R


11

Tôi đang tìm kiếm lời khuyên về cách phân tích dữ liệu khảo sát phức tạp với các mô hình đa cấp trong R. Tôi đã sử dụng surveygói để cân nhắc xác suất lựa chọn không đồng đều trong các mô hình một cấp, nhưng gói này không có chức năng cho mô hình đa cấp. Các lme4gói là rất tốt cho mô hình đa cấp, nhưng không có một cách mà tôi biết để bao gồm trọng lượng ở các cấp khác nhau của clustering. Asparouhov (2006) đặt ra vấn đề:

Các mô hình đa cấp thường được sử dụng để phân tích dữ liệu từ các thiết kế lấy mẫu cụm. Tuy nhiên, các thiết kế lấy mẫu như vậy thường sử dụng xác suất lựa chọn không đồng đều ở cấp độ cụm và ở cấp độ cá nhân. Trọng lượng lấy mẫu được chỉ định ở một hoặc cả hai cấp để phản ánh các xác suất này. Nếu các trọng số lấy mẫu bị bỏ qua ở một trong hai mức, các ước tính tham số có thể bị sai lệch đáng kể.

Một cách tiếp cận cho các mô hình hai cấp là công cụ ước tính khả năng tối đa giả đa cấp (MPML) được triển khai trong MPLUS ( Asparouhov et al ,? ). Carle (2009) xem xét các gói phần mềm chính và đưa ra một vài khuyến nghị về cách tiến hành:

Để thực hiện đúng MLM với dữ liệu khảo sát phức tạp và trọng lượng thiết kế, các nhà phân tích cần phần mềm có thể bao gồm các trọng số được thu nhỏ bên ngoài chương trình và bao gồm các trọng số "mới" mà không cần sửa đổi chương trình tự động. Hiện tại, ba trong số các chương trình phần mềm MLM chính cho phép điều này: Mplus (5.2), MLwiN (2.02) và GLLAMM. Thật không may, cả HLM và SAS đều không thể làm được điều này.

West và Galecki (2013) đưa ra đánh giá cập nhật hơn và tôi sẽ trích dẫn đoạn văn có liên quan theo chiều dài:

Đôi khi, các nhà phân tích muốn điều chỉnh LMM để khảo sát các bộ dữ liệu được thu thập từ các mẫu có thiết kế phức tạp (xem Heeringa et al, 2010, Chương 12). Các thiết kế mẫu phức tạp thường được đặc trưng bởi sự phân chia dân số thành các tầng, lựa chọn nhiều giai đoạn của các nhóm cá thể từ trong các tầng và xác suất lựa chọn không đồng đều cho cả hai cụm và các cá thể cuối cùng được lấy mẫu. Các xác suất lựa chọn không đồng đều này thường dẫn đến việc xây dựng các trọng số lấy mẫu cho các cá nhân, đảm bảo ước lượng không thiên vị các tham số mô tả khi đưa vào phân tích. Các trọng số này có thể được điều chỉnh thêm cho khảo sát không đáp ứng và hiệu chỉnh theo tổng số dân đã biết. Theo truyền thống, các nhà phân tích có thể xem xét một cách tiếp cận dựa trên thiết kế để kết hợp các tính năng lấy mẫu phức tạp này khi ước tính các mô hình hồi quy (Heeringa et al., 2010). Gần đây, các nhà thống kê đã bắt đầu khám phá các cách tiếp cận dựa trên mô hình để phân tích các dữ liệu này, sử dụng LMM để kết hợp các hiệu ứng cố định của tầng lấy mẫu và hiệu ứng ngẫu nhiên của các cụm được lấy mẫu.

Khó khăn chính với việc phát triển các phương pháp dựa trên mô hình để phân tích các dữ liệu này là lựa chọn các phương pháp phù hợp để kết hợp các trọng số lấy mẫu (xem Gelman, 2007 để biết tóm tắt các vấn đề). Pfeffermann et al. (1998), Asparouhov và Muthen (2006), và Rabe-Hesketh và Skrondal (2006) đã phát triển lý thuyết để ước tính các mô hình đa cấp theo cách kết hợp các trọng số khảo sát và Rabe-Hesketh và Skrondal (2006), Carle (2009) và Heeringa et al. (2010, Chương 12) đã trình bày các ứng dụng sử dụng các quy trình phần mềm hiện tại, nhưng đây tiếp tục là một lĩnh vực hoạt động của nghiên cứu thống kê. Các quy trình phần mềm có khả năng phù hợp với các LMM đang ở các giai đoạn khác nhau để thực hiện các phương pháp đã được đề xuất trong tài liệu cho đến nay để kết hợp các tính năng thiết kế phức tạp, và các nhà phân tích cần xem xét điều này khi khớp LMM với dữ liệu khảo sát mẫu phức tạp. Các nhà phân tích quan tâm đến việc gắn LMM với dữ liệu được thu thập từ các khảo sát mẫu phức tạp sẽ bị thu hút bởi các quy trình có khả năng kết hợp chính xác các trọng số khảo sát vào các quy trình ước tính (HLM, MLwiN, Mplus, xtmixed và gllamm), phù hợp với tài liệu hiện tại khu vực.

Điều này mang lại cho tôi câu hỏi của tôi: có ai có khuyến nghị thực hành tốt nhất để điều chỉnh LMM phù hợp với dữ liệu khảo sát phức tạp trong R không?


1
xin chào, các liên kết trong đoạn bắt đầu i've never said it beforetừ bài đăng này trên addhealth có thể được quan tâm .. :(
Anthony Damico

1
@AnthonyDamico, liên kết hiện đã bị hỏng :-(
Ben Bolker 22/03/2015

@BenBolker là thế! họ đã thay đổi tên của microdata, vì vậy tôi cũng đã làm như vậy :) địa điểm mới: asdfree.com/search/label/ Kẻ
Anthony Damico

Xin lỗi nếu tôi giải thích sai câu hỏi của bạn, nhưng tôi hiểu là bạn đã cố định (đã biết) trọng lượng từ thiết kế của thử nghiệm và bạn muốn sử dụng mô hình hỗn hợp tuyến tính bao gồm các trọng số thiết kế này. Các lmerchức năng trong lme4gói cho phép đặc điểm kỹ thuật của một weightslập luận cho quá trình mô hình phù hợp, vì vậy nếu bạn đã cố định khối lượng thiết kế, bạn sẽ có thể kết hợp chúng với lập luận đó. Tôi đã nhận được kết thúc sai của thanh ở đây? Có một số lý do điều này là không phù hợp với nhu cầu của bạn?
Ben - Tái lập Monica

Câu trả lời:


4

Theo như tôi biết, bạn không thể thực sự làm điều này trong R vào lúc này, nếu bạn thực sự cần một mô hình hỗn hợp (ví dụ: nếu bạn quan tâm đến các thành phần phương sai)

Đối số trọng số lme4::lmer() sẽ không làm những gì bạn muốn, bởi vì lmer()diễn giải các trọng số là trọng số chính xác không phải là trọng số mẫu. Trái ngược với các mô hình tuyến tính tuyến tính và tổng quát thông thường, bạn thậm chí không có được ước tính điểm chính xác với mã coi trọng số lấy mẫu là trọng số chính xác cho mô hình hỗn hợp.

Nếu bạn không cần ước tính các thành phần phương sai và bạn chỉ muốn các tính năng đa cấp của mô hình nhận được các lỗi tiêu chuẩn chính xác mà bạn có thể sử dụng survey::svyglm().


0

Các WeMix gói bây giờ là một lựa chọn, ít nhất là cho các mô hình đa cấp tuyến tính và logistic. Mặc dù có vẻ rất chậm, so với việc chạy các mô hình này trong Stata hoặc MPlus.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.