Gói R / Stata cho GEE nhị thức âm không cắt ngắn?


13

Đây là bài viết đầu tiên của tôi. Tôi thực sự biết ơn cộng đồng này.

Tôi đang cố gắng phân tích dữ liệu đếm theo chiều dọc bị cắt ngắn (xác suất biến phản hồi = 0 là 0) và giá trị trung bình! = Phương sai, do đó, phân phối nhị thức âm được chọn qua phân đoạn.

Chức năng / lệnh tôi đã loại trừ:

R

  • Hàm gee () trong R không tính đến việc cắt ngắn cũng như phân phối nhị thức âm (ngay cả với gói MASS được tải)
  • glm.nb () trong R không cho phép các cấu trúc tương quan khác nhau
  • vglm () từ gói VGAM có thể sử dụng họ posnegbinomial, nhưng nó có cùng vấn đề với lệnh ztnb của Stata (xem bên dưới) trong đó tôi không thể chỉnh lại các mô hình bằng cấu trúc tương quan không độc lập.

Thánh tích

  • Nếu dữ liệu không theo chiều dọc, tôi chỉ có thể sử dụng các gói Stt ztnb để chạy phân tích của mình, NHƯNG lệnh đó giả định rằng các quan sát của tôi là độc lập.

Tôi cũng đã loại trừ GLMM vì nhiều lý do phương pháp / triết học.

Hiện tại, tôi đã giải quyết lệnh xtgee của Stata (vâng, tôi biết rằng xtnbreg cũng làm điều tương tự) có tính đến cả cấu trúc tương quan không phụ thuộc và họ nhị phân phủ định, nhưng không phải là cắt ngắn. Lợi ích bổ sung của việc sử dụng xtgee là tôi cũng có thể tính toán các giá trị qic (sử dụng lệnh qic) để xác định cấu trúc tương quan phù hợp nhất cho các biến trả lời của mình.

Nếu có một gói / lệnh trong R hoặc Stata có thể mất 1) họ nbinomial, 2) GEE và 3) không cắt ngắn vào tài khoản, tôi rất muốn biết.

Tôi đánh giá rất cao bất kỳ ý tưởng nào bạn có thể có. Cảm ơn bạn.

-Casey

Câu trả lời:


12

Đối với R, hai lựa chọn nảy ra trong đầu, cả hai lựa chọn này tôi chỉ quen thuộc một cách mơ hồ.

Đầu tiên là psclgói, có thể phù hợp với không cắt ngắn mô hình lạm phát và trở ngại trong một rất tốt đẹp, cách linh hoạt. Các psclgói cho thấy việc sử dụng các sandwichgói cung cấp "ước lượng sai số chuẩn Model-mạnh mẽ cho các mặt cắt ngang, chuỗi thời gian và dữ liệu theo chiều dọc". Vì vậy, bạn có thể điều chỉnh mô hình đếm của mình và sau đó sử dụng sandwichgói để ước tính ma trận hiệp phương sai phù hợp cho phần dư có tính đến tính chất dọc của dữ liệu.

Tùy chọn thứ hai có thể là tìm geepackgói trông giống như nó có thể làm những gì bạn muốn nhưng chỉ cho một mô hình nhị thức âm với theta đã biết, vì nó sẽ phù hợp với bất kỳ loại GLM nào mà glm()chức năng của R có thể (vì vậy hãy sử dụng chức năng gia đình từ MASS) .

Tùy chọn thứ ba đã nâng cao đầu của nó: gamlssvà đó là gói bổ trợ gamlss.tr. Cái sau bao gồm một hàm gen.trun()có thể biến bất kỳ phân phối nào được hỗ trợ gamlss()thành phân phối bị cắt cụt một cách linh hoạt - ví dụ, bạn có thể chỉ định cắt ngắn ở 0 phân phối nhị thức âm. gamlss()bản thân nó bao gồm hỗ trợ cho các hiệu ứng ngẫu nhiên cần quan tâm đến tính chất dọc của dữ liệu. Tuy nhiên, điều đó không rõ ràng ngay lập tức nếu bạn phải sử dụng ít nhất một hàm số đồng biến trong mô hình hoặc chỉ có thể mô hình hóa mọi thứ dưới dạng các hàm tuyến tính như trong GLM.


Gói pscl, tôi tin rằng, chỉ phù hợp với các mô hình không thổi phồng và vượt rào. Các mô hình vượt rào kết hợp cả thành phần đếm cắt bên trái và thành phần vượt rào phải kiểm duyệt. Tôi không làm thế nào hoặc thậm chí nếu tôi có thể chạy mô hình vượt rào mà không có thành phần vượt rào, nhưng tôi sẽ xem xét gói sandwick. Đối với gói geepack, nó dường như có cùng một vấn đề như gói gee; khi tôi chỉ định một họ "neg.binomial" (từ MASS), mà không chỉ định một theta, nó sẽ yêu cầu một theta. Tuy nhiên, khi tôi chỉ định một giá trị theta, nó sẽ phát ra một lỗi cho biết đó là một gia đình không được nhận dạng.
Iris Tsui

@Casey - xin lỗi tôi đã đọc sai yêu cầu của bạn. Thật xấu hổ khi geepack không hoạt động với chức năng gia đình đó. Nếu tôi nghĩ bất cứ điều gì khác, tôi sẽ cập nhật ở đây.
Phục hồi Monica - G. Simpson

@Casey Tôi đã thêm một lưu ý về gamlssgói có thể phù hợp với hóa đơn trong R.
Phục hồi Monica - G. Simpson

Chấp nhận câu trả lời của bạn vì có nhiều đề xuất cho các tài nguyên và chức năng đã cải thiện sự hiểu biết của tôi. Có vẻ như 'gamlss' sẽ là một cách có thể để giải quyết vấn đề của tôi, nhưng vì tôi thực sự là một người không theo thống kê, hiện tại tôi không có nền tảng về toán học cũng như thời gian để mở những con giun ngay bây giờ (nhưng có lẽ cuối cùng tôi sẽ). Như đã đề cập trong một bình luận khác, ít nhất là đối với dữ liệu của tôi, có vẻ như việc bỏ qua việc cắt ngắn bằng 0 sẽ không làm thay đổi nhiều ước tính và lỗi std của tôi nhiều. Đối với đối tượng dự định của tôi, tôi tin rằng một GEE không chuyên sẽ làm tốt. Cảm ơn!
Iris Tsui

9

Hmm, câu hỏi đầu tiên tốt! Tôi không biết gói nào đáp ứng yêu cầu chính xác của bạn. Tôi nghĩ rằng xtgee của Stata là một lựa chọn tốt nếu bạn cũng chỉ định vce(robust)tùy chọn đưa ra các lỗi tiêu chuẩn Huber-White hoặc vce(bootstrap)nếu điều đó thực tế. Một trong hai tùy chọn này sẽ đảm bảo các lỗi tiêu chuẩn được ước tính một cách nhất quán mặc dù lỗi chính tả mô hình mà bạn sẽ có bằng cách bỏ qua việc cắt ngắn bằng không.

Điều đó đặt ra câu hỏi về hiệu ứng nào mà bỏ qua việc cắt ngắn bằng 0 sẽ có (các) ước tính điểm mà bạn quan tâm. Thật đáng để tìm kiếm nhanh để xem liệu có tài liệu liên quan về vấn đề này nói chung hay không, nghĩa là không nhất thiết phải trong bối cảnh GEE - tôi đã nghĩ rằng bạn hoàn toàn có thể cho rằng mọi kết quả như vậy cũng có liên quan trong trường hợp GEE. Nếu bạn không thể tìm thấy bất cứ điều gì, bạn luôn có thể mô phỏng dữ liệu với ước tính cắt ngắn và ước tính hiệu ứng đã biết và đánh giá sai lệch bằng mô phỏng.


1
Tôi chắc chắn để ước tính các lỗi tiêu chuẩn mạnh mẽ. Ngoài ra, trong cuốn sách "Các mô hình hiệu ứng hỗn hợp và các phần mở rộng trong hệ sinh thái với R" của Zuur, et al, 2009, trên trang 261, họ đã đề cập, "nếu giá trị trung bình của biến phản ứng là tương đối lớn, bỏ qua vấn đề cắt ngắn, sau đó áp dụng mô hình tuyến tính tổng quát Poisson hoặc nhị phân (NB) âm tính (GLM), không có khả năng gây ra sự cố. " May mắn thay, phương tiện của các biến trả lời của tôi rất lớn, vì vậy tôi cảm thấy thoải mái hơn một chút về việc cắt giảm số 0 so với các khía cạnh GEE và phủ định trong hồi quy của tôi.
Iris Tsui

Âm thanh như bạn đã biết nhiều về chủ đề này hơn tôi! Hoặc bất cứ ai khác trên trang web này, đánh giá bằng cách thiếu các phản ứng khác.
onestop

Đó là một chút khó tin; ai biết rằng dữ liệu đếm dài quá mức sẽ rất khó phân tích (mà không thực hiện GLMM, điều mà tôi thậm chí chưa xem xét để làm)? Nếu chỉ có dữ liệu của tôi là không tăng, đó sẽ là một câu chuyện khác.
Iris Tsui

5

Tôi đã có cùng một vấn đề trong luận án của tôi. Trong Stata, tôi chỉ xây dựng cho mình một chương trình .ado tùy chỉnh với hai cuộc gọi đến xtgee.

Đối với điều này, tôi thấy các slide / chương trình "Mô hình hóa chi phí và chi phí chăm sóc sức khỏe" của Partha Deb, Willard Manning và Edward Norton là hữu ích. Họ không nói về dữ liệu theo chiều dọc, nhưng đó là điểm khởi đầu hữu ích.


1

Tôi đang tìm kiếm câu trả lời về giải thích glmmADMB và tôi thấy bài viết của bạn. Tôi biết đó là một thời gian dài trước đây nhưng tôi có thể có câu trả lời.

Nhìn vào gói glmmADMB khi sử dụng các mô hình rào cản. Bạn phải chia thành hai phân tích dữ liệu của bạn: một trong số chúng chỉ xử lý dữ liệu không có. Bạn có thể thêm các hiệu ứng hỗn hợp và chọn phân phối. Điều kiện là dữ liệu phải được bơm bằng 0 và tôi không biết điều này có phù hợp với yêu cầu của bạn không! Dù sao, tôi hy vọng bạn phát hiện ra từ lâu!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.