Một số bạn có thể đã đọc bài báo hay này:
O'Hara RB, Kotze DJ (2010) Không đăng nhập dữ liệu đếm chuyển đổi. Các phương pháp trong Sinh thái học và Tiến hóa 1: 118 Hàng22. klick .
Hiện tại tôi đang so sánh các mô hình nhị thức âm với các mô hình gaussian trên dữ liệu được chuyển đổi. Không giống như O'Hara RB, Kotze DJ (2010) Tôi đang xem xét trường hợp đặc biệt có cỡ mẫu thấp và trong bối cảnh thử nghiệm giả thuyết.
Một mô phỏng được sử dụng để điều tra sự khác biệt giữa cả hai.
Mô phỏng lỗi loại I
Tất cả các tính toán đã được thực hiện trong R.
Tôi đã mô phỏng dữ liệu từ một thiết kế giai thừa với một nhóm kiểm soát ( ) và 5 nhóm điều trị ( μ_ {1−5} ). Sự phong phú được rút ra từ một phân phối nhị thức âm với tham số phân tán cố định (= 3,91). Sự phong phú là như nhau trong tất cả các phương pháp điều trị.
Đối với các mô phỏng tôi đã thay đổi kích thước mẫu (3, 6, 9, 12) và sự phong phú (2, 4, 8, ..., 1024). 100 bộ dữ liệu đã được tạo và phân tích bằng cách sử dụng một nhị phân GLM ( MASS:::glm.nb()
), một quasipoisson GLM ( glm(..., family = 'quasipoisson'
) và một dữ liệu chuyển đổi log gaussian GLM + ( lm(...)
).
Tôi đã so sánh các mô hình với mô hình null bằng cách sử dụng phép thử lmtest:::lrtest()
Likabilities -Ratio ( ) (gaussian GLM và neg. Bin GLM) cũng như F-tests (gaussian GLM và quasipoisson GLM) ( anova(...test = 'F')
).
Nếu cần tôi có thể cung cấp mã R, nhưng cũng xem ở đây để biết câu hỏi liên quan của tôi.
Các kết quả
Đối với các cỡ mẫu nhỏ, các phép thử LR (màu xanh lá cây - neg.bin.; Màu đỏ - gaussian) dẫn đến lỗi Loại I tăng. Thử nghiệm F (màu xanh - gaussian, màu tím - quasi-poisson) dường như hoạt động ngay cả đối với các cỡ mẫu nhỏ.
Các thử nghiệm LR đưa ra các lỗi Loại I tương tự (tăng) cho cả LM và GLM.
Điều thú vị là quasi-poisson hoạt động khá tốt (nhưng cũng với F-Test).
Như mong đợi, nếu kích thước mẫu tăng thì LR-Test cũng hoạt động tốt (không chính xác về mặt triệu chứng).
Đối với cỡ mẫu nhỏ, đã có một số vấn đề về hội tụ (không hiển thị) cho GLM, tuy nhiên chỉ ở mức độ phong phú thấp, do đó nguồn lỗi có thể bị bỏ qua.
Câu hỏi
Lưu ý dữ liệu được tạo từ neg.bin. mô hình - vì vậy tôi đã mong đợi rằng GLM hoạt động tốt nhất. Tuy nhiên, trong trường hợp này, một mô hình tuyến tính về sự phong phú được chuyển đổi hoạt động tốt hơn. Tương tự cho quasi-poisson (F-Test). Tôi nghi ngờ điều này là do thử nghiệm F đang hoạt động tốt hơn với kích thước mẫu nhỏ - điều này có đúng không và tại sao?
Thử nghiệm LR không hoạt động tốt vì không có triệu chứng. Là những khả năng để cải thiện?
Có các xét nghiệm khác cho GLM có thể hoạt động tốt hơn không? Làm cách nào tôi có thể cải thiện thử nghiệm cho GLM?
Nên sử dụng loại mô hình nào cho dữ liệu đếm với cỡ mẫu nhỏ?
Biên tập:
Thật thú vị, Kiểm tra LR cho GLM nhị thức hoạt động khá tốt:
Ở đây tôi vẽ dữ liệu từ một phân phối nhị thức, thiết lập tương tự như trên.
Đỏ tham số.
Ở đây chỉ có mô hình gaussian (phép biến đổi LR-Test + arcsin) hiển thị lỗi Loại I tăng, trong khi GLM (Thử nghiệm LR) thực hiện khá tốt về lỗi Loại I. Vì vậy, dường như cũng có một sự khác biệt giữa các bản phân phối (hoặc có thể là glm so với glm.nb?).