Lắp GLMM nhị thức (glmer) vào biến trả lời là tỷ lệ hoặc phần


10

Tôi hy vọng ai đó có thể giúp với những gì tôi nghĩ là một câu hỏi tương đối đơn giản và tôi nghĩ tôi biết câu trả lời nhưng không có xác nhận nó đã trở thành điều mà tôi không thể chắc chắn.

Tôi có một số dữ liệu đếm như một biến trả lời và tôi muốn đo xem biến đó thay đổi như thế nào với sự hiện diện theo tỷ lệ của một thứ gì đó.

Chi tiết hơn, biến phản ứng là số lượng sự hiện diện của một loài côn trùng ở một số địa điểm, vì vậy, ví dụ một địa điểm được lấy mẫu 10 lần và loài này có thể xảy ra 4 lần.

Tôi muốn xem liệu điều này có tương quan với sự hiện diện theo tỷ lệ của một nhóm các loài thực vật trong tổng thể giao tiếp của thực vật tại các địa điểm này hay không.

Điều này có nghĩa là dữ liệu của tôi trông như sau (đây chỉ là một ví dụ)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

Dữ liệu cũng bao gồm một hiệu ứng ngẫu nhiên cho vị trí.

Tôi nghĩ về hai phương pháp, một phương pháp sẽ là mô hình tuyến tính ( lmer) với các côn trùng được chuyển đổi thành tỷ lệ, ví dụ

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

Thứ hai sẽ là một GLMM nhị thức ( glmer), vd

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

Tôi tin rằng ánh sáng nhị thức là phương pháp chính xác, tuy nhiên chúng tạo ra kết quả khá khác nhau. Tôi dường như không thể tìm thấy một câu trả lời dứt khoát trên mạng mà vẫn không cảm thấy hơi không chắc chắn, và muốn chắc chắn rằng tôi không phạm sai lầm.

Bất kỳ trợ giúp hoặc hiểu biết về các phương pháp thay thế về điều này sẽ được nhiều đánh giá cao.


Câu trả lời:


18

GLMM nhị thức có lẽ là câu trả lời đúng.

  • Đặc biệt với số lượng mẫu nhỏ đến trung bình (9 và 10 trong ví dụ của bạn), phân phối biến trả lời có thể sẽ không đồng nhất (phương sai sẽ không đổi và đặc biệt sẽ phụ thuộc vào giá trị trung bình theo cách có hệ thống) và xa từ Normality, theo một cách khó có thể biến đổi - đặc biệt là nếu tỷ lệ gần bằng 0 hoặc 1 đối với một số giá trị của biến dự đoán. Điều đó làm cho GLMM là một ý tưởng tốt.
  • Bạn nên cẩn thận để kiểm tra / tài khoản cho sự quá mức. Nếu bạn có một quan sát duy nhất (nghĩa là một mẫu nhị phân / hàng trong khung dữ liệu của bạn) cho mỗi vị trí thì (1|Site)hiệu ứng ngẫu nhiên của bạn sẽ tự động xử lý việc này (mặc dù hãy xem Harrison 2015 để biết một lưu ý cảnh báo)
  • nếu giả định trước đó là đúng (bạn chỉ có một mẫu nhị thức duy nhất cho mỗi vị trí), thì bạn cũng glm(...,family=binomial)có thể sử dụng mô hình nhị thức thông thường này ( - trong trường hợp đó bạn cũng có thể sử dụng mô hình quasibinomial ( family=quasibinomial) như một cách đơn giản, thay thế để tính quá mức
  • nếu bạn thích, bạn cũng có thể điều chỉnh GLMM của mình với tỷ lệ làm phản hồi, nếu bạn đặt weightsđối số bằng số lượng mẫu:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")

    (điều này sẽ cho kết quả giống hệt với sự glmer()phù hợp bạn có trong câu hỏi của bạn).

Harrison, Xavier A. Triệu Một so sánh về hiệu ứng ngẫu nhiên ở mức độ quan sát và các mô hình nhị phân Beta để mô hình hóa sự quá mức trong dữ liệu nhị thức trong sinh thái học và tiến hóa . PeerJ 3 (ngày 21 tháng 7 năm 2015): e1114. doi: 10,7717 / ngangj.1114.


Chào Ben, Rất cám ơn câu trả lời rõ ràng và toàn diện của bạn!
AL
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.