Tôi muốn sử dụng dữ liệu đếm dưới dạng đồng biến trong khi điều chỉnh mô hình hồi quy logistic. Câu hỏi của tôi là:
- Tôi có vi phạm bất kỳ giả định nào về các mô hình logistic (và, nói chung hơn, của các mô hình tuyến tính tổng quát) bằng cách sử dụng các số nguyên, các biến số không âm làm các biến độc lập không?
Tôi tìm thấy rất nhiều tài liệu tham khảo trong các tài liệu liên quan đến việc sử dụng dữ liệu đếm làm kết quả, nhưng không phải là kết quả; xem ví dụ như bài viết rất rõ ràng: "NE Breslow (1996) Các mô hình tuyến tính tổng quát: Kiểm tra các giả định và tăng cường kết luận, Congresso Nazionale Societa Italiana di Biometria, Cortona tháng 6 năm 1995", có sẵn tại http://biostat.georgiahealth.edu/~dryu /c thuyết / stat9110spring12 / land16 numf.pdf .
Nói một cách lỏng lẻo, dường như các giả định glm có thể được thể hiện như sau:
- iid dư;
- hàm liên kết phải biểu diễn chính xác mối quan hệ giữa các biến phụ thuộc và độc lập;
- không có ngoại lệ
Mọi người có biết liệu có tồn tại bất kỳ vấn đề giả định / kỹ thuật nào khác có thể đề xuất sử dụng một số loại mô hình khác để xử lý các biến số đếm không?
Cuối cùng, xin lưu ý rằng dữ liệu của tôi chứa tương đối ít mẫu (<100) và phạm vi của các biến đếm có thể thay đổi trong khoảng 3-4 bậc độ lớn (nghĩa là một số biến có giá trị trong phạm vi 0-10, trong khi các biến khác có thể có giá trị trong 0-10000).
Một mã ví dụ R đơn giản sau:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################