Chúng tôi đã yêu cầu 60 người liệt kê càng nhiều thương hiệu nhà hàng ở Atlanta càng tốt. Danh sách tổng thể bao gồm hơn 70 nhà hàng, nhưng chúng tôi đã loại bỏ những nhà hàng được ít hơn 10% người nhắc đến, để lại cho chúng tôi 45. Trong 45 người này, chúng tôi đã tính toán tỷ lệ người cung cấp thông tin niêm yết nhượng quyền và chúng tôi quan tâm đến mô hình hóa tỷ lệ này như là một chức năng của ngân sách quảng cáo (chuyển đổi log) của nhượng quyền thương mại và nhiều năm kể từ khi trở thành một nhượng quyền thương mại.
Vì vậy, tôi đã viết mã này:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Theo dự đoán, cả hai biến thể hiện tác động mạnh mẽ, đáng kể.
Nhưng mặc dù tôi biết rằng dữ liệu tỷ lệ không bao giờ được mô hình hóa bằng hồi quy OLS, sau đó tôi đã viết mã này:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Trong trường hợp này, "ngân sách" vẫn là một yếu tố dự báo quan trọng, nhưng "năm" tương đối yếu và không đáng kể.
Nó làm tôi lo lắng rằng sự tự tin trong các ước tính bị thổi phồng một cách giả tạo bởi sự tổng hợp. Không phải glmial nhị phân về cơ bản đã vector hóa dữ liệu sao cho mô hình dựa trên 45 * 55 = 2.485 hàng? Điều đó có phù hợp không khi chỉ có 45 nhà hàng và 55 người cung cấp thông tin? Điều này sẽ gọi cho mô hình hiệu ứng hỗn hợp?
lm
và glm(...,family=binomial)
, nhưng một trong những điều quan trọng là GLM nhị thức đưa ra các giả định mạnh mẽ về phương sai. Nếu dữ liệu không được cung cấp quá mức, thì việc tổng hợp / phân tách sẽ không có sự khác biệt.
family=quasibinomial