Những dữ liệu này có thể được tổng hợp thành một tỷ lệ cho một nhị thức không?

Chúng tôi đã yêu cầu 60 người liệt kê càng nhiều thương hiệu nhà hàng ở Atlanta càng tốt. Danh sách tổng thể bao gồm hơn 70 nhà hàng, nhưng chúng tôi đã loại bỏ những nhà hàng được ít hơn 10% người nhắc đến, để lại cho chúng tôi 45. Trong 45 người này, chúng tôi đã tính toán tỷ lệ người cung cấp thông tin niêm yết nhượng quyền và chúng tôi quan tâm đến mô hình hóa tỷ lệ này như là một chức năng của ngân sách quảng cáo (chuyển đổi log) của nhượng quyền thương mại và nhiều năm kể từ khi trở thành một nhượng quyền thương mại.

Vì vậy, tôi đã viết mã này:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Theo dự đoán, cả hai biến thể hiện tác động mạnh mẽ, đáng kể.

Nhưng mặc dù tôi biết rằng dữ liệu tỷ lệ không bao giờ được mô hình hóa bằng hồi quy OLS, sau đó tôi đã viết mã này:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Trong trường hợp này, "ngân sách" vẫn là một yếu tố dự báo quan trọng, nhưng "năm" tương đối yếu và không đáng kể.

Nó làm tôi lo lắng rằng sự tự tin trong các ước tính bị thổi phồng một cách giả tạo bởi sự tổng hợp. Không phải glmial nhị phân về cơ bản đã vector hóa dữ liệu sao cho mô hình dựa trên 45 * 55 = 2.485 hàng? Điều đó có phù hợp không khi chỉ có 45 nhà hàng và 55 người cung cấp thông tin? Điều này sẽ gọi cho mô hình hiệu ứng hỗn hợp?

r generalized-linear-model

— Jeremy _
nguồn

gợi ý: xem điều gì xảy ra vớifamily=quasibinomial

— Ben Bolker

Hấp dẫn. Các hệ số ước tính là như nhau, nhưng sai số chuẩn thì bảo thủ hơn (và năm không có ý nghĩa trong mô hình quasibinomial). Tôi đang tìm kiếm các tập tin trợ giúp cho quasibinomial, nhưng bạn có thể giải thích những gì đang xảy ra không? Ấn tượng của tôi là quasibinomial được sử dụng chủ yếu cho quá mức. . .

— Jeremy _

Chính xác. Có nhiều sự khác biệt giữa lmvà glm(...,family=binomial), nhưng một trong những điều quan trọng là GLM nhị thức đưa ra các giả định mạnh mẽ về phương sai. Nếu dữ liệu không được cung cấp quá mức, thì việc tổng hợp / phân tách sẽ không có sự khác biệt.

— Ben Bolker

Đầu ra R cho thấy rằng tham số phân tán được lấy là 8,7. Tôi đang cố gắng tìm hiểu điều này nói gì về sự quá mức. Trong khi đó, Ben, tôi thấy rằng bạn đã có khá nhiều nền tảng với các mô hình hỗn hợp. Tôi có an toàn khi sử dụng glmom nhị phân mà không có hiệu ứng hỗn hợp cho người cung cấp thông tin hoặc nhượng quyền thương mại (trong trường hợp đó có lẽ tôi sẽ phải vector hóa tất cả dữ liệu trong khi thêm một cột cho "ID thông tin")?

— Jeremy _

Đối với dữ liệu tỷ lệ, người ta có thể lấy logarit của biến phụ thuộc trước khi khớp vì logarit biến đổi phép nhân thành phép cộng. Trong một mạch tương tự, nếu người ta cũng lấy logarit của các biến độc lập, nếu chúng cũng tỷ lệ thuận, thì kết quả phù hợp cho hồi quy tuyến tính nhiều hàm ý mô hình sản phẩm hàm năng lượng, không phải là phụ gia, ví dụ, . Nghĩa là, người ta vừa vặn . Đối với các biến tỷ lệ, điều này thường mang lại ý nghĩa cao hơn so với khớp tuyến tính, và mạnh hơn và có cao hơn . $Y=c X_1^{k1}X_2^{k2}...X_n^{kn}$ $\ln(Y)=\ln(c)+k1 \ln(X_1)+k2 \ln(X_2)...+kn \ln(X_n)$ $R^2$

Bây giờ nếu đường hồi quy không thay đổi (lý tưởng là hồi quy bivariate, ví dụ hồi quy Deming) không vượt qua {0,0}, thì nó sẽ phức tạp hơn một chút và người ta giảm thiểu chức năng mất tỷ lệ bù thay vì sử dụng ít nhất thông thường hình vuông.

— Carl
nguồn