Đầu tiên hãy để tôi đưa ra một số nền tảng; Tôi sẽ tóm tắt câu hỏi của tôi ở cuối.
Phân phối Beta, được tham số hóa bằng trung bình và , có , trong đó là hàm phương sai.φ Var ( Y ) = V ( μ ) / ( φ + 1 ) V ( μ ) = μ ( 1 - μ )
Trong hồi quy beta (ví dụ: sử dụng gói betareg trong R), hồi quy giả định các lỗi phân phối beta và ước tính các hiệu ứng cố định và giá trị của .
Trong hồi quy glm, có thể định nghĩa phân phối "gần đúng" với hàm phương sai là . Vì vậy, ở đây mô hình giả định các lỗi có chức năng phương sai tương tự như Beta. Hồi quy sau đó ước tính các hiệu ứng cố định và "độ phân tán" của phân phối gần đúng.
Tôi có thể thiếu một cái gì đó quan trọng, nhưng dường như hai phương pháp này về cơ bản là giống hệt nhau, có lẽ chỉ khác nhau trong phương pháp ước tính của chúng.
Tôi đã thử cả hai phương pháp trong R, hồi quy trên một DV gọi là "Tương tự", nằm trong khoảng :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Các hệ số của hai mô hình là tương tự nhau, như là các lỗi tiêu chuẩn của chúng. Các tham số cũng tương tự: Tôi cho rằng các tham số phân tán (theo báo cáo của GLM) và có mối quan hệ sau , trong trường hợp họ là 10,6201 và 10,9254, tương ứng .φ φ = 1 / Dispersion - 1
Tuy nhiên, không có giá trị nào trong số này là giống hệt nhau.
Đây có phải là vì điều duy nhất thực sự khác biệt trong hai phương pháp là thủ tục ước tính của chúng? Hoặc có một số khác biệt cơ bản hơn tôi đang thiếu? Ngoài ra, có lý do nào để thích một phương pháp hơn phương pháp kia không?