Sự khác biệt giữa hồi quy beta và quasi glm với phương sai = gì?


8

Đầu tiên hãy để tôi đưa ra một số nền tảng; Tôi sẽ tóm tắt câu hỏi của tôi ở cuối.

Phân phối Beta, được tham số hóa bằng trung bình và , có , trong đó là hàm phương sai.φ Var ( Y ) = V ( μ ) / ( φ + 1 ) V ( μ ) = μ ( 1 - μ )μϕVar(Y)=V(μ)/(ϕ+1)V(μ)=μ(1μ)

Trong hồi quy beta (ví dụ: sử dụng gói betareg trong R), hồi quy giả định các lỗi phân phối beta và ước tính các hiệu ứng cố định và giá trị của .ϕ

Trong hồi quy glm, có thể định nghĩa phân phối "gần đúng" với hàm phương sai là . Vì vậy, ở đây mô hình giả định các lỗi có chức năng phương sai tương tự như Beta. Hồi quy sau đó ước tính các hiệu ứng cố định và "độ phân tán" của phân phối gần đúng.μ(1μ)

Tôi có thể thiếu một cái gì đó quan trọng, nhưng dường như hai phương pháp này về cơ bản là giống hệt nhau, có lẽ chỉ khác nhau trong phương pháp ước tính của chúng.

Tôi đã thử cả hai phương pháp trong R, hồi quy trên một DV gọi là "Tương tự", nằm trong khoảng :(0,1)

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Các hệ số của hai mô hình là tương tự nhau, như là các lỗi tiêu chuẩn của chúng. Các tham số cũng tương tự: Tôi cho rằng các tham số phân tán (theo báo cáo của GLM) và có mối quan hệ sau , trong trường hợp họ là 10,6201 và 10,9254, tương ứng .φ φ = 1 / Dispersion - 1ϕφφ= =1/Phân tán-1

Tuy nhiên, không có giá trị nào trong số này là giống hệt nhau.

Đây có phải là vì điều duy nhất thực sự khác biệt trong hai phương pháp là thủ tục ước tính của chúng? Hoặc có một số khác biệt cơ bản hơn tôi đang thiếu? Ngoài ra, có lý do nào để thích một phương pháp hơn phương pháp kia không?


Nghe có vẻ như bạn đã khám phá lại hồi quy logistic phân đoạn ...
The Laconic

Câu trả lời:


5

Bạn đã đúng rằng các hàm trung bình và phương sai có cùng dạng.

Điều này cho thấy rằng trong các mẫu rất lớn, miễn là bạn không có các quan sát thực sự gần với 1 hoặc 0, họ sẽ có xu hướng đưa ra các câu trả lời khá giống nhau vì trong các quan sát tình huống đó sẽ có trọng số tương đối giống nhau.

Nhưng trong các mẫu nhỏ hơn, trong đó một số tỷ lệ liên tục tiếp cận giới hạn, sự khác biệt có thể tăng lên lớn hơn vì các trọng số tương đối được đưa ra bởi hai phương pháp sẽ khác nhau; nếu các điểm có trọng lượng khác nhau cũng có ảnh hưởng tương đối (cực đoan hơn trong không gian x), thì trong một số trường hợp, sự khác biệt có thể trở nên đáng kể.

Trong hồi quy beta, bạn sẽ ước tính thông qua ML và trong trường hợp mô hình quasibinomial - ít nhất một ước tính trong R, lưu ý nhận xét này trong trợ giúp:

Các họ quasibinomial và quasipoisson khác với các họ nhị thức và poisson chỉ ở chỗ tham số phân tán không cố định tại một, vì vậy chúng có thể mô hình phân tán quá mức. Đối với trường hợp nhị thức, xem McCullagh và Nelder (1989, trang 124 Tiếng8). Mặc dù chúng cho thấy rằng (trong một số hạn chế) một mô hình có phương sai tỷ lệ thuận với ý nghĩa như trong mô hình nhị phân, lưu ý rằng glm không tính toán các ước tính khả năng tối đa trong mô hình đó. Hành vi của S gần với các biến thể gần đúng hơn.

hTôiTôi

Lưu ý rằng họa tiết betareg đưa ra một số thảo luận về kết nối giữa các mô hình này ở cuối phần 2.


Tôi giả sử bằng "mẫu" bạn đang đề cập đến những quan sát về thành công và thất bại? DV "Tương tự" của tôi không phải là một tỷ lệ thành công; đó là sự tương tự cosin hoặc hai vectơ rất cao và được giới hạn trong khoảng từ 0 đến 1 mà không có giá trị 0 hoặc 1. Phân phối beta có vẻ là một lựa chọn hợp lý cho dữ liệu đó. Lý do tôi quan tâm đến việc chuyển qua glm là vì tôi muốn thêm một hiệu ứng ngẫu nhiên, điều này là không thể trong betareg. Tôi đang cố gắng xác định xem, trong một kịch bản như của tôi, gần như với mu (1-mu) về cơ bản là giống nhau.
Andrew Milne

Ý tôi là mẫu theo nghĩa thống kê thông thường , nhưng tôi chắc chắn không có nghĩa là mẫu đếm. Ý tôi là một mẫu các giá trị liên tục trong khoảng từ 0 đến 1 (thường là tỷ lệ cho hồi quy beta). Nếu tôi đã nói về mô hình tỷ lệ đếm Tôi sẽ không nói về vấn đề với việc "gần" 0 hoặc 1, tôi muốn được nói chuyện về những vấn đề lớn hơn với việc chính xác tại 0 và 1.
Glen_b -Reinstate Monica

Cảm ơn bạn đã làm rõ. Tôi có thể thiếu một cái gì đó rõ ràng, nhưng tôi không rõ tại sao kích thước mẫu (theo nghĩa truyền thống mà bạn muốn nói) có liên quan ở đây, hoặc tại sao các giá trị gần 0 hoặc 1 sẽ được xử lý khác nhau trong cách tiếp cận beta so với giả glm. Bạn có thể giải thích một chút?
Andrew Milne

1
nn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.