Tại sao chính xác không thể hồi quy beta đối phó với 0 và 1 trong biến phản hồi?


17

Hồi quy beta (nghĩa là GLM với phân phối beta và thường là hàm liên kết logit) thường được đề xuất để xử lý phản hồi hay còn gọi là biến phụ thuộc lấy các giá trị từ 0 đến 1, chẳng hạn như phân số, tỷ lệ hoặc xác suất: Hồi quy cho kết quả (tỷ lệ hoặc phân số) từ 0 đến 1 .

Tuy nhiên, người ta luôn khẳng định rằng hồi quy beta không thể được sử dụng ngay khi biến phản hồi bằng 0 hoặc 1 ít nhất một lần. Nếu đúng như vậy, người ta cần sử dụng mô hình beta zero / one-thổi phồng hoặc thực hiện một số chuyển đổi của phản hồi, v.v.: Hồi quy Beta của dữ liệu tỷ lệ bao gồm 1 và 0 .

Câu hỏi của tôi là: thuộc tính nào của phân phối beta ngăn chặn hồi quy beta xử lý các 0 và 1 chính xác, và tại sao?

Tôi đoán rằng 1 không hỗ trợ phân phối beta. Nhưng đối với tất cả các tham số hình dạng α > 1β > 1 , cả 0 và một đều hỗ trợ phân phối beta, chỉ dành cho các tham số hình dạng nhỏ hơn mà phân phối đi đến vô cùng ở một hoặc cả hai bên. Và có lẽ dữ liệu mẫu sao cho cả αβ cung cấp phù hợp nhất sẽ bật ra trên 1 .01α>1β>1αβ1

Điều đó có nghĩa là trong một số trường hợp, trên thực tế người ta có thể sử dụng hồi quy beta ngay cả với số không / số không?

Tất nhiên ngay cả khi 0 và 1 hỗ trợ phân phối beta, xác suất quan sát chính xác 0 hoặc 1 là 0. Nhưng như vậy là xác suất để quan sát bất kỳ tập hợp giá trị có thể đếm được khác, vì vậy điều này không thể là một vấn đề, phải không? ( Nhận xét này của @Glen_b).

phân phối beta

Trong bối cảnh suy thoái beta, phân phối phiên bản beta được tham số khác nhau, nhưng với nên vẫn được xác định rõ trên [ 0 , 1 ] cho tất cả μ .ϕ=α+β>2[0,1]μ

nhập mô tả hình ảnh ở đây


2
Câu hỏi thú vị! Tôi không có câu trả lời nào ngoài những điểm đã được Kevin Wright đưa ra. Tôi đoán rằng các số 0 chính xác và các số có xác suất là các trường hợp bệnh lý (như trong hồi quy logistic) vì vậy không thú vị vì chúng không nên xảy ra.
Tim

1
@ Tim Vâng, tôi không biết nếu họ nên hay không nên xảy ra, nhưng họ làm xảy ra khá thường xuyên, nếu không mọi người sẽ không đặt câu hỏi về cách đối phó với 0s và 1s trong hồi quy beta, sẽ không giấy tờ ghi về 0- và các mô hình beta tăng 1, v.v ... Dù sao, tôi vẫn hy vọng có câu trả lời chi tiết hơn Kevin. Ít nhất nên giải thích làm thế nào những điều khoản này trong khả năng đăng nhập phát sinh.
amip nói rằng Phục hồi lại

1
Cập nhật: có thể là vì nếu 0 và 1 nằm trong hỗ trợ thì PDF tại các điểm này bằng 0, nghĩa là khả năng quan sát các giá trị này bằng không. Tôi vẫn muốn xem một câu trả lời giải thích điều này một cách cẩn thận.
amip nói rằng Phục hồi lại

Vì vậy, những gì phân phối ta nên sử dụng sau đó khi biến phản ứng giả định giá trị trong, nói, ? [0,)
Bối rối

Câu trả lời:


16

Bởi vì loglikabilities chứa cả log ( 1 - x ) , không bị ràng buộc khi x = 0 hoặc x = 1 . Xem phương trình (4) của Smithson & Verkuilen, " Máy ép chanh tốt hơn? Hồi quy khả năng tối đa với các biến phụ thuộc phân phối Beta " (liên kết trực tiếp tới PDF ).đăng nhập(x)đăng nhập(1-x)x= =0x= =1


3
yTôi= =0yTôi= =1

3
010+01

1
01

1
00,5α= =β= =20,500,50

3
@amoeba Khả năng phụ thuộc vào mật độ xác suất , không phải chính xác suất. Đôi khi, người ta có thể tránh vấn đề này bằng cách xem xét từng quan sát bao gồm xác suất của một khoảng nhỏ nhưng hữu hạn (không phải là cực tiểu) (được xác định, ví dụ , bằng độ chính xác của phép đo) hoặc bằng cách kết hợp các phân phối Beta với Gaussian rất hẹp ( trong đó loại bỏ mật độ không và vô hạn).
whuber

2

tôiog(x)tôiog(1-x)

pN

Kết quả là, theo hiểu biết của tôi về hồi quy beta, 0 và 1 sẽ tương ứng trực quan với kết quả chắc chắn (vô hạn).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.