Sai lệch biến bị bỏ qua trong hồi quy logistic so với sai lệch biến bị bỏ qua trong hồi quy bình phương nhỏ nhất bình thường


17

Tôi có một câu hỏi về sự thiên vị biến bị bỏ qua trong hồi quy logistic và tuyến tính.

Nói rằng tôi bỏ qua một số biến từ mô hình hồi quy tuyến tính. Giả sử rằng các biến bị bỏ qua không tương thích với các biến tôi đưa vào mô hình của mình. Các biến bị bỏ qua không làm sai lệch các hệ số trong mô hình của tôi.

Nhưng trong hồi quy logistic, tôi mới biết rằng điều này không đúng. Các biến bị bỏ qua sẽ thiên vị các hệ số trên các biến được bao gồm ngay cả khi các biến bị bỏ qua không tương thích với các biến được bao gồm. Tôi đã tìm thấy một bài báo về chủ đề này, nhưng tôi không thể tạo ra đầu hoặc đuôi của nó.

Đây là bài báo và một số slide powerpoint.

Sự thiên vị, rõ ràng, luôn luôn hướng về không. Bất cứ ai có thể giải thích làm thế nào điều này làm việc?


Bạn có quen thuộc với cách mô hình hồi quy logistic xuất hiện từ mô hình hồi quy tuyến tính "biến tiềm ẩn" tiềm ẩn không?
Alecos Papadopoulos

@AlecosPapadopoulos Tôi không phải là một. Món gì vậy?
Alexis

Có những bài viết khác thảo luận về điều này, nhưng bài viết bạn liên kết là dễ nhất tôi biết. Vì vậy, tôi không nghĩ rằng tôi có thể cải thiện nó.
Maarten Buis

Kính gửi ông Papadopoulos: Tôi đã đọc về ý tưởng biến tiềm ẩn. Tại sao bạn hỏi
ConfuseEconometricsUndergrad

@ Alexis Xem ví dụ: bài đăng này, stats.stackexchange.com/questions/80611/ , và bài viết trên wikipedia, en.wikipedia.org/wiki/ . Cách tiếp cận này cũng làm rõ rằng đó là giả định mà chúng tôi đưa ra về thuật ngữ lỗi của mô hình cơ bản xác định mô hình nào chúng tôi sẽ thu được ở cấp Xác suất. Đối với một ví dụ khác, nếu chúng tôi giả sử rằng lỗi cơ bản tuân theo đồng phục, chúng tôi có được Mô hình Xác suất tuyến tính, xem, stats.stackexchange.com/questions/81789
Alecos Papadopoulos

Câu trả lời:


20

Trường hợp "sai lệch suy giảm" có thể được trình bày rõ ràng hơn nếu chúng ta kiểm tra mô hình "probit" - nhưng kết quả cũng mang đến hồi quy logistic.

Bên dưới các mô hình xác suất có điều kiện (Logistic (logit), "probit" và "xác suất tuyến tính"), chúng ta có thể định nghĩa mô hình hồi quy tuyến tính tiềm ẩn (không quan sát được):

y=Xβ+u

Trong đó là một biến không quan sát được liên tục (và là ma trận hồi quy). Thuật ngữ lỗi được giả định là độc lập với các biến hồi quy và tuân theo phân phối có mật độ đối xứng quanh 0 và trong trường hợp của chúng tôi, phân phối chuẩn . X F U ( u ) = Φ ( u )yXFU(u)=Φ(u)

Chúng tôi giả định rằng những gì chúng tôi quan sát, tức là biến nhị phân , là một hàm Chỉ thị của :y *yy

y=1ify>0,y=0ify0

Sau đó, chúng tôi hỏi "xác suất mà sẽ lấy giá trị cho các biến hồi quy là bao nhiêu?" (tức là chúng ta đang xem xét một xác suất có điều kiện). Đây là1y1

P(y=1X)=P(y>0X)=P(Xβ+u>0X)=P(u>XβX)=1Φ(Χβ)=Φ(Xβ)

đẳng thức cuối cùng do tính chất "phản xạ" của hàm phân phối tích lũy tiêu chuẩn, xuất phát từ tính đối xứng của hàm mật độ quanh 0. Lưu ý rằng mặc dù chúng tôi đã giả sử rằng độc lập với , nhưng điều hòa trên là cần thiết để coi số lượng là không ngẫu nhiên.X X X βuXXXβ

Nếu chúng tôi giả sử rằng , thì chúng tôi có được mô hình lý thuyếtXβ=b0+b1X1+b2X2

(1)P(y=1X)=Φ(b0+b1X1+b2X2)

Bây giờ, độc lập với và bị loại trừ khỏi đặc tả của hồi quy cơ bản. Vì vậy, chúng tôi chỉ địnhX 1X2X1

X 2 X 2 ~ N ( μ 2 , σ 2 2 )

y=b0+b1X1+ϵ
Giả sử thêm rằng cũng là biến ngẫu nhiên bình thường . Nhưng điều này có nghĩa làX2X2N(μ2,σ22)

ϵ=u+b2X2N(b2μ2,1+b22σ22)

do sự đóng cửa dưới sự bổ sung của phân phối bình thường (và giả định độc lập). Áp dụng logic tương tự như trước đây, ở đây chúng ta có

P(y=1X1)=P(y>0X1)=P(b0+b1X1+ϵ>0X1)=P(ϵ>b0b1X1X1)

Chuẩn hóa biến chúng ta cóϵ

P(y=1X1)=1P(ϵb2μ21+b22σ22(b0+b2μ2)1+b22σ22b11+b22σ22X1X1)

(2)P(y=1X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

và người ta có thể so sánh các mô hình và .(1)(2)

Biểu thức lý thuyết ở trên, cho chúng ta biết nơi ước tính khả năng tối đa của chúng ta về sẽ hội tụ, vì nó vẫn là một công cụ ước lượng nhất quán, theo nghĩa là nó sẽ hội tụ đến đại lượng lý thuyết thực sự tồn tại trong mô hình (và tất nhiên, không phải trong ý nghĩa rằng nó sẽ tìm thấy "sự thật" trong mọi trường hợp):b1

b^1pb11+b22σ22|b^1|<|b1|

đó là kết quả "thiên về không".

Chúng tôi đã sử dụng mô hình probit chứ không phải logit (hồi quy logistic), bởi vì chỉ theo quy tắc, chúng tôi mới có thể rút ra được phân phối của . Phân phối logistic không được đóng dưới bổ sung. Điều này có nghĩa là nếu chúng ta bỏ qua một biến có liên quan trong hồi quy logistic, chúng ta cũng tạo ra lỗi chính tả phân phối, vì thuật ngữ lỗi (hiện bao gồm biến bị bỏ qua) không còn tuân theo phân phối logistic. Nhưng điều này không thay đổi kết quả thiên vị (xem chú thích 6 trong bài báo được liên kết bởi OP).ϵ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.