Tính chất của hồi quy logistic


17

Chúng tôi đang làm việc với một số hồi quy logistic và chúng tôi đã nhận ra rằng xác suất ước tính trung bình luôn bằng với tỷ lệ của các mẫu trong mẫu; nghĩa là trung bình của các giá trị được trang bị bằng giá trị trung bình của mẫu.

Bất cứ ai có thể giải thích cho tôi lý do hoặc cho tôi một tài liệu tham khảo nơi tôi có thể tìm thấy cuộc biểu tình này?


2
Lý do cho điều này là hồi quy logistic đang cố gắng đạt được chính xác điều đó: mô hình hóa phân phối dữ liệu, bao gồm các xác suất trước đó ("trung bình"). Là hành vi này không mong muốn?
bayerj

1
@bayer Tính phi tuyến của hàm liên kết biểu thị hiện tượng này sâu hơn đặc tính của bạn. Có một cái gì đó để được chứng minh ở đây.
whuber

Tính chất này đôi khi được gọi là hiệu chuẩn lớn khi sử dụng hồi quy logistic để ước tính rủi ro.
julieth

Câu trả lời:


26

Hành vi bạn đang quan sát là trường hợp "điển hình" trong hồi quy logistic, nhưng không phải lúc nào cũng đúng. Nó cũng giữ trong tính tổng quát hơn nhiều (xem bên dưới). Đó là hệ quả của sự hợp lưu của ba sự kiện riêng biệt.

  1. Sự lựa chọn mô hình hóa tỷ lệ cược log như là một hàm tuyến tính của các yếu tố dự đoán,
  2. Việc sử dụng khả năng tối đa để có được ước tính của các hệ số trong mô hình hồi quy logistic và
  3. Việc đưa vào một thuật ngữ chặn trong mô hình.

Nếu bất kỳ một trong những điều trên không có mặt, thì nói chung, xác suất trung bình ước tính sẽ không khớp với tỷ lệ của những cái trong mẫu.

Tuy nhiên, (gần như) tất cả các phần mềm thống kê sử dụng ước tính khả năng tối đa cho các mô hình như vậy, vì vậy, trong thực tế, các mục 1 và 2 về cơ bản luôn luôn có mặt và mục 3 thường có mặt, trừ trường hợp đặc biệt.

Một số chi tiết

Trong khuôn khổ hồi quy logistic điển hình, chúng tôi quan sát kết quả của các thử nghiệm nhị thức độc lập với xác suất . Hãy để y i là phản ứng quan sát được. Sau đó, tổng khả năng là L = n Π i = 1 p y i i ( 1 - p i ) 1 - y i = n Π i = 1 exp ( y i log ( p i / ( 1 - p ipTôiyTôi Và do đó loga là = n Σ i = 1 y i log ( p i / ( 1 - p i ) ) + n Σ i = 1 log ( 1 - p i )

L= =ΠTôi= =1npTôiyTôi(1-pTôi)1-yTôi= =ΠTôi= =1nđiểm kinh nghiệm(yTôiđăng nhập(pTôi/(1-pTôi))+đăng nhập(1-pTôi)),
= =ΣTôi= =1nyTôiđăng nhập(pTôi/(1-pTôi))+ΣTôi= =1nđăng nhập(1-pTôi).

Bây giờ, chúng ta có một vectơ dự đoán cho mỗi quan sát và từ Fact 1 ở trên, mô hình hồi quy logistic đưa ra log p ixTôi

đăng nhậppTôi1-pTôi= =βTxTôi,
βpTôi= =1/(1+e-βTxTôi)

Sử dụng khả năng tối đa để phù hợp với mô hình (Fact 2) mang lại một bộ phương trình để giải quyết từ việc xem xét . Quan sát rằng bằng cách sử dụng mối quan hệ tuyến tính giả định giữa tỷ lệ cược log và các yếu tố dự đoán. Điều này có nghĩa là, MLE thỏa mãn vì MLE là bất biến dưới các biến đổi, do đó trong trường hợp này./β= =0

β= =ΣTôiyTôixTôi-ΣTôixTôi1+điểm kinh nghiệm(-βTxTôi)= =ΣTôiyTôixTôi-ΣTôipTôixTôi,
ΣTôiyTôixTôi= =ΣTôip^TôixTôi,
p^Tôi= =(1+điểm kinh nghiệm(-β^TxTôi))-1

Sử dụng Fact 3, nếu có thành phần luôn là 1 cho mọi , thì và do đó, tỷ lệ thực nghiệm của các phản hồi tích cực khớp với trung bình của xác suất được trang bị.xTôijTôiΣTôiyTôixTôij= =ΣTôiyTôi= =ΣTôip^Tôi

Một mô phỏng

Việc bao gồm một đánh chặn là quan trọng. Dưới đây là một ví dụ trong để chứng minh rằng hành vi được quan sát có thể không xảy ra khi không có sự can thiệp nào trong mô hình.R

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Trường hợp chung : Như đã nói ở trên, thuộc tính mà đáp ứng trung bình bằng với trung bình dự đoán trung bình có tính tổng quát cao hơn nhiều đối với lớp mô hình tuyến tính tổng quát phù hợp với khả năng tối đa, sử dụng hàm liên kết chính tắc và bao gồm cả chức năng chặn trong mô hình.

Người giới thiệu

Một số tài liệu tham khảo tốt cho lý thuyết liên quan là sau đây.

  1. A. Agresti (2002), Phân tích dữ liệu phân loại , tái bản lần 2, Wiley.
  2. P. McCullagh và JA Nelder (1989), Mô hình tuyến tính tổng quát , tái bản lần 2, Chapman & Hall. (Văn bản từ các tác giả gốc của các phương pháp chung.)

4
+1 Trình diễn này (cụ thể cho mô hình hồi quy logistic, mà không cố gắng khái quát hóa cho tất cả các GLM) cũng được đưa ra trong Maddala (1983) Biến phụ thuộc và biến định tính có giới hạn trong Kinh tế lượng , trang 25-26.
StasK

@StasK: Cảm ơn bạn đã tham khảo thêm, điều mà tôi không quen thuộc. Chúc mừng.
hồng y

@cardinal: Tôi không nhớ Agresti thảo luận về điều này. Có phải nó được thảo luận trong McCullagh và Nelder?
julieth
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.