Trực giác đằng sau hồi quy logistic


25

Gần đây tôi bắt đầu học máy học, tuy nhiên tôi đã không nắm bắt được trực giác đằng sau hồi quy logistic .

Sau đây là những sự thật về hồi quy logistic mà tôi hiểu.

  1. Là cơ sở cho giả thuyết, chúng tôi sử dụng chức năng sigmoid . Tôi hiểu tại sao đó là một lựa chọn chính xác, tuy nhiên tại sao đó là lựa chọn duy nhất tôi không hiểu. Giả thuyết đại diện cho xác suất đầu ra thích hợp là , do đó miền của hàm của chúng ta phải là , đây là thuộc tính duy nhất của hàm sigmoid tôi thấy hữu ích và phù hợp ở đây, tuy nhiên nhiều hàm thỏa mãn tính chất này. Ngoài ra, hàm sigmoid có đạo hàm ở dạng này , nhưng tôi không thấy tiện ích của dạng đặc biệt này trong hồi quy logistic.[ 0 , 1 ] f ( x ) ( 1 - f ( x ) )1[0,1]f(x)(1f(x))

    Câu hỏi : có gì đặc biệt về chức năng sigmoid và tại sao chúng ta không thể sử dụng bất kỳ chức năng nào khác với miền ?[0,1]

  2. Hàm chi phí bao gồm hai tham số nếu nếu . Tương tự như trên, tôi hiểu tại sao nó đúng, tuy nhiên tại sao nó chỉ là hình thức duy nhất? Ví dụ: tại sao không thểlà một lựa chọn tốt cho các chức năng chi phí?y = 1 , C o s t ( h θ ( x ) , y ) = - log ( 1 - h θ ( x ) ) y = 0Cost(hθ(x),y)=log(hθ(x))y=1,Cost(hθ(x),y)=log(1hθ(x))y= =0|hθ(x)-y|

    Câu hỏi : có gì đặc biệt về hình thức hàm chi phí ở trên; Tại sao chúng ta không thể sử dụng một hình thức khác?

Tôi sẽ đánh giá cao nếu bạn có thể chia sẻ sự hiểu biết của bạn về hồi quy logistic.


5
Hàm logit / logistic không phải là hàm duy nhất có thể được sử dụng làm hàm liên kết cho các mô hình hồi quy khi đáp ứng được phân phối dưới dạng nhị thức. Về điểm này, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: mô hình khác biệt giữa logit-và-probit-mô hình .
gung - Phục hồi Monica

4
Câu trả lời của tôi ở đây: là hàm logit luôn tốt nhất cho mô hình hồi quy dữ liệu nhị phân , cũng có thể hữu ích trong việc suy nghĩ về các khả năng khác nhau.
gung - Phục hồi Monica

1
@AdamO cung cấp một cái nhìn tổng quan tuyệt vời dưới đây. Nếu bạn muốn biết thêm thông tin chi tiết về ý nghĩa của logit là 'chức năng liên kết chính tắc', bạn có thể muốn đọc câu trả lời của Momo tại đây: sự khác biệt giữa liên kết-chức năng-và-kinh điển-liên kết-chức năng-cho-glm .
gung - Phục hồi Monica

1
Một ví dụ minh họa hoạt động của (1) trong đó "sigmoid" không được sử dụng xuất hiện tại stats.stackexchange.com/a/70922 . Câu trả lời đó bao gồm một lời giải thích về (2). Một ví dụ khác xuất hiện tại stats.stackexchange.com/questions/63978/ . Một cuộc thảo luận trần tục hơn (nhưng ít kỹ thuật hơn) xảy ra tại stats.stackexchange.com/a/69873 , tập trung vào vấn đề (2).
whuber

Câu trả lời:


7

Mô hình hồi quy logistic là khả năng tối đa sử dụng tham số tự nhiên (tỷ lệ chênh lệch log) để tương phản với những thay đổi tương đối trong rủi ro về kết quả trên mỗi đơn vị chênh lệch trong dự đoán. Tất nhiên, đây là giả định một mô hình xác suất nhị thức cho kết quả. Điều đó có nghĩa là các tính chất nhất quán và mạnh mẽ của hồi quy logistic mở rộng trực tiếp từ khả năng tối đa: mạnh mẽ đến thiếu dữ liệu ngẫu nhiên, tính nhất quán của root-n, và sự tồn tại và tính duy nhất của các giải pháp để ước lượng phương trình. Điều này giả sử các giải pháp không nằm trên ranh giới của không gian tham số (trong đó tỷ lệ chênh lệch log là ). Vì hồi quy logistic là khả năng tối đa, nên hàm mất có liên quan đến khả năng, vì chúng là các vấn đề tối ưu hóa tương đương.±

Với khả năng chuẩn hóa hoặc ước lượng các phương trình (suy luận bán đảo), sự tồn tại, các tính chất duy nhất vẫn giữ nhưng giả định rằng mô hình trung bình giữ không liên quan và các lỗi suy luận và tiêu chuẩn là nhất quán bất kể lỗi chính tả mô hình. Vì vậy, trong trường hợp này, vấn đề không phải là sigmoid có phải là chức năng chính xác hay không, mà là một xu hướng mà chúng ta có thể tin tưởng và được tham số hóa bằng các tham số có thể giải thích mở rộng.

Sigmoid, tuy nhiên, không phải là chức năng mô hình nhị phân duy nhất như vậy xung quanh. Hàm probit tương phản phổ biến nhất có tính chất tương tự. Nó không ước tính tỷ lệ tỷ lệ cược log, nhưng về mặt chức năng, chúng trông rất giống nhau và có xu hướng đưa ra các xấp xỉ rất giống với cùng một điều chính xác . Người ta không cần sử dụng các thuộc tính ràng buộc trong hàm mô hình trung bình. Chỉ cần sử dụng đường cong log với hàm phương sai nhị thức sẽ đưa ra hồi quy rủi ro tương đối, một liên kết nhận dạng với phương sai nhị thức đưa ra các mô hình rủi ro phụ gia. Tất cả điều này được xác định bởi người dùng. Đáng buồn là sự hồi quy logistic là, đáng buồn thay, tại sao nó lại được sử dụng phổ biến như vậy. Tuy nhiên, tôi có lý do của mình (những lý do mà tôi đã nêu) tại sao tôi nghĩ rằng nó hợp lý cho việc sử dụng nó trong hầu hết các trường hợp mô hình kết quả nhị phân.

Trong thế giới suy luận, đối với các kết quả hiếm gặp, tỷ lệ chênh lệch có thể được hiểu một cách đại khái là "rủi ro tương đối", nghĩa là "phần trăm thay đổi tương đối trong rủi ro so sánh kết quả so với X + 1 với X". Điều này không phải lúc nào cũng đúng và nói chung, tỷ lệ chênh lệch không thể và không nên diễn giải như vậy. Tuy nhiên, các tham số đó có diễn giải và có thể dễ dàng truyền đạt cho các nhà nghiên cứu khác là một điểm quan trọng, một điều đáng buồn thiếu từ các tài liệu giáo khoa của người học máy.

Mô hình hồi quy logistic cũng cung cấp nền tảng khái niệm cho các cách tiếp cận phức tạp hơn như mô hình phân cấp, cũng như mô hình hỗn hợp và các phương pháp khả năng có điều kiện phù hợp và mạnh mẽ để tăng số lượng các tham số phiền toái theo cấp số nhân. GLMM và hồi quy logistic có điều kiện là những khái niệm rất quan trọng trong thống kê chiều cao.


1
Cảm ơn bạn rất nhiều vì câu trả lời của bạn! Có vẻ như tôi thiếu một nền tảng lớn.
dùng16168

Tôi nghĩ rằng cuốn sách Các mô hình tuyến tính tổng quát của McCullough và Nelder sẽ là một nguồn tài nguyên nền tảng tuyệt vời cho một viễn cảnh thống kê hơn.
AdamO

Nói chung, bạn có lời khuyên nào trong sách giáo khoa trong Machine learning với nội dung mô tả rất chi tiết?
dùng16168

Các yếu tố của việc học thống kê của Hastie, Tibshirani, Friedman.
AdamO

2
@ user48956 Phân tích thống kê với thiếu Dada, Little & Rubin tái bản lần 2. Thiếu dữ liệu không phải là "đại diện" cho mỗi se, mà là "xử lý" bởi thiếu sót. Điều này không đặc biệt đối với hồi quy logistic: đó là cách tiếp cận ngây thơ được sử dụng bởi tất cả các mô hình thống kê. Khi dữ liệu được định dạng trong một mảng hình chữ nhật, các hàng có giá trị bị thiếu sẽ bị bỏ qua. Điều này được gọi là một phân tích trường hợp đầy đủ. GLM và GLMMS rất mạnh để thiếu dữ liệu theo nghĩa là các phân tích trường hợp hoàn chỉnh thường không thiên vị và không hiệu quả lắm.
AdamO

6

Một cách để suy nghĩ về hồi quy logistic là mô hình đáp ứng ngưỡng. Trong các mô hình này, bạn có một biến phụ thuộc nhị phân, , mà bị ảnh hưởng bởi các giá trị của một vector của các biến độc lập X . Biến phụ thuộc Y chỉ có thể đưa vào các giá trị 0 và 1, nên bạn không thể mô hình sự phụ thuộc của Y trên X với một phương trình hồi quy tuyến tính điển hình như Y i = X i β + ε i . Nhưng chúng tôi thực sự, thực sự thích phương trình tuyến tính. Hoặc, ít nhất, tôi làm.YXYYXYi=Xiβ+ϵi

Để mô hình tình huống này, chúng tôi giới thiệu một quan sát được, biến tiềm ẩn , và chúng ta nói rằng Y đi từ bằng từ 0 đến bằng 1 khi Y * vượt qua một ngưỡng: Y * iYYY Như tôi đã viết, ngưỡng là 0. Tuy nhiên, đây chỉ là ảo ảnh. Nói chung, mô hình bao gồm một phần chặn (tức là một trong các cột củaXlà cột 1s). Điều này cho phép ngưỡng là bất cứ điều gì.

Yi=Xiβ+ϵiYi=0ifYi<0Yi=1ifYi>0
X

YXYY

βϵFP{Yi=1}=F(Xiβ)

P{Yi=1}=1F(Xiβ).

Now, the distribution function you pick for ϵ affects your estimation results. The two most common choices for F are normal (yielding the probit model) and logistic (yielding the logit model). These two distributions are so similar that there are rarely important differences in the results between them. Since logit has a very convenient closed form for both cdf and density functions, it's usually easier to use it rather than probit.

Again, just as you say, you could pick any distribution function for F and which one you pick will affect your results.


What you described is exactly the motivation for the probit model, not logistic regression.
AdamO

6
@AdamO, if the ϵi have a logistic distribution, then this describes logistic regression.
Macro

That seems like a very sensitive assumption and one that would be difficult to test. I think logistic regression can be motivated when such error distributions don't hold.
AdamO

2
@AdamO, however you motivate logistic regression, it's still mathematically equivalent to a thresholded linear regression model where the errors have a logistic distribution. I agree that this assumption may be hard to test but it's there regardless of how you motivate the problem. I recall a previous answer on CV (I can't place it right now) that showed with a simulation study that trying to tell whether a logistic or probit model "fit better" was basically a coin flip, regardless of the true data generating model. I suspect logistic is more popular because of the convenient interpretation.
Macro

2
@AdamO This is a manifestation of the usual economist/statistician divide, but . . . I don't think logistic regression is semi-parametric. The statistical model is P(Yi=1)=exp(Xiβ)1+exp(Xiβ). That's parametric. One can (and I do) interpret it as coming from a threshold model with logistic error. If I get worried about making too many assumptions on the error term, I am going to drop logistic regression, not the threshold model. Threshold models can be estimated with much weaker assumptions on the error terms using maximum score and related estimators, for example.
Bill
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.