Máy vectơ hỗ trợ (SVM) là giới hạn nhiệt độ bằng không của hồi quy logistic?


8

Gần đây tôi đã có một cuộc thảo luận nhanh với một người bạn am hiểu, người đã đề cập rằng các SVM là giới hạn nhiệt độ bằng không của hồi quy logistic. Cơ sở lý luận liên quan đến polytopes cận biên và nhị nguyên fenchel. Tôi đã không thể làm theo.

Là tuyên bố về các SVM là giới hạn nhiệt độ bằng không của hồi quy logistic có đúng không? Và nếu vậy, ai đó có thể mô tả các đối số?


Cả hai đều có liên quan, nhưng tôi đã từng nghĩ trong hồi quy logistic là tốt hơn để có được xác suất của mỗi lớp trong khi các SVM quyết định tốt hơn. Vì vậy, hồi quy logistic phù hợp độc đáo với suy luận Bayes, cung cấp một mức độ tự tin cho mỗi phân loại. Mặt khác, các SVM sẽ mở rộng tốt hơn khi chỉ các vectơ hỗ trợ tác động đến phân loại. Đây là năm xu của tôi.
Ailton Andrade de Oliveira

Câu trả lời:


5

Trong trường hợp SVM lề cứng và dữ liệu có thể phân tách tuyến tính, điều này là đúng.

Một bản phác thảo trực quan: Mất mát cho mỗi datapoint trong hồi quy logistic gần như là một đường cong phân rã theo cấp số nhân khi bạn đi xa hơn khỏi ranh giới quyết định (theo đúng hướng tất nhiên). Sự phân rã theo cấp số nhân này có nghĩa là các điểm gần ranh giới nhất sẽ chịu tổn thất nhiều hơn. Khi nhiệt độ giảm xuống 0, các điểm gần biên nhất hoàn toàn chi phối tổn thất và tổn thất được xác định bằng chính xác mức độ gần các điểm gần nhất.

Hồi quy logistic nhị phân có tổn thất entropy chéo: trong đó là nhãn và là xác suất dự đoán theo .y p ( 0 , 1 )ylogp(1y)log(1p)yp(0,1)

Thông thường, trong đó là hàm sigmoid. Dựa trên thông số nhiệt độ được giới thiệu trong bài báo này , tôi nghi ngờ rằng nhiệt độ đề cập đến sự điều chỉnh công thức: , trong đó là nhiệt độ và tôi ' đã bỏ thuật ngữ thiên vị cho đơn giản.σ p = σ ( w T xp=σ(wTx+b)στp=σ(wTxτ)τ

Chỉ xem xét điều khoản đầu tiên của sự mất mát, . Giả sử tất cả , bởi vì bất cứ điều gì khác có nghĩa là nằm ở phía sai của ranh giới quyết định và chịu tổn thất vô hạn là . Vì thuật ngữ hàm mũ rất nhỏ trong giới hạn, chúng tôi sử dụng khai triển taylor thứ tự đầu tiên cho để viếtwTx>0xτ0log(1+z)-ylogpyexp(- w T xylogp=ylog(1+exp(wTxτ))wTx>0xτ0log(1+z)ylogpyexp(wTxτ)

Cho đến nay, chúng tôi chỉ sử dụng tổn thất cho một điểm dữ liệu duy nhất, nhưng tổn thất thực tế là . Chỉ xem xét các nhãn tích cực ( ). Sau đó, tổng này bị chi phối bởi thuật ngữ trong đó là nhỏ nhất (gần nhất với ranh giới quyết định).yi=1wTxiiyiexp(wTxiτ)yi=1wTxi

Điều này có thể được nhìn thấy bởi vì tỷ lệ giữa thuật ngữ và thuật ngữ là đi đến vô cùng hoặc 0 là , vì vậy chỉ có thuật ngữ lớn nhất .j exp ( - w T x i / τ )ijτ0wTxiexp(wTxi/τ)exp(wTxj/τ)=exp(wTxjwTxiτ)τ0wTxi

Một đối số đối xứng có thể được sử dụng trong thuật ngữ thứ hai trong tổn thất.

Do đó, việc mất bài toán hồi quy logistic khi nhiệt độ về 0 được giảm thiểu bằng cách tối đa hóa khoảng cách tối thiểu đến ranh giới quyết định.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.