Trong trường hợp SVM lề cứng và dữ liệu có thể phân tách tuyến tính, điều này là đúng.
Một bản phác thảo trực quan: Mất mát cho mỗi datapoint trong hồi quy logistic gần như là một đường cong phân rã theo cấp số nhân khi bạn đi xa hơn khỏi ranh giới quyết định (theo đúng hướng tất nhiên). Sự phân rã theo cấp số nhân này có nghĩa là các điểm gần ranh giới nhất sẽ chịu tổn thất nhiều hơn. Khi nhiệt độ giảm xuống 0, các điểm gần biên nhất hoàn toàn chi phối tổn thất và tổn thất được xác định bằng chính xác mức độ gần các điểm gần nhất.
Hồi quy logistic nhị phân có tổn thất entropy chéo: trong đó là nhãn và là xác suất dự đoán theo .y p ( 0 , 1 )- yđăng nhậpp - ( 1 - y) đăng nhập( 1 - p )yp( 0 , 1 )
Thông thường, trong đó là hàm sigmoid. Dựa trên thông số nhiệt độ được giới thiệu trong bài báo này , tôi nghi ngờ rằng nhiệt độ đề cập đến sự điều chỉnh công thức: , trong đó là nhiệt độ và tôi ' đã bỏ thuật ngữ thiên vị cho đơn giản.σ p = σ ( w T xp = σ( wTx + b )στp = σ( wTxτ)τ
Chỉ xem xét điều khoản đầu tiên của sự mất mát, . Giả sử tất cả , bởi vì bất cứ điều gì khác có nghĩa là nằm ở phía sai của ranh giới quyết định và chịu tổn thất vô hạn là . Vì thuật ngữ hàm mũ rất nhỏ trong giới hạn, chúng tôi sử dụng khai triển taylor thứ tự đầu tiên cho để viếtwTx>0xτ→0log(1+z)-ylogp≈yexp(- w T x- yđăng nhậpp = yđăng nhập( 1 + điểm kinh nghiệm( - wTxτ) )wTx > 0xτ→0log(1+z)−ylogp≈yexp(−wTxτ)
Cho đến nay, chúng tôi chỉ sử dụng tổn thất cho một điểm dữ liệu duy nhất, nhưng tổn thất thực tế là . Chỉ xem xét các nhãn tích cực ( ). Sau đó, tổng này bị chi phối bởi thuật ngữ trong đó là nhỏ nhất (gần nhất với ranh giới quyết định).yi=1wTxi∑iyiexp(−wTxiτ)yi=1wTxi
Điều này có thể được nhìn thấy bởi vì tỷ lệ giữa thuật ngữ và thuật ngữ là đi đến vô cùng hoặc 0 là , vì vậy chỉ có thuật ngữ lớn nhất .j exp ( - w T x i / τ )ijτ→0wTxiexp(−wTxi/τ)exp(−wTxj/τ)=exp(wTxj−wTxiτ)τ→0wTxi
Một đối số đối xứng có thể được sử dụng trong thuật ngữ thứ hai trong tổn thất.
Do đó, việc mất bài toán hồi quy logistic khi nhiệt độ về 0 được giảm thiểu bằng cách tối đa hóa khoảng cách tối thiểu đến ranh giới quyết định.