Tại sao có hai công thức / ký hiệu mất logistic khác nhau?


23

Tôi đã thấy hai loại công thức mất logistic. Chúng ta có thể dễ dàng cho thấy chúng giống hệt nhau, sự khác biệt duy nhất là định nghĩa của nhãn y .

Xây dựng / ký hiệu 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

trong đó , trong đó hàm logistic ánh xạ một số thực đến 0,1 khoảng.p=11+exp(βTx)βTx

Xây dựng / ký hiệu 2, :y{1,+1}

L(y,βTx)=log(1+exp(yβTx))

Chọn một ký hiệu cũng giống như chọn một ngôn ngữ, có những ưu và nhược điểm để sử dụng cái này hay cái khác. Những ưu và nhược điểm của hai ký hiệu này là gì?


Nỗ lực của tôi để trả lời câu hỏi này là dường như cộng đồng thống kê thích ký hiệu đầu tiên và cộng đồng khoa học máy tính thích ký hiệu thứ hai.

  • Ký hiệu đầu tiên có thể được giải thích bằng thuật ngữ "xác suất", vì hàm logistic biến đổi một số thực βTx thành 0,1 khoảng.
  • Và ký hiệu thứ hai ngắn gọn hơn và dễ so sánh hơn với mất bản lề hoặc mất 0-1.

Tôi có đúng không Bất kỳ hiểu biết khác?


4
Tôi chắc chắn điều này đã được yêu cầu nhiều lần rồi. Ví dụ: stats.stackexchange.com/q/145147/5739
StasK

1
Tại sao bạn nói ký hiệu thứ hai dễ so sánh với mất bản lề? Chỉ vì nó được xác định trên thay vì { 0 , 1 } , hay cái gì khác? {1,1}{0,1}
Shadowtalker

1
Tôi giống như sự đối xứng của hình thức đầu tiên, nhưng phần tuyến tính được chôn khá sâu, vì vậy nó có thể khó làm việc.
Matthew Drury

@ssdecontrol hãy kiểm tra con số này, cs.cmu.edu/~yandongl/loss.html nơi trục x là và trục y là giá trị mất mát. Định nghĩa như vậy thuận tiện để so sánh với 01 mất, mất bản lề, v.v.yβTx
Haitao Du

Câu trả lời:


12

Phiên bản ngắn

  • Vâng
  • Vâng

Phiên bản dài

Điều hay ho về mô hình toán học là nó linh hoạt. Đây thực sự là các hàm mất tương đương, nhưng chúng xuất phát từ các mô hình dữ liệu cơ bản rất khác nhau.

Công thưc 1

Ký hiệu đầu tiên xuất phát từ mô hình xác suất Bernoulli cho , được quy định theo quy ước trên { 0 , 1 } . Trong mô hình này, kết quả / nhãn / lớp / dự đoán được biểu thị bằng một biến ngẫu nhiên Y theo sau phân phối B e r n o u l l i ( p ) . Do đó khả năng của nó là: P ( Y = y | p ) = L ( p ; y ) = p yy{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

cho . Sử dụng 0 và 1 làm các giá trị chỉ báo cho phép chúng ta giảm hàm piecewise ở phía bên phải thành biểu thức ngắn gọn.p[0,1]

Như bạn đã chỉ ra, sau đó bạn có thể liên kết để một ma trận của dữ liệu đầu vào x bằng cách cho phép logit p = β T x . Từ đây, thao tác đại số đơn giản cho thấy log L ( p ; y ) là giống như là người đầu tiên L ( y , β T x ) trong câu hỏi của bạn (gợi ý: ( y - 1 ) = - ( 1 - y ) ). Vì vậy, giảm thiểu mất log trên { 0 ,Yxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y) tương đương với ước tính khả năng tối đa của mô hình Bernoulli.{0,1}

Công thức này cũng là một trường hợp đặc biệt của mô hình tuyến tính tổng quát , được xây dựng như cho một khả nghịch, khả vi chức năng g và phân phối D trong gia đình mũ .YD(θ), g(Y)=βTxgD

Công thức 2

Trên thực tế .. Tôi không quen thuộc với Công thức 2. Tuy nhiên, việc xác định trên { - 1 , 1 } là tiêu chuẩn trong công thức của máy vectơ hỗ trợ . Lắp một tương ứng với SVM để tối đa hóa tối đa ( { 0 , 1 - y β T x } ) + λ β 2 .y{1,1}

max({0,1yβTx})+λβ2.

Đây là hình thức Lagrangian của một vấn đề tối ưu hóa bị ràng buộc. Đó là cũng là một ví dụ về một regularized bài toán tối ưu với hàm mục tiêu Đối với một số chức năng mất và hyperparameter vô hướng λ rằng việc kiểm soát số lượng quy tắc (hay còn gọi là "co rút") áp dụng cho β . Bản lề mất chỉ là một trong vài thả trong khả năng , mà còn bao gồm các thứ hai L ( y , β T x

(y,β)+λβ2
λβ trong câu hỏi của bạn.L(y,βTx)

Trong Công thức 1, không nên là:
py(1p)1y1y
glebm

7

Tôi nghĩ rằng @ssdecontrol đã có một câu trả lời rất hay. Tôi chỉ muốn thêm một số ý kiến ​​cho công thức 2 cho câu hỏi của riêng tôi.

L(y,y^)=log(1+exp(yy^))

Lý do mọi người thích công thức này là nó rất ngắn gọn và nó loại bỏ "chi tiết giải thích xác suất".

y^yy^

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

enter image description here

yy^y^βTx


Tôi hiểu ý của bạn về việc so sánh dễ dàng
Shadowtalker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.