OP nhầm tưởng mối quan hệ giữa hai chức năng này là do số lượng mẫu (tức là đơn so với tất cả). Tuy nhiên, sự khác biệt thực tế chỉ đơn giản là cách chúng tôi chọn nhãn đào tạo của mình.
Trong trường hợp phân loại nhị phân, chúng tôi có thể gán nhãn hoặc .y=±1y=0,1
Như đã nói, hàm logistic là một lựa chọn tốt vì nó có dạng xác suất, tức là và là . Nếu chúng tôi chọn nhãn chúng tôi có thể chỉ định σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
có thể được viết gọn hơn là .P(y|z)=σ(z)y(1−σ(z))1−y
Nó là dễ dàng hơn để tối đa hóa khả năng đăng nhập. Tối đa hóa khả năng đăng nhập cũng giống như giảm thiểu khả năng đăng nhập tiêu cực. Đối với mẫu , sau khi lấy logarit tự nhiên và một số đơn giản hóa, chúng ta sẽ tìm ra:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Dẫn xuất đầy đủ và thông tin bổ sung có thể được tìm thấy trên máy tính xách tay jupyter này . Mặt khác, thay vào đó, chúng tôi có thể đã sử dụng các nhãn . Đó là khá rõ ràng sau đó chúng ta có thể chỉ địnhy=±1
P(y|z)=σ(yz).
Rõ ràng là . Thực hiện theo các bước tương tự như trước khi chúng tôi giảm thiểu trong trường hợp này là hàm mấtP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Trường hợp bước cuối cùng tiếp theo sau khi chúng ta thực hiện đối ứng được gây ra bởi dấu âm. Mặc dù chúng ta không nên đánh đồng hai hình thức này, vì trong mỗi hình thức có các giá trị khác nhau, tuy nhiên hai hình thức này là tương đương:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Trường hợp là tầm thường để hiển thị. Nếu , thì ở phía bên tay trái và ở phía bên tay phải.yi=1yi≠1yi=0yi=−1
Mặc dù có thể có những lý do cơ bản là tại sao chúng ta có hai hình thức khác nhau (xem Tại sao có hai công thức / ký hiệu mất logistic khác nhau? ), Một lý do để chọn hình thức trước là để xem xét thực tế. Trước đây, chúng ta có thể sử dụng thuộc tính để tính toán tầm thường và , cả hai đều cần thiết cho phân tích hội tụ (nghĩa là để xác định độ lồi của hàm mất bằng cách tính Hessian ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)