Giả sử nói chung rằng bạn đã quyết định lấy một mô hình của mẫu
P(y=1|X=x)=h(x;Θ)
đối với một số thông số . Sau đó, bạn chỉ cần viết ra khả năng cho nó, tức làΘ
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0P(y=0|x=x;Θ)
giống như
L(Θ)=∏i∈{1,...,N},yi=1P(y=1|x=x;Θ)⋅∏i∈{1,...,N},yi=0(1−P(y=1|x=x;Θ))
Bây giờ bạn đã quyết định 'giả định' (mô hình)
P(y=1|X=x)=σ(Θ0+Θ1x)
nơi
σ(z)=1/(1+e−z)
vì vậy bạn chỉ tính toán công thức cho khả năng và làm một số loại thuật toán tối ưu hóa trong để tìm ra , ví dụ, Newtons phương pháp hoặc bất kỳ phương pháp dựa dốc khác.argmaxΘL(Θ)
Đôi khi, mọi người nói rằng khi họ thực hiện hồi quy logistic, họ không tối đa hóa khả năng (như chúng tôi / bạn đã làm ở trên) mà là họ giảm thiểu chức năng mất
l(Θ)=−∑i=1Nyilog(P(Yi=1|X=x;Θ))+(1−yi)log(P(Yi=0|X=x;Θ))
nhưng lưu ý rằng .−log(L(Θ))=l(Θ)
Đây là một mô hình chung trong Machine Learning: Mặt thực tế (giảm thiểu các hàm mất mát để đo mức độ "sai" của một mô hình heuristic) trên thực tế bằng với "mặt lý thuyết" (mô hình hóa rõ ràng với -symbol, tối đa hóa các đại lượng thống kê như khả năng) và trên thực tế, nhiều mô hình không giống như xác suất (ví dụ SVM) có thể được sử dụng lại trong bối cảnh xác suất và trên thực tế là tối đa hóa khả năng.P