Hàm mất nào là đúng cho hồi quy logistic?

31

Tôi đọc về hai phiên bản của hàm mất cho hồi quy logistic, phiên bản nào là đúng và tại sao?

Từ Machine Learning , Zhou ZH (bằng tiếng Trung Quốc), với : $\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b$

$\begin{matrix} (1) & l (β) = \sum_{i = 1}^{m} (- y_{i} β^{T} x_{i} + \ln (1 + e^{β^{T} x_{i}})) \end{matrix}$ $l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1$
Từ khóa học đại học của tôi, với : $z_i = y_if(x_i)=y_i(w^Tx_i + b)$

$\begin{matrix} (2) & L (z_{i}) = \log (1 + e^{- z_{i}}) \end{matrix}$ $L(z_i)=\log(1+e^{-z_i}) \tag 2$

Tôi biết rằng cái đầu tiên là sự tích lũy của tất cả các mẫu và mẫu thứ hai là cho một mẫu duy nhất, nhưng tôi tò mò hơn về sự khác biệt trong hình thức của hai hàm mất. Bằng cách nào đó tôi có cảm giác rằng chúng là tương đương.

logistic loss-functions

— xtt
nguồn

31

Mối quan hệ như sau: . $l(\beta) = \sum_i L(z_i)$

Xác định hàm logistic là . Họ sở hữu tài sản mà . Hay nói cách khác: $f(z) = \frac{e^{z}}{1 + e^{z}} = \frac{1}{1+e^{-z}}$ $f(-z) = 1-f(z)$

\frac{1}{1 + e^{z}} = \frac{e^{- z}}{1 + e^{- z}} .

$\frac{1}{1+e^{z}} = \frac{e^{-z}}{1+e^{-z}}.$

Nếu bạn có sự đối ứng của cả hai bên, thì hãy lấy nhật ký bạn nhận được:

\ln (1 + e^{z}) = \ln (1 + e^{- z}) + z .

$\ln(1+e^{z}) = \ln(1+e^{-z}) + z.$

Trừ $z$ từ cả hai phía và bạn sẽ thấy điều này:

- y_{i} β^{T} x_{i} + l n (1 + e^{y_{i} β^{T} x_{i}}) = L (z_{i}) .

$-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i}) = L(z_i).$

Chỉnh sửa:

Hiện tại tôi đang đọc lại câu trả lời này và bối rối về cách tôi có để bằng với . Có lẽ có một lỗi đánh máy trong câu hỏi ban đầu. $-y_i\beta^Tx_i+ln(1+e^{\beta^Tx_i})$ $-y_i\beta^Tx_i+ln(1+e^{y_i\beta^Tx_i})$

Chỉnh sửa 2:

Trong trường hợp không có lỗi đánh máy trong câu hỏi ban đầu, @ManelMorales có vẻ đúng để thu hút sự chú ý đến thực tế rằng, khi , hàm khối lượng xác suất có thể được viết là , do thuộc tính mà . Tôi đang viết lại nó ở đây một cách khác biệt, bởi vì anh ấy giới thiệu một sự tương đương mới trên ký hiệu . Phần còn lại theo sau bằng cách lấy khả năng log âm cho mỗi mã . Xem câu trả lời của anh ấy dưới đây để biết thêm chi tiết. $y \in \{-1,1\}$ $P(Y_i=y_i) = f(y_i\beta^Tx_i)$ $f(-z) = 1 - f(z)$ $z_i$ $y$

— Taylor
nguồn

42

OP nhầm tưởng mối quan hệ giữa hai chức năng này là do số lượng mẫu (tức là đơn so với tất cả). Tuy nhiên, sự khác biệt thực tế chỉ đơn giản là cách chúng tôi chọn nhãn đào tạo của mình.

Trong trường hợp phân loại nhị phân, chúng tôi có thể gán nhãn hoặc . $y=\pm1$ $y=0,1$

Như đã nói, hàm logistic là một lựa chọn tốt vì nó có dạng xác suất, tức là và là . Nếu chúng tôi chọn nhãn chúng tôi có thể chỉ định $\sigma(z)$ $\sigma(-z)=1-\sigma(z)$ $\sigma(z)\in (0,1)$ $z\rightarrow \pm \infty$ $y=0,1$

\begin{aligned} P (y = 1 | z) & = σ (z) = \frac{1}{1 + e^{- z}} \\ P (y = 0 | z) & = 1 - σ (z) = \frac{1}{1 + e^{z}} \end{aligned}

$\begin{equation} \begin{aligned} \mathbb{P}(y=1|z) & =\sigma(z)=\frac{1}{1+e^{-z}}\\ \mathbb{P}(y=0|z) & =1-\sigma(z)=\frac{1}{1+e^{z}}\\ \end{aligned} \end{equation}$

có thể được viết gọn hơn là . $\mathbb{P}(y|z) =\sigma(z)^y(1-\sigma(z))^{1-y}$

Nó là dễ dàng hơn để tối đa hóa khả năng đăng nhập. Tối đa hóa khả năng đăng nhập cũng giống như giảm thiểu khả năng đăng nhập tiêu cực. Đối với mẫu , sau khi lấy logarit tự nhiên và một số đơn giản hóa, chúng ta sẽ tìm ra: $m$ $\{x_i,y_i\}$

\begin{aligned} l (z) = - \log (\prod_{i}^{m} P (y_{i} | z_{i})) = - \sum_{i}^{m} \log (P (y_{i} | z_{i})) = \sum_{i}^{m} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \end{aligned}

$\begin{equation} \begin{aligned} l(z)=-\log\big(\prod_i^m\mathbb{P}(y_i|z_i)\big)=-\sum_i^m\log\big(\mathbb{P}(y_i|z_i)\big)=\sum_i^m-y_iz_i+\log(1+e^{z_i}) \end{aligned} \end{equation}$

Dẫn xuất đầy đủ và thông tin bổ sung có thể được tìm thấy trên máy tính xách tay jupyter này . Mặt khác, thay vào đó, chúng tôi có thể đã sử dụng các nhãn . Đó là khá rõ ràng sau đó chúng ta có thể chỉ định $y=\pm 1$

P (y | z) = σ (y z) .

$\begin{equation} \mathbb{P}(y|z)=\sigma(yz). \end{equation}$

Rõ ràng là . Thực hiện theo các bước tương tự như trước khi chúng tôi giảm thiểu trong trường hợp này là hàm mất $\mathbb{P}(y=0|z)=\mathbb{P}(y=-1|z)=\sigma(-z)$

\begin{aligned} L (z) = - \log (\prod_{j}^{m} P (y_{j} | z_{j})) = - \sum_{j}^{m} \log (P (y_{j} | z_{j})) = \sum_{j}^{m} \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} L(z)=-\log\big(\prod_j^m\mathbb{P}(y_j|z_j)\big)=-\sum_j^m\log\big(\mathbb{P}(y_j|z_j)\big)=\sum_j^m\log(1+e^{-yz_j}) \end{aligned} \end{equation}$

Trường hợp bước cuối cùng tiếp theo sau khi chúng ta thực hiện đối ứng được gây ra bởi dấu âm. Mặc dù chúng ta không nên đánh đồng hai hình thức này, vì trong mỗi hình thức có các giá trị khác nhau, tuy nhiên hai hình thức này là tương đương: $y$

\begin{aligned} - y_{i} z_{i} + \log (1 + e^{z_{i}}) \equiv \log (1 + e^{- y z_{j}}) \end{aligned}

$\begin{equation} \begin{aligned} -y_iz_i+\log(1+e^{z_i})\equiv \log(1+e^{-yz_j}) \end{aligned} \end{equation}$

Trường hợp là tầm thường để hiển thị. Nếu , thì ở phía bên tay trái và ở phía bên tay phải. $y_i=1$ $y_i \neq 1$ $y_i=0$ $y_i=-1$

Mặc dù có thể có những lý do cơ bản là tại sao chúng ta có hai hình thức khác nhau (xem Tại sao có hai công thức / ký hiệu mất logistic khác nhau? ), Một lý do để chọn hình thức trước là để xem xét thực tế. Trước đây, chúng ta có thể sử dụng thuộc tính để tính toán tầm thường và , cả hai đều cần thiết cho phân tích hội tụ (nghĩa là để xác định độ lồi của hàm mất bằng cách tính Hessian ). $\partial \sigma(z) / \partial z=\sigma(z)(1-\sigma(z))$ $\nabla l(z)$ $\nabla^2l(z)$

— Ma-rốc
nguồn

Là hàm mất logistic lồi?

— dùng85361

2

Nhật ký reg IS lồi, nhưng không -convex. Do đó, chúng ta không thể đặt một giới hạn về độ dài của độ dốc để hội tụ. Chúng ta có thể điều chỉnh dạng để làm cho nó lồi mạnh bằng cách thêm một thuật ngữ chính quy: với hằng số dương xác định hàm mới của chúng ta là st là lồi và bây giờ chúng ta có thể chứng minh sự hội tụ giới hạn của . Thật không may, bây giờ chúng tôi đang giảm thiểu một chức năng khác! May mắn thay, chúng ta có thể chỉ ra rằng giá trị tối ưu của hàm chính quy gần với giá trị tối ưu của giá trị gốc.

l (z)

$l(z)$

α

$\alpha$

l

$l$

λ

$\lambda$

l^{'} (z) = l (z) + λ ‖ z ‖^{2}

$l'(z)=l(z)+\lambda\|z\|^2$

l^{'} (z)

$l'(z)$

λ

$\lambda$

l^{'}

$l'$

— Manuel Morales

Cuốn sổ mà bạn giới thiệu đã biến mất, tôi có một bằng chứng khác: statlect.com/fundamentals-of-statistic/ mẹo

— Domi.Zhang

2

Tôi thấy đây là câu trả lời hữu ích nhất.

— mohit6up

@ManuelMorales Bạn có liên kết đến giá trị tối ưu của hàm được chuẩn hóa gần với giá trị ban đầu không?

— Đánh dấu

19

Tôi đã học được hàm mất cho hồi quy logistic như sau.

Hồi quy logistic thực hiện phân loại nhị phân, và do đó, đầu ra nhãn là nhị phân, 0 hoặc 1. Đặt là xác suất mà đầu ra nhị phân là 1 với vectơ đặc trưng đầu vào . Các hệ số là các trọng số mà thuật toán đang cố gắng học. $P(y=1|x)$ $y$ $x$ $w$

P (y = 1 | x) = \frac{1}{1 + e^{- w^{T} x}}

$P(y=1|x) = \frac{1}{1 + e^{-w^{T}x}}$

Vì hồi quy logistic là nhị phân, xác suất chỉ đơn giản là 1 trừ đi thuật ngữ trên. $P(y=0|x)$

P (y = 0 | x) = 1 - \frac{1}{1 + e^{- w^{T} x}}

$P(y=0|x) = 1- \frac{1}{1 + e^{-w^{T}x}}$

Hàm mất là tổng của (A) đầu ra nhân với và (B) đầu ra nhân với cho một ví dụ đào tạo, được tính tổng trên ví dụ đào tạo. $J(w)$ $y=1$ $P(y=1)$ $y=0$ $P(y=0)$ $m$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log P (y = 1) + (1 - y^{(i)}) \log P (y = 0)

$J(w) = \sum_{i=1}^{m} y^{(i)} \log P(y=1) + (1 - y^{(i)}) \log P(y=0)$

trong đó chỉ ra nhãn trong dữ liệu đào tạo của bạn. Nếu một trường hợp đào tạo có nhãn là , thì , để lại vị trí triệu hồi bên trái nhưng thực hiện triệu hồi bên phải với trở thành . Mặt khác, nếu một thể hiện đào tạo có , thì triệu hồi bên phải với thuật ngữ vẫn giữ nguyên, nhưng triệu hồi bên trái trở thành . Nhật ký xác suất được sử dụng để dễ tính toán. $y^{(i)}$ $i^{th}$ $1$ $y^{(i)}=1$ $1-y^{(i)}$ $0$ $y=0$ $1-y^{(i)}$ $0$

Nếu sau đó chúng ta thay thế và bằng các biểu thức trước đó, thì chúng ta nhận được: $P(y=1)$ $P(y=0)$

J (w) = \sum_{i = 1}^{m} y^{(i)} \log (\frac{1}{1 + e^{- w^{T} x}}) + (1 - y^{(i)}) \log (1 - \frac{1}{1 + e^{- w^{T} x}})

$J(w) = \sum_{i=1}^{m} y^{(i)} \log \left(\frac{1}{1 + e^{-w^{T}x}}\right) + (1 - y^{(i)}) \log \left(1- \frac{1}{1 + e^{-w^{T}x}}\right)$

Bạn có thể đọc thêm về hình thức này trong các ghi chú bài giảng Stanford .

— stackoverflowuser2010
nguồn

Câu trả lời này cũng cung cấp một số quan điểm liên quan ở đây.

— GeoMatt22

6

Biểu thức bạn có không phải là mất mát (được giảm thiểu), mà là khả năng đăng nhập (được tối đa hóa).

— xenocyon

2

@xenocyon đúng - công thức tương tự này thường được viết với một dấu âm được áp dụng cho tổng kết đầy đủ.

— Alex Klibisz

1

Thay vì Lỗi bình phương trung bình, chúng tôi sử dụng hàm chi phí được gọi là Cross-Entropy, còn được gọi là Mất nhật ký. Mất mát entropy chéo có thể được chia thành hai hàm chi phí riêng biệt: một cho y = 1 và một cho y = 0.

\begin{aligned} j (θ) & = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)}) \\ C o s t (h_{θ} (x), y) & = - \log (h_{θ} (x)) & i f y & = 1 \\ C o s t (h_{θ} (x), y) & = - \log (1 - h_{θ} (x)) & i f y & = 0 \end{aligned}

$\begin{align}\newcommand{\Cost}{{\rm Cost}}\newcommand{\if}{{\rm if}} j(\theta) &= \frac 1 m \sum_{i=1}^m \Cost(h_\theta(x^{(i)}), y^{(i)}) & & \\ \Cost(h_\theta(x), y) &= -\log(h_\theta(x)) & \if\ y &= 1 \\ \Cost(h_\theta(x), y) &= -\log(1-h_\theta(x)) & \if\ y &= 0 \end{align}$

Khi chúng ta đặt chúng lại với nhau, chúng ta có:

j (θ) = \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x)^{(i)})]

$j(\theta) = \frac 1 m \sum_{i=1}^m \big[y^{(i)}\log(h_\theta(x^{(i)})) + (1-y^{(i)})\log(1-h_\theta(x)^{(i)}) \big]$

Nhân và trong phương trình trên là một mẹo lén lút cho phép chúng ta sử dụng cùng một phương trình để giải cho cả hai trường hợp và . Nếu , bên thứ nhất hủy bỏ. Nếu , bên thứ hai hủy bỏ. Trong cả hai trường hợp, chúng tôi chỉ thực hiện thao tác chúng tôi cần thực hiện. $y$ $(1−y)$ $y=1$ $y=0$ $y=0$ $y=1$

Nếu bạn không muốn sử dụng một forvòng lặp, bạn có thể thử một dạng vectơ của phương trình trên

\begin{aligned} h & = g (X θ) \\ J (θ) & = \frac{1}{m} \cdot (- y^{T} \log (h) - (1 - y)^{T} \log (1 - h)) \end{aligned}

$\begin{align} h &= g(X\theta) \\ J(\theta) &= \frac 1 m \cdot \big(-y^T\log(h)-(1-y)^T\log(1-h)\big) \end{align}$

Toàn bộ lời giải thích có thể được xem trên Machine Learning Chcoateet .

— Emanuel Fontelles
nguồn