Định nghĩa hàm softmax

Câu hỏi này tiếp theo trên stats.stackexchange.com/q/233658

Mô hình hồi quy logistic cho các lớp {0, 1} là

P (y = 1 | x) = \frac{\exp (w^{T} x)}{1 + \exp (w^{T} x)} P (y = 0 | x) = \frac{1}{1 + \exp (w^{T} x)}

$\mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)}$

Rõ ràng các xác suất đó tổng bằng 1. Bằng cách đặt chúng tôi cũng có thể xác định hồi quy logistic là $w = \beta_1 - \beta_0$

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \exp (β_{1}^{T} x)} \forall c \in {0, 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \exp(\beta_1^T x)} \quad \forall \; c \in \{0, 1\}$

Tuy nhiên, định nghĩa thứ hai hiếm khi được sử dụng vì các hệ số và không phải là duy nhất. Nói cách khác, mô hình không thể xác định được, giống như hồi quy tuyến tính với hai biến là bội số của nhau. $\beta_0$ $\beta_1$

Câu hỏi

Trong học máy, tại sao mô hình hồi quy softmax cho các lớp {0, 1, ..., K - 1} thường được định nghĩa như sau?

P (y = c | x) = \frac{\exp (β_{c}^{T} x)}{\exp (β_{0}^{T} x) + \dots + \exp (β_{K - 1}^{T} x)} \forall c \in {0, \dots, K - 1}

$\mathbb{P} (y = c \;|\; x) = \frac{\exp(\beta_c^T x)}{\exp(\beta_0^T x) + \dots + \exp(\beta_{K-1}^T x)} \quad \forall \; c \in \{0, \dots, K-1\}$

Thay vào đó không nên

\begin{aligned} P (y = c | x) & = \frac{\exp (w_{c}^{T} x)}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \forall c \in {1, \dots, K - 1} \\ P (y = 0 | x) & = \frac{1}{1 + \exp (w_{1}^{T} x) + \dots + \exp (w_{K - 1}^{T} x)} \end{aligned}

$\begin{align*} \mathbb{P} (y = c \;|\; x) &= \frac{\exp(w_c^T x)}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \quad \forall \; c \in \{1, \dots, K-1\} \\ \mathbb{P} (y = 0 \;|\; x) &= \frac{1}{1 + \exp(w_1^T x) + \dots + \exp(w_{K-1}^T x)} \end{align*}$

Lưu ý bên lề: Trong thống kê, hồi quy softmax được gọi là hồi quy logistic đa thức và các lớp là {1, ..., K}. Tôi thấy điều này hơi khó xử vì khi K = 2, các lớp là {1, 2} thay vì {0, 1} nên nó không chính xác là một khái quát của hồi quy logistic.

— nông phu
nguồn

Có phải nó thường được định nghĩa theo cách đó? Bạn có thể chỉ đến một tài liệu tham khảo?

— The Laconic

@TheLaconic Xem định nghĩa của softmax tại scikit-learn.org/urdy/modules/neural_networks_supervised.html và www.tensorflow.org/versions/r1.1/get_started/mnist/beginners

— nông dân

ĐỒNG Ý. Tôi hỏi vì tôi chưa bao giờ thấy các mô hình hồi quy MNL được định nghĩa theo cách này. Nhưng rõ ràng đó là "thông thường" trong bối cảnh mạng lưới thần kinh - và bây giờ tôi có cùng một câu hỏi như bạn.

— The Laconic

Tôi không chắc làm thế nào để trả lời câu hỏi "không nên là X". Định nghĩa đã cho là khác biệt và định nghĩa phân phối xác suất (tổng bằng 1). Có vẻ như đó là những phần quan trọng, vậy tại sao không phải là phần đó thay vì phần khác?

— kbrose

@kbrose vì thiếu nhận dạng

— Taylor

Có, bạn đúng rằng thiếu sự nhận dạng trừ khi một trong các vectơ hệ số được cố định. Có một số lý do không đề cập đến điều này. Tôi không thể nói lý do tại sao họ bỏ qua chi tiết này, nhưng đây là một lời giải thích về nó là gì và cách khắc phục nó.

Sự miêu tả

Giả sử bạn có các quan sát và các dự đoán , trong đó đi từ đến và biểu thị số / chỉ số quan sát. Bạn sẽ cần phải ước tính chiều hệ số vectơ . $y_i \in \{0, 1, 2, \ldots, K-1\}$ $\mathbf{x}_i^\intercal \in \mathbb{R}^p$ $i$ $1$ $n$ $K$ $p$ $\boldsymbol{\beta}^0, \boldsymbol{\beta}^1, \ldots, \boldsymbol{\beta}^{K-1}$

Hàm softmax thực sự được định nghĩa là có các thuộc tính tốt như tính khác biệt, tổng của nó là , v.v.

softmax (z)_{i} = \frac{\exp (z_{i})}{\sum_{l = 0}^{K - 1} \exp (z_{l})},

$\text{softmax}(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_{l=0}^{K-1}\exp(z_l)},$

1

$1$

Hồi quy logistic đa thức sử dụng hàm softmax cho mỗi lần quan sát trên vectơ $i$

[\begin{matrix} x_{i}^{⊺} β^{0} \\ x_{i}^{⊺} β^{1} \\ ⋮ \\ x_{i}^{⊺} β^{K - 1}, \end{matrix}]

$\begin{bmatrix} \mathbf{x}_i^\intercal \boldsymbol{\beta}^0 \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^1 \\ \vdots \\ \mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}, \end{bmatrix}$

có nghĩa là

[\begin{matrix} P (y_{i} = 0) \\ P (y_{i} = 1) \\ ⋮ \\ P (y_{i} = K - 1) \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] .

$\begin{bmatrix} P(y_i = 0) \\ P(y_i = 1) \\ \vdots \\ P(y_i = K-1) \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix}.$

Vấn đề

Tuy nhiên, khả năng không thể xác định được vì nhiều bộ sưu tập tham số sẽ cho khả năng giống nhau. Ví dụ: dịch chuyển tất cả các vectơ hệ số theo cùng một vectơ sẽ tạo ra khả năng tương tự. Điều này có thể được nhìn thấy nếu bạn nhân từng tử số và mẫu số của từng phần tử của vectơ với hằng số , không có gì thay đổi: $\mathbf{c}$ $\exp[-\mathbf{x}_i^\intercal \mathbf{c}]$

[\begin{matrix} \frac{\exp [x_{i}^{⊺} β^{0}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ \frac{\exp [x_{i}^{⊺} β^{1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} β^{K - 1}]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} β^{k}]} \end{matrix}] = [\begin{matrix} \frac{\exp [x_{i}^{⊺} (β^{0} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ \frac{\exp [x_{i}^{⊺} (β^{1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \\ ⋮ \\ \frac{\exp [x_{i}^{⊺} (β^{K - 1} - c)]}{\sum_{k = 0}^{K - 1} \exp [x_{i}^{⊺} (β^{k} - c)]} \end{matrix}] .

$\begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^0] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^1] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^{K-1}] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal \boldsymbol{\beta}^k] } \end{bmatrix} = \begin{bmatrix} \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^0-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^1-\mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k-\mathbf{c})] } \\ \vdots \\ \frac{\exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^{K-1} - \mathbf{c})] }{ \sum_{k=0}^{K-1} \exp[\mathbf{x}_i^\intercal (\boldsymbol{\beta}^k -\mathbf{c}) ] } \end{bmatrix}.$

Sửa nó

Cách để khắc phục điều này là hạn chế các tham số. Sửa một trong số chúng sẽ dẫn đến nhận dạng, bởi vì thay đổi tất cả chúng sẽ không còn được phép.

Có hai lựa chọn phổ biến:

đặt , có nghĩa là (bạn đề cập đến cái này) và $\mathbf{c} = \boldsymbol{\beta}^0$ $\boldsymbol{\beta}^0 = \mathbf{0}$
đặt , có nghĩa là . $\mathbf{c} = \boldsymbol{\beta}^{K-1}$ $\boldsymbol{\beta}^{K-1} = \mathbf{0}$

Bỏ qua nó

Đôi khi, sự hạn chế không cần thiết, mặc dù. Chẳng hạn, nếu bạn quan tâm đến việc hình thành khoảng tin cậy cho số lượng , thì đây cũng giống như , vì vậy hãy suy luận về số lượng tương đối không thực sự quan trọng. Ngoài ra, nếu nhiệm vụ của bạn là dự đoán thay vì suy luận tham số, dự đoán của bạn sẽ không bị ảnh hưởng nếu tất cả các vectơ hệ số được ước tính (không ràng buộc một). $\beta^0_1 - \beta^2_1$ $\beta^0_1 - c - [\beta^2_1-c]$

— Taylor
nguồn