Mất logistic đa cực so với (Lỗi Entropy so với lỗi vuông)

Tôi quan sát thấy rằng Caffe (một khung học tập sâu) đã sử dụng Lớp mất Softmax SoftmaxWithLoss làm lớp đầu ra cho hầu hết các mẫu mô hình .

Theo như tôi biết, lớp Softmax Loss là sự kết hợp của Lớp mất logistic đa cực và lớp Softmax .

Từ Caffe, họ nói rằng

Tính toán độ dốc lớp Softmax ổn định hơn về mặt số

Tuy nhiên, lời giải thích này không phải là câu trả lời mà tôi muốn, lời giải thích chỉ là so sánh sự kết hợp của Lớp mất đa phương thức logistic và lớp mất Softmax thay vì từng lớp. Nhưng không so sánh với các loại chức năng mất.

Tuy nhiên, tôi muốn biết thêm sự khác biệt / ưu điểm / nhược điểm của 3 chức năng lỗi này là Mất logistic đa thức , Entropy chéo (CE) và Lỗi vuông (SE) trong quan điểm học tập có giám sát là gì? Bất kỳ bài viết hỗ trợ?

— karfai
nguồn

Chỉ là một gợi ý: Tôi đoán bạn sẽ nhận được câu trả lời nhanh hơn nếu bạn thêm thẻ "caffe" vào câu hỏi của mình. Ngoài ra việc đăng nó trên stackoverflow thay vì stackexchange có thể khiến nó chú ý hơn).

— mcExchange

Sự kết hợp làm cho độ dốc dễ dàng để tính toán, chỉ y-t. willamette.edu/~gorr/groupes/cs449/ classify.html

— Jingpeng Wu

Câu trả lời:

Theo tôi, hàm mất mát là hàm mục tiêu mà chúng ta muốn các mạng thần kinh của chúng ta tối ưu hóa các trọng số của nó theo nó. Do đó, nó là đặc thù nhiệm vụ và cũng bằng cách nào đó theo kinh nghiệm. Nói rõ hơn, Mất logistic đa thức và Mất Entropy chéo là như nhau (vui lòng xem tại http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). Hàm chi phí của Mất đa phương thức logistic như thế này $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

Nó thường được sử dụng cho vấn đề phân loại. Các Lỗi Quảng trường có phương trình như $\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

Do đó, nó thường được sử dụng để giảm thiểu sử dụng một số lỗi xây dựng.

EDIT: @MartinThoma Công thức trên của mất hậu cần đa phương thức chỉ dành cho trường hợp nhị phân, đối với trường hợp chung, nó phải là , trong đó K là số lượng danh mục. $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker
nguồn

Trong Caffe, MultinomialLogisticLoss là , vậy ai sai ở đây?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

— moi

Không sai, là biến nhị phân, cuối cùng, nó có thể được giảm thành công thức của bạn.

y^{i}

$y^i$

— beahacker

Tôi nghĩ rằng mất logistic đa quốc gia là không có triệu tập thứ hai, vì vậy

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

— Martin Thoma

@MartinThoma Công thức của tôi chỉ dành cho trường hợp nhị phân, đối với trường hợp chung, nó phải là

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker

@beahacker Bạn có thể vui lòng cho tôi biết lý do tại sao triệu tập thứ hai không được bao gồm trong trường hợp đa phương thức như Martin Thoma đã chỉ ra. Tôi đang cố gắng để hiểu tại sao nó được thực hiện như vậy. Ít nhất bạn có thể chỉ cho tôi một số tài nguyên để xem xét.

— Nandeesh

Tôi muốn biết thêm sự khác biệt / ưu điểm / nhược điểm của 3 chức năng lỗi này là Mất đa phương thức logistic, Entropy chéo (CE) và Lỗi vuông (SE) trong quan điểm học tập có giám sát là gì?

Sự mất mát logistic đa cực thực tế giống như entropy chéo. Nhìn vào hàm này (hàm chi phí trong softmax ): trong đó m là số mẫu, K là số lớp.

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$

Hàm chỉ báo ( ) xác định xem giá trị dưới 0 hay 1 trong định nghĩa entropy chéo , được gắn nhãn là một điểm nóng trong dữ liệu huấn luyện và là khả năng có điều kiện của softmax (q (x) như dưới đây). $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

Và MSE chủ yếu dành cho trường hợp hàm liên kết là hàm unity (phân phối đáp ứng theo phân phối chuẩn), hồi quy tuyến tính tiêu chuẩn, trong khi entropy chéo thường là trong đó hàm liên kết là hàm logit. Dưới đây là một so sánh tuyệt vời mà bạn có thể tham khảo.

Bất kỳ bài viết hỗ trợ?

Ngoại trừ những người trong các liên kết, khuyên bạn nên minh họa điều này: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

— Zhang
nguồn