Mất logistic đa cực so với (Lỗi Entropy so với lỗi vuông)


9

Tôi quan sát thấy rằng Caffe (một khung học tập sâu) đã sử dụng Lớp mất Softmax SoftmaxWithLoss làm lớp đầu ra cho hầu hết các mẫu mô hình .

Theo như tôi biết, lớp Softmax Loss là sự kết hợp của Lớp mất logistic đa cựclớp Softmax .

Từ Caffe, họ nói rằng

Tính toán độ dốc lớp Softmax ổn định hơn về mặt số

Tuy nhiên, lời giải thích này không phải là câu trả lời mà tôi muốn, lời giải thích chỉ là so sánh sự kết hợp của Lớp mất đa phương thức logisticlớp mất Softmax thay vì từng lớp. Nhưng không so sánh với các loại chức năng mất.

Tuy nhiên, tôi muốn biết thêm sự khác biệt / ưu điểm / nhược điểm của 3 chức năng lỗi này là Mất logistic đa thức , Entropy chéo (CE) và Lỗi vuông (SE) trong quan điểm học tập có giám sát là gì? Bất kỳ bài viết hỗ trợ?


1
Chỉ là một gợi ý: Tôi đoán bạn sẽ nhận được câu trả lời nhanh hơn nếu bạn thêm thẻ "caffe" vào câu hỏi của mình. Ngoài ra việc đăng nó trên stackoverflow thay vì stackexchange có thể khiến nó chú ý hơn).
mcExchange

1
Sự kết hợp làm cho độ dốc dễ dàng để tính toán, chỉ y-t. willamette.edu/~gorr/groupes/cs449/ classify.html
Jingpeng Wu

Câu trả lời:


11

Theo tôi, hàm mất mát là hàm mục tiêu mà chúng ta muốn các mạng thần kinh của chúng ta tối ưu hóa các trọng số của nó theo nó. Do đó, nó là đặc thù nhiệm vụ và cũng bằng cách nào đó theo kinh nghiệm. Nói rõ hơn, Mất logistic đa thứcMất Entropy chéo là như nhau (vui lòng xem tại http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). Hàm chi phí của Mất đa phương thức logistic như thế này J(θ)=1m[i=1my(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))].

Nó thường được sử dụng cho vấn đề phân loại. Các Lỗi Quảng trường có phương trình như 12Ni=1Nxi1xi222.

Do đó, nó thường được sử dụng để giảm thiểu sử dụng một số lỗi xây dựng.

EDIT: @MartinThoma Công thức trên của mất hậu cần đa phương thức chỉ dành cho trường hợp nhị phân, đối với trường hợp chung, nó phải là , trong đó K là số lượng danh mục.J(θ)=[i=1mk=1K1{y(i)=k}logP(y(i)=k|x(i);θ)]


2
Trong Caffe, MultinomialLogisticLoss là , vậy ai sai ở đây? 1Nn=1Nlog(pn,ln)
moi

Không sai, là biến nhị phân, cuối cùng, nó có thể được giảm thành công thức của bạn. yi
beahacker

Tôi nghĩ rằng mất logistic đa quốc gia là không có triệu tập thứ hai, vì vậyJ(θ)=1m[i=1my(i)loghθ(x(i))]
Martin Thoma

1
@MartinThoma Công thức của tôi chỉ dành cho trường hợp nhị phân, đối với trường hợp chung, nó phải làJ(θ)=[i=1mk=1K1{y(i)=k}logP(y(i)=k|x(i);θ)]
beahacker

@beahacker Bạn có thể vui lòng cho tôi biết lý do tại sao triệu tập thứ hai không được bao gồm trong trường hợp đa phương thức như Martin Thoma đã chỉ ra. Tôi đang cố gắng để hiểu tại sao nó được thực hiện như vậy. Ít nhất bạn có thể chỉ cho tôi một số tài nguyên để xem xét.
Nandeesh

2

Tôi muốn biết thêm sự khác biệt / ưu điểm / nhược điểm của 3 chức năng lỗi này là Mất đa phương thức logistic, Entropy chéo (CE) và Lỗi vuông (SE) trong quan điểm học tập có giám sát là gì?

Sự mất mát logistic đa cực thực tế giống như entropy chéo. Nhìn vào hàm này (hàm chi phí trong softmax ): trong đó m là số mẫu, K là số lớp.

J(θ)=i=1mk=1K1{y(i)=k}logp(y(i)=kx(i);θ)

Hàm chỉ báo ( ) xác định xem giá trị dưới 0 hay 1 trong định nghĩa entropy chéo , được gắn nhãn là một điểm nóng trong dữ liệu huấn luyện và là khả năng có điều kiện của softmax (q (x) như dưới đây). p ( x ) p ( y ( i ) = k x ( i ) ; θ ) - x p ( x ) log q ( x )1{y(i)=k}p(x)p(y(i)=kx(i);θ)

xp(x)logq(x)

Và MSE chủ yếu dành cho trường hợp hàm liên kết là hàm unity (phân phối đáp ứng theo phân phối chuẩn), hồi quy tuyến tính tiêu chuẩn, trong khi entropy chéo thường là trong đó hàm liên kết là hàm logit. Dưới đây là một so sánh tuyệt vời mà bạn có thể tham khảo.

Bất kỳ bài viết hỗ trợ?

Ngoại trừ những người trong các liên kết, khuyên bạn nên minh họa điều này: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.