Làm thế nào là đơn vị softmax có nguồn gốc và ý nghĩa là gì?


8

Tôi đang cố gắng để hiểu tại sao hàm softmax được định nghĩa như vậy:

ezjΣk=1Kezk=σ(z)

Tôi hiểu làm thế nào điều này bình thường hóa dữ liệu và ánh xạ chính xác đến một số phạm vi (0, 1) nhưng sự khác biệt giữa xác suất trọng lượng thay đổi theo cấp số nhân thay vì theo tuyến tính. Có một lý do tại sao chúng ta muốn hành vi này?

Ngoài ra phương trình này có vẻ khá độc đoán và tôi cảm thấy rằng một nhóm phương trình lớn có thể đáp ứng yêu cầu của chúng tôi. Tôi chưa thấy bất kỳ dẫn xuất trực tuyến nào vì vậy tôi cho rằng đó chỉ là một định nghĩa. Tại sao không chọn bất kỳ định nghĩa khác đáp ứng các yêu cầu tương tự?


2
Bạn có thể muốn Google hồi quy logistic và hồi quy đa phương thức
seanv507

Ngoài ra, tìm kiếm trang web này!
kjetil b halvorsen 04/05/2015

Câu trả lời:


5

Phân phối phân loại là phân phối giả định tối thiểu đối với sự hỗ trợ của "một tập hợp hữu hạn các kết quả loại trừ lẫn nhau" với số liệu thống kê đầy đủ về "kết quả đã xảy ra". Nói cách khác, sử dụng bất kỳ phân phối nào khác sẽ là một giả định bổ sung. Không có bất kỳ kiến ​​thức trước, bạn phải đảm nhận một phân phối phân loại cho hỗ trợ này và thống kê đầy đủ. Đó là một gia đình theo cấp số nhân. (Tất cả các phân phối giả định tối thiểu cho một hỗ trợ nhất định và thống kê đầy đủ là các gia đình theo cấp số nhân.)

Cách chính xác để kết hợp hai niềm tin dựa trên thông tin độc lập là sản phẩm mật độ theo chiều dọc, đảm bảo không tính hai lần thông tin trước đó trong cả hai niềm tin. Đối với một gia đình theo cấp số nhân, sự kết hợp này là bổ sung các tham số tự nhiên.

Các tham số kỳ vọng là các giá trị mong đợi của trong đó là số lần bạn quan sát thấy kết quả . Đây là tham số đúng để chuyển đổi một tập hợp các quan sát thành phân phối khả năng tối đa. Bạn chỉ đơn giản là trung bình trong không gian này. Đây là những gì bạn muốn khi bạn đang mô hình hóa các quan sát.x k kxkxkk

Hàm logistic đa cực là chuyển đổi từ tham số tự nhiên sang tham số kỳ vọng của phân phối phân loại. Bạn có thể lấy chuyển đổi này dưới dạng độ dốc của trình chuẩn hóa log đối với các tham số tự nhiên.

Tóm lại, hàm logistic đa thức rơi ra khỏi ba giả định: hỗ trợ, thống kê đầy đủ và mô hình có niềm tin là sự kết hợp của các mẩu thông tin độc lập.


2

Tôi biết đây là một bài viết muộn, nhưng tôi cảm thấy như vẫn còn một số giá trị trong việc cung cấp một số biện minh cho những người xảy ra hạ cánh ở đây.

Bạn không hoàn toàn sai. Nó tùy tiện ở một mức độ nhất định, nhưng có lẽ tùy ý là từ sai. Nó giống như một sự lựa chọn thiết kế. Hãy để tôi giải thích.

Hóa ra Softmax thực sự là sự khái quát hóa của hàm Sigmoid, là đơn vị đầu ra Bernoulli (đầu ra 0 hoặc 1):

[1+exp(z)]1

Nhưng chức năng Sigmoid đến từ đâu, bạn có thể hỏi.

Chà, hóa ra là nhiều phân phối xác suất khác nhau bao gồm Bernoulli, phân phối Poisson, Gaussian, v.v ... theo một thứ gọi là Mô hình tuyến tính tổng quát (GLM). Đó là, chúng có thể được thể hiện dưới dạng:

P(y;η)=b(y)exp[ηTT(y)a(η)]

Tôi sẽ không bao gồm tất cả các tham số này là gì, nhưng bạn chắc chắn có thể nghiên cứu điều này.

Quan sát ví dụ sau về cách phân phối Bernoulli trong gia đình GLM:

P(y=1)=ϕP(y=0)=1ϕP(y)=ϕy(1ϕ)1y=exp(ylog(ϕ)+(1y)log(1ϕ))=exp(ylog(ϕ)+log(1ϕ)ylog(1ϕ))=exp(ylog(ϕ1ϕ)+log(1ϕ))

Bạn có thể thấy rằng trong trường hợp này,

b(y)=1T(y)=yη=log(ϕ1ϕ)a(η)=log(1ϕ)

Lưu ý những gì xảy ra khi chúng tôi giải quyết cho về :ϕη

η=log(ϕ1ϕ)eη=ϕ1ϕeη=1ϕϕ=1ϕ1eη+1=1ϕϕ=[exp(η)+1]1

Vì vậy, để có được , chúng ta lấy sigmoid của . Lựa chọn thiết kế xuất hiện khi chúng tôi giả sử rằng , trong đó là trọng số của bạn và là dữ liệu của bạn, cả hai đều giả sử là . Bằng cách đưa ra giả định này, chúng ta có thể điều chỉnh gần đúng .ϕ=P(y=1)ηη=wTxwxRnwϕ

Nếu bạn đã trải qua quá trình tương tự để phân phối Multinoulli, cuối cùng bạn sẽ nhận được hàm softmax.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.