Tại sao có nghĩa là bình phương sai số entropy chéo giữa phân bố theo kinh nghiệm và mô hình Gaussian?


28

Trong 5.5, Deep Learning (của Ian Goodfellow, Yoshua Bengio và Aaron Courville), nó nói rằng

Bất kỳ tổn thất nào bao gồm khả năng đăng nhập âm là một entropy chéo giữa phân phối theo kinh nghiệm được xác định bởi tập huấn luyện và phân phối xác suất được xác định theo mô hình. Ví dụ, lỗi bình phương trung bình là entropy chéo giữa phân bố theo kinh nghiệm và mô hình Gaussian.

Tôi không thể hiểu tại sao chúng tương đương và các tác giả không mở rộng quan điểm.

Câu trả lời:


32

Đặt dữ liệu là . Viết cho phân phối theo kinh nghiệm. Theo định nghĩa, cho bất kỳ chức năng ,x=(x1,,xn)fF(x)f

EF(x)[f(X)]=1ni=1nf(xi).

Đặt mô hình có mật độ trong đó được xác định trên sự hỗ trợ của mô hình. Các cross-entropy của và được định nghĩa làe f ( x ) fMef(x)fMF(x)M

(1)H(F(x),M)=EF(x)[log(ef(X)]=EF(x)[f(X)]=1ni=1nf(xi).

Giả sử là một mẫu ngẫu nhiên đơn giản, khả năng nhật ký âm của nó làx

(2)log(L(x))=logi=1nef(xi)=i=1nf(xi)

nhờ các tính chất của logarit (họ chuyển đổi sản phẩm thành tổng). Biểu thức là biểu thức lần không đổi . Bởi vì các hàm mất mát chỉ được sử dụng trong các số liệu thống kê bằng cách so sánh chúng, nên sẽ không có sự khác biệt rằng một giá trị này là hằng số (dương) so với giá trị khác. Theo nghĩa này, khả năng nhật ký phủ định "là một" entropy chéo trong trích dẫn.n ( 1 )(2)n(1)


Phải mất thêm một chút trí tưởng tượng để biện minh cho khẳng định thứ hai của trích dẫn. Kết nối với lỗi bình phương là rõ ràng, vì đối với "mô hình Gaussian" dự đoán các giá trị tại các điểm , giá trị của tại bất kỳ điểm nào làx fp(x)xf

f(x;p,σ)=12(log(2πσ2)+(xp(x))2σ2),

đó là lỗi bình phương nhưng được định cỡ lại bằng và được thay đổi bởi một hàm của . Một cách để làm cho trích dẫn chính xác là giả sử nó không xem xét một phần của "mô hình" - phải được xác định bằng cách nào đó độc lập với dữ liệu. Trong trường hợp đó, sự khác biệt giữa các lỗi bình phương trung bình tỷ lệ thuận với sự khác biệt giữa các entropi chéo hoặc khả năng đăng nhập, do đó làm cho cả ba tương đương cho các mục đích phù hợp mô hình.1 / ( 2 σ 2 ) σ(xp(x))2 1/(2σ2)σσσσ

(Thông thường, mặc dù, phù hợp như một phần của quy trình lập mô hình, trong trường hợp đó, trích dẫn sẽ không hoàn toàn chính xác.)σ=σ(x)


1
+1 với hai đề xuất - có thể sử dụng thay vì để tránh nhầm lẫn với . Thứ hai là hầu hết các ước tính của sẽ là . Khi bạn cắm cái này vào và thêm nó lên, bạn sẽ nhận được . Tương tự như công thức loại AIC ...f ( ) F ( ) σ 2 k Σ n i = 1 ( x i - p ( x i ) ) 2 - 1g()f()F()σ2ki=1n(xip(xi))212log[i=1n(xip(xi))2]+h(k)
xác suất

@probabilityislogic tôi chọn cặp và vì họ làm đại diện cho số lượng có liên quan chặt chẽ. fFf
whuber

Xin chào, tôi nghĩ rằng điều này chỉ được áp dụng cho phân phối tuyến tính. Trong các vấn đề phân phối phi tuyến, tôi nghĩ chúng ta vẫn có thể sử dụng MSE làm hàm chi phí, phải không?
Sư tử Lai

5

Đối với độc giả của cuốn sách Deep Learning, tôi muốn thêm vào câu trả lời được chấp nhận tuyệt vời mà các tác giả giải thích chi tiết về tuyên bố của họ trong phần 5.5.1 cụ thể là Ví dụ: Hồi quy tuyến tính như Khả năng tối đa .

Ở đó, họ liệt kê chính xác các ràng buộc được đề cập trong câu trả lời được chấp nhận:

y ( x ; w ) σ 2p(y|x)=N(y;y^(x;w),σ2) . Hàm đưa ra dự đoán về giá trị trung bình của Gaussian. Trong ví dụ này, chúng tôi giả định rằng phương sai được cố định với một số hằng số do người dùng chọn.y^(x;w)σ2

Sau đó, họ chỉ ra rằng việc giảm thiểu MSE tương ứng với Ước tính khả năng tối đa và do đó giảm thiểu entropy chéo giữa phân phối theo kinh nghiệm và .p(y|x)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.