Liệu chi phí entropy chéo có ý nghĩa trong bối cảnh hồi quy?


13

Liệu chi phí entropy chéo có ý nghĩa trong bối cảnh hồi quy (trái ngược với phân loại)? Nếu vậy, bạn có thể đưa ra một ví dụ đồ chơi thông qua TensorFlow không? Nếu không, tai sao không?

Tôi đã đọc về entropy chéo trong Mạng nơ-ron và Học sâu của Michael Nielsen và có vẻ như một thứ gì đó có thể được sử dụng một cách tự nhiên để hồi quy cũng như phân loại, nhưng tôi không hiểu cách bạn áp dụng nó hiệu quả trong TensorFlow kể từ khi chức năng mất mất các bản ghi (mà tôi cũng không thực sự hiểu) và chúng được liệt kê theo phân loại ở đây


2
Tôi tìm thấy ở đây trên quora nói khác với những gì được chấp nhận như một câu trả lời cho câu hỏi này
Siddharth Shakya

Nếu bạn đọc toàn bộ phản hồi, bạn sẽ thấy rằng anh ta đưa ra một "phiên bản liên tục" của entropy chéo, khá thú vị, nhưng hóa ra đó chỉ là Lỗi bình phương trung bình (MSE).
JacKeown

Câu trả lời:


11

Không, không có nghĩa gì khi sử dụng các hàm TensorFlow như tf.nn.sigmoid_cross_entropy_with_logitsđối với tác vụ hồi quy. Trong TensorFlow, entropy chéo của người Hồi giáo là viết tắt (hoặc biệt ngữ) cho entropy chéo phân loại. Entropy chéo phân loại là một hoạt động trên xác suất. Một vấn đề hồi quy cố gắng dự đoán kết quả liên tục, thay vì phân loại.

Các biệt ngữ "entropy chéo" là một chút sai lệch, bởi vì có bất kỳ số lượng các hàm mất entropy chéo; tuy nhiên, đó là một quy ước trong học máy để gọi sự mất mát đặc biệt này là mất mát "entropy chéo".

Nếu chúng ta nhìn xa hơn các hàm TensorFlow mà bạn liên kết đến, thì tất nhiên có bất kỳ số lượng các hàm entropy chéo nào có thể. Điều này là do khái niệm chung về entropy chéo là về việc so sánh hai phân phối xác suất. Tùy thuộc vào hai phân phối xác suất mà bạn muốn so sánh, bạn có thể đi đến một tổn thất khác với tổn thất entropy chéo phân loại điển hình. Ví dụ, entropy chéo của mục tiêu Gaussian với một số hiệp phương sai đường chéo trung bình nhưng cố định khác nhau làm giảm lỗi bình phương trung bình. Khái niệm chung về entropy chéo được nêu chi tiết hơn trong các câu hỏi sau:


5
Mặc dù, cần đề cập rằng sử dụng crossentropy nhị phân làm hàm mất trong tác vụ hồi quy trong đó các giá trị đầu ra là giá trị thực trong phạm vi [0,1] là một điều khá hợp lý và hợp lệ.
hôm nay ngày

@today Tôi nghĩ rằng đây là một thực tế mà một số người áp dụng vì lý do thực tế (ví dụ: mạng lưới thần kinh hội tụ nhanh hơn), nhưng tôi không chắc chắn rằng mô hình này có bất kỳ mối quan hệ nào với việc so sánh hai phân phối xác suất. Có lẽ bạn có thể chỉ ra rằng có một mối quan hệ giữa một mục tiêu có giá trị liên tục trong và entropy chéo nhị phân? [0,1]
Sycorax nói Phục hồi lại

5

Câu trả lời được đưa ra bởi @Sycorax là chính xác. Tuy nhiên, điều đáng nói là việc sử dụng entropy chéo (nhị phân) trong tác vụ hồi quy trong đó các giá trị đầu ra nằm trong phạm vi [0,1] là điều hợp lệ và hợp lý để làm. Trên thực tế, nó được sử dụng trong bộ tự động hình ảnh (ví dụ ở đâybài báo này ). Bạn có thể quan tâm để xem một bằng chứng toán học đơn giản về lý do tại sao nó hoạt động trong trường hợp này trong câu trả lời này .


Các hàm mất có thể được xem như khả năng / hậu thế hoặc một số biến đổi đơn điệu của chúng. Vì vậy, trong khi sự thật là trong một số mô hình hồi quy, một sự mất mát tương tự như entropy chéo có thể có ý nghĩa, nó có thể không phải là một cách tiếp cận hợp lý để đối phó với bất kỳ hồi quy nào trong đó các đầu ra nằm trong phạm vi . [0,1]
InfProbSciX

@InfProbSciX "có thể không phải là một cách tiếp cận hợp lý để đối phó với bất kỳ hồi quy nào trong đó các đầu ra nằm trong phạm vi [0,1]." Vậy "hợp lý" theo nghĩa nào? Hoặc làm thế nào để bạn xác định tính hợp lý của chức năng mất cho một nhiệm vụ cụ thể? Tôi nghi ngờ rằng tuyên bố đó có thể đúng cho bất kỳ chức năng mất. Có bất kỳ hàm mất mát nào sẽ hợp lý để sử dụng cho tất cả các loại nhiệm vụ hồi quy, tất nhiên sau khi xác định "hợp lý" không?
hôm nay ngày

Cách tôi định nghĩa hợp lý là xây dựng luật mẫu. Ví dụ: trong khung hồi quy, chẳng hạn như trong đó là các lỗi iid - giả sử được phân phối bình thường, khả năng đăng nhập âm chính xác là mất bình phương. Trong một cài đặt trong đó luật mô hình trông giống như , khả năng nhật ký âm chính xác là entropy chéo nhị phân. Trong đó luật là hồi quy tuyến tính với giá trị bình thường trước các coefs, tổn thất tương ứng với hình phạt L2, v.v. Nếu có thể, tôi sẽ xây dựng một luật và sau đó rút ra một khoản lỗ. ϵ Y B e r n o u l l i ( p θ )Y=fθ(X)+ϵϵYBernoulli(pθ)
InfProbSciX

@InfProbSciX Cảm ơn bạn đã trả lời. Vì vậy, như bạn đã đề cập, tùy thuộc vào nhiệm vụ hồi quy (và các giả định về phân phối dữ liệu, lỗi, v.v.), một hàm mất có thể không hợp lý để sử dụng. Và, như tôi đã đề cập, điều này đúng với tất cả các hàm mất mát, bao gồm cả crossentropy. Tất nhiên, tôi thấy quan điểm của bạn rằng chỉ vì các giá trị đầu ra nằm trong phạm vi [0,1] không đảm bảo rằng crossentropy là hàm mất lựa chọn tối ưu và tôi đã không cố gắng chuyển tải câu trả lời khác.
hôm nay ngày

5

Các khung học tập sâu thường trộn lẫn các mô hìnhtổn thất và đề cập đến entropy chéo của một mô hình đa phương thức với tính phi tuyến mềm của softmax bởi cross_entropy, điều này gây hiểu nhầm. Nói chung, bạn có thể định nghĩa entropy chéo cho các mô hình tùy ý .

Đối với một mô hình Gaussian với trung bình cộng khác nhau nhưng hiệp phương sai cố định, nó tương đương với MSE. Đối với một hiệp phương sai chung, entropy chéo sẽ tương ứng với khoảng cách Mahalanobis bình phương . Đối với phân phối theo cấp số nhân, tổn thất entropy chéo sẽ trông giống như trong đó là liên tục nhưng không âm. Vì vậy, , entropy chéo có thể được sử dụng cho hồi quy.

fθ(x)ylogfθ(x),
y


2

Thật không may, câu trả lời được chấp nhận bởi @Sycorax, trong khi chi tiết, là không chính xác.

Trên thực tế, một ví dụ điển hình của hồi quy thông qua entropy chéo phân loại - Wavenet - đã được thực hiện trong TensorFlow .

Nguyên tắc là bạn rời rạc không gian đầu ra và sau đó mô hình của bạn chỉ dự đoán thùng tương ứng; xem Phần 2.2 của bài báo để biết ví dụ trong miền mô hình hóa âm thanh. Vì vậy, trong khi về mặt kỹ thuật, mô hình thực hiện phân loại, nhiệm vụ cuối cùng được giải quyết là hồi quy.

Một nhược điểm rõ ràng là, bạn mất độ phân giải đầu ra. Tuy nhiên, đây có thể không phải là vấn đề (ít nhất tôi nghĩ rằng trợ lý nhân tạo của Google đã nói giọng rất nhân văn ) hoặc bạn có thể chơi xung quanh với một số xử lý hậu kỳ, ví dụ như nội suy giữa thùng có thể xảy ra nhất và đó là hai người hàng xóm.

Mặt khác, cách tiếp cận này làm cho mô hình mạnh hơn nhiều so với đầu ra đơn vị tuyến tính đơn thông thường, nghĩa là cho phép thể hiện dự đoán đa phương thức hoặc để đánh giá độ tin cậy của nó. Lưu ý rằng mặc dù cái sau có thể đạt được một cách tự nhiên bằng các phương tiện khác, ví dụ: bằng cách có đầu ra phương sai (log) rõ ràng như trong Bộ biến đổi tự động biến đổi.

Dù sao, cách tiếp cận này không mở rộng tốt cho đầu ra nhiều chiều hơn, bởi vì sau đó kích thước của lớp đầu ra tăng theo cấp số nhân, làm cho nó trở thành vấn đề tính toán và mô hình hóa ..


1
Tôi thấy những gì bạn đang nói, nhưng cá nhân tôi sẽ không coi việc không gian đầu ra của bạn là thực hiện "hồi quy" nhiều như nó gần đúng với một vấn đề hồi quy bằng cách sử dụng phân loại ... nhưng tôi đoán đó chỉ là vấn đề về thuật ngữ / quy ước.
JacKeown

1
Đã đồng ý. Không gian nổi 32 bit dù sao cũng rời rạc :-)
khấu trừ vào

-1

Tôi đã xem lại câu hỏi này vì bây giờ tôi không đồng ý với câu trả lời mà tôi đã chấp nhận trước đây. Mất entropy chéo CÓ THỂ được sử dụng trong hồi quy (mặc dù nó không phổ biến.)

Thực tế là entropy chéo là một khái niệm chỉ có ý nghĩa khi so sánh hai phân phối xác suất. Bạn có thể xem xét một mạng thần kinh tạo ra độ lệch trung bình và độ lệch chuẩn cho phân phối bình thường như dự đoán của nó. Sau đó, nó sẽ bị trừng phạt nặng nề hơn vì tự tin hơn về những dự đoán xấu. Vì vậy, có, nó có ý nghĩa, nhưng chỉ khi bạn xuất ra một bản phân phối theo một nghĩa nào đó. Liên kết từ @SiddharthShakya trong một bình luận cho câu hỏi ban đầu của tôi cho thấy điều này.


1
Câu trả lời này dường như trả lời câu hỏi theo một cách khác so với câu hỏi. Các hàm mà bạn liên kết đến trong câu hỏi là về một loại mất entropy chéo cụ thể và câu hỏi của bạn dường như hỏi liệu các hàm đó có thể được sử dụng trong hồi quy hay không, và câu trả lời của tôi được viết như thể bạn đang hỏi cách sử dụng các hàm đó bạn liên kết đến. Câu trả lời ở đây dường như trả lời cho câu hỏi "Có thể khái quát hóa entropy vượt ra ngoài phân loại không?" Chỉnh sửa Q sẽ làm rõ rằng trọng tâm là cách xác định các khái niệm toán học, thay vì tập trung vào cách sử dụng các hàm Tensorflow.
Sycorax nói Phục hồi lại

Tôi hiểu sự phản đối của bạn, nhưng tôi dự định rời khỏi câu hỏi vì nó đại diện cho truy vấn ban đầu của tôi mà tôi cảm thấy có thể giúp mọi người với cùng một câu hỏi mà tôi có. Ở bất kỳ giá nào, toàn bộ bài đăng phải chứa đủ thông tin tổng thể.
JacKeown
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.