Định nghĩa và nguồn gốc của entropy chéo Cross


15

Không cần trích dẫn nguồn, Wikipedia định nghĩa entropy chéo của các phân phối rời rạc QPQ

H×(P;Q)= =-Σxp(x)đăng nhậpq(x).

Ai là người đầu tiên bắt đầu sử dụng số lượng này? Và ai đã phát minh ra thuật ngữ này? Tôi nhìn vào:

JE Shore và RW Johnson, "Xuất phát từ nguyên lý của entropy tối đa và nguyên tắc entropy tối thiểu," Lý thuyết thông tin, Giao dịch theo chuẩn của IEEE, tập. 26, không 1, trang 26-37, tháng 1 năm 1980.

Tôi đã làm theo lời giới thiệu của họ về

A. Wehrl, "Tính chất chung của entropy," Nhận xét về Vật lý hiện đại, tập. 50, không 2, trang 221-260, tháng 4 năm 1978.

người không bao giờ sử dụng thuật ngữ.

Cũng như thế

S. Kullback và R. Leibler, "Về thông tin và sự đầy đủ", Biên niên sử về thống kê toán học, tập. 22, không. 1, trang 79-86, 1951.

Tôi nhìn vào

TM Cover và JA Thomas, Các yếu tố của lý thuyết thông tin (Dòng Wiley trong viễn thông và xử lý tín hiệu). Wiley-Interscience, 2006.

I. Tốt, "Entropy tối đa cho việc xây dựng giả thuyết, đặc biệt là cho các bảng dự phòng đa chiều," Biên niên sử về thống kê toán học, tập. 34, không 3, trang 911-934, 1963.

nhưng cả hai bài báo đều xác định entropy chéo là đồng nghĩa với phân kỳ KL.

Giấy gốc

CE Shannon, "Một lý thuyết toán học về truyền thông", tạp chí kỹ thuật hệ thống Bell, tập. 27, 1948.

Không đề cập đến entropy chéo (và có một định nghĩa lạ về "entropy tương đối": "Tỷ lệ của entropy của một nguồn so với giá trị tối đa mà nó có thể có trong khi vẫn bị giới hạn trong cùng các ký hiệu").

Cuối cùng, tôi tìm trong một số sách và giấy tờ cũ của Tribus.

Có ai biết phương trình trên được gọi là gì, và ai đã phát minh ra nó hoặc có một bài thuyết trình hay về nó?

Câu trả lời:


7

Tôi1:2(E)2.2-2.4

BIÊN TẬP:

Các bí danh khác bao gồm thước đo thông tin Kullback - Leibler, thước đo thông tin tương đối, entropy chéo, độ phân kỳ I và độ chính xác của Kerridge .


Cảm ơn! Tôi đã kiểm tra các tài liệu tham khảo đó, nhưng tôi vẫn gặp khó khăn khi tìm cụm từ "entropy chéo" hoặc một phương trình phù hợp. Xin vui lòng cho tôi biết nếu bạn nhìn thấy một trong một trong những bài báo hoặc cuốn sách.
Neil G

1
Bạn cũng có thể tìm kiếm ngược trong học giả Google cho các bài viết có các bí danh khác nhau được xuất bản cho đến một năm nhất định (ví dụ: entropy chéo cho đến năm 1980 ).
Itamar

1
Về chỉnh sửa gần đây của bạn, tôi quan tâm đến lịch sử của mẫu được đưa ra trong câu hỏi của tôi. Tôi đã nhận thấy rằng các bài báo ban đầu đã sử dụng "entropy chéo" có nghĩa là "phân kỳ KL". (Lưu ý rằng giấy Kullback nằm trong câu hỏi của tôi.)
Neil G

Xin lỗi, tôi đã bỏ lỡ bài báo Kullback trong câu hỏi
Itamar

4

Nhờ đề xuất của @ Itamar, tôi đã tìm thấy một đề cập trong:

IJ Good, "Một số thuật ngữ và ký hiệu trong lý thuyết thông tin", Kỷ yếu của IEE - Phần C: Chuyên khảo, tập. 103, không. 3, trang 200-204, tháng 3 năm 1956.

Nó vẫn sẽ thực sự hữu ích cho tôi để tìm một bài thuyết trình hay về entropy chéo.


2

Thanx cho điều này - tóm tắt tốt của văn học nền. Bài viết của Shore và Johnson năm 1980 trong IEEE là một khởi đầu tốt, nhưng con trỏ của @ itamar đến chuyên khảo Tốt từ năm 1956 thậm chí còn tốt hơn. Khái niệm này dường như xuất phát từ công việc của Shannon, với ghi chú AMS năm 1951 của Kullback & Leibler là nguồn gốc của việc sử dụng thuật ngữ hiện tại. Theo như nguồn gốc của thuật ngữ "entropy chéo" liên quan đến mạng lưới thần kinh nhân tạo, có một thuật ngữ được sử dụng trong một bài báo trong Khoa học, nộp năm 1994, xuất bản năm 1995, bởi GE Hinton, P. Dayan, BJ Frey & RM Neal, trong trong đó có sử dụng sớm thuật ngữ "Máy Hemholtz" - có thể là lần đầu tiên. Url để sao chép: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf Trong bài báo đó, "Thuật toán Wake-ngủ cho các mạng thần kinh không được giám sát", lưu ý trước phương trình # 5 nói: "Khi có nhiều cách khác để mô tả một vectơ đầu vào, có thể thiết kế sơ đồ mã hóa ngẫu nhiên tận dụng lợi thế của entropy trên các mô tả thay thế [1]. Chi phí là: "(xem bài viết cho eqn # 5)" Thuật ngữ thứ hai sau đó là entropy của phân phối mà trọng số công nhận gán cho các biểu diễn thay thế khác nhau. " Sau đó, eqn # 5 được viết lại thành eqn # 8, với thuật ngữ cuối cùng được mô tả là phân kỳ Kullback-Leibler giữa phân phối xác suất ban đầu và phân phối xác suất sau. Bài viết nêu rõ: "Vì vậy, đối với hai mô hình thế hệ có xác suất bằng nhau cho d, ) Bài viết này vẫn mô tả quá trình tối thiểu hóa cho thuật toán cụ thể này là tối thiểu hóa phân kỳ Kullback-Leibler, nhưng có vẻ như đó có thể là thuật ngữ "entropy trên các mô tả thay thế" được rút ngắn thành "entropy chéo". Đối với một ví dụ bằng số của entropy chéo, sử dụng TensorFlow, xem bài đăng ở đây, rất hữu ích: ) Bài viết này vẫn mô tả quá trình tối thiểu hóa cho thuật toán cụ thể này là tối thiểu hóa phân kỳ Kullback-Leibler, nhưng có vẻ như đó có thể là thuật ngữ "entropy trên các mô tả thay thế" được rút ngắn thành "entropy chéo". Đối với một ví dụ bằng số của entropy chéo, sử dụng TensorFlow, xem bài đăng ở đây, rất hữu ích: /programming/41990250/what-is-cross-entropy Lưu ý rằng giải pháp CE = 0.47965 có nguồn gốc đơn giản bằng cách lấy nhật ký tự nhiên của xác suất .619. Trong ví dụ trên, việc sử dụng mã hóa "một nóng" có nghĩa là hai xác suất ban đầu và sau khác bị bỏ qua do nhân với xác suất ban đầu có giá trị bằng 0, trong tổng của entropy chéo.


+1 Điều này có thể đúng. Vì vậy, bạn đang nói rằng năm 1994 là nguồn gốc của định nghĩa hiện đại về entropy chéo?
Neil G
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.