Có sự đồng thuận hiện tại về giá trị của Nguyên tắc tắc nghẽn thông tin để hiểu Deep Learning không?


7

Vào năm 2015, Tishby và Zaslavsky đã xuất bản một bài báo nổi tiếng tuyên bố rằng cái gọi là Nguyên tắc thắt cổ chai thông tin có thể được sử dụng để hiểu một số hành vi của các mạng lưới thần kinh sâu sắc. Trong một bài báo gần đây hơn (tháng 4 năm 2017) , Schwartz-Ziv và Tishby mở rộng về những tuyên bố này, đặc biệt là hình dung một số kết quả.

Cuối năm 2017, một bài báo quan trọng của Saxe et al. đã được đăng trên trang web OpenReview (với các phiên bản gần đây như 2 tuần trước). Nó tuyên bố rằng nhiều khiếu nại được đưa ra trong bài báo Schwartz-Ziv-Tishby không giữ được, hoặc ít nhất là không theo nguyên tắc chung. Trên thực tế, nếu tôi đọc đúng, họ cho rằng kết quả trực quan là một yếu tố của sự lựa chọn chức năng kích hoạt - một điều không quan trọng theo lý thuyết.

Tuy nhiên, trong các bình luận, Schwartz-Ziv và Tishby xuất hiện với một danh sách dài các bình luận trên tờ báo quan trọng, nói rằng những lời chỉ trích bị mất dấu. Đến lượt nó, các tác giả của bài báo quan trọng trả lời, nhưng có lẽ cuộc trò chuyện vẫn chưa kết thúc.

Tôi quan tâm đến việc bắt đầu một dự án nghiên cứu về các khía cạnh học tập sâu của nút thắt thông tin, nhưng lo lắng rằng tôi sẽ lãng phí thời gian để học một cái gì đó đã bị 'bác bỏ'. Do đó, câu hỏi của tôi là:

Ý kiến ​​chuyên gia hiện tại về khả năng áp dụng Nguyên tắc tắc nghẽn thông tin để hiểu Deep Learning là gì?

Cụ thể, tôi quan tâm đến nghiên cứu về chủ đề này ngoài những gì tôi đã liên kết và bình luận của các chuyên gia (trực tiếp hoặc gián tiếp).


Tôi nghĩ rằng đáng chú ý rằng đây là một lĩnh vực nghiên cứu tích cực và đây là một bài báo gần đây. Tổng quan về đánh giá trước xuất bản, đánh giá ngang hàng và phản hồi sau xuất bản nên được xem, như một cuộc trò chuyện đang diễn ra về chủ đề, thay vì bất kỳ bước cụ thể nào trong quy trình bao gồm "từ cuối cùng". Hoặc, theo quan điểm của người Hegel, cuộc đối thoại mà bạn đã trích dẫn bao gồm các thành phần phản đề luận án của bộ ba, và chúng ta vẫn chưa đi đến tổng hợp.
Sycorax nói phục hồi Monica

1
không có sự đồng thuận nào cả! Hãy thử xem: Tôi và nhiều người khác trong cộng đồng Deep Learning muốn xem nhiều công việc hơn về nó. Chắc chắn, có nguy cơ thất bại, nhưng bạn luôn có điều đó trong nghiên cứu. Tôi không thể nhận xét về nguy cơ "lãng phí thời gian", vì nó phụ thuộc vào những gì bạn đang bị đe dọa: 5 năm tiến sĩ. ý đầu tư cá nhân quan trọng, và do đó rủi ro cao hơn. 2 năm postdoc ít cơ hội làm cho nó hoạt động, nhưng cũng ít mất hơn. Nhưng tôi có thể cố gắng thu thập thông tin để cho phép bạn đầu tư nhiều thông tin hơn :-)
DeltaIV

PS nó cũng phụ thuộc vào mục tiêu nghề nghiệp của bạn, không có chủ đề ở đây: như một chủ đề nghiên cứu, nó hợp lý hơn nhiều cho sự nghiệp học tập. Nhưng nếu bạn muốn làm việc trong ngành công nghiệp, có nhiều chủ đề hiệu quả hơn trong Deep Learning ngay bây giờ. Đây là IMO và những người khác trong lĩnh vực này có thể cầu xin khác biệt.
DeltaIV

Câu trả lời:


1

Điều tôi sẽ nói ở đây là bằng chứng nén đảm bảo ràng buộc thấp hơn về khái quát hóa được chấp nhận, nhưng nó không được chấp nhận rộng rãi nếu giới hạn dưới này thực tế có liên quan.

Ví dụ: một mô hình có độ nén tốt hơn có thể tăng giới hạn dưới từ 1.0 lên 1.5, nhưng nó có thể không phù hợp nếu tất cả các mô hình đã hoạt động từ 2.0-2.5. Tương tự như vậy, tôi nghĩ rằng rõ ràng rằng trong khi nén là đủ cho một số lượng tổng quát hóa được đảm bảo, thì rõ ràng là không cần thiết (ví dụ, các mạng thần kinh không thể đảo ngược có thể có được sự khái quát hóa tốt).

Có lẽ kết luận đúng là lý thuyết và phân tích là một hướng hữu ích nhưng không rõ liệu nó có nói gì về các mạng thực hay không.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.