TCS muốn loại câu trả lời nào cho câu hỏi Tại sao mạng nơ ron hoạt động tốt như vậy?

52

Tiến sĩ của tôi là trong toán học thuần túy, và tôi thừa nhận tôi không biết nhiều (tức là bất cứ điều gì) về CS lý thuyết. Tuy nhiên, tôi đã bắt đầu khám phá các lựa chọn phi học thuật cho sự nghiệp của mình và giới thiệu bản thân với học máy, tình cờ tìm thấy những câu như "Không ai hiểu tại sao mạng lưới thần kinh hoạt động tốt", điều mà tôi thấy thú vị.

Câu hỏi của tôi, về cơ bản, là những loại câu trả lời mà các nhà nghiên cứu muốn? Đây là những gì tôi đã tìm thấy trong tìm kiếm ngắn gọn của tôi về chủ đề:

Các thuật toán thực hiện các mạng thần kinh đơn giản là khá đơn giản.
Quá trình của SGD được hiểu rõ về mặt toán học, cũng như lý thuyết thống kê.
Định lý gần đúng phổ quát là mạnh mẽ và đã được chứng minh.
Có một bài báo hay gần đây https://arxiv.org/abs/1608.08225 về cơ bản đưa ra câu trả lời rằng phép tính gần đúng phổ quát hơn nhiều so với thực tế chúng ta cần vì chúng ta có thể đưa ra các giả định đơn giản hóa mạnh mẽ về các chức năng mà chúng ta đang cố gắng mô hình hóa với mạng lưới thần kinh.

Trong bài báo đã nói ở trên, họ tuyên bố (diễn giải) "Các thuật toán GOFAI được hiểu đầy đủ về mặt phân tích, nhưng nhiều thuật toán ANN chỉ được hiểu theo cách hiểu". Các định lý hội tụ cho các thuật toán được triển khai là một ví dụ về sự hiểu biết phân tích rằng dường như chúng ta có về các mạng thần kinh, vì vậy một tuyên bố ở cấp độ tổng quát này không cho tôi biết nhiều về những gì được biết so với chưa biết hoặc những gì sẽ được coi là "một câu trả lời . "

Các tác giả đề nghị trong kết luận rằng các câu hỏi như giới hạn hiệu quả về kích thước của mạng lưới thần kinh cần thiết để xấp xỉ một đa thức đã cho là mở và thú vị. Các ví dụ khác về các câu hỏi phân tích cụ thể về mặt toán học cần được trả lời để nói rằng chúng ta "hiểu" các mạng lưới thần kinh là gì? Có câu hỏi nào có thể được trả lời bằng ngôn ngữ toán học thuần túy hơn không?

(Tôi đặc biệt nghĩ về các phương pháp trong lý thuyết biểu diễn do sử dụng vật lý trong bài báo này --- và, ích kỷ, bởi vì đó là lĩnh vực nghiên cứu của tôi. Tuy nhiên, tôi cũng có thể tưởng tượng các lĩnh vực như lý thuyết tổ hợp / đồ thị, hình học đại số và cấu trúc liên kết cung cấp các công cụ khả thi.)

machine-learning

— Nắm bắt
nguồn

3

GOFAI có thực sự được hiểu rõ không? Rất nhiều GOFAI dường như tự hào về việc giải SAT, vấn đề NP hoàn chỉnh. Người giải SAT hiện đại hoạt động rất tốt trong thực tế, mặc dù họ không nên theo lý thuyết còn tồn tại. Tại sao?

— Martin Berger

thực sự có nghiên cứu trước sâu và nghiên cứu / thay đổi / lịch sử học tập sâu trong lĩnh vực này và một sự thay đổi mô hình chính trong lĩnh vực này. học sâu chỉ cất cánh trong vòng nửa thập kỷ qua. câu trả lời đơn giản là các mạng nơ-ron có thể biểu diễn các hàm phức tạp tùy ý và độ phức tạp đó hiện đang ở mức rất tiên tiến với các mạng nơ-ron sâu. một câu trả lời khác là các vấn đề được nghiên cứu và thậm chí có thể là "thực tế nói chung", là "được xây dựng từ các tính năng" và ANN hiện đang có kinh nghiệm trong việc học các tính năng rất phức tạp.

— vzn

Tôi không nghĩ mọi người đang thực sự tìm kiếm "câu trả lời" ở đây. Họ tìm cách sử dụng các mạng lưới thần kinh để giải quyết vấn đề và nếu vấn đề thực sự được giải quyết thì không sao cả. Biết làm thế nào các mạng đạt được giải pháp đó không nhất thiết phải quan tâm ở đây. Không ai quan tâm nhiều nếu đó là một hộp đen / mờ miễn là nó giải quyết được vấn đề.

— xji

38

Có một loạt các định lý "không ăn trưa miễn phí" trong học máy, đại khái là không thể có một thuật toán học chính nào thực hiện tốt hơn tất cả các thuật toán khác (xem, ví dụ, tại đây http: //www.no-free- ăn trưa.org / ). Chắc chắn, học sâu có thể bị "phá vỡ" mà không gặp nhiều khó khăn: http://www.evolveai.org/fooling

Do đó, để có hiệu quả rõ rệt, người học cần có sự thiên vị quy nạp --- tức là, một số giả định trước về dữ liệu. Các ví dụ về sai lệch quy nạp bao gồm các giả định về độ thưa của dữ liệu, hoặc chiều thấp hoặc phân phối có yếu tố độc đáo hoặc có biên độ lớn, v.v ... Các thuật toán học thành công khác nhau khai thác các giả định này để chứng minh các đảm bảo tổng quát. Ví dụ, SVM (tuyến tính) hoạt động tốt khi dữ liệu được phân tách tốt trong không gian; mặt khác - không quá nhiều

Tôi nghĩ rằng thách thức chính với việc học sâu là hiểu sự thiên vị quy nạp của nó là gì. Nói cách khác, đó là để chứng minh các định lý thuộc loại: Nếu dữ liệu đào tạo thỏa mãn các giả định này, thì tôi có thể đảm bảo một cái gì đó về hiệu suất tổng quát hóa. (Nếu không, tất cả các cược đã tắt.)

Cập nhật (tháng 9-2019): Trong hai năm kể từ câu trả lời được đăng của tôi, đã có rất nhiều tiến bộ trong việc tìm hiểu xu hướng quy nạp ẩn trong các thuật toán DL và các thuật toán liên quan khác nhau. Một trong những hiểu biết quan trọng là thuật toán tối ưu hóa thực tế đang được sử dụng là rất quan trọng, vì sự hội tụ thống nhất không thể giải thích được tại sao một hệ thống tham số quá mức ồ ạt như ANN lớn có thể học được. Nó chỉ ra rằng các phương thức tối ưu hóa khác nhau (như SGD) đang hoàn toàn chính quy hóa theo các tiêu chuẩn khác nhau (chẳng hạn như ). Xem bài giảng tuyệt vời này để biết các ví dụ khác và nhiều hơn nữa: https://www.youtube.com/watch?v=zK84N6ST9sM $\ell_2$

— Aryeh
nguồn

Cần lưu ý rằng các ví dụ đối nghịch không phải là duy nhất cho các mạng lưới thần kinh sâu. Chúng cũng có thể dễ dàng được xây dựng cho hồi quy tuyến tính và logistic, ví dụ: arxiv.org/pdf/1412,6572.pdf

— Lenar Hoyt

1

Có, nhưng hồi quy tuyến tính và logistic được hiểu tốt hơn về mặt lý thuyết.

— Aryeh

2

Có lẽ cũng cần lưu ý rằng các định lý NFL có thể không đóng vai trò lớn trong học máy thực tế bởi vì trong khi NFL liên quan đến lớp của tất cả các hàm, thì các vấn đề trong thế giới thực thường bị hạn chế đối với các hàm trơn tru hoặc thậm chí các hàm cụ thể hơn như những cái được xem xét trong bài báo của Lin và Tegmark. Có thể tìm thấy những thành kiến quy nạp bao gồm tất cả các vấn đề học tập mà chúng ta quan tâm.

— Lenar Hoyt

4

Sau đó, trước tiên chúng ta nên chính thức hóa không gian này của "tất cả các vấn đề học tập mà chúng ta quan tâm".

— Aryeh

1

Điều đó chắc chắn có vẻ đáng giá, đặc biệt là liên quan đến an toàn AI. Chúng ta cần có khả năng xác định một cách đáng tin cậy những gì một thuật toán học máy được cho là học.

— Lenar Hoyt

26

Có hai lỗ hổng chính trong sự hiểu biết của chúng ta về mạng lưới thần kinh: độ cứng tối ưu hóa và hiệu suất tổng quát hóa.

Đào tạo một mạng lưới thần kinh đòi hỏi phải giải quyết một vấn đề tối ưu hóa không lồi ở các chiều cao. Các thuật toán đào tạo hiện tại đều dựa trên độ dốc gốc, chỉ đảm bảo hội tụ đến một điểm tới hạn (tối thiểu cục bộ hoặc yên xe). Trên thực tế, Anandkumar & Ge 2016 gần đây đã chứng minh rằng việc tìm kiếm ngay cả mức tối thiểu cục bộ là NP-hard, điều đó có nghĩa là (giả sử P! = NP) tồn tại "xấu", khó thoát, điểm yên trong bề mặt lỗi.
Tuy nhiên, các thuật toán đào tạo này có hiệu quả về mặt thực nghiệm cho nhiều vấn đề thực tế và chúng tôi không biết tại sao.
Đã có những bài báo lý thuyết như Choromanska et al. 2016 và Kawaguchi 2016chứng minh rằng, theo những giả định nhất định, cực tiểu địa phương về cơ bản tốt như cực tiểu toàn cầu, nhưng các giả định mà chúng đưa ra có phần không thực tế và chúng không giải quyết được vấn đề về điểm yên ngựa xấu.

Khoảng cách chính khác trong sự hiểu biết của chúng tôi là hiệu suất khái quát hóa: mô hình thực hiện tốt như thế nào trên các ví dụ mới lạ không được nhìn thấy trong quá trình đào tạo? Thật dễ dàng để chỉ ra rằng trong giới hạn của vô số ví dụ đào tạo (lấy mẫu iid từ phân phối cố định), lỗi đào tạo hội tụ đến lỗi dự kiến trên các ví dụ mới (với điều kiện bạn có thể đào tạo tối ưu toàn cầu), nhưng vì chúng tôi không có ví dụ đào tạo vô hạn, chúng tôi quan tâm đến việc cần bao nhiêu ví dụ để đạt được sự khác biệt nhất định giữa lỗi đào tạo và khái quát hóa. Lý thuyết học thống kê nghiên cứu các giới hạn khái quát hóa.
Theo kinh nghiệm, việc đào tạo một mạng lưới thần kinh hiện đại lớn đòi hỏi một số lượng lớn các ví dụ đào tạo (Dữ liệu lớn, nếu bạn thích buzzwords), nhưng không lớn đến mức không thể thực hiện được. Nhưng nếu bạn áp dụng các giới hạn được biết đến nhiều nhất từ lý thuyết học thống kê (ví dụ Gao & Zhou 2014 ), bạn thường nhận được những con số khổng lồ không thể tin được này. Do đó, các giới hạn này rất xa khỏi việc bị siết chặt, ít nhất là đối với các vấn đề thực tế.
Một trong những lý do có thể là các giới hạn này có xu hướng giả định rất ít về phân phối tạo dữ liệu, do đó chúng phản ánh hiệu suất trong trường hợp xấu nhất đối với môi trường đối nghịch, trong khi môi trường "tự nhiên" có xu hướng "dễ học" hơn.
Có thể viết các giới hạn khái quát hóa phụ thuộc vào phân phối, nhưng chúng ta không biết làm thế nào để mô tả chính thức một phân phối trên các môi trường "tự nhiên". Các phương pháp như lý thuyết thông tin thuật toán vẫn chưa đạt yêu cầu.
Do đó, chúng tôi vẫn không biết tại sao mạng lưới thần kinh có thể được đào tạo mà không cần quá nhiều.

Hơn nữa, cần lưu ý rằng hai vấn đề chính này dường như có liên quan theo cách hiểu chưa rõ: giới hạn khái quát hóa từ lý thuyết học thống kê cho rằng mô hình được đào tạo tối ưu toàn cầu trên tập huấn luyện, nhưng trong môi trường thực tế, bạn sẽ không bao giờ đào tạo một mạng lưới thần kinh cho đến khi hội tụ thậm chí đến một điểm yên ngựa, vì làm như vậy thường sẽ gây ra tình trạng thừa. Thay vào đó, bạn dừng đào tạo khi lỗi trên bộ xác thực đã được tổ chức (là proxy cho lỗi tổng quát hóa) ngừng cải thiện. Điều này được gọi là "dừng sớm".
Vì vậy, theo một nghĩa nào đó, tất cả các nghiên cứu lý thuyết về việc ràng buộc lỗi tổng quát hóa tối ưu toàn cầu này có thể khá không liên quan: không chỉ chúng tôi không thể tìm thấy nó một cách hiệu quả, mà ngay cả khi chúng tôi có thể, chúng tôi sẽ không muốn, vì nó sẽ hoạt động tồi tệ hơn ví dụ mới lạ hơn nhiều giải pháp "tối ưu phụ".
Nó có thể là trường hợp độ cứng tối ưu hóa không phải là một lỗ hổng của mạng thần kinh, ngược lại, có thể các mạng thần kinh có thể hoạt động chính xác bởi vì chúng khó tối ưu hóa.
Tất cả những quan sát này là theo kinh nghiệm và không có lý thuyết tốt nào giải thích chúng. Cũng không có lý thuyết nào giải thích làm thế nào để thiết lập các siêu đường kính của mạng lưới thần kinh (chiều rộng và chiều sâu của lớp ẩn, tốc độ học tập, chi tiết kiến trúc, v.v.). Các học viên sử dụng trực giác của họ được mài giũa bởi kinh nghiệm và rất nhiều thử nghiệm và sai sót để đưa ra các giá trị hiệu quả, trong khi một lý thuyết có thể cho phép chúng ta thiết kế mạng lưới thần kinh theo cách có hệ thống hơn.

— Antonio Valerio Miceli-Barone
nguồn

11

Một câu hỏi khác về câu hỏi này, để thêm vào nhận xét của @ Aryeh: Đối với nhiều mô hình học tập khác, chúng ta biết "hình dạng" của không gian giả thuyết. Các SVM là ví dụ tốt nhất về điều này, trong đó những gì bạn đang tìm kiếm là một dấu tách tuyến tính trong không gian Hilbert (có thể là chiều cao).

Đối với các mạng thần kinh nói chung, chúng tôi không có bất kỳ mô tả rõ ràng nào hoặc thậm chí là gần đúng. Và một mô tả như vậy rất quan trọng đối với chúng tôi để hiểu chính xác những gì một mạng thần kinh đang tìm thấy trong dữ liệu.

— Suresh Venkat
nguồn

Bạn sẽ gọi cái gì là "hình dạng" của không gian giả thuyết? :) Định lý 2.1 (trang 3) của chúng tôi có trả lời một số câu hỏi của bạn: eccc.weizmann.ac.il/report/2017/098 không? : D

— Anirbit

4

Nguyên tắc của nút thông tin đã được đề xuất để giải thích sự thành công của các mạng lưới sâu sắc.

Đây là một trích dẫn từ tạp chí Quanta

Tháng trước, một video trên YouTube về một cuộc hội thảo tại Berlin, được chia sẻ rộng rãi giữa các nhà nghiên cứu trí tuệ nhân tạo, đã đưa ra một câu trả lời khả dĩ. Trong buổi nói chuyện, Naftali Tishby, một nhà khoa học máy tính và nhà khoa học thần kinh từ Đại học Do Thái Jerusalem, đã trình bày bằng chứng ủng hộ một lý thuyết mới giải thích cách học sâu. Tishby lập luận rằng các mạng lưới thần kinh sâu học theo một thủ tục gọi là nút cổ chai thông tin, mà ông và hai cộng tác viên lần đầu tiên mô tả bằng thuật ngữ lý thuyết thuần túy vào năm 1999. Ý tưởng là một mạng xử lý dữ liệu đầu vào ồn ào của các chi tiết bên ngoài như thể bằng cách ép thông tin thông qua một nút cổ chai, chỉ giữ lại các tính năng phù hợp nhất với các khái niệm chung.

Người giới thiệu:

1- Học sâu và nguyên tắc thắt cổ chai thông tin , Naftali Tishby và Noga Zaslavsky

2- Mở hộp đen của mạng lưới thần kinh sâu thông qua thông tin , Ravid Shwartz-Ziv và Naftali Tishby

3- Video thảo luận hội thảo: Lý thuyết thông tin về học tập sâu của Naftali Tishby

— Mohammad Al-Turkistany
nguồn

1

Tôi muốn nói rằng chúng ta vẫn cần khám phá một thuật toán hiệu quả để đào tạo các mạng lưới thần kinh sâu. Đúng, SGD hoạt động tốt trong thực tế nhưng việc tìm ra một thuật toán tốt hơn có đảm bảo hội tụ đến mức tối thiểu toàn cầu sẽ rất tốt.

— giáo đường
nguồn