Kết quả lý thuyết đằng sau Mạng lưới thần kinh nhân tạo


13

Tôi vừa mới trình bày về Mạng nơ-ron nhân tạo trong khóa học về máy học của Coursera và tôi muốn biết thêm lý thuyết đằng sau chúng. Tôi tìm thấy động lực mà họ bắt chước sinh học có phần không đạt yêu cầu.

Nhìn bề ngoài, ở mỗi cấp độ, chúng ta thay thế hiệp phương sai bằng tổ hợp tuyến tính của chúng. Bằng cách thực hiện nhiều lần, chúng tôi cho phép lắp mô hình phi tuyến tính. Điều này đặt ra câu hỏi: tại sao các mạng thần kinh đôi khi được ưa thích chỉ phù hợp với một mô hình phi tuyến tính.

Tổng quát hơn, tôi muốn biết Mạng lưới thần kinh nhân tạo phù hợp như thế nào trong Khung suy luận Bayes được mô tả chi tiết trong cuốn sách "Lý thuyết xác suất: Logic của khoa học" của ET Jaynes. Hay nói một cách đơn giản, tại sao mạng nơ ron nhân tạo hoạt động khi chúng hoạt động? Và, tất nhiên, việc họ đưa ra dự đoán thành công ngụ ý rằng họ tuân theo khuôn khổ đã nói ở trên.

Câu trả lời:


16

Đây là một trích dẫn từ " Một cái nhìn lạc hậu về tương lai " của ET Jaynes.

Nhà máy mới

Trong những năm gần đây, thói quen chính thống của việc phát minh ra các thiết bị trực quan thay vì hấp dẫn với bất kỳ nguyên tắc lý thuyết được kết nối nào đã được mở rộng sang các vấn đề mới theo cách ban đầu xuất hiện một số lĩnh vực khoa học mới. Tuy nhiên, tất cả trong số họ quan tâm đến lý luận từ thông tin không đầy đủ; và chúng tôi tin rằng chúng tôi có các định lý xác lập lý thuyết xác suất đó vì logic là phương tiện chung để xử lý tất cả các vấn đề như vậy. Chúng tôi lưu ý ba ví dụ.

Bộ mờ là - khá rõ ràng, đối với bất kỳ ai được đào tạo về suy luận Bayes - gần đúng với xác suất trước của Bayes. Chúng được tạo ra chỉ bởi vì các học viên của họ kiên trì nghĩ về xác suất theo nghĩa "ngẫu nhiên" được cho là tồn tại trong Tự nhiên nhưng không bao giờ được xác định rõ; và vì vậy kết luận rằng lý thuyết xác suất không được áp dụng cho các vấn đề như vậy. Ngay khi người ta nhận ra xác suất là cách chung để xác định thông tin không đầy đủ , lý do giới thiệu Bộ mờ sẽ biến mất.

Tương tự như vậy, phần lớn Trí tuệ nhân tạo (AI) là một tập hợp các thiết bị trực quan để suy luận từ thông tin không đầy đủ, giống như các thống kê cũ của thống kê chính thống, là gần đúng với các phương pháp Bayes và có thể sử dụng trong một số loại vấn đề bị hạn chế; nhưng điều đó mang lại kết luận vô lý khi chúng ta cố gắng áp dụng chúng cho các vấn đề bên ngoài lớp học đó. Một lần nữa, các học viên của nó bị cuốn vào điều này chỉ bởi vì họ tiếp tục nghĩ về xác suất đại diện cho một "sự ngẫu nhiên" vật lý thay vì thông tin không đầy đủ. Trong suy luận Bayes, tất cả các kết quả đó được chứa tự động - và khá tầm thường - mà không có bất kỳ giới hạn nào đối với một loại vấn đề bị hạn chế.

Sự phát triển mới tuyệt vời là Neural Nets, có nghĩa là một hệ thống thuật toán với đặc tính mới tuyệt vời mà chúng giống như bộ não con người, thích nghi để chúng có thể học hỏi từ các lỗi trong quá khứ và tự sửa lỗi (WOW! Thật là một ý tưởng mới tuyệt vời!) . Thật vậy, chúng tôi không ngạc nhiên khi thấy rằng Mạng lưới thần kinh thực sự rất hữu ích trong nhiều ứng dụng; nhiều hơn so với Bộ mờ hoặc AI. Tuy nhiên, mạng lưới thần kinh hiện tại có hai thiếu sót thực tế; (a) Họ mang lại một đầu ra được xác định bởi đầu vào hiện tại cộng với thông tin đào tạo trong quá khứ. Đầu ra này thực sự là một ước tínhvề phản ứng thích hợp, dựa trên tất cả các thông tin trong tay, nhưng nó không cho thấy độ chính xác của nó, và do đó nó không cho chúng ta biết chúng ta đang ở gần mục tiêu như thế nào (nghĩa là cần phải đào tạo thêm bao nhiêu nữa); (b) Khi đáp ứng phi tuyến được yêu cầu, người ta sẽ kháng cáo một hàm phi tuyến "sigmoid" tiêu chuẩn được lưu trữ bên trong, với các mức khuếch đại và hỗn hợp tuyến tính khác nhau có thể được thực hiện để xấp xỉ, ở một mức độ nào đó, hàm phi tuyến thực sự. (Lưu ý: nhấn mạnh của tôi.)

Nhưng, chúng ta có thực sự cần chỉ ra rằng (1) Bất kỳ thủ tục nào thích ứng, theo định nghĩa, là một phương tiện có tính đến thông tin không đầy đủ; (2) Định lý Bayes chính xác là mẹ của tất cả các thủ tục thích ứng; các chung quy tắc cho việc cập nhật bất kỳ trạng thái kiến thức vào tài khoản mất thông tin mới; (3) Khi các vấn đề này được xây dựng theo thuật ngữ Bayes, một phép tính duy nhất sẽ tự động mang lại cả ước tính tốt nhất và độ chính xác của nó; (4) Nếu được gọi là phi tuyến, định lý Bayes sẽ tự động tạo ra hàm phi tuyến chính xác được gọi bởi vấn đề, thay vì cố gắng xây dựng một xấp xỉ cho nó bằng cách khác thiết bị ad hoc khác.

Nói cách khác, chúng tôi cho rằng đây không phải là những lĩnh vực mới; chỉ bắt đầu sai. Nếu một người hình thành tất cả các vấn đề như vậy theo toa thuốc Bayes tiêu chuẩn, thì người ta sẽ tự động tất cả các kết quả hữu ích của họ ở dạng được cải thiện. Những khó khăn mà mọi người dường như gặp phải trong việc hiểu điều này là tất cả các ví dụ về cùng một thất bại trong việc khái niệm hóa mối quan hệ giữa toán học trừu tượng và thế giới thực. Ngay khi chúng tôi nhận ra rằng xác suất không mô tả thực tế - chỉ thông tin của chúng tôi về thực tế - các cổng mở rộng cho giải pháp tối ưu cho các vấn đề lý luận từ thông tin đó.

Một vài bình luận:

  1. Điểm (a) bỏ qua những phát triển trong Mạng lưới thần kinh Bayes, bắt đầu vào cuối những năm tám mươi và đầu những năm chín mươi (nhưng lưu ý rằng bài báo của Jaynes được viết vào năm 1993). Hãy xem bài viết này . Ngoài ra, hãy cân nhắc đọc luận án tiến sĩ tuyệt đẹp của Yarin Gal và xem bài thuyết trình tuyệt vời này của Zoubin Ghahramani.

  2. Tôi không thấy điểm (b) có thể là "thiếu sót" như thế nào. Trong thực tế, đó là bản chất của lý do tại sao mạng lưới thần kinh có thể xấp xỉ một lớp lớn các chức năng tốt. Lưu ý rằng các kiến ​​trúc thành công gần đây đã chuyển từ kích hoạt sigmoid sang kích hoạt ReLU ở các lớp bên trong, thiên về "độ sâu" hơn "độ rộng". Các định lý gần đúng đã được chứng minh gần đây cho lưới ReLU.


2
+1 Không có gì thỏa mãn hơn là biết chính xác nơi người ta có thể tìm thấy tài liệu tham khảo chính xác cho câu trả lời.
Sycorax nói phục hồi Monica

5
Cho rằng các thiết bị ad hoc đã chứng minh rằng chúng hoạt động trong nhiều tình huống, sẽ rất hữu ích khi cho thấy (hoặc không chứng minh) rằng chúng chỉ đơn giản phù hợp với khung Bayes và do đó, hiểu biết sâu hơn về các nhà quảng cáo, được triển khai rộng rãi như vậy ngày Đây là loại công việc tôi quan tâm.
Tom Artiom Fiodorov

1

Trước hết, chúng ta không xếp các hàm tuyến tính vào nhau để có được một hàm phi tuyến. Có một lý do rõ ràng tại sao các NN có thể không bao giờ hoạt động như vậy: Xếp các hàm tuyến tính vào nhau sẽ mang lại một hàm tuyến tính.

Điều làm cho NN phi tuyến là hàm kích hoạt nằm sau hàm tuyến tính! Tuy nhiên, về nguyên tắc, bạn đã đúng: Chúng tôi chỉ đơn giản xếp rất nhiều hồi quy logistic (chứ không phải tuyến tính!) Vào nhau và ... tadaa: chúng tôi nhận được một cái gì đó tốt từ nó ... điều đó có công bằng không? Hóa ra (từ quan điểm lý thuyết) nó thực sự là công bằng. Thậm chí tệ hơn: Sử dụng Định lý nổi tiếng và nổi tiếng của Stone-Weierstrass, chúng tôi chỉ đơn giản chứng minh rằng các mạng thần kinh chỉ với một lớp ẩn và không có chức năng đầu ra ở nút cuối cùng là đủ để xấp xỉ bất kỳ chức năng liên tục nào (và tin tôi, các chức năng liên tục có thể xấu quái thú, xem "cầu thang quỷ": https://en.wikipedia.org/wiki/Cantor_distribution[một,b]x↦ =b+một1φ1(x)+...+mộttôiφtôi(x)tôi là kích thước của lớp ẩn, tức là đa thức trong các hàm logistic và chúng tạo thành một đại số theo định nghĩa!). Tức là 'bằng cách xây dựng', NN rất biểu cảm.

Tại sao chúng ta sử dụng NN sâu? Lý do là định lý SW ở trên chỉ đảm bảo rằng có một kích thước lớp đủ lớn để chúng ta có thể đến gần với hàm mục tiêu (hy vọng liên tục) của chúng ta. Tuy nhiên, kích thước lớp cần thiết có thể lớn đến mức không máy tính nào có thể xử lý ma trận trọng lượng có kích thước đó. Các NN có nhiều lớp ẩn hơn dường như là một sự thỏa hiệp tốt giữa 'độ chính xác' và khả năng tính toán. Tôi không biết bất kỳ kết quả lý thuyết nào chỉ ra hướng 'mức độ vượt trội' của NN tăng lên khi đưa vào các lớp ẩn nhiều hơn so với việc chỉ tăng kích thước của lớp ẩn đơn nhưng có thể có một số tài nguyên trên web ...

Chúng ta có thể thực sự hiểu NN sâu sắc? Câu hỏi ví dụ: Tại sao chính xác NN dự đoán trường hợp này là TRUE trong khi nó dự đoán trường hợp khác, trường hợp tương tự này là FALSE? Tại sao chính xác nó đánh giá khách hàng này có giá trị hơn so với khách hàng khác? Tôi không thực sự tin như vậy. Nó đi kèm với sự phức tạp của mô hình mà bạn không thể giải thích nó một cách hợp lý nữa ... Tôi chỉ nghe rằng đây vẫn là một lĩnh vực nghiên cứu tích cực nhưng tôi không biết bất kỳ tài nguyên nào ...

Điều gì làm cho NN trở nên độc đáo trong số tất cả các mô hình? Lý do thực sự tại sao chúng ta sử dụng NN rất nhiều trong những ngày này là vì hai lý do sau:

  1. Họ đi kèm với một tài sản 'phát trực tuyến' tự nhiên.
  2. Chúng ta có thể điều chỉnh chúng đến mức tối đa theo nhiều hướng.

TfTT'T', v.v.) được dựa trên tài sản này. Mọi người đã cố gắng truyền thuộc tính phát trực tuyến này cho các mô hình khác (ví dụ: Gradient Boosting) nhưng nó không đến mức tự nhiên và không rẻ về mặt tính toán như trong thiết lập NN.

Đến 2. Tôi có nghĩa là mọi người đã đào tạo các NN để làm những điều kỳ lạ nhất nhưng về nguyên tắc họ chỉ sử dụng cùng một khung: xếp các hàm trơn tru vào nhau và sau đó để máy tính (ví dụ PyTorch / Tensorflow) thực hiện phép toán bẩn cho bạn như tính toán đạo hàm của hàm mất wrt các trọng số. Một ví dụ sẽ là bài báo nàynơi mọi người đã sử dụng phương pháp RL và cũng tìm hiểu kiến ​​trúc của NN để học ngôn ngữ phức tạp của các chất hóa học bằng cách dạy nó cách vận hành trên ngăn xếp bộ nhớ (!). Cố gắng làm điều đó với việc tăng cường độ dốc ;-) Lý do tại sao họ phải làm điều đó là ngôn ngữ của hóa chất ít nhất là 'khó học' như ngôn ngữ ngoặc (nghĩa là mọi dấu ngoặc mở đều đóng lại sau này trong từ ) bởi vì ngôn ngữ SMILES mà mọi người sử dụng để mô tả các phân tử có chứa các ký hiệu '(' và ')'. Từ khoa học máy tính lý thuyết (hệ thống phân cấp Chomsky), người ta biết rằng người ta không thể mô tả ngôn ngữ này với một automata thông thường nhưng người ta cần một automata đẩy xuống (tức là một automata với bộ nhớ ngăn xếp). Đó là động lực để họ (tôi đoán) dạy điều kỳ lạ này cho NN.


-1

"Tại sao nó hoạt động khi nó hoạt động?"

n

Vì vậy, tất cả các máy học đều giống nhau.

Machine Learning tương tự như giả kim thuật: có rất nhiều công thức bí ẩn, bạn áp dụng một và bạn có thể nhận được vàng. Nếu không, chỉ cần áp dụng một công thức khác.

Không ai hỏi câu hỏi bạn hỏi, ít nhất là không phải trong các ấn phẩm mà tôi biết.

Trên hết, có lý thuyết học thống kê. Lý thuyết học thống kê giả định rằng quy mô của tập huấn luyện đi đến vô cùng. Hầu hết các kết quả tôi biết đều có dạng: "trong một số điều kiện nhất định, nếu bạn có một bộ huấn luyện đủ lớn, bạn có thể nhận được kết quả tốt nhất có thể khi sử dụng quy trình này". Ước tính của những gì "đủ lớn" là ngoài sức tưởng tượng.

Tất nhiên, vấn đề là, kích thước tập huấn luyện sẽ không đi đến đâu, nói gì đến vô cùng.

Vì vậy, tôi nghĩ rằng đây là thời điểm tốt để (1) đặt câu hỏi này, (2) để phát triển một bộ máy toán học để trả lời câu hỏi về tất cả các thuật toán học máy có thể và (3) trả lời câu hỏi này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.