Sự khác biệt giữa Mạng thần kinh, Hệ thống học tập sâu và Mạng niềm tin sâu sắc là gì?


23

Sự khác biệt giữa Mạng thần kinh, Hệ thống học tập sâu và Mạng niềm tin sâu sắc là gì?

Khi tôi nhớ lại mạng lưới thần kinh cơ bản của bạn là một loại 3 lớp và tôi đã có Deep Belief Systems được mô tả là các mạng thần kinh xếp chồng lên nhau.

Gần đây tôi chưa nghe nói về Hệ thống học tập sâu, nhưng tôi cực kỳ nghi ngờ đó là từ đồng nghĩa với Hệ thống niềm tin sâu sắc. bất cứ ai có thể xác nhận điều này?


có lẽ bạn có nghĩa là "học sâu"? xem ví dụ: tin tức / liên kết học tập sâu
vzn

Hệ thống niềm tin sâu sắc, là thuật ngữ tôi gặp phải, chúng có thể hoặc không thể là từ đồng nghĩa (Một tìm kiếm trên google sẽ đưa ra các bài viết cho Hệ thống niềm tin sâu sắc)
Lyndon White

Deep Belief Network là tên kinh điển bởi vì chúng xuất phát từ Deep Boltzmann Network (và nó có thể gây nhầm lẫn với một hệ thống truyền bá niềm tin hoàn toàn khác biệt vì đó là về mạng Bayes và lý thuyết quyết định xác suất).
gabious

@gabious Deep Belief Network là tên chính xác (tài liệu tôi nhận được nhiều năm trước khi giới thiệu tôi với họ phải có một lỗi đánh máy). nhưng như được bắt nguồn từ các mạng boltzman sâu, bản thân cái tên đó là phi núi lửa (AFAIK, rất vui khi thấy một trích dẫn). Các DBN có nguồn gốc từ Sigmoid Belief Networks và RBM xếp chồng lên nhau. Tôi không nghĩ thuật ngữ Deep Boltzmann Network được sử dụng bao giờ hết. Mặt khác, Deep Boltzmann Machine là một thuật ngữ được sử dụng, nhưng Deep Boltzmann Machines đã được tạo ra sau Deep Belief Networks
Lyndon White

@Oxinabox Bạn nói đúng, tôi đã mắc lỗi đánh máy, đó là Deep Boltzmann Machines, mặc dù nó thực sự phải được gọi là Deep Boltzmann Network (nhưng sau đó từ viết tắt sẽ giống nhau, vì vậy có lẽ đó là lý do). Tôi không biết kiến ​​trúc sâu nào được phát minh đầu tiên, nhưng máy Boltzmann trước bm bán hạn chế. DBN và DBM thực sự là cùng một cấu trúc ngoại trừ mạng cơ sở được sử dụng làm lớp lặp lại là SRBM so với BM.
gabious

Câu trả lời:


10

Các mô hình mạng nơ ron nhân tạo thường chỉ bị giới hạn ở một vài lớp, trong 3 thập kỷ, vì nhiều lý do, bao gồm một bằng chứng toán học có tên Kolmogorovs thm chỉ ra rằng về mặt lý thuyết chúng có thể xấp xỉ các hàm tùy ý với sai số thấp (nhưng chỉ với nhiều nơ-ron).

mạng nhiều lớp vượt quá khả thi / hiệu quả thông qua các kỹ thuật học tập trước đó. một bước đột phá tương tự đến vào năm 2006 bởi 3 nhà nghiên cứu khác nhau Hinton, Le Cun, Bengio, những người có thể đào tạo nhiều lớp hơn. vấn đề nổi bật trong lĩnh vực này là nhận dạng chữ viết tay.

Thuật ngữ "mạng lưới niềm tin sâu sắc" dường như bắt nguồn từ một bài báo năm 2006 của Hinton đề cập đến các mạng Bayes , có mối liên hệ chặt chẽ về mặt lý thuyết / lý thuyết với các mạng lưới thần kinh. "Một thuật toán học nhanh cho lưới niềm tin sâu sắc"

xem slide 17 đặc biệt của bản trình bày này mạng lưới thần kinh sâu

vì vậy lĩnh vực học tập sâu chỉ mới ~ ½ thập kỷ và đang được nghiên cứu và phát triển nhanh chóng. Google, Facebook, Yahoo đều đã công bố các sáng kiến ​​dựa trên học tập sâu và R & D đang diễn ra.


trang web dành riêng cho việc học sâu của các nhà nghiên cứu trong lĩnh vực này
vzn

14

Mạng nơ-ron nhân tạo là một loại thuật toán bao gồm rất nhiều loại thuật toán khác nhau dựa trên biểu đồ, vì vậy tôi sẽ không nêu chi tiết ở đây ngoài những gì bạn đã hỏi vì có quá nhiều điều để nói, vì có quá nhiều loại ANN.

Loại mạng nơ-ron nhân tạo đầu tiên, các nơ-ron McCulloch-đào nổi tiếng, là tuyến tính , nghĩa là chúng chỉ có thể giải quyết các vấn đề quyết định tuyến tính (nghĩa là các bộ dữ liệu có thể phân tách tuyến tính bằng cách vẽ một đường thẳng). Theo thời gian, mô hình mạng thần kinh tuyến tính này được gọi là Perceptron hoặc Adaline (tùy thuộc vào cách bạn tính toán cập nhật trọng số).

Các mạng nơ ron tuyến tính chỉ bao gồm một biểu đồ lưỡng cực, trong đó các nút bên trái là các đầu vào và các nút bên phải là đầu ra. Chỉ có trọng số của các cạnh giữa các nút này được học (ngưỡng kích hoạt nút cũng có thể được điều chỉnh nhưng điều này hiếm khi được thực hiện).

Mạng thần kinh cơ bản như Adaline hoặc Perceptron (không có lớp ẩn) Ranh giới quyết định tuyến tính

Một bước tiến lớn đã được thực hiện khi các mạng nơ ron nông được phát minh: thay vì chỉ có một biểu đồ lưỡng cực, chúng tôi sử dụng biểu đồ 3 phần: "lớp" đầu vào, "lớp" đầu ra và một "lớp ẩn" giữa chúng. Cảm ơn lớp ẩn, giờ đây, mạng có thể đưa ra các quyết định phi tuyến tính và giải quyết các vấn đề như XOR chính tắc.

Mạng lưới thần kinh Xor Đường dẫn kích hoạt ví dụ mạng thần kinh Xor Ranh giới quyết định mạng Xor

Lưu ý rằng thuật ngữ "nông" được đặt ra hồi cứu khi mạng lưới thần kinh sâu (còn gọi là mạng thần kinh lớp n ) được phát minh. Điều này là để chống lại các mạng thần kinh chỉ có một lớp ẩn, với các mạng thần kinh sâu với n lớp ẩn . Như bạn có thể đoán, việc sử dụng nhiều lớp ẩn hơn cho phép quyết định các bộ dữ liệu phức tạp hơn do có nhiều lớp hơn để điều chỉnh quyết định (nghĩa là, nói cách khác, bạn đang tăng tính chiều của ranh giới quyết định của mình, điều này có thể dẫn đến quá mức).

Mạng lưới thần kinh lớp N Ranh giới quyết định phi tuyến phức tạp sử dụng mạng nơ ron sâu lớp n

Bạn có thể hỏi: tại sao không ai thử sử dụng mạng nơ ron đa tầng (sâu) trước đây? Trên thực tế, họ đã làm, vào đầu năm 1975 bởi Fukushima với CognitronNeocognitron (thực tế là một mạng lưới thần kinh tích chập, nhưng đó là một câu chuyện khác). Tuy nhiên, vấn đề là không ai biết cách học hiệu quả các mạng như vậy, vấn đề lớn là sự chính quy . AutoEncoders của Hinton đã mở đường và sau đó các Đơn vị tuyến tính được chỉnh sửa của LeCun đã khắc phục vấn đề này một cách tốt đẹp.

Mạng lưới niềm tin sâu sắc (DBN) thì sao? Chúng chỉ là những cỗ máy Boltzmann bán hạn chế nhiều lớp. Vì vậy, chúng là một loại mạng nơ-ron sâu, nhưng với một mẫu mạng cơ bản khác (ví dụ: lớp, đây là mẫu được lặp lại): Các máy Boltzmann khác với các mạng khác ở chỗ chúng có tính khái quát , nghĩa là chúng thường được sử dụng để học từ dữ liệu của bạn để tái tạo dữ liệu ("tạo" nó), trong khi các mạng thần kinh sâu thông thường được sử dụng để phân tách dữ liệu của bạn (bằng cách vẽ "ranh giới quyết định").

Nói cách khác, DNN rất tuyệt khi phân loại / dự đoán giá trị từ tập dữ liệu của bạn, trong khi DBN rất tốt để "sửa chữa" dữ liệu bị hỏng (khi tôi nói sửa chữa, nó không chỉ từ dữ liệu bị hỏng, mà còn có thể là dữ liệu hoàn toàn tốt rằng bạn chỉ muốn sửa một chút để trở nên rập khuôn hơn để dễ dàng nhận ra hơn với một mạng thần kinh khác, chẳng hạn như chữ số viết tay).

Trong thực tế, để tóm tắt gọn gàng, bạn có thể nói rằng AutoEncoders là một hình thức đơn giản hơn của Deep Belief Network. Dưới đây là ví dụ về một DBN được đào tạo để nhận diện khuôn mặt nhưng KHÔNG phải là số, các số sẽ tự động bị mờ dần (đây là hiệu ứng "sửa lỗi" của DBN):

Ví dụ về Deep Belief Network về nhận diện khuôn mặt

Vì vậy, cuối cùng, DBN và DNN không đối nghịch nhau: chúng là bổ sung. Ví dụ: bạn có thể tưởng tượng một hệ thống nhận ra các ký tự viết tay trước tiên sẽ đưa hình ảnh của một nhân vật vào DBN để làm cho nó trở nên rập khuôn hơn và sau đó đưa hình ảnh rập khuôn vào một DNN sau đó sẽ xuất ra hình ảnh mà nhân vật đại diện.

Lưu ý cuối cùng: Deep Belief Nets rất gần với Deep Boltzmann Machines: Deep Boltzmann Machines sử dụng các lớp của Boltzmann Machines (là các mạng thần kinh hai chiều, còn được gọi là mạng thần kinh tái phát), trong khi Deep Belief Nets sử dụng Máy Boltzmann bán hạn chế (bán nửa hạn chế) bị hạn chế có nghĩa là chúng được thay đổi thành một hướng, do đó nó cho phép sử dụng backpropagation để tìm hiểu mạng hiệu quả hơn so với học mạng reccurent). Cả hai mạng được sử dụng cho cùng một mục đích (tái tạo tập dữ liệu), nhưng chi phí tính toán là khác nhau (Deep Boltzmann Machines tốn kém hơn đáng kể để tìm hiểu vì tính chất thường xuyên của nó: khó "ổn định" trọng lượng hơn).

Phần thưởng: về Mạng thần kinh chuyển đổi (CNN), bạn sẽ tìm thấy rất nhiều tuyên bố mâu thuẫn và khó hiểu, và thông thường bạn sẽ thấy rằng chúng chỉ là mạng lưới thần kinh sâu sắc. Tuy nhiên, có vẻ như sự đồng thuận là sử dụng định nghĩa ban đầu về Neocognitron của Fukushima: CNN là một DNN buộc phải trích xuất các tính năng khác nhau ở các cấp bậc khác nhau bằng cách áp dụng một phép chập trước khi kích hoạt (mà DNN có thể làm một cách tự nhiên, nhưng buộc nó phải tự nhiên bằng cách đặt chức năng tích chập / kích hoạt khác nhau trên các lớp khác nhau của mạng có thể mang lại kết quả tốt hơn, ít nhất đó là đặt cược của CNN):

Các tính năng của mạng nơ ron sâu Các tính năng của mạng nơ ron kết hợp

Và cuối cùng, để có một dòng thời gian nghiêm ngặt hơn về Trí tuệ nhân tạo, xem tại đây .


1
Câu trả lời chính xác! Một khía cạnh quan trọng (có lẽ là khía cạnh xác định) của các mạng sâu tích chập là mỗi lớp tương ứng với việc áp dụng một tích chập sau đó áp dụng một hàm kích hoạt: có một hạt nhân và tất cả các nút trong một lớp đều áp dụng cùng một hạt nhân. Hãy tưởng tượng đầu vào là một hình ảnh. Thông thường, bạn có một nút cho mỗi pixel và nó có các kết nối đến từ các pixel lân cận. Một mạng thông thường sẽ cho phép mỗi pixel có mô hình trọng số riêng trên các cạnh đến. Một mạng tích chập áp đặt yêu cầu bổ sung rằng đó là cùng một chuỗi các trọng số tại mỗi pixel trong ảnh.
DW

Có thực sự bạn đúng, và đó là nơi tên đến từ. Nhưng về mặt cá nhân, tôi nghĩ rằng điều này thường được sử dụng như hack để chuyên về một mạng nơ-ron sâu hơn bất kỳ thứ gì khác (khi đặc điểm xác định của mạng nơ-ron sâu là mục đích chung và bất khả tri đối với tập dữ liệu). Ví dụ, Hmax, một loại CNN, sử dụng chập vào các bản đồ saliency tính toán, mà rõ ràng là một hack khi bản đồ saliency trong một mạng nơ-ron là tất nhiên không tính toán sử dụng lập trình năng động ...
gaborous

3

Mạng lưới thần kinh sâu là mạng lưới thần kinh có độ sâu tương đối cao. Chúng là một lớp con của Mạng nơ-ron. Ý tưởng thực sự quay trở lại hàng thập kỷ và không phải là mới. Điều mới là chúng tôi đã tìm ra cách đào tạo họ trong thực tế. Lý do nó đã trở nên rất phổ biến gần đây là đào tạo chúng trở nên khả thi và mọi người đã sử dụng chúng để đánh bại các thuật toán nghệ thuật. DNN cần rất nhiều dữ liệu và rất nhiều sức mạnh tính toán mà không có sẵn từ nhiều thập kỷ trước. Geoff Hinton và các sinh viên và đồng nghiệp của ông đã tìm ra cách đào tạo họ trong thực tế trong thập kỷ qua và sử dụng chúng để đánh bại các thuật toán học máy nghệ thuật trong một số lĩnh vực mà hầu hết các nhà nghiên cứu tránh xa ý tưởng sử dụng chúng hoàn toàn vào thời điểm đó.

Belief Networks là một lớp các Mô hình đồ họa xác suất, họ mô hình hóa một loạt các biến ngẫu nhiên và các phụ thuộc của chúng bằng cách sử dụng biểu đồ (có nhiều cách khác nhau để làm điều này). Các biến đó có thể là từ các phân phối được tham số hóa và có thể được mô hình hóa bởi các mạng thần kinh (hoặc một số mô hình khác để biểu diễn các phân phối được tham số hóa). Deep Belief Networks là Belief Networks có độ sâu tương đối cao.

Belief Networks có xu hướng mang tính khái quát, tức là chúng ta có thể sử dụng một mô hình được đào tạo để tạo các mẫu từ phân phối mà nó đại diện.

Mạng lưới thần kinh có xu hướng phân biệt đối xử, chúng ta có thể sử dụng chúng để tính xác suất của một đầu vào nhất định (đây có phải là hình ảnh của một con mèo không? Xác suất của hình ảnh con mèo này là gì?) Nhưng thường không phải để lấy mẫu (tạo ra hình ảnh của một con mèo).


Tôi không phải là một chuyên gia về ML vì vậy hãy lấy những gì tôi đã viết bằng một hạt muối.
Kaveh

-1

Mạng lưới thần kinh thường được triển khai ở những nơi cần có các lớp ẩn và phương trình bậc hai. Ở đây, mạng lưới học tập sâu và niềm tin sâu sắc được sử dụng trong đó nhiều lớp ẩn được yêu cầu để thao tác dữ liệu giống như mạng Boltzmann sâu.


Vì vậy, cả hai yêu cầu lớp ẩn? Bạn có thể làm nhiều lớp ẩn trong NN bình thường? Mạng Boltzmann này, ý bạn là máy Boltzmann? Vì vậy, sự khác biệt là gì? Nó không trả lời câu hỏi (hoặc có thể có, nhưng nó không rõ ràng lắm).
Ác
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.