Có gì khác biệt giữa những người học sâu chuyên sâu và mô hình đa cấp / phân cấp?


31

Có phải "học sâu" chỉ là một thuật ngữ khác cho mô hình đa cấp / phân cấp?

Tôi quen thuộc với cái sau hơn cái trước, nhưng từ những gì tôi có thể nói, sự khác biệt chính không nằm ở định nghĩa của chúng, mà là cách chúng được sử dụng và đánh giá trong miền ứng dụng của chúng.

Có vẻ như số lượng nút trong ứng dụng "học sâu" điển hình lớn hơn và sử dụng một hình thức phân cấp chung, trong khi các ứng dụng của mô hình đa cấp thường sử dụng một mối quan hệ phân cấp bắt chước quy trình tổng quát được mô hình hóa. Sử dụng hệ thống phân cấp chung trong miền thống kê ứng dụng (mô hình phân cấp) sẽ được coi là mô hình "không chính xác" của hiện tượng, trong khi mô hình hóa hệ thống phân cấp cụ thể theo miền có thể được coi là lật đổ mục tiêu tạo ra một máy học sâu chung chung.

Có phải hai thứ này thực sự là cùng một máy móc dưới hai tên khác nhau, được sử dụng theo hai cách khác nhau?

Câu trả lời:


38

Tương tự

Về cơ bản cả hai loại thuật toán đã được phát triển để trả lời một câu hỏi chung trong các ứng dụng học máy:

Đưa ra các yếu tố dự đoán (yếu tố) - làm thế nào để kết hợp các tương tác giữa các yếu tố này để tăng hiệu suất?x1,x2,Giáo dục,xp

Một cách là chỉ cần giới thiệu dự đoán mới: Tuy nhiên, điều này chứng tỏ là ý tưởng tồi do số lượng lớn các thông số và loại rất cụ thể của sự tương tác.xp+1= =x1x2,xp+2= =x1x3,Giáo dục

Cả hai thuật toán mô hình đa cấp và Deep Learning đều trả lời câu hỏi này bằng cách giới thiệu mô hình tương tác thông minh hơn nhiều. Và từ quan điểm này, chúng rất giống nhau.

Sự khác biệt

Bây giờ hãy để tôi cố gắng đưa ra hiểu biết của tôi về sự khác biệt khái niệm lớn giữa chúng là gì. Để đưa ra một số lời giải thích, chúng ta hãy xem các giả định mà chúng ta đưa ra trong mỗi mô hình:

Mô hình đa cấp: 1 lớp phản ánh cấu trúc dữ liệu có thể được biểu diễn dưới dạng Mạng phân cấp Bayes . Mạng này là cố định và thường đến từ các ứng dụng miền.1

Deep Learning: 2 dữ liệu được tạo ra bởi sự tương tác của nhiều yếu tố. Cấu trúc của các tương tác không được biết, nhưng có thể được biểu diễn dưới dạng một hệ số phân lớp: các tương tác cấp cao hơn có được bằng cách chuyển đổi các biểu diễn cấp thấp hơn.2

Sự khác biệt cơ bản đến từ cụm từ "cấu trúc của các tương tác không được biết đến" trong Deep Learning. Chúng ta có thể giả sử một số linh mục về loại tương tác, nhưng thuật toán xác định tất cả các tương tác trong quá trình học tập. Mặt khác, chúng ta phải xác định cấu trúc của các tương tác cho mô hình đa cấp (chúng ta chỉ học thay đổi các tham số của mô hình sau đó).

Ví dụ

x1,x2,x3{x1}{x2,x3}

x1x2x1x3x2x3

Trong Deep learning, ví dụ như trong các máy Boltzmann đa cấp ( RBM ) có hai lớp ẩn và chức năng kích hoạt tuyến tính, chúng ta sẽ có tất cả các tương tác đa thức có thể có độ nhỏ hơn hoặc bằng ba.

Ưu điểm và nhược điểm chung

Mô hình đa cấp

(-) cần xác định cấu trúc của các tương tác

(+) kết quả thường dễ giải thích hơn

(+) có thể áp dụng các phương pháp thống kê (đánh giá khoảng tin cậy, kiểm tra các giả thuyết)

Học kĩ càng

(-) yêu cầu lượng dữ liệu khổng lồ để đào tạo (và cả thời gian đào tạo nữa)

(-) kết quả thường không thể diễn giải (được cung cấp dưới dạng hộp đen)

(+) không có kiến ​​thức chuyên môn cần thiết

(+) một khi được đào tạo tốt, thường vượt trội so với hầu hết các phương pháp chung khác (không dành riêng cho ứng dụng)

Hy vọng nó sẽ giúp!


Tại sao một mạng lưới thần kinh sâu đòi hỏi một lượng dữ liệu khổng lồ để đào tạo? Tôi chưa nghe nói về điều này trước đây.
Jase

1
@Jase Mạng thần kinh thường có rất nhiều tham số, do đó, trong nhiều trường hợp nếu bạn sử dụng một tập dữ liệu nhỏ, có thể bạn sẽ chỉ cần quá phù hợp. Tất nhiên, mọi thứ phụ thuộc vào nhiệm vụ, nhưng hầu hết các kết quả NN ấn tượng nhất hiện nay đều sử dụng bộ dữ liệu cực kỳ lớn.
Dmitry Laptev

Đồng ý rằng kết quả ấn tượng là trên các bộ dữ liệu khổng lồ, nhưng tôi không chắc chắn rằng chúng ta không thể sử dụng bỏ học và các thủ thuật khác để làm cho nó tổng quát hóa tốt từ các bộ dữ liệu nhỏ.
Jase

1
@Jase Chắc chắn, có những cách chữa bệnh khác nhau mà bạn có thể sử dụng. Nhưng theo kinh nghiệm của tôi về xử lý hình ảnh, hầu hết tất cả đều đưa ra một số quy tắc, về cơ bản tương đương với việc giới thiệu một số sai lệch trước và do đó. Đó không phải là luôn luôn những gì bạn muốn.
Dmitry Laptev

Có lẽ bạn không cần xác định cấu trúc của các tương tác nếu bạn sử dụng tính không đối xứng, ví dụ như Dirichlet phân cấp trước.
Astrid

2

Trong khi câu hỏi / câu trả lời này đã được đưa ra ngoài một chút, tôi nghĩ có thể hữu ích để làm rõ một vài điểm trong câu trả lời. Đầu tiên, cụm từ được nêu lên như một sự khác biệt chính giữa các phương pháp phân cấp và các mạng thần kinh sâu sắc 'Mạng này là cố định.' không chính xác Các phương pháp phân cấp không nhiều 'cố định' hơn các mạng thần kinh thay thế. Xem, ví dụ, bài viết Deep Learning với Phân tích nhân tố chuyển đổi phân cấp, Chen et. al.. Tôi nghĩ bạn cũng sẽ thấy rằng yêu cầu xác định tương tác cũng không còn là điểm phân biệt. Theo kinh nghiệm của tôi, một vài điểm không được liệt kê là một điểm cộng với mô hình phân cấp là vấn đề giảm đáng kể quá mức và khả năng xử lý cả các tập huấn luyện rất lớn và rất nhỏ. Một điểm đáng chú ý là khi các phương pháp phân cấp Bayes được sử dụng, khoảng tin cậy và kiểm tra giả thuyết thường không phải là phương pháp thống kê sẽ được áp dụng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.