Có bất kỳ vấn đề học tập có giám sát nào mà mạng lưới thần kinh (sâu) rõ ràng không thể vượt trội hơn bất kỳ phương pháp nào khác không?


33

Tôi đã thấy mọi người đã nỗ lực rất nhiều cho SVM và Kernels, và họ trông khá thú vị khi là người khởi đầu trong Machine Learning. Nhưng nếu chúng ta mong đợi rằng hầu như luôn luôn chúng ta có thể tìm ra giải pháp vượt trội về mặt Mạng lưới thần kinh (sâu), thì ý nghĩa của việc thử các phương pháp khác trong thời đại này là gì?

Đây là hạn chế của tôi về chủ đề này.

  1. Chúng tôi nghĩ rằng chỉ có học tập giám sát; Hồi quy, và phân loại.
  2. Tính dễ đọc của Kết quả không được tính; chỉ tính chính xác của vấn đề học tập được giám sát.
  3. Tính toán - Chi phí không được xem xét.
  4. Tôi không nói rằng bất kỳ phương pháp nào khác là vô ích.

3
Bất kỳ hạn chế về số lượng dữ liệu đào tạo có sẵn?
Jake Westfall

1
Tôi đã không làm điều đó, nhưng tôi hy vọng bạn sẽ có một thời gian khó khăn để đào tạo một mạng lưới thần kinh để thực hiện, ví dụ như phân rã giá trị số ít trên một ma trận không có kích thước tầm thường (giả sử, xếp hạng> 10).
Mehrdad

1
Google Dịch hiện sử dụng các mạng thần kinh và hiện gây ra nhiều sự tò mò hơn đối với một tên thị trấn ở Brazil, nơi việc sử dụng từ trong từ điển sẽ tốt hơn nhiều
Henry

Tôi chưa bao giờ nghe nói về học sâu để sử dụng hoàn thành ma trận (mặc dù sử dụng hoàn thành ma trận trước khi học sâu là thông lệ). Bạn có thể cho rằng đây có thể là một vấn đề chi phí tính toán, nhưng cũng đáng lưu ý rằng tôi không biết liệu tất cả các máy tính trên thế giới có thể thực hiện hoàn thành ma trận học sâu hay không, ví dụ như vấn đề netflix.
Vách đá AB

@CliffAB: (nói nửa chừng trong má ...) có lẽ đáng lưu ý rằng họ có thể không thể, nhưng tôi không chắc rằng bạn nên biết rằng họ không biết nếu họ có thể;)
Mehrdad

Câu trả lời:


31

Đây là một lý do và hai lý do thực tế tại sao một người nào đó có thể thích hợp một cách tiếp cận phi DNN.

  1. Định lý ăn trưa miễn phí từ Wolpert và Mac đã nói

    Chúng tôi đã đặt tên cho các định lý NFL kết quả liên quan bởi vì chúng chứng minh rằng nếu một thuật toán thực hiện tốt trên một loại vấn đề nhất định thì nó nhất thiết phải trả cho điều đó với hiệu suất bị suy giảm trên tập hợp tất cả các vấn đề còn lại.

    Nói cách khác, không có thuật toán duy nhất nào thống trị tất cả; bạn đã đạt điểm chuẩn.

    Các bác bỏ rõ ràng ở đây là bạn thường không quan tâm đến tất cả các vấn đề có thể, và học sâu dường như hoạt động tốt trên nhiều loại vấn đề mà mọi người làm chăm sóc về (ví dụ, nhận dạng đối tượng), và vì vậy nó là một đầu tiên / chỉ lựa chọn hợp lý cho các ứng dụng khác trong các lĩnh vực đó.

  2. Nhiều trong số các mạng rất sâu này đòi hỏi hàng tấn dữ liệu, cũng như hàng tấn tính toán, để phù hợp. Nếu bạn có (ví dụ) 500 ví dụ, một mạng hai mươi lớp sẽ không bao giờ học tốt, trong khi có thể phù hợp với một mô hình đơn giản hơn nhiều. Có một số vấn đề đáng ngạc nhiên khi việc thu thập hàng tấn dữ liệu là không khả thi. Mặt khác, người ta có thể thử học cách giải quyết một vấn đề liên quan (nơi có nhiều dữ liệu hơn), sử dụng một cái gì đó như học chuyển để thích ứng với nhiệm vụ sẵn có dữ liệu thấp cụ thể.

  3. Mạng lưới thần kinh sâu cũng có thể có chế độ thất bại bất thường. Có một số bài báo cho thấy những thay đổi gần như không thể nhận biết của con người có thể khiến một mạng bị lật từ việc phân loại chính xác một hình ảnh để tự tin phân loại sai nó. (Xem ở đâybài báo kèm theo của Szegedy và cộng sự) Các cách tiếp cận khác có thể mạnh mẽ hơn để chống lại điều này: có các cuộc tấn công đầu độc chống lại SVM (ví dụ, điều này của Biggio, Nelson và Laskov), nhưng những điều đó xảy ra trên tàu, thay vì thử nghiệm thời gian. Ở thái cực ngược lại, có giới hạn hiệu suất đã biết (nhưng không lớn) cho thuật toán lân cận gần nhất. Trong một số tình huống, bạn có thể hạnh phúc hơn với hiệu suất tổng thể thấp hơn với ít cơ hội thảm họa hơn.


Tôi đồng ý tất cả những gì bạn nói. Nhưng vấn đề là về "các vấn đề tính toán bị bỏ qua". Điều đó có nghĩa là OP giả định, bạn sẽ có các mẫu vô hạn và tài nguyên tính toán vô hạn.
SmallChess

17
Tính toán vô hạn! = Mẫu vô hạn. Ví dụ, tôi có quyền truy cập vào một cụm lớn đáng kinh ngạc để xử lý dữ liệu. Tuy nhiên, các thí nghiệm trong phòng thí nghiệm chúng tôi thực hiện để thu được một số dữ liệu đó là khó khăn, chậm và tốn thời gian (theo thứ tự hàng giờ đến hàng ngày cho một điểm dữ liệu) và tất cả các tính toán trên thế giới sẽ không giúp được điều đó .
Matt Krause

2
Các SVM với bất kỳ trình trích xuất tính năng cụ thể nào cũng có khả năng dễ bị tổn thương bởi các đầu vào bất lợi như CNN - thật khó để tìm thấy chúng, bởi vì chúng tôi không dễ dàng có độ dốc của các lớp trích xuất tính năng.
Dougal

1
Một ví dụ thực tế thú vị gần đây và thú vị về vấn đề @MattKrause đưa ra và cố gắng thực hiện nó bằng cách học chuyển giao được trình bày trong Sim-to-Real Robot Learning từ Pixels với Progressive Nets
HBeel 20/2/2017

@Dougal, tôi cũng tự hỏi liệu có vấn đề gì khi các trình trích xuất tính năng DNN được học hay không, trong khi các SVM (thường) được làm bằng tay và tương ứng với các tính năng mà con người nhận thấy. Một phần của những gì làm cho ví dụ gấu trúc trở nên ngấm ngầm là sự khác biệt không thể nhận ra giữa ví dụ đối nghịch và ví dụ thông thường.
Matt Krause

24

Ở đâu đó trong danh sách bài giảng này của Geoff Hinton (từ khóa học Coursera của ông trên các mạng thần kinh), có một phân đoạn mà ông nói về hai loại vấn đề:

  1. Các vấn đề trong đó tiếng ồn là tính năng chính,
  2. Vấn đề trong đó tín hiệu là tính năng chính.

Tôi nhớ lời giải thích rằng trong khi mạng lưới thần kinh phát triển mạnh trong không gian sau này, các phương pháp thống kê truyền thống thường phù hợp hơn với phương pháp trước. Phân tích các bức ảnh kỹ thuật số độ phân giải cao của những thứ thực tế trên thế giới, một nơi mà lưới chập sâu vượt trội, rõ ràng cấu thành cái sau.

Mặt khác, khi tiếng ồn là tính năng vượt trội, ví dụ, trong một nghiên cứu kiểm soát trường hợp y tế với 50 trường hợp và 50 điều khiển, các phương pháp thống kê truyền thống có thể phù hợp hơn với vấn đề.

Nếu bất cứ ai tìm thấy video đó, xin vui lòng bình luận và tôi sẽ cập nhật.


Câu trả lời tuyệt vời. Chính xác lý do tại sao chúng ta chuyển sang học sâu cho những thứ chúng ta có thể làm (như nhận dạng hình ảnh và viết văn bản) nhưng có thể chuyển sang các mô hình khác cho những thứ có thể khó bằng trực giác.
Mustafa S Eisa

Cá nhân tôi có câu trả lời này trong lợi ích lớn nhất của tôi. Cảm ơn bạn rất nhiều vì câu trả lời.
Robin

13

Hai biến tương quan hoàn hảo tuyến tính. Liệu mạng lưới sâu với 1 triệu lớp ẩn và 2 nghìn tỷ neutron có thể đánh bại hồi quy tuyến tính đơn giản?

EDITED

Theo kinh nghiệm của tôi, bộ sưu tập mẫu đắt hơn tính toán. Ý tôi là, chúng tôi chỉ có thể thuê một số trường hợp trên Amazon, chạy đào tạo học tập sâu và sau đó quay lại vài ngày sau đó. Chi phí trong lĩnh vực của tôi là khoảng 200 USD. Chi phí là tối thiểu. Đồng nghiệp của tôi kiếm được nhiều hơn thế trong một ngày.

Bộ sưu tập mẫu thường đòi hỏi kiến ​​thức miền và thiết bị chuyên dụng. Deep learning chỉ phù hợp với các vấn đề với bộ dữ liệu truy cập dễ dàng và rẻ tiền, chẳng hạn như xử lý ngôn ngữ tự nhiên, xử lý hình ảnh và bất cứ điều gì bạn có thể loại bỏ khỏi Internet.


1
Tất nhiên, bất kỳ phương pháp MLE nào cũng sẽ thực hiện điều kiện học sâu trên mô hình tạo đáp ứng các giả định của MLE . Tuy nhiên, điều này không bao giờ xảy ra trên dữ liệu thực, hoặc ít nhất là đối với bất kỳ vấn đề thú vị nào (tức là không dự đoán kết quả của việc lật đồng xu). Vì vậy, tôi nghĩ rằng OP đang yêu cầu các ví dụ liên quan đến các câu hỏi thực sự quan tâm với dữ liệu thực.
Vách đá AB

Đó là một câu trả lời rất hay. Bạn đã đưa ra một quan điểm rất trực quan và thực tế. Cảm ơn bạn rất nhiều.
Robin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.