Các vấn đề với và lựa chọn thay thế cho phương pháp Deep Learning?


17

Trong 50 năm qua, sự tăng / giảm / tăng phổ biến của mạng lưới thần kinh đã đóng vai trò như một 'phong vũ biểu' cho nghiên cứu AI.

Rõ ràng từ các câu hỏi trên trang web này là mọi người quan tâm đến việc áp dụng Deep Learning (DL) cho nhiều vấn đề khó khăn.

Do đó tôi có hai câu hỏi:

  1. Các học viên - Bạn thấy điều gì là trở ngại chính cho việc áp dụng DL 'ngoài luồng' cho vấn đề của bạn?
  2. Các nhà nghiên cứu - Những kỹ thuật nào bạn sử dụng (hoặc đã phát triển) có thể giúp giải quyết các vấn đề thực tế? Họ có trong DL hay họ cung cấp một cách tiếp cận khác?

3
Nếu bạn có hai câu hỏi, bạn nên hỏi hai câu hỏi.
bpachev

1
Chúng rõ ràng có liên quan với nhau.
NietzscheanAI

Câu trả lời:


5

Tóm lại, có hai vấn đề chính trong ứng dụng Deep Learning.

  • Đầu tiên là tính toán, nó đầy đủ. CPU thông thường đòi hỏi nhiều thời gian để thực hiện ngay cả việc tính toán / đào tạo cơ bản với Deep Learning. Do đó, GPU được khuyến nghị, thậm chí chúng có thể không đủ trong nhiều tình huống. Các mô hình học tập sâu điển hình không hỗ trợ thời gian lý thuyết là trong Đa thức. Tuy nhiên, nếu chúng ta xem xét các mô hình tương đối đơn giản hơn trong ML cho cùng một nhiệm vụ, thì chúng ta thường có các đảm bảo toán học rằng thời gian đào tạo cần thiết cho các Thuật toán đơn giản như vậy là trong Đa thức. Điều này, đối với tôi, ít nhất có lẽ là sự khác biệt lớn nhất.

    Tuy nhiên, có những giải pháp để khắc phục vấn đề này. Một cách tiếp cận chính là tối ưu hóa Thuật toán DL thành một số lần lặp duy nhất (thay vì nhìn vào các giải pháp toàn cầu trong thực tế, chỉ cần tối ưu hóa thuật toán thành một giải pháp cục bộ tốt, trong khi tiêu chí "Tốt" được xác định bởi người dùng).

  • Một vấn đề khác có thể gây tranh cãi một chút đối với những người đam mê học sâu trẻ là thuật toán Deep Learning thiếu hiểu biết lý thuyết và lý luận. Mạng lưới thần kinh sâu đã được sử dụng thành công trong nhiều tình huống bao gồm nhận dạng viết tay, xử lý hình ảnh, xe tự lái, xử lý tín hiệu, NLP và phân tích y sinh. Trong một số trường hợp này, chúng thậm chí còn vượt qua cả con người. Tuy nhiên, điều đó đang được nói, chúng không thuộc bất kỳ trường hợp nào, về mặt lý thuyết là âm thanh như hầu hết các Phương pháp thống kê.

    Tôi sẽ không đi vào chi tiết, thay vào đó tôi để nó cho bạn. Có những ưu và nhược điểm đối với mọi Thuật toán / phương pháp và DL không phải là ngoại lệ. Nó rất hữu ích vì đã được chứng minh trong rất nhiều tình huống và mọi Nhà khoa học dữ liệu trẻ phải học ít nhất những điều cơ bản về DL. Tuy nhiên, trong trường hợp các vấn đề tương đối đơn giản, tốt hơn là sử dụng các phương pháp Thống kê nổi tiếng vì chúng có rất nhiều kết quả / đảm bảo về mặt lý thuyết để hỗ trợ chúng. Hơn nữa, từ quan điểm học tập, tốt hơn hết là bắt đầu với những cách tiếp cận đơn giản và làm chủ chúng trước.


Bởi "trong đa thức", ý bạn là "trong thời gian đa thức", phải không? Bạn đã có một tài liệu tham khảo để hỗ trợ đó?
NietzscheanAI

Vâng, đó chính xác là những gì tôi muốn nói. Chắc chắn, điều đó có thể được chứng minh trong rất nhiều tình huống ... Tôi sẽ bắt đầu với ví dụ Đơn giản nhất có thể, Chỉ cần đào tạo một Mạng với ba Nút và hai lớp là vấn đề NP-Complete như được hiển thị ở đây. ( Citeseerx.ist.psu. edu / viewdoc / Bắn ). Hãy nhớ rằng bài báo này đã rất cũ và bây giờ chúng tôi có nhiều ý tưởng hơn về cách cải thiện trong thực tế, với một số phương pháp phỏng đoán, nhưng về mặt lý thuyết, vẫn không có kết quả cải thiện.
Sibghat Ullah 27/03/18

Bài viết hay khác về cùng một vấn đề, cũng mô tả một số thủ thuật để cải thiện thời gian đào tạo trong thực tế. ( pdfs.semanticscholar.org/9499/ khăn )
Sibghat Ullah 27/03/18

Hãy nói rằng, chúng tôi muốn dự đoán giá cho một cái gì đó. Hồi quy tuyến tính đơn giản với độ vuông góc tối thiểu sẽ có thời gian Đa thức, trong khi giải quyết cùng một vấn đề với Mạng nơ-ron (ngay cả đơn giản nhất trong số chúng) sẽ dẫn đến vấn đề NP hoàn chỉnh. Đây là một sự khác biệt rất lớn. Cuối cùng, bạn phải cẩn thận chọn một thuật toán cho một nhiệm vụ cụ thể. Ví dụ, Least Square fit có các giả định cụ thể, bao gồm, "Hàm lý tưởng mà thuật toán đang học, có thể được học dưới dạng kết hợp tuyến tính của các tính năng". Nếu giả định đó không hợp lệ, thì kết quả đạt được cũng vậy.
Sibghat Ullah

Tất nhiên, đơn giản chỉ vì một vấn đề (trong trường hợp này là tìm trọng lượng tối ưu) là NP-đầy đủ không có nghĩa là không có phương pháp thực tế hiệu quả để tìm trọng lượng tốt ...
NietzscheanAI

5

Tôi có rất ít kinh nghiệm với ML / DL để tự gọi mình là học viên, nhưng đây là câu trả lời của tôi cho câu hỏi thứ nhất:

Tại cốt lõi của DL giải quyết tốt nhiệm vụ phân loại. Không phải mọi vấn đề thực tế đều có thể được đánh giá lại về mặt phân loại. Tên miền phân loại cần phải được biết trước. Mặc dù việc phân loại có thể được áp dụng cho bất kỳ loại dữ liệu nào, nhưng cần phải đào tạo NN với các mẫu của miền cụ thể sẽ được áp dụng. Nếu tên miền được chuyển đổi tại một số điểm, trong khi vẫn giữ nguyên mô hình (cấu trúc NN), nó sẽ phải được đào tạo lại với các mẫu mới. Hơn nữa, ngay cả các phân loại tốt nhất cũng có "khoảng trống" - Các ví dụ bất lợi có thể được xây dựng dễ dàng từ một mẫu đào tạo, sao cho những thay đổi không thể chấp nhận được đối với con người, nhưng bị mô hình đào tạo sai.


2
'Phân loại' có thể được coi là một trường hợp đặc biệt của 'hồi quy', do đó có lẽ là một đặc tính tốt hơn của DL.
NietzscheanAI

3

Câu hỏi 2. Tôi đang nghiên cứu xem liệu điện toán siêu chiều có phải là sự thay thế cho Deep Learning hay không. Hyper-D sử dụng các vectơ bit rất dài (10.000 bit) để mã hóa thông tin. Các vectơ là ngẫu nhiên và do đó chúng xấp xỉ trực giao. Bằng cách nhóm và lấy trung bình một tập hợp các vectơ như vậy, một "tập hợp" có thể được hình thành và sau đó được truy vấn để xem liệu một vectơ không xác định có thuộc về tập hợp đó không. Bộ này có thể được coi là một khái niệm hoặc một hình ảnh tổng quát, vv Đào tạo rất nhanh như là sự công nhận. Điều cần làm là mô phỏng các lĩnh vực mà Deep Learning đã thành công và so sánh Hyper-D với nó.


Hấp dẫn. Vậy điều này khác với 'Bộ nhớ phân tán thưa thớt' của Kanerva như thế nào?
NietzscheanAI

Cả hai đều được phát triển bởi Pentti Kanerva. Tra cứu máy tính siêu chiều để thấy sự khác biệt. Quá dài để trả lời ở đây.
Douglas G Danforth

1

Từ quan điểm toán học, một trong những vấn đề chính trong các mạng sâu với một số lớp là độ dốc biến mất hoặc không ổn định . Mỗi lớp ẩn bổ sung học chậm hơn đáng kể, gần như vô hiệu hóa lợi ích của lớp bổ sung.

Phương pháp học sâu hiện đại có thể cải thiện hành vi này, nhưng trong các mạng lưới thần kinh đơn giản, lỗi thời thì đây là một vấn đề nổi tiếng. Bạn có thể tìm thấy một phân tích bằng văn bản ở đây để nghiên cứu sâu hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.