Tại sao không bỏ qua các mạng lưới thần kinh và học tập sâu? [đóng cửa]


25

Vấn đề cơ bản với học tập sâu và mạng lưới thần kinh nói chung.

  1. Các giải pháp phù hợp với dữ liệu đào tạo là vô hạn. Chúng ta không có phương trình toán học chính xác chỉ được thỏa mãn bởi một phương trình duy nhất và chúng ta có thể nói khái quát nhất. Nói một cách đơn giản, chúng ta không biết cái nào khái quát nhất.

  2. Tối ưu hóa trọng lượng không phải là một vấn đề lồi, vì vậy chúng tôi không bao giờ biết chúng tôi kết thúc với mức tối thiểu toàn cầu hoặc địa phương.

Vậy tại sao không bỏ các mạng thần kinh và thay vào đó tìm kiếm một mô hình ML tốt hơn? Một cái gì đó mà chúng ta hiểu, và một cái gì đó phù hợp với một bộ phương trình toán học? Tuyến tính và SVM không có nhược điểm toán học này và hoàn toàn phù hợp với một tập hợp các phương trình toán học. Tại sao không chỉ nghĩ về cùng một dòng (không cần phải tuyến tính) và đưa ra một mô hình ML mới tốt hơn so với tuyến tính và SVM và mạng lưới thần kinh và học sâu?


37
Nếu bạn tìm thấy nó, mọi người sẽ.
Matthew Drury

23
"Tại sao không đến với ...?" Bạn sẽ không tin có bao nhiêu nhà nghiên cứu đang bận rộn cố gắng làm chính xác điều đó! Họ đã không thành công cho đến nay.
Kilian Foth

31
"Tất cả các mô hình đều sai nhưng một số hữu ích" và nns chắc chắn hữu ích.
Josh

15
@RajeshDachiraju - đó là một thành ngữ cũ, nhưng tôi có lẽ hơi mơ hồ. Bạn hỏi tại sao không vứt bỏ NN vì chúng không hoàn hảo. Câu trả lời của tôi là chúng không hoàn hảo, nhưng chúng HỮU ÍCH. Mọi người sử dụng chúng để tự động phát xe, dịch tiếng nước ngoài, gắn thẻ video, bảo tồn cá voi và thậm chí để áp dụng các bộ lọc snapchat rác với tai chó vào ảnh của bạn! ví dụ như họ làm việc, vì vậy chúng tôi tiếp tục sử dụng chúng :)
Josh

13
Bạn biết cái gì cũng sai: cơ học Newton. Cơ lượng tử. Thuyết tương đối. Tất cả các vật lý là sai (không có một mô hình duy nhất mô tả tất cả mọi thứ, tất cả đều có sai sót của họ). Hóa học là hoàn toàn sai với rất nhiều thứ (mô tả một nguyên tử luôn chỉ là một xấp xỉ tốt nhưng không bao giờ chính xác). Điều duy nhất chính xác trên thế giới là toán học. Toán học thuần túy. Mọi thứ khác đến gần với câu trả lời đúng. Chúng ta có nên vứt bỏ phần còn lại? (bắt đầu từ máy tính của bạn được xây dựng với luật sai?). Không. Một lần nữa: tất cả các mô hình đều sai, nhưng một số là hữu ích.
Mayou36

Câu trả lời:


48
  1. Không thể biết giải pháp nào khái quát nhất là một vấn đề, nhưng nó không nên ngăn cản chúng ta sử dụng một giải pháp tốt. Bản thân con người thường không biết những gì khái quát nhất (ví dụ, xem xét cạnh tranh các lý thuyết thống nhất về vật lý), nhưng điều đó không gây ra cho chúng ta quá nhiều vấn đề.

  2. Nó đã được chứng minh rằng nó là cực kỳ hiếm khi đào tạo thất bại vì tối thiểu địa phương. Hầu hết các mức tối thiểu cục bộ trong một mạng lưới thần kinh sâu đều có giá trị gần với mức tối thiểu toàn cầu, vì vậy đây không phải là vấn đề. nguồn

Nhưng câu trả lời rộng hơn là bạn có thể nói cả ngày về sự không quan tâm và lựa chọn mô hình, và mọi người vẫn sẽ sử dụng mạng thần kinh đơn giản vì chúng hoạt động tốt hơn bất kỳ thứ gì khác (ít nhất là trên những thứ như phân loại hình ảnh).

Tất nhiên cũng có người cho rằng chúng ta không nên quá tập trung vào CNN như cộng đồng đã tập trung vào SVM vài thập kỷ trước, và thay vào đó hãy tiếp tục tìm kiếm điều lớn lao tiếp theo. Cụ thể, tôi nghĩ rằng tôi nhớ Hinton hối tiếc về tính hiệu quả của CNN như một thứ có thể cản trở nghiên cứu. bài liên quan


1
Tôi thích đoạn cuối đặc biệt.
Rajesh Dachiraju

10
Bạn có một trích dẫn cho điểm # 2?
DrMcCleod

@DrMcCleod: với tôi điểm 2 trông giống trò chơi bời. Chỉ trong một ý nghĩa nhẹ hơn.
Rajesh Dachiraju

6
@DrMcCleod có rất nhiều công việc cho thấy rằng cực tiểu địa phương rất gần với cực tiểu toàn cầu và các điểm yên ngựa thay vào đó là vấn đề. Xem bài viết này để thảo luận về các điểm yên ngựa và bài viết này về lý do tại sao cực tiểu địa phương không nhất thiết là xấu.
JLD

1
Tôi chỉ muốn một nhà hát, tôi mong đợi. Nhưng giả sử tôi biết rằng tôi sẽ thưởng thức khá nhiều bộ phim gần như là bộ phim tôi thực sự muốn xem. Sau đó, tôi sẽ không thất vọng khi có 10 rạp chiếu và tôi phải chọn một rạp một cách ngẫu nhiên, bởi vì tôi biết bất kỳ nhà hát và bộ phim nào cũng sẽ khiến tôi hài lòng.
shimao

14

Như các ý kiến ​​cho câu hỏi của bạn chỉ ra, có rất nhiều người làm việc để tìm kiếm một cái gì đó tốt hơn. Mặc dù tôi muốn trả lời câu hỏi này bằng cách mở rộng nhận xét để lại bởi @josh


Tất cả các mô hình đều sai nhưng một số hữu ích (Wiki)

Tuyên bố trên là một sự thật chung được sử dụng để mô tả bản chất của các mô hình thống kê. Sử dụng dữ liệu mà chúng tôi có sẵn, chúng tôi có thể tạo các mô hình cho phép chúng tôi thực hiện những việc hữu ích như xấp xỉ giá trị dự đoán.

Lấy ví dụ Hồi quy tuyến tính

Sử dụng một số quan sát, chúng ta có thể điều chỉnh một mô hình để cung cấp cho chúng ta một giá trị gần đúng cho một biến phụ thuộc với bất kỳ giá trị nào cho (các) biến độc lập.

Burnham, KP; Anderson, DR (2002), Lựa chọn mô hình và Đa phương thức> Suy luận: Phương pháp tiếp cận lý thuyết thông tin thực tế (tái bản lần 2):

"Một mô hình là sự đơn giản hóa hoặc gần đúng của thực tế và do đó sẽ không phản ánh tất cả thực tế. ... Box lưu ý rằng tất cả các mô hình đều sai, nhưng một số mô hình là hữu ích. được xếp hạng từ rất hữu ích, hữu ích, đến phần nào hữu ích, cuối cùng, về cơ bản là vô dụng. "

Các sai lệch so với mô hình của chúng tôi (như có thể thấy trong hình trên) xuất hiện ngẫu nhiên, một số quan sát ở dưới đường kẻ và một số ở trên, nhưng đường hồi quy của chúng tôi cho thấy mối tương quan chung. Trong khi độ lệch trong mô hình của chúng tôi xuất hiện ngẫu nhiên, trong các tình huống thực tế sẽ có các yếu tố khác gây ra sự sai lệch này. Ví dụ, hãy tưởng tượng xem những chiếc ô tô khi chúng lái xe qua ngã ba, nơi chúng phải rẽ trái hoặc phải để tiếp tục, những chiếc xe không có mô hình cụ thể. Trong khi chúng ta có thể nói rằng hướng xe ô tô rẽ là hoàn toàn ngẫu nhiên, liệu mọi lái xe có đến ngã ba và tại thời điểm đó đưa ra quyết định ngẫu nhiên về hướng rẽ nào? Trong thực tế, có lẽ họ đang hướng đến một nơi cụ thể vì một lý do cụ thể và không cố gắng dừng mỗi chiếc xe để hỏi họ về lý do của họ, chúng tôi chỉ có thể mô tả hành động của họ là ngẫu nhiên.

Trường hợp chúng ta có thể điều chỉnh một mô hình với độ lệch tối thiểu, làm thế nào chắc chắn chúng ta có thể là một biến số không xác định, không được chú ý hoặc không thể đo lường được tại một số điểm sẽ ném mô hình của chúng ta? Có phải cánh của một con bướm ở Brazil đã tạo ra một cơn lốc xoáy ở Texas?

Vấn đề với việc sử dụng các mô hình Tuyến tính và SVN mà bạn đề cập một mình là chúng tôi phần nào được yêu cầu phải quan sát thủ công các biến của chúng tôi và cách chúng biến chúng ảnh hưởng lẫn nhau. Sau đó chúng ta cần quyết định biến nào là quan trọng và viết một thuật toán dành riêng cho nhiệm vụ. Điều này có thể đơn giản nếu chúng ta chỉ có một vài biến, nhưng nếu chúng ta có hàng ngàn thì sao? Điều gì sẽ xảy ra nếu chúng ta muốn tạo ra một mô hình nhận dạng hình ảnh tổng quát, liệu điều này có thể đạt được một cách thực tế với phương pháp này không?

Mạng học sâu và mạng nơ ron nhân tạo (ANN) có thể giúp chúng ta tạo ra các mô hình hữu ích cho các tập dữ liệu khổng lồ chứa một lượng lớn các biến (ví dụ: thư viện hình ảnh). Như bạn đã đề cập, có một số giải pháp không thể hiểu được có thể phù hợp với dữ liệu bằng ANN, nhưng con số này có thực sự khác biệt với số lượng giải pháp chúng ta sẽ cần để phát triển bản thân thông qua thử và sai không?

Việc áp dụng ANN thực hiện rất nhiều công việc cho chúng tôi, chúng tôi có thể chỉ định đầu vào và đầu ra mong muốn của mình (và điều chỉnh chúng sau để cải thiện) và để ANN tìm ra giải pháp. Đây là lý do tại sao ANN thường được mô tả là "hộp đen" . Từ một đầu vào nhất định, họ đưa ra một xấp xỉ, tuy nhiên (nói chung) các xấp xỉ này không bao gồm các chi tiết về cách chúng được xấp xỉ.

Và do đó, nó thực sự đi đến vấn đề mà bạn đang cố gắng giải quyết, vì vấn đề sẽ chỉ ra cách tiếp cận mô hình nào hữu ích hơn. Các mô hình không hoàn toàn chính xác và do đó luôn có yếu tố 'sai', tuy nhiên kết quả của bạn càng chính xác thì chúng càng hữu ích. Có nhiều chi tiết hơn trong các kết quả về cách thực hiện xấp xỉ cũng có thể hữu ích, tùy thuộc vào vấn đề, nó thậm chí có thể hữu ích hơn là tăng độ chính xác.

Ví dụ, nếu bạn đang tính điểm tín dụng của một người, sử dụng hồi quy và SVM cung cấp các tính toán có thể được khám phá tốt hơn. Có thể điều chỉnh trực tiếp mô hình và giải thích cho khách hàng về hiệu ứng của các biến độc lập riêng biệt đối với điểm số chung của chúng là rất hữu ích. Một ANN có thể hỗ trợ xử lý số lượng biến lớn hơn để đạt được điểm chính xác hơn, nhưng liệu độ chính xác này có hữu ích hơn không?


6
Bạn đưa ra một số điểm tốt, nhưng thực tế là "trong nhiều trường hợp, các quan sát và dự đoán của chúng tôi sẽ không ngồi chính xác trên đường được trang bị" không phải là một minh chứng thích hợp cho khẩu hiệu "tất cả các mô hình đều sai". Trong hồi quy tuyến tính, chúng tôi đang lập mô hình E (Y | X) và do đó các điểm không nằm chính xác trên đường thẳng không thể hiện sự thiếu hụt trong mô hình của chúng tôi. Sự ngẫu nhiên được quy định trước và dự kiến; mô hình không "sai" khi chúng ta quan sát độ lệch so với đường được trang bị.
klumbard

@klumbard Cảm ơn bạn đã bình luận. Tôi đã cập nhật câu trả lời của mình với nhiều chi tiết hơn giải thích lý do của tôi đằng sau việc sử dụng điều này làm ví dụ. Tôi đã sử dụng một cách tiếp cận triết học hơn trong câu trả lời của mình và nói bằng những từ chung chung hơn là cụ thể, đây là bài viết đầu tiên của tôi trong cộng đồng này vì vậy xin lỗi nếu đây không phải là nơi để làm như vậy. Bạn có vẻ am hiểu về các chi tiết cụ thể, bạn có thể nói rõ hơn về nhận xét của mình hơn một chút không? Câu hỏi tôi có là, trong đó độ lệch không thể hiện sự thiếu hụt, là mô hình hồi quy có bình phương R là 0,01 cũng không "sai"?
Carrosive

2
Vấn đề duy nhất của tôi với bài đăng của bạn là cách bạn diễn đạt "... vì trong nhiều trường hợp, các quan sát và dự đoán của chúng tôi sẽ không ngồi chính xác trên dòng được trang bị. Đây là một cách mà mô hình của chúng tôi thường 'sai' ..." . Tôi chỉ đơn giản nói rằng đặc điểm kỹ thuật của mô hình bao gồm một thuật ngữ lỗi và do đó, thực tế (một mình) rằng dữ liệu được quan sát không nằm trên dòng được trang bị không biểu thị "sai" của mô hình. Điều này có vẻ như là một sự phân biệt ngữ nghĩa tinh tế nhưng tôi nghĩ nó quan trọng
klumbard

1
Điểm nổi bật, mà bạn giải quyết, là tất cả các mô hình đều sai do bỏ qua sai lệch biến cũng như sai chính tả của biểu mẫu chức năng. Mỗi khi bạn viết ra một mô hình hồi quy và thực hiện suy luận về các ước tính, bạn sẽ cho rằng bạn đã xác định chính xác mô hình, điều này không bao giờ xảy ra.
klumbard

1
@klumbard ơi tôi có thể thấy bạn đang đến từ đâu rồi. Vì vậy, mặc dù mô hình tạo ra các ước tính không chắc là hoàn toàn chính xác, chúng ta có thể đo lường thuật ngữ lỗi để xác định giá trị thực có thể sai lệch bao nhiêu so với ước tính, và do đó sẽ không đúng khi nói rằng mô hình vốn đã sai. Tôi sẽ đưa phần đó ra khỏi câu trả lời của tôi, tôi nghĩ rằng quan điểm của tôi được giải thích rõ hơn trong phần tôi đã thêm sau đó. Cảm ơn đã giải thích :)
Carrosive

8

Tối thiểu toàn cầu có thể cũng như vô dụng, vì vậy chúng tôi không thực sự quan tâm nếu chúng tôi tìm thấy nó hay không. Lý do là vì mạng sâu, không chỉ thời gian để tìm thấy nó trở nên dài hơn theo cấp số nhân khi kích thước mạng tăng lên, mà cả mức tối thiểu toàn cầu thường tương ứng với việc vượt quá tập huấn luyện. Do đó, khả năng khái quát hóa của DNN (đó là điều chúng tôi thực sự quan tâm) sẽ bị ảnh hưởng. Ngoài ra, chúng ta thường thích cực tiểu phẳng hơn tương ứng với giá trị cao hơn của hàm mất, hơn cực tiểu sắc nét tương ứng với giá trị thấp hơn của hàm mất, bởi vì hàm thứ hai sẽ xử lý rất không chắc chắn về độ không đảm bảo của đầu vào. Điều này ngày càng trở nên rõ ràng với sự phát triển của Bayesian Deep Learning. Tối ưu hóa mạnh mẽ đánh bại Tối ưu hóa quyết định rất thường xuyên, khi áp dụng cho các vấn đề trong thế giới thực, trong đó sự không chắc chắn là quan trọng.

Cuối cùng, thực tế là các DNN chỉ thực hiện các phương pháp như XGBoost trong phân loại hình ảnh và NLP. Một công ty phải kiếm được lợi nhuận từ việc phân loại hình ảnh sẽ chọn chính xác chúng làm mô hình sẽ được triển khai trong sản xuất ( đầu tư một số tiền đáng kể vào kỹ thuật tính năng, đường ống dữ liệu, v.v. nhưng tôi lạc đề). Điều này không có nghĩa là chúng thống trị tất cả môi trường ML: ví dụ, chúng còn tệ hơn XGBoost trên dữ liệu có cấu trúc (xem những người chiến thắng cuối cùng của các cuộc thi Kaggle) và dường như chúng vẫn không làm tốt các bộ lọc hạt trên mô hình chuỗi thời gian. Tuy nhiên, một số đổi mới gần đây về RNN có thể sửa đổi tình huống này.


2
Có thật không? Một downvote? Đó là một chút chưa từng thấy. Đó là câu trả lời hợp lý (+1).
usεr11852 nói Phục hồi Monic

5
@RajeshDachiraju vì rõ ràng bạn đang cố gắng suy luận những gì tôi sẽ hoặc không biết, bạn có thể quan tâm đến việc học những người hiểu biết nhiều hơn về mạng lưới thần kinh và tối ưu hóa không lồi mà bạn dường như có, thường xuyên nói về một mức tối thiểu toàn cầu duy nhất cho các mạng thần kinh. Trong số rất nhiều bài báo sử dụng thuật ngữ này, bạn có thể thử đọc bài này và xem bạn có hiểu sai ở đâu không.
DeltaIV

2
@RajeshDachiraju: Cảm ơn bạn đã giải thích lý do của bạn, nhiều người sẽ không bận tâm. Điều đó đang được nói, tôi nghĩ rằng lý do của bạn cho điều này là thiếu sót và bắt nguồn từ việc giải thích sai một cụm từ rất đặc biệt. Tôi đồng ý với DeltaIV rằng thuật ngữ tiêu chuẩn này.
usεr11852 nói Phục hồi Monic

1
@DeltaIV: Quan điểm của tôi là, có thể có nhiều vectơ trọng lượng bị mất 0 trên dữ liệu huấn luyện (giữ nguyên kiến ​​trúc không đổi). Toàn bộ điểm của đào tạo là để có được trọng lượng vector inst nó? Vì vậy, tôi không đồng ý với bạn. Một trong những vectơ trọng lượng là vô cùng hữu ích. Nhưng tôi yêu cầu cho phép đồng ý không đồng ý và kết thúc cuộc trò chuyện này ở đây. Trân trọng Rajesh
Rajesh Dachiraju

1

7

Tôi nghĩ rằng cách tốt nhất để suy nghĩ về câu hỏi này là thông qua thị trường cạnh tranh. Nếu bạn bỏ học sâu và đối thủ của bạn sử dụng nó, VÀ nó hoạt động tốt hơn những gì bạn đã sử dụng, thì bạn sẽ bị đánh bại trên thị trường.

Tôi nghĩ rằng đó là những gì đang xảy ra, một phần, ngày nay, tức là học sâu dường như hoạt động tốt hơn bất cứ điều gì cho toàn bộ vấn đề trên thị trường. Ví dụ, các dịch giả ngôn ngữ trực tuyến sử dụng học sâu là tốt hơn so với các phương pháp ngôn ngữ thuần túy đã được sử dụng trước đây. Chỉ vài năm trước đây không phải là trường hợp, nhưng những tiến bộ trong học tập sâu đã đưa những người đã từng vào các vị trí lãnh đạo trên thị trường.

Tôi tiếp tục lặp lại "thị trường" bởi vì đó là những gì thúc đẩy sự gia tăng hiện tại trong học tập sâu. Thời điểm kinh doanh tìm thấy một cái gì đó hữu ích, rằng một cái gì đó sẽ trở nên phổ biến rộng rãi. Không phải là chúng tôi , ủy ban, đã quyết định rằng học sâu nên được phổ biến. Đó là kinh doanh và cạnh tranh.

Phần thứ hai, ngoài thành công thực sự của ML, còn có nỗi sợ bỏ lỡ chiếc thuyền. Rất nhiều doanh nghiệp hoang tưởng rằng nếu họ bỏ lỡ AI, họ sẽ thất bại như các doanh nghiệp. Nỗi sợ hãi này đang được nuôi dưỡng bởi tất cả những nhà tư vấn, Gartners , v.v., thì thầm với các CEO rằng họ phải làm AI hoặc chết vào ngày mai.

Không ai ép buộc các doanh nghiệp sử dụng học tập sâu. IT và R & D rất hào hứng với một món đồ chơi mới. Sự cổ vũ của Academia, vì vậy bữa tiệc này sẽ kéo dài cho đến khi âm nhạc dừng lại, tức là cho đến khi việc học sâu ngừng phát. Trong khi đó, bạn có thể bỏ nó và đưa ra một giải pháp tốt hơn.


Điều gì về tài trợ nghiên cứu học tập? Bạn có thể vui lòng làm sáng tỏ về nó?
Rajesh Dachiraju

2
Rất nhiều tài trợ đến từ ngành công nghiệp. Các giáo sư nhận được nhiều tiền nhất từ ​​ngành công nghiệp là những người có ảnh hưởng nhất trong giới học thuật. Các trường đại học lấy đi một lượng tiền khổng lồ mà họ nhận được từ các công ty, vì vậy họ yêu thích các giáo sư này. Nếu bạn đọc bài viết này của NYT, bạn có thể biết được sự điên cuồng trong cả học viện và ngành công nghiệp
Aksakal

tham khảo rất tốt về thị trường (+1): Tôi cũng nói như vậy ("Một công ty phải kiếm lợi nhuận từ việc phân loại hình ảnh sẽ chọn chính xác chúng làm mô hình để triển khai trong sản xuất"). Tuy nhiên, tôi sẽ không đồng ý với sự hoang tưởng. Có một sự thật (không phải là hoang tưởng) rằng Waymo đã sẵn sàng đánh bại Tesla, Audi và một nhà sản xuất ô tô khác mà tôi không thể nhớ bây giờ, và điều này phần lớn nhờ vào khoản đầu tư khổng lồ của Google vào Deep Learning. Audi chắc chắn đã sử dụng SIFT và SURF (công nghệ thị giác máy tính được thử nghiệm tốt, không liên quan đến Deep Learning), nếu họ ...
DeltaIV

...truy nã. Sự vượt trội của DL liên quan đến SIFT, SURF và các phương pháp dựa trên hình học khác, khi nói đến phân loại hình ảnh, là một thực tế được chứng thực bởi năm năm nghiên cứu học thuật và công nghiệp vững chắc. Đây chắc chắn không phải là thuốc chữa bách bệnh (xem những thất bại của IBM Watson) và có một số sự cường điệu, nhưng cũng có những sự thật phũ phàng, lạnh lùng.
DeltaIV

2
@DeltaIV ML chắc chắn hoạt động trong một số ứng dụng, nhưng tôi nghĩ rằng việc áp dụng rộng rãi ngày nay là do hoang tưởng và cường điệu ở một mức độ lớn. Cho dù nó hoạt động hay không CTO sẽ chỉ dành cho nó. Tôi có những người bạn không biết tôi đang nói gì về một năm trước, bây giờ họ nói rằng AI là tương lai, họ sẽ bắt đầu triển khai, v.v.
Aksakal

4

Có những câu trả lời xuất sắc, chủ yếu cân nhắc với tính hữu ích của DL và ANN. Nhưng tôi muốn phản đối OP theo cách cơ bản hơn, vì câu hỏi đã được chấp nhận là sự không nhất quán về mặt toán học của các mạng thần kinh.

Trước hết, đó một lý thuyết toán học đằng sau (hầu hết các mô hình) Neural Networks. Bạn cũng có thể lập luận rằng hồi quy tuyến tính không khái quát, trừ khi mô hình cơ bản là ... tốt, tuyến tính. Trong các thuật toán thần kinh, một mô hình được giả định (ngay cả khi không rõ ràng) và lỗi phù hợp được tính toán. Thực tế là các thuật toán được sửa đổi với các phương pháp phỏng đoán khác nhau không làm mất đi sự hỗ trợ toán học ban đầu. BTW, tối ưu hóa cục bộ cũng là một lý thuyết nhất quán về mặt toán học, nói gì đến hữu ích, lý thuyết.

Dọc theo dòng này, nếu Mạng nơ-ron chỉ tạo thành một loại phương pháp trong toàn bộ hộp công cụ của các nhà khoa học, thì đó là dòng phân tách Mạng nơ-ron với phần còn lại của các kỹ thuật? Trên thực tế, các SVM đã từng được coi là một lớp NN và chúng vẫn xuất hiện trong cùng một cuốn sách. Mặt khác, NN có thể được coi là một kỹ thuật hồi quy (phi tuyến), có thể với một số đơn giản hóa. Tôi đồng ý với OP rằng chúng ta phải tìm kiếm các thuật toán hiệu quả hơn, có cơ sở hơn, hiệu quả hơn, bất kể bạn gắn nhãn chúng là NN hay không.


Vấn đề với việc không nhất quán là, người ta không thể hỏi những câu hỏi đơn giản như, Khi nào nên ngừng tập luyện và từ bỏ? Cũng có rất nhiều tin đồn như, 'Dropot', 'giảm cân', 'ReLu' và các kích hoạt khác nhau, bình thường hóa hàng loạt, gộp chung tối đa, softmax, dừng sớm, lịch trình học tập khác nhau và tất cả các hoán vị và kết hợp của những điều này khiến nhà thiết kế luôn nghi ngờ có nên từ bỏ hay không tại một thời điểm nào đó.
Rajesh Dachiraju

1
@RajeshDachiraju Điều tương tự cũng có thể nói về các hệ số hình phạt trong các thuật toán tối ưu hóa điểm bên ngoài, hoặc kích thước bước trong các phương pháp Runge-Kutta. Từ "không nhất quán" có nghĩa chính xác trong khoa học không áp dụng ở đây.
Miguel

0

Tôi đoán đối với một số vấn đề chúng ta ít quan tâm đến sự chặt chẽ và đơn giản toán học nhưng nhiều hơn cho tiện ích của nó, trạng thái hiện tại là mạng thần kinh sẽ tốt hơn trong việc thực hiện một số tác vụ nhất định như nhận dạng mẫu trong xử lý ảnh.


0

Có rất nhiều trong câu hỏi này. Hãy xem lại những gì bạn đã viết từng cái một.

Các giải pháp phù hợp với dữ liệu đào tạo là vô hạn. Chúng ta không có phương trình toán học chính xác chỉ được thỏa mãn bởi một phương trình duy nhất và chúng ta có thể nói khái quát nhất.

Thực tế là có vô số giải pháp xuất phát từ vấn đề học tập là một vấn đề không chính đáng nên không thể có một giải pháp nào khái quát nhất. Ngoài ra, không có định lý bữa trưa miễn phí, bất kỳ phương pháp nào chúng tôi sử dụng không thể đảm bảo rằng đó là phương pháp tốt nhất trong tất cả các vấn đề học tập.

Nói một cách đơn giản, chúng ta không biết cái nào khái quát nhất.

Tuyên bố này không thực sự đúng. Có những định lý về giảm thiểu rủi ro theo kinh nghiệm của Vapnik & Chervonenkis kết nối số lượng mẫu, kích thước VC của phương pháp học và lỗi tổng quát hóa. Lưu ý rằng điều này chỉ áp dụng cho một tập dữ liệu nhất định. Vì vậy, đưa ra một bộ dữ liệu và một quy trình học tập, chúng tôi biết các giới hạn về khái quát hóa. Lưu ý rằng, đối với các bộ dữ liệu khác nhau, không có và không thể là quy trình học tốt nhất do không có định lý bữa trưa miễn phí.

Tối ưu hóa trọng lượng không phải là một vấn đề lồi, vì vậy chúng tôi không bao giờ biết chúng tôi kết thúc với mức tối thiểu toàn cầu hoặc địa phương. Vậy tại sao không bỏ các mạng thần kinh và thay vào đó tìm kiếm một mô hình ML tốt hơn?

Ở đây có một vài điều mà bạn cần ghi nhớ. Tối ưu hóa vấn đề không lồi không dễ như lồi; điều đó đúng. Tuy nhiên, lớp phương pháp học lồi bị hạn chế (hồi quy tuyến tính, SVM) và trong thực tế, chúng hoạt động kém hơn so với lớp không lồi (tăng, CNN) về nhiều vấn đề khác nhau. Vì vậy, phần quan trọng là trong thực tế, mạng lưới thần kinh hoạt động tốt nhất. Mặc dù có một số yếu tố rất quan trọng giúp mạng lưới thần kinh hoạt động tốt:

  1. Chúng có thể được áp dụng trên các tập dữ liệu rất lớn do giảm độ dốc ngẫu nhiên.
  2. Không giống như SVM, suy luận với lưới sâu không phụ thuộc vào tập dữ liệu. Điều này làm cho mạng lưới thần kinh hiệu quả tại thời gian thử nghiệm.
  3. Với mạng lưới thần kinh, có thể kiểm soát trực tiếp khả năng học tập của họ (nghĩ về số lượng tham số) chỉ bằng cách thêm nhiều lớp hoặc làm cho chúng lớn hơn. Điều này rất quan trọng vì đối với các bộ dữ liệu khác nhau, bạn có thể muốn các mô hình lớn hơn hoặc nhỏ hơn.

Một cái gì đó mà chúng ta hiểu, và một cái gì đó phù hợp với một bộ phương trình toán học? Tuyến tính và SVM không có nhược điểm toán học này và hoàn toàn phù hợp với một tập hợp các phương trình toán học. Tại sao không chỉ nghĩ về cùng một dòng (không cần phải tuyến tính) và đưa ra một mô hình ML mới tốt hơn so với tuyến tính và SVM và mạng lưới thần kinh và học sâu?

Bán phá giá những thứ hoạt động vì không hiểu chúng không phải là một hướng nghiên cứu tuyệt vời. Mặt khác, nỗ lực tìm hiểu chúng là hướng nghiên cứu tuyệt vời. Ngoài ra, tôi không đồng ý rằng các mạng thần kinh không phù hợp với các phương trình toán học. Họ khá nhất quán. Chúng tôi biết làm thế nào để tối ưu hóa chúng và thực hiện suy luận.


-2

Làm thế nào về việc xem các mạng thần kinh từ một quan điểm thử nghiệm? Chỉ vì chúng tôi tạo ra chúng không có nghĩa là chúng tôi bắt buộc phải hiểu chúng bằng trực giác. Hoặc là chúng tôi không được phép chơi với họ để hiểu rõ hơn về những gì họ đang làm.

Đây là một vài suy nghĩ của tôi về chúng:

  • Cấu trúc: chúng là hệ thống phân cấp. Chúng giống như những cái cây chia sẻ đầu vào. Rễ là đầu vào và lá là lớp đầu ra. Lớp càng gần với các đầu ra, nó càng phù hợp với chúng, mức độ trừu tượng của nó càng lớn (đó là về hình ảnh nhiều hơn các pixel).
  • Chức năng: họ "chơi" với dữ liệu, phương thức hoạt động là để thử nghiệm các mối quan hệ trong các nơ-ron (trọng lượng) cho đến khi mọi thứ "nhấp chuột" (biên độ lỗi được chấp nhận).

Điều này phù hợp với cách chúng ta nghĩ. Nó thậm chí còn phù hợp với cách thức hoạt động của phương pháp khoa học. Vì vậy, bằng cách bẻ khóa mạng lưới thần kinh, chúng ta cũng có thể giải quyết câu hỏi chung về những gì kiến ​​thức đại diện.


-3

Đừng quên, có một lĩnh vực nghiên cứu rộng lớn sử dụng LM, GLM, mô hình đa cấp. Các kỹ thuật của Lately Bayes và Hamiltonian Monte Carlo (cộng đồng STAN thực sự đi đầu trong vấn đề này) đã đến tuổi và một số vấn đề được STAN giải quyết thực sự dễ dàng và không thực sự cần NN hay lưới sâu. Nghiên cứu khoa học xã hội, Kinh tế học vi mô là hai ví dụ (lớn) của các lĩnh vực như vậy áp dụng Stan nhanh chóng.

Mô hình Stan rất "dễ đọc". Các hệ số thực sự có một giải thích phân phối sau và các dự đoán cũng vậy. Các linh mục là một phần của quá trình tạo dữ liệu và không cần phải được liên hợp để trở thành người biểu diễn (như gibbs). Mô hình phù hợp trong stan là một niềm vui, nó thực sự điều chỉnh các thông số MCMC phiền phức tự động khá tốt và cảnh báo bạn khi khám phá bị mắc kẹt với hình ảnh thực sự tốt đẹp.

Nếu bạn chưa thử thì đã thấy các bản demo tuyệt vời ở đây ).

Vào cuối ngày, tôi nghĩ mọi người không nói về những thứ này quá nhiều bởi vì nghiên cứu trong lĩnh vực này và các vấn đề không quá "gợi cảm" / "mát mẻ" như với NN.


-5

Điều gì thường xảy ra khi không có tính nhất quán toán học (ít nhất là trong trường hợp mạng thần kinh này) ... khi nó không cho kết quả như mong muốn, trên bộ kiểm tra, sếp của bạn sẽ quay lại và nói ... Này tại sao bạn không Hãy thử Drop out (trọng lượng nào, lớp nào, bao nhiêu là đau đầu của bạn vì không có cách nào để xác định toán học), vì vậy sau khi bạn thử và hy vọng có một sự cải thiện biên nhưng không như mong muốn, ông chủ của bạn sẽ quay lại và nói, tại sao không thử giảm cân (yếu tố gì?)? và sau này, tại sao bạn không thử ReLU hoặc một số kích hoạt khác trên một số lớp mà vẫn không, tại sao không thử 'tối đa hóa nhóm'? Vẫn không, tại sao không thử bình thường hóa hàng loạt, vẫn không, hoặc hội tụ ít nhất, nhưng kết quả không mong muốn, Oh bạn đang ở mức tối thiểu tại địa phương, thử lịch trình tỷ lệ học tập khác nhau, Chỉ cần thay đổi kiến ​​trúc mạng? và lặp lại tất cả ở trên trong các kết hợp khác nhau! Giữ nó trong một vòng lặp cho đến khi bạn thành công!

Mặt khác, khi bạn thử một SVM nhất quán, sau khi hội tụ, nếu kết quả không tốt, thì không sao, hạt nhân tuyến tính chúng ta đang sử dụng không đủ tốt vì dữ liệu có thể không tuyến tính, hãy sử dụng hạt nhân có hình dạng khác, hãy thử một hạt nhân có hình dạng khác nhau nếu bạn có bất kỳ linh cảm nào, nếu vẫn không có, chỉ cần để lại nó, đó là một hạn chế của SVM.

Điều tôi đang nói là, các mạng lưới thần kinh không nhất quán đến mức nó thậm chí không sai! Nó không bao giờ chấp nhận thất bại của nó! Kỹ sư / nhà thiết kế chịu gánh nặng, trong trường hợp nó không hoạt động như mong muốn.


3
Điều này dường như đối với tôi không có câu trả lời cho câu hỏi của bạn. Bạn có nghĩ rằng bạn có thể chỉnh sửa nó thành âm thanh giống như một câu nói hay không, và làm cho nó rõ ràng theo cách này giải thích tại sao mạng lưới thần kinh và học sâu có thể hữu ích hơn mô hình ML (dường như là câu hỏi ban đầu của bạn)?
Cá bạc

1
Quan điểm của ông là với SVM, chúng tôi biết khi nào chúng tôi đã làm tốt nhất có thể, nhưng với NN chúng tôi không thể biết. Có thể cho rằng, việc DL bị lừa dễ dàng, ngay cả các số liệu như lỗi cũng không cho chúng ta biết mô hình thực sự hoạt động tốt như thế nào.
thay đổi

1
@yters, vâng, nhưng nhận xét của cá bạc là đây không phải là câu trả lời cho lý do tại sao không bỏ DL. Nó gần hơn với sự phục hồi của câu hỏi. Tôi đề nghị hợp nhất nó với câu hỏi.
P.Windridge
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.