Mạng lưới thần kinh và mọi thứ khác


15

Tôi chưa tìm thấy câu trả lời thỏa đáng cho vấn đề này từ google .

Tất nhiên nếu dữ liệu tôi có là hàng triệu thì học sâu là cách.

Và tôi đã đọc rằng khi tôi không có dữ liệu lớn thì có lẽ tốt hơn là sử dụng các phương pháp khác trong học máy. Lý do được đưa ra là quá phù hợp. Học máy: tức là xem dữ liệu, trích xuất tính năng, chế tạo các tính năng mới từ những gì được thu thập, v.v. những thứ như loại bỏ các biến tương quan nặng, v.v. toàn bộ máy học 9 yard.

Và tôi đã tự hỏi: tại sao các mạng thần kinh với một lớp ẩn không phải là thuốc chữa bách bệnh cho các vấn đề máy học? Chúng là các công cụ ước tính phổ quát, sự phù hợp quá mức có thể được quản lý với việc bỏ học, chuẩn hóa l2, chuẩn hóa l1, chuẩn hóa hàng loạt. Tốc độ đào tạo nói chung không phải là một vấn đề nếu chúng ta chỉ có 50.000 ví dụ đào tạo. Chúng tốt hơn ở thời gian thử nghiệm hơn, chúng ta hãy nói, rừng ngẫu nhiên.

Vậy tại sao không - làm sạch dữ liệu, áp đặt các giá trị bị thiếu như bạn thường làm, tập trung dữ liệu, chuẩn hóa dữ liệu, ném dữ liệu vào một mạng lưới thần kinh với một lớp ẩn và áp dụng chính quy cho đến khi bạn thấy không khớp quá mức và sau đó đào tạo họ đến cuối cùng Không có vấn đề với vụ nổ gradient hoặc biến mất độ dốc vì nó chỉ là một mạng 2 lớp. Nếu các lớp sâu là cần thiết, điều đó có nghĩa là các tính năng phân cấp sẽ được học và sau đó các thuật toán học máy khác cũng không tốt. Ví dụ, SVM là một mạng thần kinh chỉ mất bản lề.

Một ví dụ trong đó một số thuật toán học máy khác sẽ vượt trội hơn so với mạng thần kinh 2 lớp (có thể là 3?) Được chuẩn hóa cẩn thận sẽ được đánh giá cao. Bạn có thể cho tôi liên kết đến vấn đề và tôi sẽ đào tạo mạng lưới thần kinh tốt nhất mà tôi có thể và chúng ta có thể thấy nếu 2 mạng thần kinh phân lớp hoặc 3 lớp không thua bất kỳ thuật toán học máy chuẩn nào khác.


14
Mạng nơ-ron LÀ một thuật toán học máy ...
Matthew Drury

6
Chắc chắn có một số lĩnh vực mà học sâu là vua, chẳng hạn như nhận dạng hình ảnh, nhưng trong hầu hết các lĩnh vực khác, chúng có xu hướng bị chi phối bởi việc tăng cường độ dốc, rõ ràng khi nhìn vào kết quả của các cuộc thi Kaggle.
Jake Westfall

1
@MatthewDrury - Quả thực là vậy! xin lỗi vì tệ hại trong thuật ngữ. Tôi hy vọng thông điệp đã được truyền đạt mặc dù. thay đổi câu hỏi dù sao, để mạnh mẽ hơn. Cảm ơn bạn đã chỉ ra
MiloMinderbinder

1
Về độ sâu của mạng, chắc chắn kiểm tra điều này: stats.stackexchange.com/questions/182734
jld

Câu trả lời:


31

Mỗi thuật toán học máy có một thiên vị quy nạp khác nhau, do đó không phải lúc nào cũng thích hợp để sử dụng các mạng thần kinh. Một xu hướng tuyến tính sẽ luôn được học tốt nhất bằng phương pháp hồi quy tuyến tính đơn giản thay vì tập hợp các mạng phi tuyến.

Nếu bạn nhìn vào những người chiến thắng trong các cuộc thi Kaggle trước đây , ngoại trừ mọi thử thách với dữ liệu hình ảnh / video, bạn sẽ nhanh chóng thấy rằng mạng lưới thần kinh không phải là giải pháp cho mọi thứ. Một số giải pháp trong quá khứ ở đây.

áp dụng chính quy cho đến khi bạn thấy không có sự phù hợp quá mức và sau đó huấn luyện chúng đến cùng

Không có gì đảm bảo rằng bạn có thể áp dụng đủ chính quy để ngăn chặn quá mức mà không phá hủy hoàn toàn khả năng của mạng để học bất cứ điều gì. Trong cuộc sống thực, hiếm khi khả thi để loại bỏ khoảng cách kiểm tra tàu, và đó là lý do tại sao các bài báo vẫn báo cáo hiệu suất đào tạo và kiểm tra.

họ là những người ước tính phổ quát

Điều này chỉ đúng trong giới hạn có số lượng đơn vị không giới hạn, điều này không thực tế.

bạn có thể cho tôi liên kết đến vấn đề và tôi sẽ đào tạo mạng lưới thần kinh tốt nhất mà tôi có thể và chúng ta có thể thấy nếu 2 mạng thần kinh phân lớp hoặc 3 lớp không thua bất kỳ thuật toán học máy chuẩn nào khác

Một vấn đề ví dụ mà tôi mong đợi một mạng nơ ron sẽ không bao giờ có thể giải quyết được: Cho một số nguyên, phân loại là số nguyên tố hoặc không nguyên tố.

Tôi tin rằng điều này có thể được giải quyết hoàn hảo với một thuật toán đơn giản lặp đi lặp lại trên tất cả các chương trình hợp lệ theo chiều dài tăng dần và tìm chương trình ngắn nhất xác định chính xác các số nguyên tố. Thật vậy, chuỗi regex gồm 13 ký tự này có thể khớp với các số nguyên tố, không thể tính toán được để tìm kiếm.


Chính quy hóa có thể đưa một mô hình từ một trang phục sang một mô hình có sức mạnh đại diện của nó bị cản trở nghiêm trọng bởi chính quy? Không phải lúc nào cũng có điểm ngọt ngào đó sao?

Vâng, có một điểm ngọt ngào, nhưng nó thường là cách trước khi bạn ngừng quá mức. Xem hình này:

http://gluon.mxnet.io/_images/THERization-overf.p.png

Nếu bạn lật trục ngang và đặt lại tên là "số lượng chính quy", điều đó khá chính xác - nếu bạn thường xuyên cho đến khi không có quá nhiều, lỗi của bạn sẽ rất lớn. "Điểm ngọt" xảy ra khi có một chút quá mức, nhưng không quá nhiều.

Làm thế nào là một 'thuật toán đơn giản lặp lại trên tất cả các chương trình hợp lệ theo chiều dài tăng dần và tìm thấy chương trình ngắn nhất xác định chính xác các số nguyên tố.' một thuật toán học?

θH(θ)θ


Vì vậy, nếu tôi hiểu bạn một cách chính xác, bạn đang đưa ra lập luận rằng nếu dữ liệu không đáng kể, mạng sâu sẽ không bao giờ đạt được độ chính xác xác thực của mạng nông tốt nhất được cung cấp siêu âm tốt nhất cho cả hai?

Đúng. Đây là một con số xấu xí nhưng hy vọng hiệu quả để minh họa quan điểm của tôi. https://i.imgur.com/nM3aI2l.png

nhưng điều đó không có ý nghĩa. một mạng lưới sâu chỉ có thể tìm hiểu một bản đồ 1-1 trên nông

Câu hỏi không phải là "có thể", mà là "nó sẽ", và nếu bạn đang đào tạo backpropagation, câu trả lời có lẽ là không.

Chúng tôi đã thảo luận về thực tế rằng các mạng lớn hơn sẽ luôn hoạt động tốt hơn các mạng nhỏ hơn

Không có trình độ chuyên môn, tuyên bố đó là sai.


Cảm ơn bạn đã trả lời! Chính quy hóa có thể đưa một mô hình từ một trang phục sang một mô hình có sức mạnh đại diện của nó bị cản trở nghiêm trọng bởi chính quy? Không phải lúc nào cũng có điểm ngọt ngào đó sao?
MiloMinderbinder

Về vấn đề đồ chơi của bạn. Làm thế nào là một 'thuật toán đơn giản lặp lại trên tất cả các chương trình hợp lệ theo chiều dài tăng dần và tìm thấy chương trình ngắn nhất xác định chính xác các số nguyên tố.' một thuật toán học?
MiloMinderbinder

Xin lưu ý các ghi chú bài giảng của cs231n - 'Chúng tôi đã thảo luận về thực tế rằng các mạng lớn hơn sẽ luôn hoạt động tốt hơn các mạng nhỏ hơn, nhưng công suất mô hình cao hơn của chúng phải được giải quyết một cách thích hợp với sự chính quy mạnh hơn (như phân rã trọng lượng cao hơn), hoặc chúng có thể phù hợp. Chúng ta sẽ thấy nhiều hình thức chính quy hóa (đặc biệt là bỏ học) trong các phần sau. ' cs231n.github.io/neural-networks-1
MiloMinderbinder

@ user46478 tôi đã giải quyết các câu hỏi của bạn ở trên bằng cách chỉnh sửa câu trả lời
shimao

'Không có gì đảm bảo rằng bạn có thể áp dụng đủ chính quy để ngăn chặn quá mức mà không phá hủy hoàn toàn khả năng của mạng để học bất cứ điều gì.' - Tôi xin lỗi nhưng tôi vẫn không hiểu câu nói này. Tôi lấy dữ liệu đào tạo, tách {train, val}, tạo mạng lớn nhất cho phép máy của tôi, tăng xác suất bỏ học cho đến khi tôi thấy lỗi xác thực được giảm thiểu trong số các lỗi xác thực mà tôi gặp phải ở các xác suất bỏ học khác nhau. Quá trình này có thể dẫn đến một vô dụng từ một mô hình được trang bị quá mức mà không thông qua một mô hình tốt?
MiloMinderbinder

11

Tôi sẽ nói thêm rằng không có thứ gọi là thuốc chữa bách bệnh:

Theo định lý bữa trưa miễn phí :

Nếu một thuật toán thực hiện tốt trên một loại vấn đề nhất định thì nó nhất thiết phải trả cho điều đó với hiệu suất bị suy giảm trên tập hợp tất cả các vấn đề còn lại


Điều này rất đáng buồn (nhưng đừng lo lắng, tôi sẽ không tranh luận về hậu quả) 1. Đọc điều này tôi hiểu đây là về các thuật toán có cùng phân phối trên các chức năng mà chúng có thể học (cũng có nghĩa là cùng một tên miền). Vì vậy, mạng lưới thần kinh chỉ có thể được thương hại đối với các ước tính phổ quát. 2. Điều này không nói về việc không gian chức năng được tìm kiếm nhanh như thế nào. Chúng ta có thể nói rằng một mạng lưới thần kinh với 2 lớp ẩn nhất thiết phải tương đương hoặc vượt trội so với mạng thần kinh có một lớp ẩn trên mọi vấn đề không? tôi nghĩ rằng giả định về tính liên tục phải làm rất nhiều ở đây
MiloMinderbinder

với siêu tham số thích hợp điều chỉnh hai mạng nơ ron phân lớp ẩn nhảy qua các chức năng có cùng tên miền nhanh hơn so với mạng thần kinh phân lớp ẩn đơn. đầu vào của bạn?
MiloMinderbinder

1
'Chúng ta có thể nói rằng một mạng nơ-ron với 2 lớp ẩn nhất thiết phải tương đương hoặc vượt trội so với mạng thần kinh có một lớp ẩn trên mọi vấn đề'. Không tiếc là không. Để làm ví dụ, hãy tưởng tượng một hồi quy logistic (một nn với các lớp ẩn 0) so với mạng nơ ron 1 lớp với số lượng đơn vị ẩn bằng với số lượng dữ liệu cho một tập dữ liệu hoàn toàn có thể tách rời. Không có thông tin về ranh giới quyết định mà lr không thể nắm bắt được và độ phức tạp cao nn có thể vượt quá
dùng3684792

3
Đồng ý với tuyên bố ở đây, nhưng tôi muốn thêm cảnh báo tiêu chuẩn vào NFL, cũng được lấy từ trang wikipedia: "lưu ý rằng NFL chỉ áp dụng nếu chức năng đích được chọn từ phân phối thống nhất của tất cả các chức năng có thể".
mkt - Tái lập Monica

1
@ user46478 Tôi đồng ý với sự liên quan của định lý NFL khi trả lời câu hỏi của bạn "tại sao các mạng thần kinh với một lớp ẩn không phải là thuốc chữa bách bệnh cho các vấn đề máy học?"
mkt - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.