Một người (về mặt lý thuyết) có thể đào tạo một mạng lưới thần kinh với ít mẫu đào tạo hơn trọng lượng không?


12

Trước hết: Tôi biết, không có số lượng kích thước mẫu chung cần thiết để đào tạo một mạng lưới thần kinh. Nó phụ thuộc vào cách quá nhiều yếu tố như độ phức tạp của nhiệm vụ, tiếng ồn trong dữ liệu và như vậy. Và tôi càng có nhiều mẫu đào tạo, mạng lưới của tôi sẽ càng tốt hơn.

Nhưng tôi đã tự hỏi: về mặt lý thuyết có thể đào tạo một mạng lưới thần kinh với ít mẫu đào tạo hơn trọng lượng không, nếu tôi cho rằng nhiệm vụ của mình là "đơn giản" đủ? Có ai biết một ví dụ nơi làm việc này? Hay mạng này gần như chắc chắn sẽ hoạt động kém?

Ví dụ, nếu tôi xem xét hồi quy đa thức, tôi không thể phù hợp với đa thức bậc 4 (nghĩa là có 5 tham số miễn phí) trên chỉ 4 điểm dữ liệu. Có một quy tắc tương tự cho các mạng thần kinh, coi số lượng trọng lượng của tôi là số lượng tham số miễn phí không?


Có: nếu các trọng số được khởi tạo ngẫu nhiên, về mặt lý thuyết có thể có được một mạng lưới thần kinh được đào tạo hoàn hảo ngay cả với các mẫu đào tạo bằng không. (Đăng như một bình luận, không phải là một câu trả lời, vì tôi biết đây không thực sự là những gì bạn đang hỏi.)
Darren Cook

Câu trả lời:


17

Mọi người làm điều đó mọi lúc với các mạng lớn. Ví dụ, mạng AlexNet nổi tiếng có khoảng 60 triệu tham số, trong khi ImageNet ILSVRC mà nó được đào tạo ban đầu chỉ có 1,2 triệu hình ảnh.

Lý do bạn không phù hợp với đa thức 5 tham số cho 4 điểm dữ liệu là vì nó luôn có thể tìm thấy một hàm phù hợp chính xác với các điểm dữ liệu của bạn, nhưng thực hiện những điều vô nghĩa ở nơi khác. Vâng, như đã lưu ý gần đây , AlexNet và các mạng tương tự có thể phù hợp với các nhãn ngẫu nhiên tùy ý áp dụng cho ImageNet và chỉ cần ghi nhớ tất cả chúng, có lẽ vì chúng có nhiều tham số hơn các điểm đào tạo. Nhưng một cái gì đó về các linh mục của mạng kết hợp với quá trình tối ưu hóa độ dốc ngẫu nhiên có nghĩa là, trong thực tế, các mô hình này vẫn có thể khái quát tốt đến các điểm dữ liệu mới khi bạn cung cấp cho chúng nhãn thực. Chúng tôi vẫn không thực sự hiểu tại sao điều đó xảy ra.


2
+1. Tôi có thể thêm rằng để so sánh với hồi quy đa thức, tôi cũng xem xét rằng các mẫu có chiều cao. Độ phân giải hình ảnh trung bình trên ImageNet là khoảng 469x387 pixel, nếu được cắt thành 256x256, chúng ta có 1,2 triệu thông số đầu vào 65 nghìn, tương quan cao trong mỗi mẫu, do đó cung cấp nhiều thông tin hơn cho mạng thần kinh (và đặc biệt là NN tích chập) hơn trong trường hợp hồi quy đa thức.
jjmontes

3
@jjmontes đúng, nhưng bí ẩn chính là các mạng này có khả năng vừa ghi nhớ vừa khái quát hóa (tốt). Nói cách khác, họ có thể phá vỡ dữ liệu đào tạo với các nhãn ngẫu nhiên và vẫn khái quát tốt. Đây không phải là thứ người ta thấy trong các phương thức ML truyền thống.
Amelio Vazquez-Reina

6

Các hệ thống không xác định chỉ được xác định trước nếu bạn không áp đặt các ràng buộc nào khác ngoài dữ liệu. Bám sát ví dụ của bạn, khớp đa thức 4 độ với 4 điểm dữ liệu có nghĩa là bạn có một bậc tự do không bị ràng buộc bởi dữ liệu, điều này khiến bạn có một dòng (trong không gian hệ số) các giải pháp tốt tương đương. Tuy nhiên, bạn có thể sử dụng các kỹ thuật chính quy hóa khác nhau để làm cho vấn đề trở nên dễ xử lý. Ví dụ: bằng cách áp dụng một hình phạt đối với định mức L2 (nghĩa là tổng bình phương) của các hệ số, bạn đảm bảo rằng luôn có một giải pháp duy nhất có thể lực cao nhất.

Các kỹ thuật chính quy cũng tồn tại cho các mạng thần kinh, vì vậy câu trả lời ngắn cho câu hỏi của bạn là 'có, bạn có thể'. Quan tâm đặc biệt là một kỹ thuật gọi là "bỏ học", trong đó, với mỗi lần cập nhật các trọng số, bạn ngẫu nhiên 'thả' một tập hợp con các nút nhất định khỏi mạng. Đó là, đối với việc lặp lại cụ thể của thuật toán học tập, bạn giả vờ các nút này không tồn tại. Không bỏ học, mạng có thể học các biểu diễn rất phức tạp của đầu vào phụ thuộc vào tất cả các nút làm việc cùng nhau vừa phải. Các đại diện như vậy có khả năng 'ghi nhớ' dữ liệu đào tạo, thay vì tìm các mẫu tổng quát. Dropout đảm bảo rằng mạng không thể sử dụng tất cả các nút cùng một lúc để phù hợp với dữ liệu đào tạo; nó phải có khả năng thể hiện tốt dữ liệu ngay cả khi thiếu một số nút,

Cũng lưu ý rằng khi sử dụng học sinh bỏ học, mức độ tự do tại bất kỳ thời điểm nào trong quá trình đào tạo thực sự có thể nhỏ hơn số lượng mẫu đào tạo, mặc dù trong tổng số bạn đang học nhiều trọng lượng hơn so với mẫu đào tạo.


2
Điều này có thể thể hiện quá mức vai trò của chính quy hóa rõ ràng đóng vai trò trong các mạng lưới sâu: bài viết này tôi đã đề cập trong câu trả lời của mình cho thấy việc bỏ học và các hình thức chính quy hóa khác chỉ có tác động nhỏ đến mức độ mà mạng có thể ghi nhớ. Mặc dù, có thể câu chuyện cơ bản của bạn là đúng nhưng sự chính quy trong lúc chơi là câu chuyện ngầm từ SGD; tất cả vẫn còn hơi âm u
Dougal
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.