Các mô hình học tập sâu có vượt quá khả năng cần thiết cho các ước tính của bộ dữ liệu của họ không?


7

Câu hỏi này có vẻ hơi kỳ quặc. Tôi đã tự nghiên cứu về lý thuyết thông tin và quyết định thực hiện một số nghiên cứu chính thức hơn về học tập sâu. Hãy chịu đựng tôi khi tôi cố gắng giải thích. Tôi đã lấy một tập hợp con "đào tạo" lớn của MNIST làm con chuột lang của tôi.

1) Chuyển đổi mọi hình ảnh trong MNIST thành "đen trắng" (giá trị pixel chỉ bằng 0 hoặc 1)

2) Tổng hợp tất cả các hình ảnh dữ liệu để xây dựng biểu đồ qua các pixel - Tôi đã đếm số lần mỗi pixel nhận được 1 giá trị trong tập dữ liệu

3) Biểu đồ chuẩn hóa để có ước tính phân phối xác suất "thật"

4) Từ đây, tôi có phân phối xác suất sau (được hiển thị dưới dạng bản đồ nhiệt với matplotlib):

[Phân phối xác suất cho tập huấn luyện MNIST [1]

5) Bây giờ tôi đã tính toán entropy và nhận được: bit191

6) Theo David MacKay trong cuốn sách Lý thuyết thông tin của mình, chúng ta có thể hiểu một mạng lưới thần kinh là một kênh ồn ào và coi mỗi nơ-ron là có dung lượng 2 bit. Mặc dù anh ấy nói nhà nước để sử dụng ý tưởng này một cách cẩn thận. Chương 40 của cuốn sách của mình http://www.inference.org.uk/itila/book.html )

7) Vì vậy, theo ước tính sơ bộ (và cẩn thận), chúng tôi có thể nói rằng chúng tôi sẽ cần một mạng lưới thần kinh gồm 95 nơ-ron để có thể mã hóa nhãn của tập huấn luyện MNIST này (190/2) 8) Bây giờ chúng tôi có thể nhận được cho câu hỏi của tôi:

Ngay cả khi đây là một phép tính rất "lạc hậu", không phải mạng lưới thần kinh có khả năng học cách ghi nhãn ít nhất là trong sân bóng của 95 nơ-ron? Ví dụ, tại sao chúng ta cần một mạng thần kinh với 21840 tham số để có độ chính xác 99%? (xem xét một ví dụ trong ví dụ của PyTorch cho MNIST: https://github.com/pytorch/examples/blob/master/mnist/main.py )

Câu trả lời:


5

Suy nghĩ hiện tại là dễ dàng hơn để phù hợp với một mạng lưới thần kinh được định lượng quá mức, vì cực trị cục bộ là những cách khác nhau để thể hiện cùng một điều, trong khi trong một mạng lưới thần kinh tối thiểu, bạn phải lo lắng về việc đi đến cực trị toàn cầu:

Lý do tinh tế đằng sau điều này là các mạng nhỏ hơn khó đào tạo hơn với các phương thức cục bộ như Gradient Descent: Rõ ràng là các hàm mất của chúng có tương đối ít cực tiểu cục bộ, nhưng hóa ra nhiều cực tiểu này dễ hội tụ hơn và họ là xấu (tức là với tổn thất cao). Ngược lại, các mạng nơ ron lớn hơn chứa cực tiểu cục bộ đáng kể hơn, nhưng các cực tiểu này hóa ra lại tốt hơn nhiều về sự mất mát thực tế của chúng. Vì Mạng nơ-ron không phải là lồi, nên rất khó để nghiên cứu các tính chất này về mặt toán học, nhưng một số nỗ lực để hiểu các hàm mục tiêu này đã được thực hiện, ví dụ như trong một bài báo gần đây về Mất bề mặt của Mạng nhiều lớp. Trong thực tế, những gì bạn tìm thấy là nếu bạn huấn luyện một mạng nhỏ, tổn thất cuối cùng có thể hiển thị một lượng phương sai tốt - trong một số trường hợp bạn gặp may mắn và hội tụ đến một nơi tốt nhưng trong một số trường hợp bạn bị mắc kẹt ở một trong những cực tiểu xấu. Mặt khác, nếu bạn đào tạo một mạng lưới lớn, bạn sẽ bắt đầu tìm thấy nhiều giải pháp khác nhau, nhưng phương sai trong tổn thất đạt được cuối cùng sẽ nhỏ hơn nhiều. Nói cách khác, tất cả các giải pháp đều tốt như nhau, và ít dựa vào sự may mắn của việc khởi tạo ngẫu nhiên.

CS231n Mạng thần kinh chuyển đổi để nhận dạng trực quan


Cảm ơn câu trả lời của bạn, Emre. Bạn có biết về bất kỳ nghiên cứu nào liên quan đến entropy của bộ dữ liệu vào mạng được yêu cầu để đạt được độ chính xác nhất định không? Tôi đang tưởng tượng ở đây một âm mưu, trong đó X là entropy của một tập dữ liệu và Y là kích thước tính theo bit của mạng tối thiểu được tìm thấy cho đến nay đạt được độ chính xác 99% trên đó.
Paulo A. Ferreira

1
Không chính xác, nhưng phương pháp thắt cổ chai thông tin và các phần tiếp theo của Tishby, chẳng hạn như Lý thuyết về nút cổ chai thông tin về Deep Learning khá gần gũi và khá thú vị. Ngoài ra còn có rất nhiều bài viết về nén mạng thần kinh, nhưng những bài tôi có thể nghĩ là theo kinh nghiệm chứ không phải lý thuyết như đã nói ở trên.
Emre
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.