Tại sao một mạng ẩn một lớp trở nên mạnh mẽ hơn để khởi tạo kém với số lượng tế bào thần kinh ẩn ngày càng tăng?

Tóm lại: Tôi muốn hiểu tại sao một mạng nơ-ron một lớp ẩn hội tụ đến mức tối thiểu đáng tin cậy hơn khi sử dụng số lượng lớn hơn các nơ-ron ẩn. Dưới đây là một lời giải thích chi tiết hơn về thí nghiệm của tôi:

Tôi đang làm việc trên một ví dụ phân loại giống như 2D XOR đơn giản để hiểu rõ hơn về tác động của việc khởi tạo mạng thần kinh. Đây là một hình ảnh trực quan của dữ liệu và ranh giới quyết định mong muốn:

Mỗi blob bao gồm 5000 điểm dữ liệu. Mạng nơ ron phức tạp tối thiểu để giải quyết vấn đề này là mạng một lớp ẩn với 2 nơ ron ẩn. Vì kiến trúc này có số lượng tham số tối thiểu có thể để giải quyết vấn đề này (với NN), tôi sẽ ngây thơ mong đợi rằng đây cũng là cách dễ dàng nhất để tối ưu hóa. Tuy nhiên, đây không phải là trường hợp.

Tôi thấy rằng với việc khởi tạo ngẫu nhiên, kiến trúc này hội tụ khoảng một nửa thời gian, nơi sự hội tụ phụ thuộc vào các dấu hiệu của các trọng số. Cụ thể, tôi quan sát hành vi sau:

w1 = [[1,-1],[-1,1]], w2 = [1,1] --> converges
w1 = [[1,1],[1,1]],   w2 = [1,-1] --> converges
w1 = [[1,1],[1,1]],   w2 = [1,1] --> finds only linear separation
w1 = [[1,-1],[-1,1]], w2 = [1,-1] --> finds only linear separation

Điều này có ý nghĩa với tôi. Trong hai trường hợp sau, tối ưu hóa bị kẹt trong cực tiểu cục bộ tối ưu. Tuy nhiên, khi tăng số lượng tế bào thần kinh ẩn thành giá trị lớn hơn 2, mạng phát triển mạnh mẽ để khởi tạo và bắt đầu hội tụ một cách đáng tin cậy cho các giá trị ngẫu nhiên của w1 và w2. Bạn vẫn có thể tìm thấy các ví dụ bệnh lý, nhưng với 4 nơ-ron ẩn, khả năng một "đường dẫn" qua mạng sẽ có trọng lượng không phải là bệnh lý lớn hơn. Nhưng xảy ra với phần còn lại của mạng, nó chỉ không được sử dụng sau đó?

Có ai hiểu rõ hơn sự mạnh mẽ này đến từ đâu hoặc có lẽ có thể cung cấp một số tài liệu thảo luận về vấn đề này?

Một số thông tin khác: điều này xảy ra trong tất cả các cài đặt đào tạo / cấu hình kiến trúc mà tôi đã điều tra. Chẳng hạn, activations = Relu, Final_activation = sigmoid, Tối ưu hóa = Adam, learning_rate = 0.1, cost_feft = cross_entropy, bias được sử dụng trong cả hai lớp.

neural-networks optimization

— Chrigi
nguồn

Số lượng các đơn vị ẩn không chỉ phụ thuộc vào độ phức tạp của chức năng, mà còn cả số lượng mẫu bạn có. Tham khảo tài liệu tham khảo tuyệt vời này .

— BartoszKP

@BartoszKP: Cảm ơn rất nhiều vì đã tham khảo. Nó trông cực kỳ hữu ích nói chung! Trong trường hợp này, tôi không quan tâm đến một heuristic vì đã chọn số lượng đơn vị ẩn tối ưu. Tôi biết vấn đề có thể giải quyết được với 2 và quá mức / thiếu là một vấn đề vì vậy số lượng điểm dữ liệu không liên quan. Mục tiêu của tôi là nhiều hơn để có được một trực giác về lý do tại sao có một mạng với khả năng dự phòng có vẻ có lợi ở đây.

— Chrigi

Bạn có ý nghĩa gì bởi sự tách biệt tuyến tính?

— DuttaA

@DuttaA: Ý tôi là phân vùng không gian thành 2 miền cách nhau bởi một dòng, thay vì hai dòng như hình trên. Hãy tưởng tượng góc dưới bên phải cũng có màu đỏ.

— Chrigi

ai.stackexchange.com/questions/2349/ từ kiểm tra câu trả lời

— DuttaA

Câu trả lời:

Bạn nắm được một chút câu trả lời.

Trong hai trường hợp sau, tối ưu hóa bị kẹt trong cực tiểu cục bộ tối ưu.

Khi bạn chỉ có 2 chiều, một cực tiểu cục bộ tồn tại. Khi bạn có nhiều kích thước hơn, cực tiểu này càng ngày càng khó tiếp cận, vì khả năng của nó sẽ giảm. Theo trực giác, bạn có nhiều kích thước hơn thông qua đó bạn có thể cải thiện hơn nếu bạn chỉ có 2 chiều.

Vấn đề vẫn còn tồn tại, thậm chí với 1000 nơ-ron, bạn có thể tìm thấy một tập trọng lượng cụ thể là mức tối thiểu cục bộ. Tuy nhiên, nó trở nên ít có khả năng hơn.

— BlueMoon93
nguồn

Nhưng cực tiểu địa phương sẽ luôn tồn tại. Có thể cho rằng, với 4 nơ-ron ẩn sẽ có nhiều phần tử cục bộ hơn so với 2, đúng không? Vậy tại sao sau đó nó trở nên ít có khả năng bị mắc kẹt trong một?

— Chrigi

Các cực tiểu địa phương không nhất thiết phải tăng với nhiều nơ-ron hơn (mặc dù chúng có thể!). Mặc dù vậy, chúng khó tìm hơn, bởi vì bạn có nhiều kích thước hơn và nó phải là tối thiểu trên tất cả các kích thước đó. Vì vậy, mức tối thiểu cục bộ với XY chỉ cần là mức tối thiểu cục bộ cho XY, trong khi với 100 nơ-ron, bạn cần nó ở mức tối thiểu trên tất cả 100 chiều để backprop giải quyết ở đó.

— BlueMoon93

được thôi nếu số lượng cực tiểu cục bộ phát triển đủ chậm với số lượng tế bào thần kinh ẩn này có ý nghĩa. Cảm ơn câu trả lời của bạn! Bạn có biết nếu có bất kỳ tài liệu tốt ngoài kia thảo luận về những điều này. Đó là, "cảnh quan" tối ưu hóa trông như thế nào và nó có khả năng thay đổi như thế nào với sự phức tạp của mạng?

— Chrigi

IIRC David Silver đề cập đến sự mạnh mẽ của mạng lưới thần kinh trong khóa học này , nhưng tôi không thể tìm thấy thời điểm chính xác. Về cơ bản, ông mô tả rằng mạng có rất nhiều tham số, nó làm cho nó trở nên mạnh mẽ với cực tiểu cục bộ. Về hình dung cảnh quan, không thể có đủ đầu vào. Bạn có thể làm điều đó với 2 nơ ron đầu vào của bạn, nhưng nhiều hơn thế không thể được biểu thị trực quan cho con người. Tôi đã thực hiện một hội thảo và đề cập đến một số màn hình ở đây

— BlueMoon93

@ BlueMoon93 Tôi luôn phải đối mặt với vấn đề bị mắc kẹt trong một cực tiểu cục bộ trong trường hợp đầu vào riêng biệt và đầu ra riêng biệt ... tôi chưa gặp vấn đề gì đối với các nhiệm vụ phân loại đầu vào liên tục..nhưng chúng có tồn tại không?

— DuttaA

Tôi có thể đã làm trầy xước bề mặt của một vấn đề lớn hơn nhiều khi tôi hỏi câu hỏi này. Trong khi chờ đợi, tôi đã đọc bài viết Giả thuyết xổ số: https://arxiv.org/pdf/1803.03635.pdf

Về cơ bản, nếu bạn đánh giá quá cao mạng của mình, bạn có nhiều khả năng tìm thấy một khởi tạo ngẫu nhiên hoạt động tốt: Một vé chiến thắng. Bài viết trên cho thấy rằng bạn thực sự có thể cắt bỏ các phần không cần thiết của mạng sau khi đào tạo. Tuy nhiên, ban đầu bạn cần phải xác định lại quá mức mạng để tăng cơ hội lấy mẫu ngẫu nhiên một cấu hình vé trúng thưởng.

Tôi tin rằng trường hợp trong câu hỏi của tôi ở trên là một ví dụ tối thiểu về điều này.

— Chrigi
nguồn