Tại sao trọng lượng ban đầu trong mạng lưới thần kinh được chọn ngẫu nhiên?


10

Điều này nghe có vẻ ngớ ngẩn với một người có nhiều kinh nghiệm với các mạng lưới thần kinh nhưng nó làm phiền tôi ...

Ý tôi là việc ngẫu nhiên các trọng số ban đầu có thể mang lại cho bạn kết quả tốt hơn, gần giống với mạng được đào tạo hơn, nhưng nó cũng có thể trái ngược hoàn toàn với mức độ của nó, trong khi 0,5 hoặc một số trung bình khác cho phạm vi trọng lượng hợp lý giá trị sẽ giống như một thiết lập mặc định tốt ...

Tại sao trọng lượng ban đầu cho tế bào thần kinh đang được ngẫu nhiên thay vì 0,5 cho tất cả chúng?


Vấn đề với chỉnh sửa của tôi là gì? Bạn có nghĩ rằng bạn không thể được cải thiện?
nbro

@nbro thêm nhiều câu hỏi, khiến nó quá rộng ...
Matas Vaitkevicius

Những câu hỏi tôi đã thêm mà không có trong bài viết của bạn? Tôi chỉ định dạng lại những câu hỏi mà bạn nêu là giả thuyết.
nbro

Nhân tiện, từ ngữ của bạn thậm chí không chính xác. Các trọng số không được ngẫu nhiên, nhưng chúng đang được khởi tạo ngẫu nhiên. Đây là hai khái niệm khác nhau và bạn có nghĩa là khái niệm thứ hai. Chỉnh sửa của tôi là để cải thiện từ ngữ quá.
nbro

@nbro Xin chào, nhìn tôi không có gì đáng ngạc nhiên, và chắc chắn không muốn làm mất lòng bạn. Tôi rất tệ khi đặt câu hỏi quá, từ ngữ và tất cả mọi thứ. Vì vậy, tôi xin lỗi nếu tôi đã xúc phạm bạn.
Matas Vaitkevicius

Câu trả lời:


6

Các trọng số ban đầu trong mạng thần kinh được khởi tạo ngẫu nhiên vì các phương pháp dựa trên độ dốc thường được sử dụng để huấn luyện mạng thần kinh không hoạt động tốt khi tất cả các trọng số được khởi tạo cho cùng một giá trị. Mặc dù không phải tất cả các phương pháp để huấn luyện mạng nơ-ron đều dựa trên độ dốc, nhưng hầu hết chúng đều được sử dụng và trong một số trường hợp, việc khởi tạo mạng nơ-ron thành cùng một giá trị khiến mạng mất nhiều thời gian hơn để hội tụ một giải pháp tối ưu. Ngoài ra, nếu bạn muốn đào tạo lại mạng lưới thần kinh của mình vì nó bị kẹt trong một cực tiểu cục bộ, nó sẽ bị kẹt trong cùng một cực tiểu cục bộ. Vì những lý do trên, chúng tôi không đặt các trọng số ban đầu thành một giá trị không đổi.

Tài liệu tham khảo: Tại sao backpropagation không hoạt động khi bạn khởi tạo các trọng số có cùng giá trị?


Trong thực tế, chúng bị hỏng nếu tất cả các trọng lượng là như nhau.
Quonux

8

Bạn không nên gán tất cả cho 0,5 vì bạn có vấn đề "phá vỡ tính đối xứng".

http://www.deeplearningbook.org/contents/optimization.html

Có lẽ thuộc tính duy nhất được biết với sự chắc chắn hoàn toàn là các tham số ban đầu cần phá vỡ tính đối xứng giữa các đơn vị khác nhau. Nếu hai đơn vị ẩn có cùng chức năng kích hoạt được kết nối với cùng một đầu vào, thì các đơn vị này phải có các tham số ban đầu khác nhau. Nếu chúng có cùng tham số ban đầu, thì thuật toán học xác định được áp dụng cho chi phí và mô hình xác định sẽ liên tục cập nhật cả hai đơn vị này theo cùng một cách. Ngay cả khi mô hình hoặc thuật toán đào tạo có khả năng sử dụng ngẫu nhiên để tính toán các cập nhật khác nhau cho các đơn vị khác nhau (ví dụ: nếu một tàu bị bỏ học), tốt nhất là khởi tạo mỗi đơn vị để tính một hàm khác nhau từ tất cả các đơn vị khác. Điều này có thể giúp đảm bảo rằng không có mẫu đầu vào nào bị mất trong không gian null của lan truyền chuyển tiếp và không có mẫu gradient nào bị mất trong không gian null của lan truyền ngược.


1

Đó là một câu hỏi rất sâu sắc. Có hàng loạt các giấy tờ thời gian gần đây với bằng chứng về sự hội tụ của gradient descent cho mạng sâu overparameterized (ví dụ, Gradient Descent Finds toàn cầu Minima Deep Neural Networks , Một Lý thuyết tụ Deep Learning qua Over-Tham số hoặc Stochastic Gradient Descent Tối ưu hoá Over-tham số sâu Mạng ReLU ). Tất cả chúng đều chứng minh điều kiện về phân bố trọng lượng Gaussian ngẫu nhiên. Tầm quan trọng của bằng chứng phụ thuộc vào hai yếu tố:

  1. Trọng số ngẫu nhiên làm cho ánh xạ nén thống kê ReLU (chuyển đổi tuyến tính)

  2. Các trọng số ngẫu nhiên bảo toàn sự phân tách đầu vào cho bất kỳ phân phối đầu vào nào - đó là nếu các mẫu đầu vào có khả năng lan truyền mạng phân biệt sẽ không làm cho chúng không thể phân biệt được

Các thuộc tính này rất khó tái tạo với các ma trận xác định và ngay cả khi chúng có thể tái tạo với các ma trận xác định không gian NULL (miền của các ví dụ đối nghịch) có thể làm cho phương thức trở nên không thực tế và việc bảo toàn các thuộc tính đó trong quá trình giảm độ dốc có thể khiến phương thức trở nên không thực tế. Nhưng nhìn chung nó rất khó nhưng không phải là không thể, và có thể đảm bảo một số nghiên cứu theo hướng đó. Trong tình huống tương tự, đã có một số kết quả cho Thuộc tính hình học bị hạn chế đối với ma trận xác định trong cảm biến nén .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.