Tại sao backpropagation không hoạt động khi bạn khởi tạo các trọng số có cùng giá trị?


20

Tại sao backpropagation không hoạt động khi bạn khởi tạo tất cả trọng số có cùng giá trị (giả sử 0,5), nhưng hoạt động tốt khi được cung cấp các số ngẫu nhiên?

Không nên thuật toán tính toán lỗi và làm việc từ đó, mặc dù thực tế là các trọng số ban đầu giống nhau?

Câu trả lời:


26

Đối xứng phá vỡ.

Nếu tất cả các trọng số bắt đầu với các giá trị bằng nhau và nếu giải pháp yêu cầu các trọng số không bằng nhau được phát triển, hệ thống không bao giờ có thể học được.

Điều này là do lỗi được lan truyền trở lại thông qua các trọng số tỷ lệ với các giá trị của các trọng số. Điều này có nghĩa là tất cả các đơn vị ẩn được kết nối trực tiếp với các đơn vị đầu ra sẽ nhận được tín hiệu lỗi giống hệt nhau và do trọng lượng thay đổi phụ thuộc vào tín hiệu lỗi, các trọng số từ các đơn vị đó đến các đơn vị đầu ra phải luôn giống nhau. Hệ thống bắt đầu ở một điểm cân bằng không ổn định giữ trọng số bằng nhau, nhưng nó cao hơn một số điểm lân cận trên bề mặt lỗi và một khi nó di chuyển đến một trong những điểm này, nó sẽ không bao giờ quay trở lại. Chúng tôi chống lại vấn đề này bằng cách bắt đầu hệ thống với các trọng số ngẫu nhiên nhỏ. Trong những điều kiện này, các vấn đề đối xứng của loại này không phát sinh.


Vì vậy, trọng lượng ban đầu của NN không chỉ xác định tốc độ mà nó đào tạo, mà còn có thể là nguyên nhân của việc học hay không học?
dùng1724140

2
Có, đôi khi, chúng tôi không chỉ đào tạo (ví dụ Mạng lưới thần kinh) chỉ trên một bộ cân. Một điều phổ biến để làm, nếu chúng ta có thời gian, là tạo ra một số cấu hình trọng lượng bắt đầu khác nhau và huấn luyện mạng trên đó. Bởi vì đôi khi, có thể xảy ra một cấu hình sẽ kết thúc ở mức tối ưu cục bộ hoặc rất tiếc là không thực sự ngẫu nhiên.
ThiS

Điều này không sai, bởi vì các đầu vào khác nhau vẫn có thể phá vỡ tính đối xứng. xem: open.wolframcloud.com/env/ trên
user3180

12

RnR

Những gì bạn muốn nó là tối thiểu toàn cầu, nhưng bạn không có cách nào đảm bảo để tìm thấy nó. Và nếu bề mặt của bạn có một số cực tiểu cục bộ thì bạn có thể gặp rắc rối.

Nhưng nếu nó chỉ có một vài thì chiến lược của Thierry sẽ hoạt động - thực hiện nhiều tìm kiếm cho cực tiểu địa phương bằng cách bắt đầu tại các điểm được chọn ngẫu nhiên sẽ tăng cơ hội tìm thấy mức tối thiểu toàn cầu của bạn.

Và trong trường hợp hạnh phúc trong đó chỉ có một mức tối thiểu - bất kỳ vectơ trọng lượng ban đầu nào cũng sẽ dẫn bạn đến đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.