Tại sao các trọng số của Mạng nơ-ron được khởi tạo với các số ngẫu nhiên?


9

Tại sao các mạng thần kinh ban đầu có trọng số ban đầu là số ngẫu nhiên? Tôi đã đọc ở đâu đó rằng điều này được thực hiện để "phá vỡ tính đối xứng" và điều này làm cho mạng lưới thần kinh học nhanh hơn. Làm thế nào để phá vỡ tính đối xứng làm cho nó học nhanh hơn?

Sẽ không khởi tạo các trọng số về 0 là một ý tưởng tốt hơn? Bằng cách đó, các trọng số sẽ có thể tìm thấy các giá trị của chúng (dù là tích cực hay tiêu cực) nhanh hơn?

Có một số triết lý cơ bản khác đằng sau việc ngẫu nhiên hóa các trọng số ngoài việc hy vọng rằng chúng sẽ ở gần các giá trị tối ưu của chúng khi được khởi tạo?

Câu trả lời:


6

Trực giác cơ bản đằng sau việc khởi tạo các lớp trọng lượng thành các giá trị nhỏ (và khác nhau) chỉ để độ lệch của hệ thống bị phá vỡ và các giá trị trọng lượng có thể di chuyển dọc và xa và tách ra các giá trị khác nhau.

Cụ thể hơn, bạn có thể muốn trọng lượng ban đầu của mình khác biệt và có "một khoảng cách nhỏ" giữa chúng, "khoảng cách" này mở rộng khi bạn đi cùng và buộc các trọng số lớn hơn một chút ở mỗi lần lặp và điều này giúp ích mạng hội tụ nhanh hơn, tức là quá trình học tập tăng tốc.

Thay vào đó, nếu bạn có tất cả các trọng số của mình ở một số hằng số, thì mỗi trọng số sẽ được cập nhật ở tốc độ rất chậm (~ cố định) và điều này sẽ không giúp ích nhiều, đặc biệt nếu các giá trị ban đầu là 'rất xa' so với các giá trị cuối cùng.

Hy vọng rằng sẽ giúp, có niềm vui học tập :)


Vì vậy, những gì bạn đang nói là ngẫu nhiên các trọng lượng ban đầu tương đương với việc tạo cho mỗi trọng lượng một điểm nhấn theo hướng cần di chuyển (và khoảng cách để mở rộng).
Shaya RC

Tôi không nghĩ rằng nó cần phải đi đúng hướng, bạn cũng có thể bắt đầu với trọng số init là [-0,5, +0,5] trong đó các giá trị cuối cùng có thể là [+0,5, -0,5], ý tưởng chính đang có các giá trị khác nhau ..
Subhaya

Đã hơn một năm kể từ khi tôi làm việc với NN, vì vậy tôi đang nói chuyện theo kiểu lượn sóng tay, xin vui lòng cho tôi biết nếu bạn muốn toán học đằng sau nó. nhưng tôi nghĩ điều quan trọng hơn là có được trực giác ở đây, toán học có sẵn khá nhiều ở mọi nơi .. :)
Subhayan

Toán học đằng sau nó sẽ hữu ích nhưng thậm chí hữu ích hơn sẽ là một lời khuyên thiết thực: Giống như trọng lượng ban đầu nên nhỏ như thế nào (10 ^?) Chúng khác nhau như thế nào đối với các loại mạng khác nhau? Có một số loại số ma thuật làm việc cho tất cả?
Shaya RC
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.