Theo hướng dẫn này về học tập sâu , phân rã trọng lượng (chính quy) thường không được áp dụng cho các điều khoản thiên vị b tại sao?
Ý nghĩa (trực giác) đằng sau nó là gì?
Theo hướng dẫn này về học tập sâu , phân rã trọng lượng (chính quy) thường không được áp dụng cho các điều khoản thiên vị b tại sao?
Ý nghĩa (trực giác) đằng sau nó là gì?
Câu trả lời:
Quá mức thường đòi hỏi đầu ra của mô hình phải nhạy cảm với những thay đổi nhỏ trong dữ liệu đầu vào (nghĩa là nội suy chính xác các giá trị đích, bạn có xu hướng cần nhiều độ cong trong chức năng được trang bị). Các tham số sai lệch không đóng góp vào độ cong của mô hình, do đó thường có rất ít điểm trong việc thường xuyên hóa chúng.
Động lực đằng sau L2 (hoặc L1) là bằng cách hạn chế các trọng số, hạn chế mạng, bạn sẽ ít có khả năng phù hợp hơn. Sẽ không có ý nghĩa gì trong việc hạn chế trọng số của các thiên vị vì các sai lệch được cố định (ví dụ b = 1) do đó hoạt động giống như các nơ-ron thần kinh, điều này có nghĩa là có tính linh hoạt cao hơn.
Tôi sẽ nói thêm rằng thuật ngữ thiên vị thường được khởi tạo với một giá trị trung bình 1
thay vì 0
, vì vậy chúng tôi có thể muốn thường xuyên hóa nó theo cách để không đi quá xa khỏi một giá trị không đổi 1
như làm 1/2*(bias-1)^2
hơn là 1/2*(bias)^2
.
Có lẽ việc thay thế -1
một phần bằng phép trừ cho giá trị trung bình của các thành kiến có thể giúp ích, có thể là trung bình trên mỗi lớp hoặc tổng thể. Tuy nhiên, đây chỉ là một giả thuyết tôi đang làm (về chất nền trung bình).
Tất cả điều này phụ thuộc vào chức năng kích hoạt quá. Ví dụ: sigmoids có thể xấu ở đây khi biến mất độ dốc nếu độ lệch được chuẩn hóa thành độ lệch không đổi cao.
Hướng dẫn nói rằng "áp dụng phân rã trọng lượng cho các đơn vị thiên vị thường chỉ tạo ra một sự khác biệt nhỏ cho mạng cuối cùng", vì vậy nếu nó không giúp ích gì, thì bạn có thể ngừng thực hiện để loại bỏ một siêu tham số. Nếu bạn nghĩ rằng việc thường xuyên bù đắp sẽ giúp ích trong thiết lập của bạn, thì hãy xác thực nó; không có hại trong việc cố gắng.