Trong tuần 3 ghi chú bài giảng của lớp Coursera Machine Learning của Andrew Ng , một thuật ngữ được thêm vào hàm chi phí để thực hiện chính quy:
J+( θ ) = J( Θ ) + λ2 mΣj = 1nθ2j
Các ghi chú bài giảng nói:
Chúng tôi cũng có thể thường xuyên hóa tất cả các tham số theta của mình trong một tổng kết duy nhất:
m i nθ 12 m [ ∑i = 1m( hθ( x( tôi )) - y( tôi ))2+ Bước sóng Σ j = 1nθ2j]
12 m sau đó được áp dụng cho thuật ngữ chính quy hóa của các mạng thần kinh :
Hãy nhớ rằng hàm chi phí cho hồi quy logistic thường xuyên là:
J( θ ) = - 1mΣi = 1m[ y( tôi ) đăng nhập( hθ( x( tôi )) ) + ( 1 - y( tôi )) đăng nhập ( 1 - hθ( x( tôi )) ) ] + Λ2 mΣj = 1nθ2j
Đối với các mạng thần kinh, sẽ phức tạp hơn một chút:
J( Θ ) = - 1mΣi = 1mΣk = 1K[ y( tôi )kđăng nhập( ( hΘ( x( tôi )) )k) + ( 1 - y( tôi )k) đăng nhập( 1 - ( hΘ( x( tôi )) )k) ]+ λ2 mΣl = 1L - 1Σi = 1StôiΣj = 1Sl + 1( Θ( l )j , tôi)2
- Tại sao một nửa liên tục được sử dụng ở đây? Vì vậy, nó bị hủy trong đạo hàm ?J'
- Tại sao phân chia bởi ví dụ đào tạo? Làm thế nào để số lượng các ví dụ đào tạo ảnh hưởng đến mọi thứ?m