Tôi đã tham gia khóa học "Machine Learning" của Andrew Ng qua Coursera vài tháng trước, không chú ý đến hầu hết các môn toán / phái sinh và thay vào đó tập trung vào thực hiện và thực tiễn. Kể từ đó, tôi đã bắt đầu quay lại để nghiên cứu một số lý thuyết cơ bản, và đã xem lại một số bài giảng của Giáo sư Ng. Tôi đã đọc qua bài giảng của ông về "Hồi quy tuyến tính thường xuyên" và thấy rằng ông đã đưa ra hàm chi phí sau:
Sau đó, anh ta đưa ra độ dốc sau cho hàm chi phí này:
Tôi hơi bối rối về cách anh ấy đi từ người này sang người khác. Khi tôi cố gắng thực hiện đạo hàm của riêng mình, tôi đã có kết quả như sau:
Sự khác biệt là dấu 'cộng' giữa hàm chi phí ban đầu và tham số chính quy trong công thức của giáo sư Ng thay đổi thành dấu 'trừ' trong hàm gradient của anh ta, trong khi điều đó không xảy ra trong kết quả của tôi.
Theo trực giác tôi hiểu lý do tại sao nó âm tính: chúng tôi đang giảm tham số theta bằng con số gradient và chúng tôi muốn tham số chính quy giảm số lượng mà chúng tôi đang thay đổi tham số để tránh bị quá mức. Tôi chỉ bị mắc kẹt một chút về tính toán ủng hộ trực giác này.
FYI, bạn có thể tìm thấy bộ bài ở đây , trên các slide 15 và 16.