Lý do chính tại sao độ dốc được sử dụng cho hồi quy tuyến tính là độ phức tạp tính toán: nó rẻ hơn về mặt tính toán (nhanh hơn) để tìm giải pháp sử dụng độ dốc gốc trong một số trường hợp.
β=(X′X)−1X′Y
X′XX′XK×K
Vì vậy, việc giảm độ dốc cho phép tiết kiệm rất nhiều thời gian cho các tính toán. Hơn nữa, cách nó được thực hiện cho phép song song hóa tầm thường, tức là phân phối các tính toán trên nhiều bộ xử lý hoặc máy. Giải pháp đại số tuyến tính cũng có thể được song song nhưng nó phức tạp hơn và vẫn đắt tiền.
Ngoài ra, có các phiên bản giảm độ dốc khi bạn chỉ giữ một phần dữ liệu của mình trong bộ nhớ, hạ thấp các yêu cầu đối với bộ nhớ máy tính. Nhìn chung, đối với các vấn đề lớn hơn, nó hiệu quả hơn giải pháp đại số tuyến tính.
Điều này càng trở nên quan trọng hơn khi tính chiều tăng lên, khi bạn có hàng ngàn biến như trong học máy.
Ghi chú . Tôi đã rất ngạc nhiên bởi có bao nhiêu sự chú ý được dành cho việc giảm độ dốc trong các bài giảng của Ng. Ông dành thời gian không cần thiết để nói về nó, có thể 20% toàn bộ khóa học. Đối với tôi đó chỉ là một chi tiết triển khai, đó chính xác là cách bạn tìm thấy tối ưu. Chìa khóa nằm ở việc xây dựng vấn đề tối ưu hóa, và chính xác bạn thấy nó như thế nào là không quan trọng. Tôi sẽ không lo lắng về nó quá nhiều. Để lại cho những người làm khoa học máy tính và tập trung vào những gì quan trọng đối với bạn như một nhà thống kê.
Nói xong tôi phải hội đủ điều kiện bằng cách nói rằng nó thực sự là quan trọng để hiểu các tính toán phức tạp và ổn định bằng số của các thuật toán giải pháp. Tôi vẫn không nghĩ rằng bạn phải biết chi tiết về cách triển khai và mã của các thuật toán. Đó không phải là cách sử dụng tốt nhất thời gian của bạn như một nhà thống kê thường.
Lưu ý 1 . Tôi đã viết rằng bạn phải đảo ngược ma trận cho các mục đích mô phạm và đó không phải là cách bạn thường giải phương trình. Trong thực tế, các vấn đề đại số tuyến tính được giải quyết bằng cách sử dụng một số loại nhân tố như QR, trong đó bạn không trực tiếp đảo ngược ma trận mà thực hiện một số thao tác tương đương toán học khác để có câu trả lời. Bạn làm điều này bởi vì đảo ngược ma trận là một hoạt động tốn kém và không ổn định về số lượng trong nhiều trường hợp.
Điều này mang đến một lợi thế nhỏ khác của thuật toán giảm độ dốc như một hiệu ứng phụ: nó hoạt động ngay cả khi ma trận thiết kế có vấn đề về cộng tuyến. Đường dẫn đại số tuyến tính thông thường sẽ nổ tung và giảm dần độ dốc sẽ tiếp tục ngay cả đối với các dự đoán cộng tuyến.