Tôi đang dành một chút thời gian để học máy (xin lỗi vì đệ quy :) và tôi không thể không bị cuốn hút bởi quy tắc chọn Gradient Descent trong việc giải phương trình trực tiếp cho các hệ số hồi quy tính toán, trong trường hợp hồi quy tuyến tính đa biến.
Nguyên tắc chung: nếu số lượng tính năng (đọc hệ số / biến độc lập) nằm trong khoảng từ trở lên, thì với Gradient Descent, tính toán nghịch đảo ma trận khác khá dễ quản lý trên phần cứng hàng hóa và do đó tính toán trực tiếp các hệ số sẽ hoạt động đủ tốt .
Nói một cách tính toán, tôi nhận được sự đánh đổi / hạn chế. Nhưng từ quan điểm thống kê, chúng ta có thực sự tính toán các mô hình với nhiều hệ số đó bao giờ không? Nếu tôi nhớ các lớp hồi quy tuyến tính đa biến của mình ở trường lớp, chúng tôi được khuyến cáo không sử dụng quá nhiều biến độc lập vì chúng có thể có tác động rất không đáng kể đến biến phụ thuộc hoặc phân phối của chúng sẽ không tuân theo các giả định mà chúng tôi đưa ra về dữ liệu. Ngay cả khi tôi đã mở rộng tâm trí của mình để nghĩ "nhiều IV", tôi vẫn không nghĩ đến hàng triệu người .
Câu hỏi:
- Điều này thực sự xảy ra hay nó là một vấn đề lý thuyết?
- Điểm phân tích một triệu IV là gì? Liệu nó thực sự mang lại cho chúng ta sự gia tăng nhiều về giá trị của thông tin thu được so với việc bỏ qua chúng?
- Hoặc là bởi vì, ban đầu chúng tôi không biết cái gì là hữu ích, vì vậy chúng tôi chỉ chạy hồi quy chết tiệt để xem cái gì hữu ích và đi từ đó và có thể cắt tỉa bộ IV?
Tôi vẫn tin chỉ vì chúng ta có thể phân tích "mọi thứ" không thực sự có nghĩa là chúng ta nên ném nó vào một người giải (hoặc thực hiện nó) và một số câu hỏi trong quá khứ của tôi phản ánh POV tương tự.
Tôi vẫn chưa hoàn thành khóa học và tôi có thể sẽ sớm đặt câu hỏi, nhưng tôi không thể nghĩ ra "Tại sao" này trong đầu và đang cố gắng hiểu nó hết khả năng của mình.