Chúng ta có thực sự thực hiện phân tích hồi quy đa biến với * triệu * hệ số / biến độc lập không?


18

Tôi đang dành một chút thời gian để học máy (xin lỗi vì đệ quy :) và tôi không thể không bị cuốn hút bởi quy tắc chọn Gradient Descent trong việc giải phương trình trực tiếp cho các hệ số hồi quy tính toán, trong trường hợp hồi quy tuyến tính đa biến.

Nguyên tắc chung: nếu số lượng tính năng (đọc hệ số / biến độc lập) nằm trong khoảng từ trở lên, thì với Gradient Descent, tính toán nghịch đảo ma trận khác khá dễ quản lý trên phần cứng hàng hóa và do đó tính toán trực tiếp các hệ số sẽ hoạt động đủ tốt .10,0001,000,000

Nói một cách tính toán, tôi nhận được sự đánh đổi / hạn chế. Nhưng từ quan điểm thống kê, chúng ta có thực sự tính toán các mô hình với nhiều hệ số đó bao giờ không? Nếu tôi nhớ các lớp hồi quy tuyến tính đa biến của mình ở trường lớp, chúng tôi được khuyến cáo không sử dụng quá nhiều biến độc lập vì chúng có thể có tác động rất không đáng kể đến biến phụ thuộc hoặc phân phối của chúng sẽ không tuân theo các giả định mà chúng tôi đưa ra về dữ liệu. Ngay cả khi tôi đã mở rộng tâm trí của mình để nghĩ "nhiều IV", tôi vẫn không nghĩ đến hàng triệu người .

Câu hỏi:

  • Điều này thực sự xảy ra hay nó là một vấn đề lý thuyết?
  • Điểm phân tích một triệu IV là gì? Liệu nó thực sự mang lại cho chúng ta sự gia tăng nhiều về giá trị của thông tin thu được so với việc bỏ qua chúng?
  • Hoặc là bởi vì, ban đầu chúng tôi không biết cái gì là hữu ích, vì vậy chúng tôi chỉ chạy hồi quy chết tiệt để xem cái gì hữu ích và đi từ đó và có thể cắt tỉa bộ IV?

Tôi vẫn tin chỉ vì chúng ta có thể phân tích "mọi thứ" không thực sự có nghĩa là chúng ta nên ném nó vào một người giải (hoặc thực hiện nó) và một số câu hỏi trong quá khứ của tôi phản ánh POV tương tự.

Tôi vẫn chưa hoàn thành khóa học và tôi có thể sẽ sớm đặt câu hỏi, nhưng tôi không thể nghĩ ra "Tại sao" này trong đầu và đang cố gắng hiểu nó hết khả năng của mình.

Câu trả lời:


14

Điều này thực sự xảy ra hay nó là một vấn đề lý thuyết?

Nó xảy ra, xem bất kỳ mô hình deeplearning phổ biến cho tầm nhìn máy tính. Giả sử, alexnet có một kết nối dày đặc giữa 2048 và 2048 đơn vị, đó là 4 triệu hệ số.

Điểm phân tích một triệu IV là gì? Liệu nó thực sự mang lại cho chúng ta sự gia tăng nhiều về giá trị của thông tin thu được trái ngược với việc bỏ qua chúng?

Nếu bạn đang phân tích dữ liệu phân loại cao (giả sử, quảng cáo trên internet dữ liệu ), mô hình của bạn phải giữ một số 'mô tả' có ý nghĩa cho từng danh mục (ví dụ: thành phố, id trang, tên trang web, id quảng cáo, id người dùng, v.v.), thực tế kích thước của 'mô tả' phụ thuộc vào mô hình ML được chọn.

Ngay cả hồi quy logistic đơn giản sẽ có hàng chục ngàn tham số được trang bị (một cho mỗi loại). Các mô hình tiên tiến hơn như máy nhân tố sẽ có nhiều lần hơn.

Hoặc là bởi vì, ban đầu chúng tôi không biết cái gì là hữu ích, vì vậy chúng tôi chỉ chạy hồi quy chết tiệt để xem cái gì hữu ích và đi từ đó và có thể cắt tỉa bộ IV?

Trên thực tế, hầu hết các tham số được trang bị trong các mô hình này đều có thể bị loại bỏ, nhưng bạn không thể biết trước điều đó, vì vậy bạn để lại vấn đề xác định tham số nào là quan trọng đối với học máy và áp đặt một số quy tắc để đặt 'giới hạn mềm' cho số hiệu quả các thông số để ở lại.

... Và tôi nghĩ bạn sẽ tìm thấy những ví dụ như vậy sau này trong khóa học ML của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.