Tốc độ, chi phí tính toán của PCA, LASSO, lưới đàn hồi

Tôi đang cố gắng so sánh độ phức tạp tính toán / tốc độ ước tính của ba nhóm phương pháp để hồi quy tuyến tính như được phân biệt trong Hastie et al. "Các yếu tố của học thống kê" (tái bản lần 2), Chương 3:

Lựa chọn tập hợp con
Phương pháp thu nhỏ
Phương pháp sử dụng hướng đầu vào dẫn xuất (PCR, PLS)

Sự so sánh có thể rất thô, chỉ để đưa ra một số ý tưởng. Tôi tập hợp rằng các câu trả lời có thể phụ thuộc vào kích thước của vấn đề và mức độ phù hợp với kiến trúc máy tính, vì vậy đối với một ví dụ cụ thể, người ta có thể xem xét cỡ mẫu của 500 và 50 biến hồi quy ứng cử viên. Tôi chủ yếu quan tâm đến động lực đằng sau tốc độ tính toán / độ phức tạp tính toán nhưng không phải là mất bao lâu cho một bộ xử lý nhất định cho ví dụ đã cho.

— Richard Hardy
nguồn

Khi sử dụng PCR hoặc PLS, số lượng các thành phần là một tham số điều chỉnh (tương tự như

trong hồi quy sườn núi). Vì vậy, các phương pháp này cũng sẽ cần xác thực chéo để tìm số lượng thành phần tối ưu. LASSO cũng có một tham số chính quy, nhưng lưới đàn hồi có hai (lưới đàn hồi = sườn + LASSO) nên việc xác thực chéo sẽ tốn kém hơn. Ngoài ra, LASSO có thể chậm hơn để phù hợp hơn tất cả các mô hình khác, vì nó không có giải pháp dạng đóng.

λ

$\lambda$

— amip nói phục hồi Monica

Cảm ơn bạn! Bạn nhận xét sẽ đưa ra một câu trả lời hay nếu bạn đưa vào hai chi tiết nữa: (1) một lần lặp lại của PCR và PLS đắt như thế nào so với một lần chạy OLS của hồi quy thông thường; (2) định lượng tốc độ của LASSO chính xác hơn để làm cho nó có thể so sánh với tốc độ của hồi quy thông thường (nó là đa thức, theo cấp số nhân, hoặc đắt hơn tuyến tính, và tại sao).

— Richard Hardy

Thật không may, tôi không có câu trả lời sẵn sàng cho vấn đề này, đặc biệt là (2). Đó là lý do tại sao tôi chỉ để lại một bình luận. +1, nhân tiện, và chúc mừng với đại diện 5k!

— amip nói rằng Phục hồi Monica

@amoeba, cảm ơn! Tôi không thể mong đợi đạt 5k khi tôi bắt đầu (rất chậm) vào năm ngoái. Nhưng thật thú vị và bổ ích khi trở thành một thành viên tích cực tại đây tại Cross Validated!

— Richard Hardy

@amoeba, tôi nghĩ rằng tôi đã nắm được độ phức tạp của LASSO nếu sử dụng thuật toán LARS; Tôi cập nhật bài viết của tôi cho phù hợp. Nhưng tôi đã không đọc kỹ bài viết LARS, vì vậy tôi không hoàn toàn chắc chắn đó là chính xác ...

— Richard Hardy

$2^K$ $K$ $\mathcal{O}(K^2 n)$ $n$ $\mathcal{O}(2^K K^2 n)$

$\lambda$ $\lambda$ $S$ $\lambda$ $L$ $\lambda$ $\mathcal{O}(LSK^2 n)$
$\lambda$ $\lambda$ $\mathcal{O}(LSK^2 n)$
$\mathcal{O}(ALSK^2 n)$ $A$ $\alpha$

Nhóm 3 :
Tôi vẫn bỏ lỡ bất kỳ lưu ý nào về độ phức tạp / tốc độ cho nhóm 3. bao gồm hồi quy thành phần chính (PCR) và bình phương nhỏ nhất một phần (PLS).

— Richard Hardy
nguồn

Nó chỉ dành cho một phần của câu hỏi 2 trong nhóm 3 ở trên (cụ thể là PLS), nhưng dù sao cũng có thể là thông tin: Srinivasan et al (2010, báo cáo kỹ thuật; xem https://www.umiacs.umd.edu/~balajiv/Papers/ UMD_CS_TR_Pls_Gpu.pdf ) đã thực hiện một số phép đo trên PLS bằng thuật toán NIPALS - cho biết độ phức tạp thời gian (và không gian) của thuật toán này là O (dN) - để trích xuất và bao gồm cả các mô hình này trong các mô hình khác nhau để phát hiện con người trong hình ảnh và b ) nhận dạng khuôn mặt. Các phép đo đã được thực hiện bằng cách sử dụng triển khai dựa trên GPU của riêng họ.

— jf1
nguồn