Hồi quy sườn và hồi quy Lasso


7

Tôi hiện đang làm việc về vấn đề này và mục tiêu là phát triển mô hình hồi quy tuyến tính để dự đoán Y (huyết áp) của tôi với 8 yếu tố dự đoán, sử dụng hồi quy Ridge & Lasso. Tôi bắt đầu bằng cách kiểm tra tầm quan trọng của từng người dự đoán. Dưới đây là mộtsummary() của hồi quy tuyến tính đa của tôi với age100 như thay đổi kích thước age ở quy mô tương tự như các yếu tố dự đoán khác.

Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ + 
fra)

Residuals:
Min      1Q  Median      3Q     Max 
-80.120 -17.019  -0.648  18.158 117.420 

Coefficients:
        Estimate Std. Error t value Pr(>|t|)    
(Intercept)  145.605      9.460  15.392  < 2e-16 ***
age100        -1.292     12.510  -0.103  0.91788    
sex            5.078      4.756   1.068  0.28701    
can           -1.186      8.181  -0.145  0.88486    
crn           14.545      7.971   1.825  0.06960 .  
inf          -13.660      4.745  -2.879  0.00444 ** 
cpr          -12.218      9.491  -1.287  0.19954    
typ          -11.457      5.880  -1.948  0.05283 .  
fra          -10.958      9.006  -1.217  0.22518    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared:  0.1078,    Adjusted R-squared:  0.07046 
F-statistic: 2.886 on 8 and 191 DF,  p-value: 0.004681

Đơn giản chỉ cần nhìn vào giá trị P từ summary() bàn, tôi đã chọn age100cannhư những người dự đoán 'ít quan trọng'. Sau đó tôi đã sử dụngglmnet() để phù hợp với hồi quy sườn và hồi quy lasso của Y với tất cả X của tôi, cho phép hàm chọn một λgiá trị cho tôi Sau đó tôi đã vẽ hai hồi quy, với 100λ giá trị cho sườn núi và 65 λgiá trị cho Lasso. Cuối cùng, thêm các điểm nằm trên chỉ số 100 và 65 được vẽ ở các giá trị dọc bằng với ước tính 8 bình phương nhỏ nhất của các hệ số (màu đỏ).

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Kết quả trong hai lô trên, một số khác biệt mà tôi phát hiện ra là

Có vẻ hợp lý với tôi rằng Lasso đã loại bỏ hai biến số (age100can) mà dường như đồng ý với giả định trước đây của tôi về việc có hai dự đoán này là "ít quan trọng hơn". Lưu ý trong biểu đồ sườn núi, các điểm ước tính thứ nhất và thứ ba nằm ngoài đường. Tuy nhiên, trong cốt truyện lass, các điểm nằm ngay trên các dòng đó. Có phải điều này cho thấy sự cải thiện về việc giảm dự đoán của tôi từ sườn núi sang Lasso? (AKA, mô hình 6 dự đoán có thực hiện công việc tốt hơn trong việc khớp dữ liệu so với mô hình 8 dự đoán không?)

Tôi cũng có vài câu hỏi nữa:

  1. Các ước tính hồi quy sườn núi ở giá trị smallest nhỏ nhất có chính xác giống như ước tính bình phương nhỏ nhất không?

  2. Làm thế nào để giải thích hai âm mưu này? (có nghĩa là gì đối với các điểm kết thúc màu đỏ trên dòng hoặc trên hoặc dưới).


Về hai câu hỏi bổ sung của bạn, việc giải thích các ô và tham số λbạn nên tìm câu trả lời ở nơi khác trên trang web này. 1) câu trả lời là "có" mà không bị phạt (λ=0) bạn chỉ nhận được ước tính OLS 2) các ô là các hệ số ước tính là hàm của tham số λ(rõ ràng, 'lamda' hoặc 'lambda', là những gì được viết nhưng tôi đoán rằng điều này là sai, có vẻ như trục x là chuẩn mực hoặc một cái gì đó). Về giải thích. 1thing: đối với Lasso, bạn cần lưu ý sự gia tăng số lượng các thành phần khác không khi tham số trục x tăng.
Sextus Empiricus

Để biết thêm thông số kỹ thuật của câu hỏi bổ sung thứ hai, bạn nên nói rõ hơn về cách các biểu đồ đó đã được thực hiện (mã), cũng như loại giải thích mà bạn đang tìm kiếm.
Sextus Empiricus

Câu trả lời:


1

Có phải điều này cho thấy sự cải thiện về việc giảm dự đoán của tôi từ sườn núi sang Lasso?

Không, các lô không nói gì về hiệu suất dự đoán. Nếu bạn muốn ước tính điều đó, bạn có thể sử dụng xác nhận chéo.

AKA, mô hình 6 dự đoán có làm tốt hơn trong việc khớp dữ liệu so với mô hình 8 dự đoán không?

So với bình phương tối thiểu thông thường (OLS), các phương pháp chính quy như hồi quy lasso và hồi quy sẽ cho sai số lớn hơn hoặc bằng nhau trên dữ liệu huấn luyện. Nhưng, nếu bạn quan tâm đến hiệu suất dự đoán, điều bạn thực sự quan tâm là lỗi trên dữ liệu trong tương lai được tạo bởi cùng một phân phối cơ bản. Đây là những gì ước tính xác nhận chéo. Phương thức (và giá trị củaλ) sẽ thực hiện tốt nhất phụ thuộc vào vấn đề.

Nếu bạn quan tâm đến suy luận thống kê (nghĩa là tính không chắc chắn trong ước tính tham số hoặc xác định đúng mô hình 'đúng' cơ bản), thì bạn cần một cách để tính giá trị p, khoảng tin cậy, v.v. OLS sẽ không hoạt động cho hồi quy lasso và sườn núi. Ngoài ra, hãy nhớ rằng có nhiều sự tinh tế và cẩn thận trong việc xác định "các biến quan trọng".

  1. Các ước tính hồi quy sườn núi là nhỏ nhất λ giá trị chính xác giống như ước tính bình phương nhỏ nhất?

Khi nào λ=0cả hồi quy sườn và lasso đều tương đương với bình phương nhỏ nhất (OLS). Bạn có thể thấy điều này bằng cách viết bài toán tối ưu hóa cho từng phương thức và cài đặtλ về không:

βOLS=argminβi=1n(yiβxi)2

βlasso=argminβi=1n(yiβxi)2+λβ1

βridge=argminβi=1n(yiβxi)2+λβ22
  1. Làm thế nào để giải thích hai âm mưu này?

Mỗi quỹ đạo cho thấy giá trị của một hệ số riêng lẻ khi bị thay đổi. Có vẻ như trục x của bạn bị gắn nhãn sai ( thực sự đang giảm dần từ trái sang phải).λλ

Một số điều chung mà bạn có thể nhận thấy trong các ô này (vốn là sự thật nổi tiếng về hồi quy lasso và sườn núi): Cả hai phương pháp thu nhỏ hệ số mạnh hơn về 0 khi tăng (di chuyển từ phải sang trái trên trục x). Lasso tạo ra các giải pháp thưa thớt - khi tăng lên, ngày càng nhiều hệ số được điều khiển chính xác về 0 trong khi các hệ số khác vẫn tương đối lớn (đó là lý do tại sao lasso rất hữu ích cho lựa chọn biến). Hồi quy độ dốc không hành xử theo cách này - khi tăng, cường độ tổng thể của các hệ số giảm, nhưng các hệ số riêng lẻ không được điều khiển chính xác về 0.λλλ

Điều đó có nghĩa gì đối với các điểm kết thúc màu đỏ trên dòng hoặc trên hoặc dưới

Bạn nói rằng các điểm màu đỏ đại diện cho các hệ số OLS. Vì hồi quy lasso và sườn núi thu nhỏ các hệ số về 0, cường độ sẽ nhỏ hơn OLS khi . Các ô của bạn sẽ cắt các điểm đỏ tại , trong đó tất cả các phương thức đều tương đương.λ>0λ=0

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.