Tôi hiện đang làm việc về vấn đề này và mục tiêu là phát triển mô hình hồi quy tuyến tính để dự đoán Y (huyết áp) của tôi với 8 yếu tố dự đoán, sử dụng hồi quy Ridge & Lasso. Tôi bắt đầu bằng cách kiểm tra tầm quan trọng của từng người dự đoán. Dưới đây là một của hồi quy tuyến tính đa của tôi với như thay đổi kích thước ở quy mô tương tự như các yếu tố dự đoán khác.
Call:
lm(formula = sys ~ age100 + sex + can + crn + inf + cpr + typ +
fra)
Residuals:
Min 1Q Median 3Q Max
-80.120 -17.019 -0.648 18.158 117.420
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 145.605 9.460 15.392 < 2e-16 ***
age100 -1.292 12.510 -0.103 0.91788
sex 5.078 4.756 1.068 0.28701
can -1.186 8.181 -0.145 0.88486
crn 14.545 7.971 1.825 0.06960 .
inf -13.660 4.745 -2.879 0.00444 **
cpr -12.218 9.491 -1.287 0.19954
typ -11.457 5.880 -1.948 0.05283 .
fra -10.958 9.006 -1.217 0.22518
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 31.77 on 191 degrees of freedom
Multiple R-squared: 0.1078, Adjusted R-squared: 0.07046
F-statistic: 2.886 on 8 and 191 DF, p-value: 0.004681
Đơn giản chỉ cần nhìn vào giá trị P từ bàn, tôi đã chọn và như những người dự đoán 'ít quan trọng'. Sau đó tôi đã sử dụng để phù hợp với hồi quy sườn và hồi quy lasso của Y với tất cả X của tôi, cho phép hàm chọn một giá trị cho tôi Sau đó tôi đã vẽ hai hồi quy, với 100 giá trị cho sườn núi và 65 giá trị cho Lasso. Cuối cùng, thêm các điểm nằm trên chỉ số 100 và 65 được vẽ ở các giá trị dọc bằng với ước tính 8 bình phương nhỏ nhất của các hệ số (màu đỏ).
Kết quả trong hai lô trên, một số khác biệt mà tôi phát hiện ra là
Có vẻ hợp lý với tôi rằng Lasso đã loại bỏ hai biến số ( và ) mà dường như đồng ý với giả định trước đây của tôi về việc có hai dự đoán này là "ít quan trọng hơn". Lưu ý trong biểu đồ sườn núi, các điểm ước tính thứ nhất và thứ ba nằm ngoài đường. Tuy nhiên, trong cốt truyện lass, các điểm nằm ngay trên các dòng đó. Có phải điều này cho thấy sự cải thiện về việc giảm dự đoán của tôi từ sườn núi sang Lasso? (AKA, mô hình 6 dự đoán có thực hiện công việc tốt hơn trong việc khớp dữ liệu so với mô hình 8 dự đoán không?)
Tôi cũng có vài câu hỏi nữa:
Các ước tính hồi quy sườn núi ở giá trị smallest nhỏ nhất có chính xác giống như ước tính bình phương nhỏ nhất không?
Làm thế nào để giải thích hai âm mưu này? (có nghĩa là gì đối với các điểm kết thúc màu đỏ trên dòng hoặc trên hoặc dưới).