Lựa chọn k knots trong hồi quy làm mịn spline tương đương với k biến phân loại?


9

Tôi đang làm việc trên một mô hình chi phí dự đoán trong đó tuổi của bệnh nhân (số lượng nguyên được đo bằng năm) là một trong những biến dự đoán. Một mối quan hệ phi tuyến mạnh mẽ giữa tuổi và nguy cơ nằm viện là điều hiển nhiên:

nhập mô tả hình ảnh ở đây

Tôi đang xem xét một spline làm mịn hồi quy bị phạt cho tuổi bệnh nhân. Theo The Elements of Statistics Learning (Hastie et al, 2009, tr.151), vị trí nút tối ưu là một nút trên mỗi giá trị duy nhất của tuổi thành viên.

Cho rằng tôi đang giữ tuổi như một số nguyên, liệu spline làm mịn bị phạt có tương đương với chạy hồi quy sườn hoặc lasso với 101 biến chỉ báo tuổi khác biệt, một giá trị theo tuổi được tìm thấy trong tập dữ liệu (trừ một giá trị tham chiếu) không? Sau đó, vượt quá tham số được tránh vì các hệ số trên mỗi chỉ số tuổi được thu nhỏ về 0.


Đề xuất về chỉ số tuổi + độ co ngót của bạn về cơ bản giống như một biểu thức làm mịn của đơn hàng 0.
Glen_b -Reinstate Monica

Sẽ rất hữu ích nếu bạn chỉ định các biến dự đoán khác là gì, như một trong những câu trả lời được đề xuất, nếu bạn kiểm soát lý do nhập học, bạn có thể có một biểu đồ rất khác.
seanv507

Câu trả lời:


11

Câu hỏi tuyệt vời. Tôi tin rằng câu trả lời cho câu hỏi mà bạn đặt ra - "là spline làm mịn bị phạt tương đương với chạy hồi quy sườn hoặc lasso" - là có. Có một số nguồn có thể cung cấp bình luận và quan điểm. Một nơi mà bạn có thể muốn bắt đầu là liên kết PDF này . Như đã lưu ý trong phần ghi chú:

"Lắp một mô hình spline làm mịn số lượng để thực hiện một hình thức hồi quy sườn trên cơ sở cho các spline tự nhiên."

Nếu bạn đang tìm kiếm một số cách đọc chung, bạn có thể thích xem bài viết xuất sắc này về Penalized Regressions: The Bridge Versus the Lasso . Điều này có thể giúp trả lời câu hỏi liệu spline làm mịn bị phạt có hoàn toàn tương đương hay không - mặc dù nó cung cấp quan điểm chung hơn. Tôi thấy thú vị khi họ so sánh các kỹ thuật khác nhau với nhau, cụ thể là mô hình hồi quy cầu mới với LASSO, cũng như Hồi quy độ dốc.

Một vị trí chiến thuật khác để kiểm tra có thể là ghi chú gói cho gói smooth.spline trong R. Lưu ý rằng họ gợi ý về mối quan hệ ở đây, bằng cách quan sát rằng: "với các định nghĩa này, trong đó biểu diễn cơ sở B-spline có thể được nêu là f = X c (nghĩa là c là vectơ của các hệ số spline), khả năng nhật ký bị phạt là , và do đó là giải pháp của (hồi quy sườn núi) . "c ( X T W X + λ Σ ) c = X T W yL=(yf)TW(yf)+λcTΣcc(XTWX+λΣ)c=XTWy


Đừng lo lắng @RobertF. Có một buổi chiều tuyệt vời.
Nathaniel Payne

1
Liên kết đến liên kết PDF trong đoạn 1 bị hỏng.
Jthorpe

3

Tôi không chắc bạn thực sự muốn rất nhiều nút thắt, đưa ra cốt truyện.

Có vẻ như bạn có thể có một số mẫu nhỏ ở độ tuổi cụ thể; đỉnh ở mức 74 và giá trị 0 ở mức thấp và cao có ý nghĩa rất nhỏ.

Thay vào đó, với quyền hạn của nguồn trang web của bạn, có lẽ bạn muốn các spline khối bị hạn chế thay vào đó, với số lượng nút thắt nhỏ hơn nhiều?


1
Cảm ơn Peter - vâng # của obs là thưa thớt cho rất trẻ và già. Sử dụng rất nhiều nút thắt có vẻ phản trực giác, tôi đã thực hiện một cú đúp tinh thần khi lần đầu tiên đọc bằng tiếng Anh rằng việc đặt một nút thắt trên mỗi quan sát sẽ giảm thiểu tổng số hình vuông còn lại bị phạt. Tôi cho rằng bằng chứng là trong pudding cho dù một spline khối bị hạn chế hoặc spline làm mịn bị phạt hoạt động tốt hơn trong việc dự đoán biến phản ứng của tôi trong tập dữ liệu thử nghiệm.
RobertF

0

Tôi đến trễ cuộc thảo luận này, nhưng hãy nhìn vào biểu đồ dữ liệu ... sự tăng đột biến rõ ràng trong dữ liệu trên 70 tuổi không phải là sự phản ánh đúng về rủi ro liên quan đến tuổi, đó là triệu chứng của dữ liệu thưa thớt và một số ngẫu nhiên.

Bạn sẽ không muốn mô hình hóa rằng sử dụng một nút mỗi năm, điều đó chắc chắn sẽ dẫn đến việc làm quá mức tiếng ồn.

Ngoài ra, bạn sẽ tìm thấy một mô hình rất khác nếu bạn nhìn vào nữ vs nam. Hầu hết các đỉnh trong độ tuổi 15-30 sẽ là Sản khoa.


Xin chào Doug - Phải, chắc chắn có ít quan sát hơn 70 tuổi. Một mô hình spline một năm bị phạt có thể sẽ giảm 70+ hệ số về không. Mục tiêu ở đây sẽ là thay thế lựa chọn thủ công vị trí nút bằng một quy trình tự động phù hợp nhất với mối quan hệ phi tuyến giữa tuổi và IP thừa nhận, đặc biệt hữu ích trong mô hình dự đoán.
RobertF
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.