Tính toán tập hợp con tốt nhất của dự báo cho hồi quy tuyến tính


9

Để lựa chọn các yếu tố dự báo trong hồi quy tuyến tính đa biến với các yếu tố dự đoán phù hợp , phương pháp nào có sẵn để tìm một tập hợp con 'tối ưu' của các yếu tố dự đoán mà không kiểm tra rõ ràng tất cả các tập con ? Trong Analysis Phân tích sinh tồn được áp dụng, 'Hosmer & Lemeshow tham chiếu đến phương pháp của Kuk, nhưng tôi không thể tìm thấy bài báo gốc. Bất cứ ai cũng có thể mô tả phương pháp này, hoặc, thậm chí tốt hơn, một kỹ thuật hiện đại hơn? Người ta có thể giả định lỗi phân phối bình thường.2 pp2p


1
Bạn đang đề cập đến bài báo sau? Kuk, AYC (1984) Tất cả hồi quy tập hợp con trong mô hình mối nguy theo tỷ lệ. Biometrika, 71, 587-592
chl

đúng vậy Tôi đoán tôi sẽ phải đào tờ giấy đó bằng cách nào đó. Nó có vẻ cũ, tuy nhiên.
shabbychef

2
Tìm bài viết này trong khi đó, Phương pháp Lasso để lựa chọn biến trong mô hình cox, từ Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl

1
và cái này gần đây hơn (liên kết chặt chẽ với penalizedgói R), j.mp/cooIT3 . Có lẽ cái này cũng vậy, j.mp/bkDQUj . Chúc mừng
chl

Câu trả lời:


12

Tôi chưa bao giờ nghe về phương pháp của Kuk, nhưng chủ đề nóng hiện nay là tối thiểu hóa L1. Lý do là nếu bạn sử dụng một điều khoản phạt của giá trị tuyệt đối của các hệ số hồi quy, thì các giá trị không quan trọng sẽ về không.

Những kỹ thuật này có một số tên vui nhộn: Lasso, LARS, Dantzig chọn. Bạn có thể đọc các bài báo, nhưng một nơi tốt để bắt đầu là với các yếu tố của học thống kê , Chương 3.


2
BTW, gói R bị phạt ( j.mp/bdQ0Rp ) bao gồm ước tính bị phạt l1 / l2 cho các mô hình tuyến tính và Cox tổng quát.
chl

bị mắc kẹt trong đất matlab, tự mình thực hiện nó ...
shabbychef

LARS là tuyệt vời, BTW. những thứ rất mát mẻ. không chắc chắn làm thế nào tôi có thể đưa nó vào khuôn khổ của mô hình Nguy hiểm theo tỷ lệ Cox, tho ...
shabbychef

2
Phần mềm Glmnet có mô hình Cox PH của lasso : cran.r-project.org/web/packages/glmnet/index.html cũng có phiên bản MATLAB (không chắc là nó có mô hình cox không): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne

3

Đây là một chủ đề rất lớn. Như đã đề cập trước đây, Hastie, Tibshirani và Friedman giới thiệu tốt về Ch3 về các yếu tố của học thống kê.

Một vài điểm. 1) Ý của bạn là "tốt nhất" hay "tối ưu" là gì? Điều gì là tốt nhất theo một nghĩa có thể không tốt nhất theo nghĩa khác. Hai tiêu chí phổ biến là độ chính xác dự đoán (dự đoán biến kết quả) và tạo ra các ước lượng không thiên vị của các hệ số. Một số phương pháp, chẳng hạn như Lasso & Ridge Regression chắc chắn tạo ra các ước lượng hệ số sai lệch.

2) Bản thân cụm từ "tập con tốt nhất" có thể được sử dụng theo hai nghĩa riêng biệt. Nói chung để đề cập đến tập hợp con tốt nhất trong số tất cả các dự đoán tối ưu hóa một số tiêu chí xây dựng mô hình. Cụ thể hơn, nó có thể đề cập đến thuật toán hiệu quả của Furnival và Wilson để tìm tập hợp con đó trong số (~ 50) số dự đoán tuyến tính vừa phải (Regressions by Leaps and Bound. Technometrics, Tập 16, Số 4 (Tháng 11, 1974), pp. 499-51)

http://www.jstor.org/ sóng / 1267601


1) có, câu hỏi hơi mơ hồ; Như bạn đã đề cập, có nhiều định nghĩa về 'tối ưu': thông qua tiêu chí thông tin, xác nhận chéo, v.v. Hầu hết các cách tiếp cận heuristic mà tôi đã thấy đối với vấn đề được tiến hành bằng cách thêm / xóa dự đoán từng bước: cộng hoặc trừ chuyển tiếp, v.v. Tuy nhiên, Hosmer & Lemeshow tham chiếu đến phương pháp này (một biến thể công việc của Lawless & Singhal), bằng cách nào đó 'kỳ diệu' chọn các yếu tố dự đoán bằng một tính toán duy nhất của MLR (modulo một số thứ khác). Tôi rất tò mò về phương pháp này ...
shabbychef

0

Điều tôi học được là trước tiên sử dụng Phương pháp tiếp cận phụ tốt nhất làm công cụ sàng lọc, sau đó các quy trình lựa chọn từng bước có thể giúp bạn cuối cùng quyết định mô hình nào có thể là mô hình tập hợp con tốt nhất (tại thời điểm này số lượng mô hình đó khá nhỏ để xử lý). Nếu một trong các mô hình đáp ứng các điều kiện mô hình, thực hiện tốt việc tóm tắt xu hướng trong dữ liệu và quan trọng nhất là cho phép bạn trả lời câu hỏi nghiên cứu của mình, thì xin chúc mừng công việc của bạn đã hoàn thành.


1
Tôi nghĩ rằng bạn có thể đang đánh giá sai điều này. Các tập hợp con tốt nhất đắt hơn nhiều về mặt tính toán so với từng bước, nhưng nhất thiết sẽ bắt được mọi thứ theo từng bước, vì vậy bạn sẽ sử dụng từng bước để sàng lọc & các tập con tốt nhất sau đó. FWIW, tôi không đồng ý với việc sử dụng các chiến lược ngây thơ này, vì những lý do tôi thảo luận trong câu trả lời của mình ở đây: thuật toán để lựa chọn mô hình tự động .
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.