Tôi muốn đặt ra câu hỏi này trong hai phần. Cả hai đều xử lý một mô hình tuyến tính tổng quát, nhưng các giao dịch đầu tiên liên quan đến lựa chọn mô hình và các giao dịch khác với chính quy hóa.
Bối cảnh: Tôi sử dụng các mô hình GLM (tuyến tính, logistic, hồi quy gamma) cho cả dự đoán và mô tả. Khi tôi đề cập đến " những điều bình thường người ta làm với hồi quy ", tôi chủ yếu mô tả với (i) khoảng tin cậy xung quanh các hệ số, (ii) khoảng tin cậy xung quanh các dự đoán và (iii) kiểm tra giả thuyết liên quan đến kết hợp tuyến tính của các hệ số như "là Có sự khác biệt giữa điều trị A và điều trị B? ".
Bạn có hợp pháp mất khả năng làm những điều này bằng cách sử dụng lý thuyết bình thường theo từng điều sau đây không? Và nếu vậy, những điều này thực sự chỉ tốt cho các mô hình được sử dụng cho dự đoán thuần túy?
I. Khi GLM đã phù hợp thông qua một số quy trình lựa chọn mô hình (để cụ thể hóa quy trình từng bước dựa trên AIC).
II.Khi GLM đã phù hợp thông qua phương pháp chính quy (giả sử sử dụng glmnet trong R).
Ý thức của tôi là đối với tôi, câu trả lời về mặt kỹ thuật là bạn nên sử dụng bootstrap cho " những điều bình thường người ta làm với hồi quy ", nhưng không ai thực sự tuân theo điều đó.
Thêm:
Sau khi nhận được một vài phản hồi và đọc ở nơi khác, đây là ý kiến của tôi về vấn đề này (cho bất kỳ ai khác có lợi cũng như nhận được sự điều chỉnh).
I.
A) RE: Lỗi tổng quát hóa. Để tổng quát hóa tỷ lệ lỗi trên dữ liệu mới, khi không có thiết lập chờ, xác thực chéo có thể hoạt động nhưng bạn cần lặp lại quy trình hoàn toàn cho mỗi lần - sử dụng các vòng lặp lồng nhau - do đó, phải chọn bất kỳ tính năng, điều chỉnh tham số, v.v. thực hiện độc lập mỗi lần. Ý tưởng này nên giữ cho bất kỳ nỗ lực mô hình hóa nào (bao gồm các phương pháp bị phạt).
B) RE: Kiểm tra giả thuyết và khoảng tin cậy của GLM.Khi sử dụng lựa chọn mô hình (lựa chọn tính năng, điều chỉnh tham số, lựa chọn biến) cho mô hình tuyến tính tổng quát và tồn tại tập hợp giữ, cho phép đào tạo mô hình trên một phân vùng và sau đó khớp với mô hình trên dữ liệu còn lại hoặc tập dữ liệu đầy đủ và sử dụng mô hình / dữ liệu đó để thực hiện các kiểm tra giả thuyết, v.v ... Nếu không tồn tại tập hợp giữ, một bootstrap có thể được sử dụng, miễn là toàn bộ quá trình được lặp lại cho mỗi mẫu bootstrap. Điều này giới hạn các bài kiểm tra giả thuyết có thể được thực hiện mặc dù có lẽ một biến sẽ không luôn luôn được chọn chẳng hạn.
C) RE: Không mang theo dự đoán về các tập dữ liệu trong tương lai , sau đó phù hợp với một mô hình có mục đích được hướng dẫn bởi lý thuyết và một vài thử nghiệm giả thuyết và thậm chí xem xét để lại tất cả các biến trong mô hình (có ý nghĩa hay không) (dọc theo dòng của Hosmer và Lemeshow). Đây là biến nhỏ đặt kiểu mô hình hồi quy cổ điển và sau đó cho phép sử dụng thử nghiệm giả thuyết và giả thuyết của CI.
D) RE: Hồi quy hình phạt. Không có lời khuyên nào, có lẽ xem xét điều này chỉ phù hợp với dự đoán (hoặc là một loại lựa chọn tính năng để áp dụng cho một tập dữ liệu khác như trong B ở trên) vì sự thiên vị được đưa ra làm cho CI và giả thuyết kiểm tra không theo chiều hướng - ngay cả với bootstrap.