Hồi quy LASSO thu nhỏ các hệ số về 0, do đó cung cấp lựa chọn mô hình hiệu quả. Tôi tin rằng trong dữ liệu của mình có những tương tác có ý nghĩa giữa hiệp phương sai danh nghĩa và liên tục. Tuy nhiên, không nhất thiết là "hiệu ứng chính" của mô hình thực sự có ý nghĩa (khác không). Tất nhiên tôi không biết điều này vì mô hình thực sự là không rõ. Mục tiêu của tôi là tìm ra mô hình thực sự và dự đoán kết quả càng sát càng tốt.
Tôi đã học được rằng cách tiếp cận cổ điển để xây dựng mô hình sẽ luôn bao gồm một hiệu ứng chính trước khi có sự tương tác. Do đó, không thể có một mô hình mà không có hiệu ứng chính của hai hiệp phương trình và nếu có sự tương tác của các đồng biến trong cùng một mô hình. Do đó, hàm chọn cẩn thận các thuật ngữ mô hình (ví dụ dựa trên AIC lùi hoặc tiến) tuân theo quy tắc này.step
R
LASSO dường như hoạt động khác nhau. Vì tất cả các tham số đều bị phạt nên có thể nghi ngờ rằng hiệu ứng chính bị thu nhỏ về 0 trong khi tương tác của mô hình tốt nhất (ví dụ: xác thực chéo) là khác không. Này, tôi thấy đặc biệt đối với dữ liệu của tôi khi sử dụng R
's glmnet
gói.
Tôi đã nhận được những lời chỉ trích dựa trên quy tắc đầu tiên được trích dẫn ở trên, tức là mô hình Lasso được xác thực chéo cuối cùng của tôi không bao gồm các điều khoản hiệu ứng chính tương ứng của một số tương tác khác không. Tuy nhiên quy tắc này có vẻ hơi lạ trong bối cảnh này. Vấn đề là liệu tham số trong mô hình thực có bằng không. Giả sử là vậy nhưng tương tác là khác không, thì LASSO sẽ xác định điều này có lẽ, do đó tìm ra mô hình chính xác. Trong thực tế, có vẻ như các dự đoán từ mô hình này sẽ chính xác hơn vì mô hình không chứa hiệu ứng chính đúng không, đây thực sự là một biến nhiễu.
Tôi có thể bác bỏ những lời chỉ trích dựa trên nền tảng này hay tôi nên đưa ra cảnh báo trước bằng cách nào đó rằng LASSO không bao gồm hiệu ứng chính trước thời hạn tương tác?