Tôi đang tiến hành phân tích trong đó mục tiêu chính là tìm hiểu dữ liệu. Bộ dữ liệu đủ lớn để xác thực chéo (10k) và các yếu tố dự đoán bao gồm cả biến liên tục và biến giả, và kết quả là liên tục. Mục tiêu chính là để xem liệu nó có ý nghĩa để loại bỏ một số dự đoán, để làm cho mô hình dễ giải thích hơn.
Câu hỏi:
Câu hỏi của tôi là "vars nào giải thích kết quả và là một phần 'đủ mạnh' trong lời giải thích đó". Nhưng để chọn tham số lambda cho lasso, bạn sử dụng xác thực chéo, nghĩa là tính hợp lệ dự đoán làm tiêu chí. Khi thực hiện suy luận, tính hợp lệ dự đoán có phải là một proxy đủ tốt cho câu hỏi chung tôi đang hỏi không?
Nói LASSO chỉ giữ 3 trong số 8 người dự đoán. Và bây giờ tôi tự hỏi: "những điều này có ảnh hưởng gì đến kết quả". Ví dụ, tôi tìm thấy một sự khác biệt giới tính. Sau khi co rút Lasso, hệ số cho thấy phụ nữ đạt điểm cao hơn nam giới 1 điểm. Nhưng không có sự thu hẹp (nghĩa là trên tập dữ liệu thực tế), họ đạt điểm cao hơn 2,5 điểm.
- Tôi sẽ lấy cái nào làm hiệu ứng giới tính "thực sự" của mình? Đi chỉ bằng tính hợp lệ dự đoán, nó sẽ là hệ số thu nhỏ.
- Hoặc trong một bối cảnh, giả sử rằng tôi đang viết báo cáo cho những người không rành về thống kê. Hệ số nào tôi sẽ báo cáo với họ?