Tôi đang sử dụng gói R bị phạt để có được các ước tính hệ số thu nhỏ cho một tập dữ liệu trong đó tôi có rất nhiều dự đoán và ít kiến thức về cái nào là quan trọng. Sau khi tôi chọn các tham số điều chỉnh L1 và L2 và tôi hài lòng với các hệ số của mình, có cách nào hợp lý để tóm tắt mô hình phù hợp với thứ gì đó như R-squared không?
Hơn nữa, tôi quan tâm đến việc kiểm tra ý nghĩa tổng thể của mô hình (tức là R² = 0 hoặc thực hiện tất cả các = 0).
Tôi đã đọc qua các câu trả lời cho một câu hỏi tương tự được hỏi ở đây , nhưng nó không trả lời được câu hỏi của tôi. Có một hướng dẫn tuyệt vời về gói R mà tôi đang sử dụng ở đây và tác giả Jelle Goeman đã có ghi chú sau ở cuối hướng dẫn về khoảng tin cậy từ các mô hình hồi quy bị phạt:
Đó là một câu hỏi rất tự nhiên để yêu cầu các lỗi tiêu chuẩn của hệ số hồi quy hoặc các đại lượng ước tính khác. Về nguyên tắc, các lỗi tiêu chuẩn như vậy có thể dễ dàng được tính toán, ví dụ như sử dụng bootstrap.
Tuy nhiên, gói này cố tình không cung cấp cho họ. Lý do cho điều này là các lỗi tiêu chuẩn không có ý nghĩa lắm đối với các ước tính sai lệch mạnh như phát sinh từ các phương pháp ước tính bị phạt. Dự toán hình phạt là một thủ tục làm giảm phương sai của người ước tính bằng cách đưa ra sai lệch đáng kể. Do đó, độ lệch của mỗi công cụ ước tính là một thành phần chính của sai số bình phương trung bình của nó, trong khi phương sai của nó chỉ có thể đóng góp một phần nhỏ.
Thật không may, trong hầu hết các ứng dụng hồi quy bị phạt, không thể có được ước tính đủ chính xác về sai lệch. Bất kỳ phép tính dựa trên bootstrap nào cũng chỉ có thể đưa ra đánh giá về phương sai của các ước tính. Các ước tính đáng tin cậy về sai lệch chỉ khả dụng nếu các ước tính không thiên vị đáng tin cậy có sẵn, thường không phải là trường hợp trong các tình huống sử dụng ước tính bị phạt.
Báo cáo một lỗi tiêu chuẩn của một ước tính bị phạt do đó chỉ nói lên một phần của câu chuyện. Nó có thể cho một ấn tượng sai lầm về độ chính xác tuyệt vời, hoàn toàn bỏ qua sự không chính xác gây ra bởi sự thiên vị. Đó chắc chắn là một sai lầm khi đưa ra tuyên bố độ tin cậy chỉ dựa trên đánh giá về phương sai của các ước tính, chẳng hạn như khoảng tin cậy dựa trên bootstrap.