Vì vậy, bây giờ tôi đang làm việc với các mô hình hồi quy logistic trong R. Mặc dù tôi vẫn chưa quen với các số liệu thống kê Tôi cảm thấy như bây giờ tôi đã hiểu một chút về các mô hình hồi quy, nhưng vẫn còn một điều khiến tôi bận tâm:
Nhìn vào hình ảnh được liên kết, bạn thấy bản in R tóm tắt cho một mô hình ví dụ mà tôi đã tạo. Mô hình đang cố gắng dự đoán, nếu một email trong tập dữ liệu sẽ được refound hay không (biến nhị phân isRefound
) và tập dữ liệu chứa hai biến liên quan chặt chẽ với nhau isRefound
, next24
và next7days
- đây cũng là nhị phân và cho biết liệu thư sẽ được nhấp vào tiếp theo 24 giờ / 7 ngày tiếp theo kể từ thời điểm hiện tại trong nhật ký.
Giá trị p cao sẽ chỉ ra rằng tác động của biến này đối với dự đoán mô hình là khá ngẫu nhiên, phải không? Dựa trên điều này, tôi không hiểu tại sao độ chính xác của các dự đoán mô hình giảm xuống dưới 10% khi hai biến này bị loại khỏi công thức tính toán. Nếu các biến này cho thấy tầm quan trọng thấp như vậy, tại sao việc loại bỏ chúng khỏi mô hình lại có tác động lớn như vậy?
Trân trọng và cảm ơn trước, Rickyfox
BIÊN TẬP:
Đầu tiên tôi chỉ loại bỏ next24, điều này sẽ mang lại tác động thấp bởi vì nó khá nhỏ. Như mong đợi, ít thay đổi - sẽ không tải lên một hình ảnh cho điều đó.
Loại bỏ 7 ngày tiếp theo có tác động lớn đến mô hình: AIC tăng 200k, độ chính xác giảm xuống 16% và thu hồi xuống 73%
isRefound ~ day + next24
và bỏ qua tất cả các biến khác?