Ý nghĩa của giá trị p của các biến mô hình hồi quy logistic


9

Vì vậy, bây giờ tôi đang làm việc với các mô hình hồi quy logistic trong R. Mặc dù tôi vẫn chưa quen với các số liệu thống kê Tôi cảm thấy như bây giờ tôi đã hiểu một chút về các mô hình hồi quy, nhưng vẫn còn một điều khiến tôi bận tâm:

Nhìn vào hình ảnh được liên kết, bạn thấy bản in R tóm tắt cho một mô hình ví dụ mà tôi đã tạo. Mô hình đang cố gắng dự đoán, nếu một email trong tập dữ liệu sẽ được refound hay không (biến nhị phân isRefound) và tập dữ liệu chứa hai biến liên quan chặt chẽ với nhau isRefound, next24next7days- đây cũng là nhị phân và cho biết liệu thư sẽ được nhấp vào tiếp theo 24 giờ / 7 ngày tiếp theo kể từ thời điểm hiện tại trong nhật ký.

Giá trị p cao sẽ chỉ ra rằng tác động của biến này đối với dự đoán mô hình là khá ngẫu nhiên, phải không? Dựa trên điều này, tôi không hiểu tại sao độ chính xác của các dự đoán mô hình giảm xuống dưới 10% khi hai biến này bị loại khỏi công thức tính toán. Nếu các biến này cho thấy tầm quan trọng thấp như vậy, tại sao việc loại bỏ chúng khỏi mô hình lại có tác động lớn như vậy?

Trân trọng và cảm ơn trước, Rickyfox

nhập mô tả hình ảnh ở đây


BIÊN TẬP:

Đầu tiên tôi chỉ loại bỏ next24, điều này sẽ mang lại tác động thấp bởi vì nó khá nhỏ. Như mong đợi, ít thay đổi - sẽ không tải lên một hình ảnh cho điều đó.

Loại bỏ 7 ngày tiếp theo có tác động lớn đến mô hình: AIC tăng 200k, độ chính xác giảm xuống 16% và thu hồi xuống 73%

nhập mô tả hình ảnh ở đây


1
Điều gì nếu bạn chỉ có isRefound ~ day + next24và bỏ qua tất cả các biến khác?
smillig

Câu trả lời:


11

Về cơ bản, có vẻ như bạn đang gặp vấn đề về đa cộng đồng. Có rất nhiều tài liệu có sẵn về điều này, bắt đầu trên trang web này hoặc trên wikipedia.

Tóm lại, hai yếu tố dự đoán có vẻ thực sự liên quan đến kết quả của bạn nhưng chúng cũng có thể có mối tương quan cao với nhau (lưu ý rằng với nhiều hơn hai biến số, vẫn có thể có các vấn đề đa cộng tuyến mà không có mối tương quan bivariate mạnh). Điều này tất nhiên có nhiều ý nghĩa: Tất cả các email được nhấp trong vòng 24 giờ cũng đã được nhấp trong vòng 7 ngày (theo định nghĩa) và hầu hết các email có thể không được nhấp vào tất cả (không phải trong 24 giờ và không phải trong 7 ngày).

Một cách mà điều này thể hiện ở đầu ra mà bạn trình bày là thông qua các lỗi / CI tiêu chuẩn cực kỳ lớn cho các hệ số liên quan (đánh giá bằng thực tế bạn đang sử dụng bigglm và ngay cả các hệ số nhỏ cũng rất đáng kể, có vẻ như kích thước mẫu của bạn là quá đủ để có được ước tính tốt). Những điều khác bạn có thể làm để phát hiện loại vấn đề này: Xem xét mối tương quan theo cặp, chỉ loại bỏ một trong các biến nghi ngờ (như được đề xuất bởi @Nick Sabbe), kiểm tra ý nghĩa của cả hai biến.

Tổng quát hơn, giá trị p cao không có nghĩa là hiệu ứng là nhỏ hoặc ngẫu nhiên mà chỉ là không có bằng chứng nào cho thấy hệ số này khác 0. Nó cũng có thể rất lớn, bạn chỉ không biết (vì mẫu kích thước quá nhỏ hoặc do có một số vấn đề khác với mô hình).


1
Lưu ý rằng đầu ra mới mà bạn đã đăng cho thấy một số biến khác cũng có thể liên quan (hoặc có một vấn đề khác tôi không thấy) vì nếu không, bạn sẽ mong đợi SE sẽ thấp hơn nhiều khi chỉ bao gồm một trong hai biến .
Gala

Vâng đã nhận thấy điều đó, nhưng cảm ơn bạn. Tôi sẽ thực hiện chỉnh sửa vào một thời điểm sau để cho bạn biết điều gì có thể đã gây ra điều này nếu bạn quan tâm
deillac
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.