Làm thế nào để định lượng mức độ quan trọng của biến tương đối trong hồi quy logistic theo p?


11

Giả sử mô hình hồi quy logistic được sử dụng để dự đoán liệu người mua hàng trực tuyến sẽ mua sản phẩm (kết quả: mua hàng), sau khi anh ta nhấp vào một bộ quảng cáo trực tuyến (dự đoán: Ad1, Ad2 và Ad3).

Kết quả là một biến nhị phân: 1 (đã mua) hoặc 0 (không thuần chủng). Các dự đoán cũng là các biến nhị phân: 1 (đã nhấp) hoặc 0 (không được nhấp). Vì vậy, tất cả các biến là trên cùng một quy mô.

Nếu các hệ số kết quả của Ad1, Ad2 và Ad3 là 0,1, 0,2 và 03, chúng ta có thể kết luận rằng Ad3 quan trọng hơn Ad2 và Ad2 quan trọng hơn Ad1. Hơn nữa, vì tất cả các biến đều có cùng thang đo, nên các hệ số được tiêu chuẩn hóa và không được chuẩn hóa phải giống nhau và chúng ta có thể kết luận thêm rằng Ad2 quan trọng gấp đôi so với Ad1 về mức độ ảnh hưởng của nó đối với mức độ logit (tỷ lệ cược log).

Nhưng trong thực tế, chúng tôi quan tâm nhiều hơn đến cách so sánh và diễn giải tầm quan trọng tương đối của các biến theo mức độ p (xác suất mua hàng), chứ không phải logit (tỷ lệ cược log).

Vì vậy, câu hỏi là: Có cách tiếp cận nào để định lượng tầm quan trọng tương đối của các biến này theo p?


Tôi thấy bài viết này hữu ích. Nó mô tả tốt sáu phương thức khác nhau có thể được sử dụng để xác định tầm quan trọng của người dự đoán từ mô hình hồi quy logistic cùng với đạo cụ & khuyết điểm liên quan đến mỗi phương thức.
gchaks

Câu trả lời:


5

Đối với các mô hình tuyến tính, bạn có thể sử dụng giá trị tuyệt đối của thống kê t cho từng tham số mô hình.

Ngoài ra, bạn có thể sử dụng một cái gì đó giống như một forrest ngẫu nhiên và có được một danh sách các tính năng quan trọng rất hay.

Nếu bạn đang sử dụng R, hãy kiểm tra ( http://caret.r-forge.r-project.org/varimp.html ), nếu bạn đang sử dụng python, hãy kiểm tra ( http://scikit-learn.org/ sóng / auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

BIÊN TẬP:

Vì logit không có cách trực tiếp để làm điều này, bạn có thể sử dụng đường cong ROC cho mỗi dự đoán.

Để phân loại, phân tích đường cong ROC được tiến hành trên từng yếu tố dự đoán. Đối với hai vấn đề của lớp, một loạt các điểm ngắt được áp dụng cho dữ liệu dự đoán để dự đoán lớp. Độ nhạy và độ đặc hiệu được tính toán cho từng điểm cắt và đường cong ROC được tính toán. Quy tắc hình thang được sử dụng để tính diện tích dưới đường cong ROC. Khu vực này được sử dụng như là thước đo tầm quan trọng khác nhau

Một ví dụ về cách thức này hoạt động trong R là:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
Cảm ơn vì đã trả lời! có dễ dàng cho mô hình tuyến tính và rừng ngẫu nhiên, bạn có biết làm thế nào để làm điều đó trong trường hợp hồi quy logistic không? Cảm ơn rất nhiều!
xyhzc

Xem chỉnh sửa ở trên.
mike1886

Có vẻ như câu hỏi về so sánh mức tỷ lệ vẫn chưa được trả lời. Ngay cả khi chúng ta biết rằng AUC là, giả sử, chỉ sử dụng x1 và .9 chỉ bằng x2, chúng ta khó có thể nói rằng tầm quan trọng của x2 vì thế lớn hơn 50%. Tôi cũng không nghĩ rằng đó là (1 - 10% / 40%) = 75% lớn hơn. Chúng ta cũng không thể làm một cái gì đó tương tự bằng cách chỉ sử dụng độ nhạy hoặc chỉ tính đặc hiệu. Tôi cũng nghi ngờ về khả năng áp dụng thống kê Wald ở đây. Hữu ích nhất có thể là giải thích về các hệ số được tiêu chuẩn hóa (xem cuốn sách trực tuyến của Scott Menard).
rolando2

Cảm ơn rolando2! Các biến trong câu hỏi này là tất cả các số đo trong cùng một số liệu, vì vậy các hệ số được tiêu chuẩn hóa và không được chuẩn hóa phải giống nhau. Hơn nữa, mặc dù chúng ta có thể sử dụng các hệ số được tiêu chuẩn hóa để so sánh các biến ở mức logit (tỷ lệ cược log), làm thế nào chúng ta có thể diễn giải các biến trên P (xác suất mua hàng của người mua hàng trực tuyến trong trường hợp này)? cảm ơn rất nhiều!
xyhzc

1
Tôi không thấy nó trả lời câu hỏi.
HelloWorld

4

Vì bạn đặc biệt yêu cầu giải thích theo thang xác suất: Trong hồi quy logistic, xác suất thành công ước tính được đưa ra bởi

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

Một người chỉ nhấp vào quảng cáo 3:

exp(0.3)1+exp(0.3)=0.57

Tuy nhiên, nếu người đó đã nhấp vào quảng cáo 1 hoặc quảng cáo 3 mà còn quảng cáo 2 (nếu đây là một kịch bản plasubile), thì xác suất sẽ trở thành

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

Trong trường hợp này, sự thay đổi xác suất là cả 0,05, nhưng thường thì sự thay đổi này không giống nhau đối với các tổ hợp cấp độ khác nhau. (Bạn có thể thấy điều này một cách dễ dàng nếu bạn sử dụng cùng một cách tiếp cận như trên nhưng với các hệ số 0,1, 1,5, 0,3.) Vì vậy, tầm quan trọng của một biến trên thang đo xác suất phụ thuộc vào mức độ quan sát của các biến khác. Điều này có thể làm cho nó khó (không thể?) Để đưa ra một thước đo tầm quan trọng biến số tuyệt đối, định lượng trên thang đo xác suất.


cảm ơn lời giải thích của bạn Vậy thì bạn có biết có phương pháp gián tiếp nào để định lượng tầm quan trọng tương đối của các yếu tố dự đoán không? mike1886 đã đề cập đến "phân tích đường cong ROC" trong câu trả lời của mình, nhưng có một số vấn đề như được đề cập bởi rolando2. Cảm ơn rất nhiều!
xyhzc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.