Xếp hạng các biến phân loại trong hồi quy logistic


8

Tôi đang làm một số nghiên cứu sử dụng hồi quy logistic. 10 biến ảnh hưởng đến biến phụ thuộc. Một trong những điều đã nói ở trên là phân loại (ví dụ: chuyển phát nhanh, chuyển phát tiêu chuẩn, v.v.). Bây giờ tôi muốn xếp hạng các danh mục đó dựa trên "sức mạnh" của hiệu ứng của chúng đối với biến phụ thuộc.

Chúng đều có ý nghĩa (giá trị p nhỏ), nhưng tôi nghĩ rằng tôi không thể chỉ sử dụng giá trị của tỷ lệ cược cho mục đích xếp hạng. Tôi bằng cách nào đó cần phải tìm ra, nếu mỗi loại cũng khác biệt đáng kể so với các loại khác. Điều này có đúng không?

Tôi đọc về khả năng tập trung vào biến. Đây thực sự là một lựa chọn? Tôi không muốn phần còn lại của mô hình của tôi bị ảnh hưởng.


Đầu ra Stata để hỗ trợ bình luận của tôi cho bài đăng của @ subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

Câu trả lời:


1

Vì bạn quan tâm đến việc xếp hạng các danh mục, bạn có thể muốn mã hóa lại các biến phân loại thành một số biến nhị phân riêng biệt.

Ví dụ: Tạo một biến nhị phân cho chuyển phát nhanh - sẽ lấy giá trị 1 cho các trường hợp chuyển phát nhanh và 0 nếu không. Tương tự, một biến nhị phân để phân phối tiêu chuẩn.

Đối với mỗi biến nhị phân được mã hóa lại này, bạn có thể tính toán các hiệu ứng cận biên như được chỉ ra dưới đây:

Công thức

Hãy để tôi giải thích một chút về phương trình trên: giả sử d là biến nhị phân được mã hóa lại để chuyển phát nhanh

Công thức là xác suất của sự kiện được đánh giá trung bình khi d = 1

Công thức là xác suất của sự kiện được đánh giá trung bình khi d = 0

Khi bạn tính toán các hiệu ứng cận biên cho tất cả các danh mục (biến nhị phân được mã hóa lại), bạn có thể xếp hạng chúng.


Cảm ơn bạn rất nhiều cho bài viết của bạn, subra. Tôi đã cố gắng bám sát hướng dẫn của bạn và hoàn thành công việc ". Lề, dydx (ExpDel)" trong stata. Bạn tìm đầu ra trong bài viết gốc của tôi. Tôi có cần chạy lệnh này trên tất cả các biến phân loại (và bây giờ là nhị phân) mà tôi muốn xếp hạng và sau đó chỉ cần so sánh giá trị dy / dx không? Càng cao càng ảnh hưởng đến biến phụ thuộc của tôi? Cảm ơn rât nhiều!
Lukas

@ Lukas: Vâng, bạn đúng. Trong Stata, đối với dữ liệu rời rạc, 'lề' thực sự tính toán hiệu ứng của sự thay đổi riêng biệt của đồng biến. Do đó, bạn chỉ phải so sánh dy / dx (từ lề) cho tất cả các danh mục (bây giờ là nhị phân). Giá trị càng cao thì ảnh hưởng càng nhiều.
subra

@ subra: Cảm ơn đã làm rõ. Các thủ tục được đề cập ở trên dẫn đến xếp hạng tương tự như thể tôi sẽ chỉ xếp hạng các hệ số logit tương ứng. Tôi vẫn không chắc chắn về lý do tại sao tôi có thể đề cập đến các hiệu ứng cận biên cho mục đích xếp hạng và không liên quan đến các hệ số logit. Bạn có một nguồn bạn có thể giới thiệu cho các bài đọc thêm? Hơn nữa, tôi không chắc tại sao tôi nên sử dụng lệnh stata đã đề cập ở trên và không thêm, ví dụ: "atmeans" để sử dụng phương tiện của các biến khác cho mục đích so sánh. Cảm ơn rât nhiều.
Lukas

@ Lucas: Vâng, bạn là nghi thức. Nếu bạn chỉ muốn xếp hạng các yếu tố dự đoán, thì hệ số logit là đủ. Tôi không rõ ràng với phần thứ hai của câu hỏi. nếu bạn đang hỏi tại sao chúng ta phải đánh giá các hiệu ứng cận biên, vui lòng kiểm tra bài sau: stats.stackexchange.com/questions/167811/ Kẻ
subra

-2

Bạn có thể điều chỉnh mô hình hồi quy logistic chỉ sử dụng 1 biến tại thời điểm đó và kiểm tra R2 điều chỉnh.

Người giải thích hầu hết các phương sai sẽ có tác động nhiều hơn đến mô hình ...

Tôi chỉ đoán, không chắc rằng đó là một giải pháp nghiêm ngặt ...


4
Không có điều đó sẽ chỉ cung cấp các biện pháp hiệp hội cận biên.
Frank Harrell

-2

Đây là một câu hỏi phổ biến với vô số câu trả lời. Đơn giản nhất là sử dụng các tính năng tiêu chuẩn hóa; giá trị tuyệt đối của các hệ số quay trở lại sau đó có thể được hiểu một cách lỏng lẻo là 'cao hơn' = 'ảnh hưởng nhiều hơn' trên nhật ký (tỷ lệ cược). Đối với hầu hết các phần, việc sử dụng điểm số tiêu chuẩn sẽ không ảnh hưởng đến kết quả chung của bạn (đường cong ROC phải giống nhau; ma trận nhầm lẫn sẽ giống như giả sử bạn chọn ngưỡng quyết định so sánh). Tôi thường tính toán hồi quy theo cả hai cách; một lần sử dụng điểm số thô (để có được phương trình dự đoán tôi sẽ sử dụng) và lần thứ hai sử dụng điểm số chuẩn để xem điểm nào lớn nhất.

Đối với các dự đoán phân loại, tôi giả sử (nhưng chưa kiểm tra) rằng điều tương tự cũng đúng khi sử dụng các dự đoán chuẩn hóa.

Nếu bạn chưa có, bạn cũng nên xem xét sử dụng chính quy: Lasso / sườn / lưới đàn hồi. Điều này sẽ giúp các tính năng yếu, không liên quan hoặc dư thừa bị loại bỏ, để lại cho bạn một mô hình tuyệt vời hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.