Khi nào cần loại bỏ các biến không đáng kể?


9

Tôi đang làm việc trên mô hình hồi quy logistic. Tôi đã kiểm tra tóm tắt của mô hình được xây dựng trên 5 biến độc lập trong đó biến không có ý nghĩa với giá trị P là 0,74. Tôi muốn biết rằng chúng ta có loại bỏ trực tiếp biến đó hay có cách nào khác để kiểm tra mức độ quan trọng của nó không ?

Một tiền bối của tôi đề nghị thực hiện chuyển đổi logarit của biến không đáng kể và tìm kiếm mối tương quan sau đó. Điều đó sẽ được tính vào việc kiểm tra ý nghĩa của nó.

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Tất cả các biến trở nên có ý nghĩa với 2 hoặc 3 sao ngoài a_score được hiển thị không đáng kể.


Mục tiêu của bài tập xây dựng mô hình của bạn là gì? Bạn có quan tâm đến số liệu thống kê suy luận, ví dụ, cho một bài viết học thuật, hoặc dự đoán?
Stephan Kolassa

Câu trả lời:


40

Trước tiên hãy để tôi hỏi điều này: mục tiêu của mô hình là gì? Nếu bạn chỉ quan tâm đến việc dự đoán liệu khách hàng sẽ mua, thì các thử nghiệm giả thuyết thống kê thực sự không phải là mối quan tâm chính của bạn. Thay vào đó, bạn nên xác nhận bên ngoài mô hình của mình thông qua một sản phẩm xác thực / thử nghiệm trên dữ liệu chưa xem.

Thay vào đó, nếu bạn quan tâm đến việc kiểm tra các yếu tố nào góp phần vào xác suất khách hàng mua, thì không cần phải loại bỏ các biến không từ chối null (đặc biệt là theo cách thức từng bước). Có lẽ, bạn đã bao gồm một biến trong mô hình của mình vì bạn nghĩ (từ kinh nghiệm trong quá khứ hoặc ý kiến ​​chuyên gia) rằng nó đóng một phần quan trọng trong một khách hàng quyết định họ sẽ mua. Việc biến không thể từ chối null không làm cho mô hình của bạn trở nên xấu, điều đó chỉ có nghĩa là mẫu của bạn không phát hiện ra ảnh hưởng của biến đó. Điều đó hoàn toàn ổn.


3
Nâng cao cho sự xuất sắc của câu trả lời.
James Phillips

7
+1 Loại bỏ các yếu tố dự đoán có khả năng liên quan đến kết quả (ngay cả khi "không đáng kể") là khó khăn trong hồi quy logistic, do sai lệch biến thiên vốn có của nó . Việc loại bỏ một yếu tố dự đoán liên quan đến kết quả có thể dẫn đến sai lệch trong ước tính hệ số của các yếu tố dự đoán được giữ lại, ngay cả khi các yếu tố dự đoán được giữ lại không tương quan với yếu tố dự đoán bị loại bỏ.
EdM

3
Đây thực sự là một câu trả lời rất rõ ràng.
gents

2

Có một cái nhìn vào các trang trợ giúp cho step(), drop1()add1(). Những thứ này sẽ giúp bạn thêm / xóa các biến dựa trên AIC. Tuy nhiên, tất cả các phương pháp như vậy có phần thiếu sót trong sự phụ thuộc đường dẫn của chúng. Một cách tốt hơn sẽ là sử dụng các chức năng trong gói bị phạt hoặc glmnet để thực hiện hồi quy lasso.


-1

Các mối tương quan giữa các biến độc lập là gì? Điều này ít quan trọng hơn đối với dự đoán thuần túy, nhưng nếu bạn muốn có được một số thông tin suy luận, điều quan trọng là các biến độc lập phải khá không tương quan. Thông thường, khi bạn sử dụng hồi quy logistic trong cài đặt doanh nghiệp, cả thông tin suy luận về các biến được sử dụng cùng với dự đoán tốt là những gì các bên liên quan đang tìm kiếm.

Ngoài ra, một lý do chính đáng khác để loại bỏ các biến là cho mô hình phân tích. Một số lý do cho việc này là vì mục đích xem xét nội bộ, quy định pháp lý và dễ thực hiện. Những điều này dẫn đến việc rất mong muốn tìm ra tập hợp các biến nhỏ nhất cung cấp thông tin kinh doanh tốt và dự đoán tốt. Ví dụ: nếu bạn đang phát triển mô hình tín dụng, mọi biến đều phải được xem xét pháp lý, mọi biến phải có sẵn và trả lại ngay các giá trị khi được gọi để ghi điểm cho vay và các bên liên quan (thường không thành thạo trong xây dựng mô hình) có xu hướng không muốn nhìn vào các mô hình phức tạp được tải với các biến.

Cũng có thể hữu ích khi thử một khu rừng ngẫu nhiên để có được một số ý tưởng về tầm quan trọng của biến và cũng để kiểm tra khả năng dự đoán có và không có tất cả các biến.

Cuối cùng, bạn nên có một lý do chính đáng để chuyển đổi một biến. Ném mọi biến đổi vào một biến cho đến khi bạn tìm thấy một biến mang lại cho bạn kết quả bạn muốn là một cách tốt để có được một mô hình overfit hoạt động kém trên dữ liệu mới.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.