Tôi hiện đang mô hình hóa một số dữ liệu bằng cách sử dụng hồi quy logistic nhị phân. Biến phụ thuộc có một số lượng tốt các trường hợp tích cực và trường hợp tiêu cực - nó không thưa thớt. Tôi cũng có một bộ huấn luyện lớn (> 100.000) và số lượng hiệu ứng chính tôi quan tâm là khoảng 15 vì vậy tôi không lo lắng về vấn đề p> n.
Điều tôi quan tâm là hầu hết các biến dự đoán của tôi, nếu liên tục, hầu hết đều bằng không, và nếu là danh nghĩa, hầu hết đều không có giá trị. Khi các biến dự đoán thưa thớt này có giá trị> 0 (hoặc không null), tôi biết vì quen với dữ liệu nên chúng có tầm quan trọng trong việc dự đoán các trường hợp tích cực của tôi. Tôi đã cố gắng tìm kiếm thông tin về mức độ thưa thớt của những dự đoán này có thể ảnh hưởng đến mô hình của tôi.
Cụ thể, tôi sẽ không muốn hiệu ứng của một biến thưa thớt nhưng quan trọng không được đưa vào mô hình của mình nếu có một biến dự đoán khác không thưa thớt và có tương quan nhưng thực sự không làm tốt công việc dự đoán các trường hợp tích cực .
Để minh họa một ví dụ, nếu tôi cố gắng mô hình hóa liệu có ai đó cuối cùng được chấp nhận tại một trường đại học liên minh ivy cụ thể hay không và ba người dự đoán của tôi là điểm SAT, GPA và "quyên góp> 1 triệu đô la" dưới dạng nhị phân, tôi có lý do để tin rằng "quyên góp> 1 triệu đô la", khi đúng, sẽ rất dễ dự đoán về sự chấp nhận - hơn cả điểm trung bình hoặc SAT cao - nhưng nó cũng rất thưa thớt. Làm thế nào, nếu tất cả, điều này sẽ ảnh hưởng đến mô hình logistic của tôi và tôi có cần điều chỉnh cho việc này không? Ngoài ra, liệu một loại mô hình khác (nói cây quyết định, rừng ngẫu nhiên, v.v.) sẽ xử lý việc này tốt hơn?