Hồi quy logistic với các biến dự đoán thưa thớt

8

Tôi hiện đang mô hình hóa một số dữ liệu bằng cách sử dụng hồi quy logistic nhị phân. Biến phụ thuộc có một số lượng tốt các trường hợp tích cực và trường hợp tiêu cực - nó không thưa thớt. Tôi cũng có một bộ huấn luyện lớn (> 100.000) và số lượng hiệu ứng chính tôi quan tâm là khoảng 15 vì vậy tôi không lo lắng về vấn đề p> n.

Điều tôi quan tâm là hầu hết các biến dự đoán của tôi, nếu liên tục, hầu hết đều bằng không, và nếu là danh nghĩa, hầu hết đều không có giá trị. Khi các biến dự đoán thưa thớt này có giá trị> 0 (hoặc không null), tôi biết vì quen với dữ liệu nên chúng có tầm quan trọng trong việc dự đoán các trường hợp tích cực của tôi. Tôi đã cố gắng tìm kiếm thông tin về mức độ thưa thớt của những dự đoán này có thể ảnh hưởng đến mô hình của tôi.

Cụ thể, tôi sẽ không muốn hiệu ứng của một biến thưa thớt nhưng quan trọng không được đưa vào mô hình của mình nếu có một biến dự đoán khác không thưa thớt và có tương quan nhưng thực sự không làm tốt công việc dự đoán các trường hợp tích cực .

Để minh họa một ví dụ, nếu tôi cố gắng mô hình hóa liệu có ai đó cuối cùng được chấp nhận tại một trường đại học liên minh ivy cụ thể hay không và ba người dự đoán của tôi là điểm SAT, GPA và "quyên góp> 1 triệu đô la" dưới dạng nhị phân, tôi có lý do để tin rằng "quyên góp> 1 triệu đô la", khi đúng, sẽ rất dễ dự đoán về sự chấp nhận - hơn cả điểm trung bình hoặc SAT cao - nhưng nó cũng rất thưa thớt. Làm thế nào, nếu tất cả, điều này sẽ ảnh hưởng đến mô hình logistic của tôi và tôi có cần điều chỉnh cho việc này không? Ngoài ra, liệu một loại mô hình khác (nói cây quyết định, rừng ngẫu nhiên, v.v.) sẽ xử lý việc này tốt hơn?

— Christianne
nguồn

2

1) Sự gián đoạn của dữ liệu có thể được giảm bớt bằng cách chuẩn hóa L1.

2) Bạn cũng có thể thử lấy mẫu phụ và lấy mẫu dữ liệu. (Đừng quên hiệu chỉnh kết quả dựa trên tỷ lệ lấy mẫu được sử dụng trước đó)

3) Mô hình của bạn cũng sẽ quan tâm đến tầm quan trọng của các biến khác nhau.

— Arpit Sisodia
nguồn

0

Nếu dữ liệu của bạn có một chút không chắc chắn, bạn có thể tạo mức độ tin cậy xung quanh một biến dự đoán thưa thớt. Trong ví dụ của bạn, một biến phân loại trong đó:

0 = chắc chắn không được quyên góp> $ 1 triệu đô la

1 = có thể quyên góp> $ 1 triệu đô la

2 = chắc chắn đã quyên góp> $ 1 triệu đô la

Điều này đã làm việc tốt cho tôi trong quá khứ

— Ong
nguồn