Tôi có dữ liệu khảo sát lớn, một biến kết quả nhị phân và nhiều biến giải thích bao gồm nhị phân và liên tục. Tôi đang xây dựng các bộ mô hình (thử nghiệm với cả GLM và GLM hỗn hợp) và sử dụng các phương pháp lý thuyết thông tin để chọn mô hình hàng đầu. Tôi đã xem xét cẩn thận các giải thích (cả liên tục và phân loại) về mối tương quan và tôi chỉ sử dụng những giải thích trong cùng một mô hình có Pearson hoặc Phicorr coeff dưới 0,3. Tôi muốn cung cấp cho tất cả các biến liên tục của tôi một cơ hội công bằng trong việc cạnh tranh cho mô hình hàng đầu. Theo kinh nghiệm của tôi, việc biến đổi những người cần nó dựa trên độ lệch sẽ cải thiện mô hình mà họ tham gia (AIC thấp hơn).
Câu hỏi đầu tiên của tôi là: sự cải thiện này có phải vì sự biến đổi giúp cải thiện tính tuyến tính với logit không? Hoặc là sửa sai lệch cải thiện sự cân bằng của các biến giải thích bằng cách nào đó bằng cách làm cho dữ liệu đối xứng hơn? Tôi ước tôi hiểu những lý do toán học đằng sau điều này nhưng bây giờ, nếu ai đó có thể giải thích điều này một cách dễ dàng, điều đó sẽ rất tuyệt. Nếu bạn có bất kỳ tài liệu tham khảo nào tôi có thể sử dụng, tôi thực sự sẽ đánh giá cao nó.
Nhiều trang web nói rằng vì tính quy phạm không phải là một giả định trong hồi quy logistic nhị phân, không biến đổi các biến. Nhưng tôi cảm thấy rằng bằng cách không biến đổi các biến của mình, tôi gặp một số bất lợi so với các biến khác và nó có thể ảnh hưởng đến mô hình hàng đầu là gì và thay đổi suy luận (tốt, nó thường không, nhưng trong một số bộ dữ liệu thì không). Một số biến của tôi hoạt động tốt hơn khi chuyển đổi nhật ký, một số biến khi bình phương (hướng xiên khác nhau) và một số biến không được dịch.
Ai đó có thể cho tôi một hướng dẫn những gì cần cẩn thận khi chuyển đổi các biến giải thích cho hồi quy logistic và nếu không làm điều đó, tại sao không?