Tôi chỉ tự hỏi về chính xác cùng một câu hỏi khi phân tích dữ liệu Khảo sát xuất viện mới nhất của Bệnh viện Quốc gia . Một số biến có giá trị thiếu đáng kể, chẳng hạn như tình trạng hôn nhân và loại thủ tục. Vấn đề này khiến tôi chú ý vì các danh mục này xuất hiện với các hiệu ứng mạnh (và đáng kể) trong hầu hết các phân tích hồi quy logistic tôi đang chạy.
Người ta có xu hướng tự hỏi tại saomột mã bị thiếu được đưa ra. Ví dụ, trong trường hợp tình trạng hôn nhân, việc cung cấp thông tin này có thể liên quan đến các yếu tố quan trọng như tình trạng kinh tế xã hội hoặc loại bệnh. Trong trường hợp huyết áp cao của bạn, chúng ta nên hỏi tại sao giá trị không được biết hoặc từ chối? Điều này có thể liên quan đến thực tiễn tại tổ chức (có thể phản ánh các thủ tục lỏng lẻo) hoặc thậm chí với các cá nhân (như niềm tin tôn giáo). Những đặc điểm này có thể liên quan đến bệnh tiểu đường. Do đó, có vẻ nên thận trọng khi tiếp tục như bạn có, thay vì mã hóa các giá trị này bị thiếu (do đó loại trừ chúng khỏi phân tích hoàn toàn) hoặc cố gắng áp đặt các giá trị (che dấu hiệu quả thông tin họ cung cấp và có thể làm sai lệch kết quả). Nó thực sự không khó thực hiện nữa: bạn chỉ cần đảm bảo rằng biến này được coi là phân loại và bạn sẽ có thêm một hệ số trong đầu ra hồi quy. Hơn nữa, tôi nghi ngờ bộ dữ liệu BRFSS đủ lớn để bạn không phải lo lắng về sức mạnh.