Điều trị mức độ 'Không biết / Từ chối' của các biến phân loại


9

Tôi đang lập mô hình Dự đoán bệnh tiểu đường bằng phương pháp hồi quy logistic. Bộ dữ liệu được sử dụng là Hệ thống giám sát nhân tố rủi ro hành vi (BRFSS) của Trung tâm kiểm soát dịch bệnh (CDC). Một trong những biến độc lập là huyết áp cao. Nó được phân loại với các cấp độ sau 'Có', 'Không', 'Không biết / Từ chối'. Tôi có nên xóa các hàng đó bằng 'Không biết / Từ chối' trong khi xây dựng mô hình không? Có gì khác biệt để giữ hoặc loại bỏ các hàng đó khỏi mô hình?

Câu trả lời:


6

Tôi chỉ tự hỏi về chính xác cùng một câu hỏi khi phân tích dữ liệu Khảo sát xuất viện mới nhất của Bệnh viện Quốc gia . Một số biến có giá trị thiếu đáng kể, chẳng hạn như tình trạng hôn nhân và loại thủ tục. Vấn đề này khiến tôi chú ý vì các danh mục này xuất hiện với các hiệu ứng mạnh (và đáng kể) trong hầu hết các phân tích hồi quy logistic tôi đang chạy.

Người ta có xu hướng tự hỏi tại saomột mã bị thiếu được đưa ra. Ví dụ, trong trường hợp tình trạng hôn nhân, việc cung cấp thông tin này có thể liên quan đến các yếu tố quan trọng như tình trạng kinh tế xã hội hoặc loại bệnh. Trong trường hợp huyết áp cao của bạn, chúng ta nên hỏi tại sao giá trị không được biết hoặc từ chối? Điều này có thể liên quan đến thực tiễn tại tổ chức (có thể phản ánh các thủ tục lỏng lẻo) hoặc thậm chí với các cá nhân (như niềm tin tôn giáo). Những đặc điểm này có thể liên quan đến bệnh tiểu đường. Do đó, có vẻ nên thận trọng khi tiếp tục như bạn có, thay vì mã hóa các giá trị này bị thiếu (do đó loại trừ chúng khỏi phân tích hoàn toàn) hoặc cố gắng áp đặt các giá trị (che dấu hiệu quả thông tin họ cung cấp và có thể làm sai lệch kết quả). Nó thực sự không khó thực hiện nữa: bạn chỉ cần đảm bảo rằng biến này được coi là phân loại và bạn sẽ có thêm một hệ số trong đầu ra hồi quy. Hơn nữa, tôi nghi ngờ bộ dữ liệu BRFSS đủ lớn để bạn không phải lo lắng về sức mạnh.


2
Ngoài ra, DK có thể có ý nghĩa thực sự, tức là những cá nhân đó không có ý thức về sức khỏe và có thể gặp rủi ro.
Brandon Bertelsen

2

Trước tiên, bạn phải suy nghĩ nếu dữ liệu bị thiếu hoàn toàn bị mất hoàn toàn ngẫu nhiên (MCAR), bị mất ngẫu nhiên (MAR) hoặc bị mất không ngẫu nhiên (MNAR) khi xóa (nói cách khác là phân tích trường hợp hoàn chỉnh) có thể dẫn đến kết quả sai lệch. Các lựa chọn thay thế là trọng số xác suất nghịch đảo, đa phương tiện, phương pháp khả năng đầy đủ và phương pháp mạnh gấp đôi. Nhiều lần cắt ngang với các phương trình xích (MICE) nếu thường là cách dễ nhất để đi.


Cảm ơn bạn. Đó là Dữ liệu Khảo sát và tôi không chắc đó là MAR hay MNAR. Ví dụ, có một biến nói 1) "một người có bị tiểu đường hay không?" và một biến số khác (2) Liệu anh ta có dùng Insulin không? Tôi thấy biến đó (2) chỉ có các mục khi biến (1) là 'Có' (tức là một người mắc bệnh tiểu đường). Ngược lại (2) trống. Ngoài ra (2) có 'có', 'Không', 'Không biết / Từ chối' làm câu trả lời cho trường hợp Bệnh tiểu đường. Vậy làm cách nào để xử lý các ô trống và phản hồi khảo sát 'Không biết / Từ chối'?
user3897

Tôi muốn tìm hiểu về nhiều lần cắt cụt và đang tìm kiếm một tài liệu học tập trực tuyến. Bạn có thể đề xuất một số tài liệu học tập cho MI?
user3897

0

Bạn có bất kỳ lý do để nghĩ rằng các đối tượng nghiên cứu mắc bệnh tiểu đường có nhiều khả năng hoặc ít có khả năng kết thúc với phản ứng DK / R? Nếu không (và tôi khá ngạc nhiên khi biết bạn đã làm), bao gồm cả công cụ dự đoán này trong mô hình không bao gồm các trường hợp này sẽ dẫn đến nhiễu. Đó là, bạn sẽ kết thúc với độ chính xác thấp hơn trong đánh giá của bạn về việc "có" so với "không" ảnh hưởng đến xác suất bệnh tiểu đường ước tính (bởi vì bạn sẽ cố gắng mô hình hóa ảnh hưởng của "có" hoặc "không" so với các phản hồi DK / R ngẫu nhiên trái ngược với chỉ "có" so với "không"). Tùy chọn đơn giản nhất là loại trừ các trường hợp có phản hồi DK / R. Giả sử rằng các câu trả lời "có / không" của họ thực sự bị thiếu một cách ngẫu nhiên, loại trừ chúng sẽ không làm sai lệch ước tính của bạn về ảnh hưởng của "có" so với "Không." Tuy nhiên, cách tiếp cận đó sẽ làm giảm kích thước mẫu của bạn và do đó làm giảm sức mạnh thống kê đối với các yếu tố dự đoán còn lại. Nếu bạn có nhiều DK / R trên biến này, bạn có thể muốn áp đặt các câu trả lời "có" / "không" bằng cách nhiều lần (có thể nói là chiến lược loại bỏ giá trị thiếu có thể phòng thủ nhất).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.