Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời? Có những mô hình phức tạp hơn nên được sử dụng? Nếu vậy, chúng là gì?
Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời? Có những mô hình phức tạp hơn nên được sử dụng? Nếu vậy, chúng là gì?
Câu trả lời:
Thực tế là không cần thiết phải bắn muỗi bằng súng thần công (nghĩa là nếu bạn có một giá trị bị thiếu trong một triệu điểm dữ liệu, chỉ cần thả nó), sử dụng giá trị trung bình có thể là tối ưu để nói rằng ít nhất: kết quả có thể bị sai lệch và ít nhất bạn nên sửa kết quả cho sự không chắc chắn.
Có một số tùy chọn khác, nhưng cách dễ nhất để giải thích là nhiều lần cắt bỏ. Khái niệm này rất đơn giản: dựa trên một mô hình cho chính dữ liệu của bạn (ví dụ: được lấy từ các trường hợp hoàn chỉnh, mặc dù các tùy chọn khác có sẵn, như MICE), rút ra các giá trị từ phân phối được liên kết để 'hoàn thành' tập dữ liệu của bạn. Sau đó, trong bộ dữ liệu đã hoàn thành này, bạn không còn thiếu dữ liệu nữa và bạn có thể chạy phân tích sở thích của mình.
Nếu bạn đã làm điều này chỉ một lần (trên thực tế, việc thay thế các giá trị bị thiếu bằng giá trị trung bình là một hình thức rất mâu thuẫn của điều này), nó sẽ được gọi là một lần cắt bỏ duy nhất và không có lý do nào để nó hoạt động tốt hơn thay thế trung bình.
Tuy nhiên: mẹo là thực hiện việc này nhiều lần (do đó Nhiều lần tranh chấp) và mỗi lần thực hiện phân tích của bạn trên mỗi tập dữ liệu đã hoàn thành (= imputed). Kết quả thường là một tập hợp các ước tính tham số hoặc tương tự cho mỗi tập dữ liệu hoàn thành. Trong các điều kiện tương đối lỏng lẻo, bạn có thể lấy trung bình các ước tính tham số của mình trên tất cả các bộ dữ liệu được liệt kê này.
Ưu điểm là cũng tồn tại một công thức đơn giản để điều chỉnh lỗi tiêu chuẩn cho sự không chắc chắn gây ra bởi dữ liệu bị thiếu.
Nếu bạn muốn biết thêm, có lẽ bạn muốn đọc Phân tích thống kê của Little và Rubin với dữ liệu bị thiếu '. Điều này cũng giữ các phương thức khác (EM, ...) và giải thích thêm về cách thức / tại sao / khi chúng hoạt động.
Bạn đã không cho chúng tôi biết rất nhiều về bản chất của dữ liệu bị thiếu của bạn. Bạn đã kiểm tra MCAR ( Mất hoàn toàn ngẫu nhiên ) chưa? Cho rằng bạn không thể giả sử MCAR, thay thế trung bình có thể dẫn đến các ước tính sai lệch.
Là một điểm khởi đầu phi toán học, tôi có thể đề xuất hai tài liệu tham khảo sau:
Nếu các giá trị bị thiếu của bạn được phân phối ngẫu nhiên hoặc kích thước mẫu của bạn nhỏ, bạn có thể tốt hơn là chỉ sử dụng giá trị trung bình. Trước tiên tôi sẽ chia dữ liệu thành hai phần: 1 với các giá trị còn thiếu và phần còn lại không có và sau đó kiểm tra sự khác biệt về phương tiện của một số biến chính giữa hai mẫu. Nếu không có sự khác biệt, bạn có một số hỗ trợ để thay thế giá trị trung bình hoặc chỉ xóa hoàn toàn các quan sát.
Mùa đông -Ralph
Thiếu dữ liệu là một vấn đề lớn ở khắp mọi nơi. Tôi muốn bạn trả lời câu hỏi sau đây đầu tiên. 1) thiếu bao nhiêu% tuổi của dữ liệu? - nếu có hơn 10% dữ liệu, bạn sẽ không mạo hiểm khi đưa dữ liệu đó vào trung bình. Bởi vì việc bỏ qua như vậy với giá trị trung bình tương đương với việc nói với hộp LR trông .. biến này có nghĩa là hầu hết các vị trí (vì vậy hãy rút ra một số kết luận) và bạn không muốn hộp LR đưa ra kết luận theo đề xuất của mình. Bây giờ, điều tối thiểu bạn có thể làm nếu bạn không muốn nhiều là bạn có thể cố gắng liên kết các biến này với các giá trị có sẵn với các giá trị dự đoán khác nhau hoặc sử dụng ý nghĩa kinh doanh ở bất cứ nơi nào có thể..example..nếu tôi thiếu một cuộc hôn nhân, một trong những những cách có thể là nhìn thấy tuổi trung vị của những người kết hôn, (giả sử là đến 29 tuổi), Tôi có thể giả định rằng nhìn chung mọi người (ở Ấn Độ) kết hôn vào ngày 30 và 29 cho thấy như vậy. PROC MI cũng thực hiện mọi thứ trong nội bộ cho bạn nhưng theo cách tinh vi hơn rất nhiều..như 2 xu của tôi..xem ít nhất 4-5 biến được liên kết với các lỗi của bạn và cố gắng hình thành một mối tương quan..Điều này có thể tốt hơn.
What is MI
đưa ra một danh sách các tài nguyên khác nhau.