Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời?

8

Là phương pháp thay thế trung bình để thay thế dữ liệu bị thiếu đã lỗi thời? Có những mô hình phức tạp hơn nên được sử dụng? Nếu vậy, chúng là gì?

missing-data

— Melissa Duncombe
nguồn

Trang web này có thể đưa ra câu trả lời cho câu hỏi của bạn. Liên kết What is MIđưa ra một danh sách các tài nguyên khác nhau.

— mpiktas

14

Thực tế là không cần thiết phải bắn muỗi bằng súng thần công (nghĩa là nếu bạn có một giá trị bị thiếu trong một triệu điểm dữ liệu, chỉ cần thả nó), sử dụng giá trị trung bình có thể là tối ưu để nói rằng ít nhất: kết quả có thể bị sai lệch và ít nhất bạn nên sửa kết quả cho sự không chắc chắn.

Có một số tùy chọn khác, nhưng cách dễ nhất để giải thích là nhiều lần cắt bỏ. Khái niệm này rất đơn giản: dựa trên một mô hình cho chính dữ liệu của bạn (ví dụ: được lấy từ các trường hợp hoàn chỉnh, mặc dù các tùy chọn khác có sẵn, như MICE), rút ra các giá trị từ phân phối được liên kết để 'hoàn thành' tập dữ liệu của bạn. Sau đó, trong bộ dữ liệu đã hoàn thành này, bạn không còn thiếu dữ liệu nữa và bạn có thể chạy phân tích sở thích của mình.

Nếu bạn đã làm điều này chỉ một lần (trên thực tế, việc thay thế các giá trị bị thiếu bằng giá trị trung bình là một hình thức rất mâu thuẫn của điều này), nó sẽ được gọi là một lần cắt bỏ duy nhất và không có lý do nào để nó hoạt động tốt hơn thay thế trung bình.

Tuy nhiên: mẹo là thực hiện việc này nhiều lần (do đó Nhiều lần tranh chấp) và mỗi lần thực hiện phân tích của bạn trên mỗi tập dữ liệu đã hoàn thành (= imputed). Kết quả thường là một tập hợp các ước tính tham số hoặc tương tự cho mỗi tập dữ liệu hoàn thành. Trong các điều kiện tương đối lỏng lẻo, bạn có thể lấy trung bình các ước tính tham số của mình trên tất cả các bộ dữ liệu được liệt kê này.

Ưu điểm là cũng tồn tại một công thức đơn giản để điều chỉnh lỗi tiêu chuẩn cho sự không chắc chắn gây ra bởi dữ liệu bị thiếu.

Nếu bạn muốn biết thêm, có lẽ bạn muốn đọc Phân tích thống kê của Little và Rubin với dữ liệu bị thiếu '. Điều này cũng giữ các phương thức khác (EM, ...) và giải thích thêm về cách thức / tại sao / khi chúng hoạt động.

— Nick Sabbe
nguồn

1

+1 Tôi sẽ giả định rằng việc cắt cụt đơn thực hiện tốt hơn một chút so với thay thế trung bình vì bạn kết hợp thông tin bổ sung ( dự đoán so với dự đoán ). Tuy nhiên, tôi hoàn toàn đồng ý rằng MI là con đường để đi.

0

$0$

p

$p$

— Bernd Weiss

11

Bạn đã không cho chúng tôi biết rất nhiều về bản chất của dữ liệu bị thiếu của bạn. Bạn đã kiểm tra MCAR ( Mất hoàn toàn ngẫu nhiên ) chưa? Cho rằng bạn không thể giả sử MCAR, thay thế trung bình có thể dẫn đến các ước tính sai lệch.

Là một điểm khởi đầu phi toán học, tôi có thể đề xuất hai tài liệu tham khảo sau:

Graham, Hohn W. (2009): Thiếu phân tích dữ liệu: Làm cho nó hoạt động trong thế giới thực.
Allison, Paul (2002): Thiếu dữ liệu. (xem phần "Tranh chấp", trang 11)

— Bernd Weiss
nguồn

@ Bernd tài liệu tham khảo Graham là cực kỳ tốt, nó đã giúp tôi rất nhiều với việc có được nhiều tranh cãi.

— richiemorrisroe

2

Nếu các giá trị bị thiếu của bạn được phân phối ngẫu nhiên hoặc kích thước mẫu của bạn nhỏ, bạn có thể tốt hơn là chỉ sử dụng giá trị trung bình. Trước tiên tôi sẽ chia dữ liệu thành hai phần: 1 với các giá trị còn thiếu và phần còn lại không có và sau đó kiểm tra sự khác biệt về phương tiện của một số biến chính giữa hai mẫu. Nếu không có sự khác biệt, bạn có một số hỗ trợ để thay thế giá trị trung bình hoặc chỉ xóa hoàn toàn các quan sát.

Mùa đông -Ralph

— Mùa đông Ralph
nguồn

1

Nhưng sử dụng giá trị trung bình ngụ ý bạn đang dự đoán giá trị tại thời điểm đó. Đó không phải là những gì đang xảy ra, những gì đang diễn ra là một nỗ lực để phục hồi một giá trị ngẫu nhiên. Có vẻ như vì bạn có ước tính về phương sai cũng như bạn nên sử dụng cả hai (nghĩa là rút ngẫu nhiên từ phân phối).

— Giăng

Ngoài ra, sự thay thế trung bình sẽ làm giảm phương sai của các ước tính của bạn, điều này sẽ đưa ra tất cả các lỗi tiêu chuẩn và khoảng tin cậy cho phần còn lại của phân tích của bạn.

— richiemorrisroe

Đúng. Tôi chỉ đơn thuần đề xuất rằng các quần thể của dữ liệu bị mất so với không bị mất được kiểm tra trước khi mù quáng vào MI, có thể chiếm rất nhiều sức mạnh tính toán với chi phí tăng tối thiểu.

— Ralph Winters

0

Thiếu dữ liệu là một vấn đề lớn ở khắp mọi nơi. Tôi muốn bạn trả lời câu hỏi sau đây đầu tiên. 1) thiếu bao nhiêu% tuổi của dữ liệu? - nếu có hơn 10% dữ liệu, bạn sẽ không mạo hiểm khi đưa dữ liệu đó vào trung bình. Bởi vì việc bỏ qua như vậy với giá trị trung bình tương đương với việc nói với hộp LR trông .. biến này có nghĩa là hầu hết các vị trí (vì vậy hãy rút ra một số kết luận) và bạn không muốn hộp LR đưa ra kết luận theo đề xuất của mình. Bây giờ, điều tối thiểu bạn có thể làm nếu bạn không muốn nhiều là bạn có thể cố gắng liên kết các biến này với các giá trị có sẵn với các giá trị dự đoán khác nhau hoặc sử dụng ý nghĩa kinh doanh ở bất cứ nơi nào có thể..example..nếu tôi thiếu một cuộc hôn nhân, một trong những những cách có thể là nhìn thấy tuổi trung vị của những người kết hôn, (giả sử là đến 29 tuổi), Tôi có thể giả định rằng nhìn chung mọi người (ở Ấn Độ) kết hôn vào ngày 30 và 29 cho thấy như vậy. PROC MI cũng thực hiện mọi thứ trong nội bộ cho bạn nhưng theo cách tinh vi hơn rất nhiều..như 2 xu của tôi..xem ít nhất 4-5 biến được liên kết với các lỗi của bạn và cố gắng hình thành một mối tương quan..Điều này có thể tốt hơn.

— ayush biyani
nguồn