Tóm lại câu hỏi của tôi: có phương pháp nào để cải thiện thời gian hoạt động của R MICE (cắt dữ liệu) không?
Tôi đang làm việc với một bộ dữ liệu (30 biến, 1,3 triệu hàng) chứa dữ liệu bị thiếu (khá ngẫu nhiên). Khoảng 8% các quan sát trong khoảng 15 trong số 30 biến chứa NA. Để xử lý dữ liệu bị thiếu, tôi đang chạy chức năng MICE, một phần của gói MICE .
Tôi trải nghiệm thời gian chạy khá chậm, ngay cả trên một tập hợp con (100.000 hàng), với phương thức = "fastpmm" và m = 1 và chạy trong khoảng 15 phút.
Có cách nào để cải thiện thời gian chạy mà không mất quá nhiều hiệu năng không? (mouse.impute.mean khá nhanh, nhưng đi kèm với việc mất thông tin quan trọng!).
Mã sinh sản:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")