Làm thế nào để kết hợp nhiều bộ dữ liệu được liệt kê?


8

Tôi cần một bộ dữ liệu được liệt kê duy nhất (ví dụ: để tạo một nhóm giả quốc gia từ dữ liệu thu nhập bình quân đầu người của quốc gia bị tranh chấp). R cung cấp gói gói để tạo nhiều dữ liệu được liệt kê (ví dụ Amelia) và kết hợp các kết quả từ nhiều bộ dữ liệu (như trong MItools). Mối quan tâm của tôi là nếu tôi có thể lấy trung bình tất cả các dữ liệu được liệt kê để có được một tập dữ liệu duy nhất. Nếu vậy, làm thế nào tôi có thể làm điều đó trong R?


5
Dữ liệu trung bình là xấu vì nó làm tăng sự tương quan. Câu hỏi thực sự là tại sao bạn nghĩ rằng bạn cần một tập dữ liệu được liệt kê duy nhất. Tất cả mọi thứ bạn có thể làm với một tập dữ liệu duy nhất, bạn có thể thực hiện trên tập dữ liệu được nhân rộng.
Stef van Buuren

@Stef: Đây cũng là trường hợp nếu chúng ta muốn tính hiệu ứng cận biên trong trường hợp mô hình lựa chọn như mô hình Heckit?. Tôi có thể tính toán hiệu ứng cận biên trên mỗi dữ liệu được liệt kê; nhưng câu hỏi là liệu lý thuyết có gì để nói về cách kết hợp những thứ này không. Cảm ơn.
Số liệu

1
Chỉ cần hồ bơi! Không có lý thuyết cho phép chúng ta làm điều này. Nhưng không có lý thuyết nào cấm điều này cả.
Stef van Buuren

@Stef, trong mouse :: pool, đối tượng được chỉ định là đối tượng phải là with.mids () hoặc as.mira (). Các mô hình học máy có thể được sử dụng thay cho phương pháp hồi quy?
KarthikS

Câu trả lời:


5

Bạn không thể trung bình dữ liệu. Vì các biến sẽ giống nhau trên dữ liệu được liệt kê, bạn phải nối thêm từng dữ liệu được liệt kê. Ví dụ: nếu bạn có 6 biến với 1000 quan sát và tần suất cắt của bạn là 5, thì bạn sẽ có dữ liệu cuối cùng là 6 biến với 5000 quan sát. Bạn sử dụng rbindchức năng để nối thêm dữ liệu vào R. Ví dụ: nếu bạn có năm dữ liệu được liệt kê (giả sử rằng bạn đã có những dữ liệu này trong tay), dữ liệu cuối cùng của bạn sẽ được lấy là

finaldata <- rbind(data1,data2,data3,data4,data5)

Để biết chi tiết, xem tại đây.

Sau khi cắt cụt:

Hệ số hồi quy từ mỗi dữ liệu được liệt kê thường sẽ khác nhau; do đó, hệ số được lấy là trung bình của các hệ số của tất cả các dữ liệu được liệt kê. Nhưng, có quy tắc bổ sung cho lỗi tiêu chuẩn. Xem ở đây để biết chi tiết.


4
Câu lệnh finaldata <- complete(data, "long")trong [chuột] [1] cũng làm như vậy. Nó cũng có thể tạo ra các hình dạng khác, ví dụ ma trận rộng hoặc ma trận lặp lại. [1]: cran.r-project.org/web/packages/mice/index.html "chuột"
Stef van Buuren

@Stef: Cảm ơn. Tôi chưa sử dụng mice. Tôi muốn biết liệu micephân tích có thực hiện hay không khi chúng tôi chỉ có nhiều dữ liệu được liệt kê (chứ không phải dữ liệu gốc) từ khảo sát.
Số liệu

1
Có, bạn có thể, nhưng bạn cần phải chuyển đổi dữ liệu được nhân lên thành một đối tượng trung bình để sử dụng các chức năng sau khi cắt chuột tiêu chuẩn để phân tích, chẩn đoán và gộp chung. Phiên bản tiếp theo của chuột (2.18) sẽ bao gồm chức năng as.mids thực hiện việc này, nhưng nó yêu cầu phải có dữ liệu gốc. Nó sẽ không (chưa) xử lý trường hợp chúng tôi không biết dữ liệu bị thiếu ở đâu.
Stef van Buuren

Cảm ơn. Vì vậy, tôi vẫn không thể sử dụng, ví dụ, nơi tôi chỉ có nhiều dữ liệu được liệt kê như trong Khảo sát Tài chính tiêu dùng .
Số liệu

3
Nếu bạn không biết dữ liệu bị thiếu ở đâu, bạn sẽ cần phải tính toán lại chúng từ dữ liệu được liệt kê. Điều này sẽ phân loại không chính xác các điểm theo quan sát nếu, do tình cờ, tất cả các lần cắt cho ô đó là giống hệt nhau trên các tập dữ liệu m. Do đó, các chẩn đoán có thể gắn nhãn không chính xác các điểm bị tranh chấp là các điểm quan sát (theo thuật ngữ của chuột: một số điểm màu đỏ được vẽ không chính xác là các điểm màu xanh). Tuy nhiên, điều này không ảnh hưởng đến hiệu lực của các suy luận thống kê. Vì vậy, với một số nỗ lực thêm, bạn có thể.
Stef van Buuren

-1

Nhiều mô hình cắt cụt cho dữ liệu bị thiếu hiếm khi được sử dụng trong thực tế vì các nghiên cứu mô phỏng cho thấy rằng cơ hội của các tham số cơ bản thực sự nằm trong các khoảng che phủ không phải lúc nào cũng được mô tả chính xác. Tôi đặc biệt khuyên bạn nên thử nghiệm quy trình dựa trên dữ liệu mô phỏng (với các tham số được biết chính xác), dựa trên dữ liệu thực trong khu vực điều tra. Một tài liệu tham khảo nghiên cứu mô phỏng https://www.google.com/url?sa=t&source=web&rct=j&ei=Ua4BVJgD5MiwBMKggKgP&url=http://www.ssc.upenn.edu/~allison/MultInt99.pdf&cd=13&ved=0CCEQFjACOAo&usg=AFQjCNF1Rg6SbFPwLv5n3jYIVNA_iTMPCg&sig2 = d2VORWbqTNygdM6Z51TZEg

Tôi nghi ngờ việc sử dụng nói rằng năm mô hình đơn giản / ngây thơ cho dữ liệu bị thiếu có thể tốt hơn trong việc tạo ra ít sai lệch và bao gồm các khoảng chính xác bao gồm các tham số cơ bản thực sự. Thay vì gộp các ước tính của parmeter, người ta có thể làm tốt hơn bằng cách sử dụng các kỹ thuật Bayes (xem công việc với các mô hình cắt ngang trong ánh sáng này tại https://www.google.com/url?sa=t&source=web&rct=j&ei=mqcAVP7RA5HoggSop4LoDur //gking.harvard.edu/files/gking/files/measure.pdf&cd=5&ved=0CCUQFjAE&usg=AFQjCNFCZQwfWJDrrjzu4_5syV44vGOncA&sig2=XZUM14OMq_A01FyN4r61Zw ).

Có, không có nhiều sự chứng thực của các mô hình xử lý dữ liệu bị thiếu tiêu chuẩn và để trích dẫn một nguồn, ví dụ: http://m.circout results.ahajournals.org/content/3/1/98.short?rss=1&ssource=mfr : "Chúng tôi mô tả một số nền tảng của phân tích dữ liệu bị thiếu và chỉ trích các phương pháp ad hoc dễ gặp vấn đề nghiêm trọng. Sau đó, chúng tôi tập trung vào nhiều lần xử lý, trong đó các trường hợp bị thiếu trước tiên được điền vào một số bộ giá trị hợp lý để tạo ra nhiều bộ dữ liệu hoàn chỉnh ,. .. "nơi tôi sẽ chèn" (?) "sau khi mô hình hợp lý là một mô hình ngây thơ, đối với một người, thường không được mô tả tốt nhất là đưa ra dự đoán hợp lý. Tuy nhiên, các mô hình kết hợp biến phụ thuộc y, chính nó, như một biến độc lập (được gọi là hồi quy hiệu chuẩn) có thể đáp ứng tốt hơn đặc tính này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.