Làm thế nào để điền dữ liệu còn thiếu trong chuỗi thời gian?


16

Tôi có một bộ dữ liệu ô nhiễm lớn được ghi lại cứ sau 10 phút trong suốt 2 năm, tuy nhiên có một số lỗ hổng trong dữ liệu (bao gồm một số dữ liệu diễn ra trong vài tuần một lần).

Dữ liệu dường như khá theo mùa và có sự khác biệt lớn vào ban ngày so với ban đêm trong đó các giá trị không có nhiều biến thể và các điểm dữ liệu thấp hơn.

Tôi đã cân nhắc việc gắn một mô hình hoàng thổ vào các tập hợp con ban ngày và ban đêm riêng biệt (vì có sự khác biệt rõ ràng giữa chúng) và sau đó dự đoán các giá trị của dữ liệu bị thiếu và điền vào các điểm này.

Tôi đã tự hỏi nếu đây là một cách phù hợp để tiếp cận vấn đề này, và nếu có nhu cầu thêm biến thể cục bộ vào các điểm dự đoán.

Câu trả lời:


21

Câu trả lời sẽ phụ thuộc vào thiết kế nghiên cứu của bạn (ví dụ: chuỗi thời gian cắt ngang? Chuỗi thời gian đoàn hệ, chuỗi thời gian đoàn hệ nối tiếp?). Honaker và King đã phát triển một cách tiếp cận hữu ích cho chuỗi thời gian cắt ngang (có thể hữu ích cho chuỗi thời gian đoàn hệ nối tiếp, tùy thuộc vào giả định của bạn), bao gồm gói R Amelia II để đưa ra dữ liệu đó. Trong khi đó Spratt & Co. đã mô tả một cách tiếp cận khác nhau có thể được sử dụng trong một số thiết kế chuỗi thời gian thuần tập, nhưng rất ít khi triển khai phần mềm.

Một thiết kế theo chuỗi thời gian cắt ngang (hay còn gọi là thiết kế nghiên cứu panel) là một trong đó dân (s) được (bị) nhiều lần lấy mẫu (ví dụ, mỗi năm), sử dụng cùng một giao thức nghiên cứu (ví dụ, cùng một biến, dụng cụ, vv ). Nếu chiến lược lấy mẫu là đại diện, các loại dữ liệu này tạo ra một bức tranh hàng năm (một phép đo cho mỗi người tham gia hoặc đối tượng) về sự phân phối của các biến đó cho mỗi dân số trong nghiên cứu.

Một thiết kế chuỗi thời gian nghiên cứu thuần tập (thiết kế nghiên cứu thuần tập aka lặp đi lặp lại, thiết kế nghiên cứu theo chiều dọc, cũng đôi khi được gọi là một thiết kế nghiên cứu panel) là một trong đó các đơn vị cá nhân của phân tích được lấy mẫu một lần và sau đó trong một thời gian dài. Các cá thể có thể được lấy mẫu theo kiểu đại diện từ một hoặc nhiều quần thể. Tuy nhiên, một mẫu chuỗi thời gian đoàn hệ đại diện sẽ trở thành một đại diện ngày càng nghèo của dân số mục tiêu (ít nhất là trong quần thể người) khi thời gian trôi qua, bởi vì những người được sinh ra hoặc già đi trong dân số mục tiêu, và chết dần hoặc già đi. với nhập cư và di cư.

Một thiết kế chuỗi thời gian thuần tập nối tiếp (còn gọi là lặp lại, đa, và nhiều nhóm, hoặc thiết kế nghiên cứu bảng điều khiển) là một thiết kế trong đó một dân số (được) lấy mẫu nhiều lần (ví dụ, mỗi năm), sử dụng cùng một giao thức nghiên cứu ( ví dụ, cùng một biến, công cụ, v.v.), đo lường các đơn vị phân tích riêng lẻ trong dân số tại hai thời điểm trong khoảng thời gian (ví dụ: trong năm) để tạo ra các biện pháp thay đổi. Nếu chiến lược lấy mẫu là đại diện, những loại dữ liệu này tạo ra một bức tranh hàng năm về tốc độ thay đổi của các biến đó cho mỗi dân số trong nghiên cứu.

Tài liệu tham khảo
Honaker, J. và King, G. (2010). Phải làm gì về các giá trị bị thiếu trong dữ liệu mặt cắt chuỗi thời gian . Tạp chí Khoa học Chính trị Hoa Kỳ , 54 (2): 561 Ảo581.

Spratt, M., Carpenter, J., Sterne, JAC, Carlin, JB, Heron, J., Henderson, J., và Tilling, K. (2010). Các chiến lược cho nhiều lần cắt cụt trong các nghiên cứu dọc . Tạp chí Dịch tễ học Hoa Kỳ , 172 (4): 478 Tiết4876.


Cảm ơn bạn đã trả lời của bạn. Tôi chỉ tự hỏi liệu bạn có thể định nghĩa các loại chuỗi thời gian khác nhau (đoàn hệ, mặt cắt, v.v.) vì tôi còn khá mới với loại nghiên cứu này và chưa từng gặp các thuật ngữ này trước đây.
Jamesm131

@ Jamesm131 Xem câu trả lời chỉnh sửa của tôi.
Alexis

7

bạn có thể sử dụng gói imputeTS trong R. Tôi tin rằng dữ liệu bạn đang làm việc là chuỗi thời gian không thay đổi. Gói imputeTS chuyên về việc loại bỏ chuỗi thời gian (đơn biến). Nó cung cấp một số triển khai thuật toán cắt ngang khác nhau. Ngoài các thuật toán cắt bỏ, gói còn cung cấp các chức năng vẽ và in các số liệu thống kê dữ liệu bị thiếu. Vâng, tôi khuyên bạn nên xem xét các Mô hình không gian trạng thái cho các giá trị bị thiếu . Gói này sẽ giúp bạn phân tích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.