Tôi đang cố gắng giải quyết vấn đề liên quan đến việc cắt bỏ dữ liệu bị thiếu trong nghiên cứu dữ liệu bảng điều khiển (Không chắc chắn liệu tôi có đang sử dụng 'nghiên cứu dữ liệu bảng điều khiển' không - như tôi đã biết ngày hôm nay.) đến năm 2009, tất cả các tháng, nam và nữ, cho 8 quận khác nhau và cho 4 nhóm tuổi.
Khung dữ liệu trông giống như thế này:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
Trong 10 tháng trải dài trong năm 2007 và 2008, một số ca tử vong ở tất cả các huyện đã không được ghi nhận. Tôi đang cố gắng ước tính các giá trị còn thiếu này thông qua một phương pháp nhiều chi tiết. Sử dụng Mô hình tuyến tính tổng quát hoặc mô hình SARIMA.
Vấn đề lớn nhất của tôi là việc sử dụng phần mềm và mã hóa. Tôi đã hỏi một câu hỏi trên Stackoverflow, nơi tôi muốn trích xuất dữ liệu thành các nhóm nhỏ hơn như thế này:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
Sẽ
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
Nhưng ai đó đề nghị tôi nên mang câu hỏi của tôi đến đây - có lẽ yêu cầu một hướng? Hiện tại tôi không thể nhập dữ liệu này dưới dạng nghiên cứu theo chuỗi thời gian / bảng điều khiển thích hợp vào R. Mục đích cuối cùng của tôi là sử dụng dữ liệu này và amelia2
gói có chức năng của nó để xử lý mất tích TotalDeaths
trong một số tháng nhất định trong năm 2007 và 2008, trong đó dữ liệu là còn thiếu.
Bất kỳ trợ giúp, làm thế nào để làm điều này và có lẽ đề xuất về cách giải quyết vấn đề này sẽ được đánh giá cao.
Nếu điều này có ích, tôi đang cố gắng làm theo một cách tiếp cận tương tự như những gì Clint Roberts đã làm trong Luận án Tiến sĩ .
BIÊN TẬP:
Sau khi tạo biến 'thời gian' và 'nhóm' theo đề xuất của @Matt:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
Như bạn chú ý, thực sự có thêm chi tiết 'Tự nhiên' và 'Không tự nhiên'.
Amelia
một chút nhưng đã bỏ cuộc (trước đó). Trước đây tôi đã nhìn thấy họa tiết (nhưng mất nó bằng cách nào đó!) Chỉ cần nhìn nhanh vào nó và sẽ dần dần đi qua nó. Một vấn đề bây giờ tôi có là tôi không chắc chắn về cách tạogroup
vàtime
các biến. (Tôi đã thử tạo chúng để phân tích / dự báo chuỗi thời gian, nhưng có một vòng lặp xung quanh nó.) Tôi chắc chắn rằng đó là trong vigette - vì vậy tôi sẽ quay lại với bạn nếu tôi gặp khó khăn. Cảm ơn một lần nữa :)