Cá nhân tôi sẽ không gọi đây là "làm sạch dữ liệu". Tôi nghĩ về việc làm sạch dữ liệu theo nghĩa chỉnh sửa dữ liệu - làm sạch sự không nhất quán trong bộ dữ liệu (ví dụ: một bản ghi đã báo cáo tuổi 1000 hoặc một người 4 tuổi là cha mẹ đơn thân, v.v.).
Sự hiện diện của một hiệu ứng thực trong dữ liệu của bạn không làm cho nó trở nên "lộn xộn" (ngược lại, sự hiện diện của các hiệu ứng thực sự sẽ làm cho nó trở nên phong phú) - mặc dù nó có thể làm cho nhiệm vụ toán học của bạn tham gia nhiều hơn. Tôi sẽ đề nghị rằng dữ liệu sẽ được "làm sạch" theo cách này nếu đó là cách khả thi duy nhất để có được một dự đoán. Nếu có một cách khả thi mà không vứt bỏ thông tin, thì hãy sử dụng thông tin đó.
Có vẻ như bạn có thể được hưởng lợi từ một số loại phân tích theo chu kỳ, với điều kiện bạn nói rằng hiệu ứng này xuất hiện định kỳ (giống như một "chu kỳ kinh doanh").
Theo quan điểm của tôi, nếu bạn đang xem dự báo một cái gì đó, thì việc loại bỏ một hiệu ứng thực sự khỏi nguồn đó chỉ có thể làm cho dự đoán của bạn tồi tệ hơn. Điều này là do bạn đã "vứt bỏ" chính những thông tin mà bạn muốn dự đoán một cách hiệu quả!
Điểm khác là có thể khó xác định bao nhiêu ca tử vong là do dịch bệnh, và mức độ gây ra bởi các biến động thông thường.
Theo thuật ngữ thống kê, dịch bệnh có vẻ như vậy, theo quan điểm của bạn, nó là một "phiền toái" cho những gì bạn thực sự muốn phân tích. Vì vậy, bạn không đặc biệt quan tâm đến nó, nhưng bạn cần bằng cách nào đó giải thích nó trong phân tích của bạn. Một cách "nhanh và bẩn" để thực hiện việc này trong cài đặt hồi quy là bao gồm một chỉ báo cho các năm / giai đoạn dịch như một biến hồi quy. Điều này sẽ cung cấp cho bạn một ước tính trung bình về ảnh hưởng của dịch bệnh (và mặc nhiên giả định rằng ảnh hưởng là như nhau đối với mỗi dịch). Tuy nhiên, phương pháp này chỉ hoạt động để mô tả hiệu ứng, bởi vì trong dự báo, biến hồi quy của bạn không xác định (bạn không biết giai đoạn nào trong tương lai sẽ là dịch bệnh).
Một cách khác để giải thích cho dịch là sử dụng mô hình hỗn hợp với hai thành phần: một mô hình cho phần dịch và một mô hình cho phần "thông thường". Mô hình sau đó tiến hành theo hai bước: 1) phân loại một giai đoạn là dịch hoặc bình thường, sau đó 2) áp dụng mô hình mà nó được phân loại.