Tiết lộ đầy đủ: Tôi không phải là một nhà thống kê, tôi cũng không tự nhận là một. Tôi là một quản trị viên CNTT thấp. Hãy chơi nhẹ nhàng với tôi. :)
Tôi chịu trách nhiệm thu thập và dự báo sử dụng lưu trữ đĩa cho doanh nghiệp của chúng tôi. Chúng tôi thu thập lưu trữ sử dụng hàng tháng và sử dụng hồi quy tuyến tính 12 tháng đơn giản để dự báo (nói cách khác, chỉ mười hai tháng trước của dữ liệu được xem xét khi thực hiện chiếu). Chúng tôi sử dụng thông tin này để phân bổ và lập kế hoạch chi phí vốn, ví dụ: "Dựa trên mô hình này, chúng tôi sẽ cần mua số tiền x nếu lưu trữ trong y tháng để đáp ứng nhu cầu của chúng tôi." Tất cả điều này hoạt động đủ tốt để phù hợp với nhu cầu của chúng tôi.
Theo định kỳ, chúng tôi có các chuyển động một lần lớn trong các số của chúng tôi sẽ loại bỏ dự báo. Ví dụ: ai đó tìm thấy 500GB bản sao lưu cũ không còn cần thiết nữa và xóa chúng. Tốt cho họ để đòi lại không gian! Tuy nhiên, dự báo của chúng tôi hiện đang bị lệch do mức giảm lớn này trong một tháng. Chúng tôi luôn chấp nhận rằng một sự sụt giảm như thế này mất 9-10 tháng để thoát khỏi mô hình, nhưng đó có thể là một thời gian thực sự dài nếu chúng ta đang bước vào mùa kế hoạch chi phí vốn.
Tôi tự hỏi liệu có cách nào để xử lý các phương sai một lần này sao cho các giá trị dự báo không bị ảnh hưởng nhiều (ví dụ độ dốc của đường không thay đổi đáng kể), nhưng chúng được tính đến (ví dụ: thay đổi một lần trong giá trị y được liên kết với một thời điểm cụ thể). Những nỗ lực đầu tiên của chúng tôi trong việc giải quyết điều này đã mang lại một số kết quả xấu (ví dụ: đường cong tăng trưởng theo cấp số nhân). Chúng tôi thực hiện tất cả các xử lý của chúng tôi trong SQL Server nếu điều đó quan trọng.