Tôi không thể cụ thể về bản chất của dữ liệu vì nó là độc quyền, nhưng giả sử chúng tôi có dữ liệu như thế này: Mỗi tháng, một số người đăng ký dịch vụ. Sau đó, trong mỗi tháng tiếp theo, những người đó có thể nâng cấp dịch vụ, ngừng dịch vụ hoặc bị từ chối dịch vụ (ví dụ: không thanh toán). Đối với đoàn hệ sớm nhất trong dữ liệu của chúng tôi, chúng tôi có khoảng 2 năm dữ liệu (24 tháng).
Số lượng người tham gia mỗi tháng rất lớn (trong phạm vi 100.000) và số người thực hiện bất kỳ điều gì trong ba điều này là hàng ngàn. Tuy nhiên, chúng tôi không sử dụng dữ liệu cấp độ riêng lẻ (sẽ là hàng triệu hàng) mà là dữ liệu được tổng hợp theo tháng và đoàn hệ (tỷ lệ của mỗi đoàn hệ thực hiện mỗi việc mỗi tháng).
Chúng tôi đã mô hình hóa dữ liệu hiện có bằng cách sử dụng các hàm hồi quy thích ứng đa biến (MARS) và tìm thấy một số kết quả thú vị. Tuy nhiên, tôi lo lắng về việc sử dụng những thứ này để ngoại suy hoặc dự đoán trong tương lai. Mối quan tâm của tôi là bởi vì các dự đoán về tương lai nhất thiết phải nằm ngoài không gian mẫu (về mặt thời gian) và các spline có thể trở nên không ổn định để ngoại suy.
Đây có phải là một phương pháp hợp pháp? Những mối quan tâm đang có và họ có thể được giải quyết?