Tôi đã điều chỉnh một số dữ liệu chuỗi thời gian bằng mô hình phụ gia tổng quát Poisson bằng cách sử dụng của SAS PROC GAM
. Nói chung, tôi đã có quy trình xác thực chéo tổng hợp được tích hợp sẵn tạo ra ít nhất một "điểm khởi đầu" hợp lý cho spline duy nhất của tôi, đó là một hàm phi thời gian cùng với một thuật ngữ tham số duy nhất (thuật ngữ I Tôi thực sự quan tâm đến).
Cho đến nay, nó hoạt động khá sôi nổi, ngoại trừ một trong những bộ dữ liệu của tôi. Có 132 quan sát trong tập dữ liệu đó và GCV gợi ý một góc tự do 128 độ. Điều đó có vẻ ... sai. Rất sai. Quan trọng hơn, nó cũng không ổn định chút nào. Tôi đã thử một cách tiếp cận thứ hai, sử dụng một cái gì đó như tiêu chí "Thay đổi trong Ước tính" để ngừng thêm bậc tự do khi ước tính của thuật ngữ tham số ngừng thay đổi vì tại sao tiếp tục thêm kiểm soát nếu không có gì khác nhau?
Vấn đề là ước tính không ổn định chút nào. Tôi đã thử các mức độ tự do sau đây, và như bạn có thể thấy, thuật ngữ tham số nảy lên dữ dội:
DF: Parametric Estimate:
1 -0.76903
2 -0.56308
3 -0.47103
4 -0.43631
5 -0.33108
6 -0.1495
7 0.0743
8 0.33459
9 0.62413
10 0.92161
15 1.88763
20 1.98869
30 2.5223
40-60 had convergence issues
70 7.5497
80 7.22267
90 6.71618
100 5.83808
110 4.61436
128 1.32347
Tôi hoàn toàn không có trực giác về những gì tôi nên sử dụng về mặt df cho bit dữ liệu cụ thể này. Bất kỳ ý tưởng khác cho làm thế nào để chọn một df? Tôi có nên nhìn vào tầm quan trọng của spline?
Thực hiện thêm một số tìm kiếm giữa df = 10 và df = 15, có vẻ như df = 12 là gần nhất bạn có thể đi đến ước tính được tạo bởi 128 và vẫn nằm trong phạm vi "mức độ tự do hợp lý". Cùng với thuật ngữ tuyến tính, đánh chặn và thuật ngữ tham số duy nhất, có cảm giác như một mô hình bão hòa khá nặng. Có hợp lý không khi chỉ đi với 12?
Là một bản cập nhật thứ hai, việc thay đổi làm mịn từ spline(t)
thành loess(t)
dẫn đến ước tính df hoạt động tốt hơn nhiều - tôi có nên chuyển sang làm mịn hoàng thổ không?