Lựa chọn Spline df trong bài toán mô hình Poisson phụ gia tổng quát


9

Tôi đã điều chỉnh một số dữ liệu chuỗi thời gian bằng mô hình phụ gia tổng quát Poisson bằng cách sử dụng của SAS PROC GAM. Nói chung, tôi đã có quy trình xác thực chéo tổng hợp được tích hợp sẵn tạo ra ít nhất một "điểm khởi đầu" hợp lý cho spline duy nhất của tôi, đó là một hàm phi thời gian cùng với một thuật ngữ tham số duy nhất (thuật ngữ I Tôi thực sự quan tâm đến).

Cho đến nay, nó hoạt động khá sôi nổi, ngoại trừ một trong những bộ dữ liệu của tôi. Có 132 quan sát trong tập dữ liệu đó và GCV gợi ý một góc tự do 128 độ. Điều đó có vẻ ... sai. Rất sai. Quan trọng hơn, nó cũng không ổn định chút nào. Tôi đã thử một cách tiếp cận thứ hai, sử dụng một cái gì đó như tiêu chí "Thay đổi trong Ước tính" để ngừng thêm bậc tự do khi ước tính của thuật ngữ tham số ngừng thay đổi vì tại sao tiếp tục thêm kiểm soát nếu không có gì khác nhau?

Vấn đề là ước tính không ổn định chút nào. Tôi đã thử các mức độ tự do sau đây, và như bạn có thể thấy, thuật ngữ tham số nảy lên dữ dội:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Tôi hoàn toàn không có trực giác về những gì tôi nên sử dụng về mặt df cho bit dữ liệu cụ thể này. Bất kỳ ý tưởng khác cho làm thế nào để chọn một df? Tôi có nên nhìn vào tầm quan trọng của spline?

Thực hiện thêm một số tìm kiếm giữa df = 10 và df = 15, có vẻ như df = 12 là gần nhất bạn có thể đi đến ước tính được tạo bởi 128 và vẫn nằm trong phạm vi "mức độ tự do hợp lý". Cùng với thuật ngữ tuyến tính, đánh chặn và thuật ngữ tham số duy nhất, có cảm giác như một mô hình bão hòa khá nặng. Có hợp lý không khi chỉ đi với 12?

Là một bản cập nhật thứ hai, việc thay đổi làm mịn từ spline(t)thành loess(t)dẫn đến ước tính df hoạt động tốt hơn nhiều - tôi có nên chuyển sang làm mịn hoàng thổ không?


Trong tập dữ liệu của bạn với 132 quan sát, có một số đếm và thời hạn bù có liên quan hay không, ngụ ý nó thực sự là một tập dữ liệu có trọng số với hơn 132 quan sát? Do mối quan hệ phương sai trung bình trong Poisson RV, số lượng lớn có thể dẫn đến các thuộc tính "lựa chọn mô hình" không thuận lợi do "cỡ mẫu lớn".
AdamO

Bộ dữ liệu là 132 tuần dữ liệu, được mô hình hóa dưới dạng đếm = thuật ngữ mô hình + nhật ký (thời gian cá nhân) dưới dạng bù. Số lượng không bao giờ đặc biệt cao - nhưng có một số lượng khá.
Fomite

Câu trả lời:


5

λλλ

Gỗ (2011) cũng cho thấy việc AICC không cung cấp nhiều thêm lợi ích qua GCV cho thấp để căn cứ cấp bậc trung gian sử dụng cho các chức năng trơn tru.

λ

Wood (2011) mô tả các thủ tục ước tính REML và ML vừa nhanh và ổn định, mà ông cho thấy sự cải thiện so với các phương pháp tiếp cận REML (ML) hiện tại về mặt hội tụ. Những ý tưởng này có sẵn trong Simon mgcv gói cho R .

Vì Wood (2011) đứng sau một bức tường, tôi bao gồm một bản sao của một hình ảnh tương tự (kết quả AICc không được hiển thị ở đây) được lấy từ một bộ slide của Simon, có sẵn trên trang web của anh ấy , về các phương pháp chọn độ mịn {PDF}. Hình, từ slide 10, được hiển thị bên dưới

nhập mô tả hình ảnh ở đây

λλλ

y=f(x)+ε

Như cả @ M.Berk và @BrendenDufault đều đề cập, mức độ chủ quan có thể được yêu cầu khi thiết lập cơ sở spline, về mặt chọn một kích thước cơ sở phù hợp để phù hợp với GAM. Nhưng lựa chọn độ mượt của REML đã chứng minh hợp lý mạnh mẽ theo kinh nghiệm của tôi trong một loạt các ứng dụng GAM sử dụng phương pháp của Wood.

Wood, SN (2011) Khả năng tối đa ổn định hạn chế tối đa và ước tính khả năng cận biên của các mô hình tuyến tính tổng quát bán tổng thể . J. Hiệp hội Thống kê Hoàng gia B 73 (Phần 1), 3--6.


@EpiGrad Chào mừng. Xin lỗi tôi đã bỏ lỡ câu hỏi tại thời điểm đó; trong một hoặc hai năm qua, tôi đã phải vật lộn với các tình huống tương tự như của bạn và đã đọc các bài viết của Simon Wood về điều này và lựa chọn tính năng trong một số dịp. Vui mừng tôi đã có thể nhớ lại một số chi tiết để giúp đỡ.
Gavin Simpson

3

Tôi nghĩ rằng đặt cược tốt nhất của bạn nằm ngoài các thuật toán làm mịn; xem xét mô hình phân tích.

Bạn ám chỉ điều này, nhưng tôi tin rằng nó phải trở thành tiêu chí lựa chọn chính của bạn. Hãy tự hỏi có bao nhiêu "khúc quanh" có vẻ hợp lý dựa trên nguyên nhân / nguyên nhân của các quá trình được mô hình hóa. Vẽ đồ thị các spline được trang bị với plots=components(clm)tuyên bố và đánh giá trực quan sự phù hợp. Có lẽ các spline DF cao đang kể một câu chuyện tương tự như các spline DF thấp, ngoại trừ ồn ào hơn. Trong trường hợp đó, chọn một DF phù hợp thấp.

Rốt cuộc, các mô hình GAM được dự định để khám phá.

Bản thân tôi đã sử dụng tùy chọn gcv , tôi tự hỏi về hiệu suất của nó trong điều kiện Poisson, dữ liệu thưa thớt, v.v. Có lẽ một nghiên cứu mô phỏng là do ở đây.


2

Tôi đã gõ câu trả lời sau đây và sau đó nhận ra rằng tôi không biết liệu nó có thể áp dụng cho hồi quy Poisson mà tôi không có kinh nghiệm hay không. Có lẽ mọi người có thể trả lời rằng với một số ý kiến.


Cá nhân, tôi thích lời khuyên của BW Silverman (1985) "Một số khía cạnh của phương pháp làm mịn spline để phù hợp với đường cong hồi quy không tham số (có thảo luận)." (Có sẵn mà không cần đăng ký tại đây ): hãy thử một loạt các tham số làm mịn và chọn một tham số hấp dẫn nhất.

Như ông cũng chỉ ra một cách đúng đắn trong cùng một bài báo, trong khi một cách tiếp cận chủ quan có thể được ưa thích, vẫn cần có phương pháp tự động. Tuy nhiên, GCV nói chung là một lựa chọn kém vì nó có xu hướng nhấp nhô. Xem, ví dụ Hurvich et al (1998) "Làm mịn lựa chọn tham số trong hồi quy không theo tỷ lệ bằng cách sử dụng tiêu chí thông tin Akaike được cải tiến" (Có sẵn mà không cần đăng ký tại đây ). Trong cùng một bài báo, họ đề xuất một tiêu chí mới có thể làm giảm bớt vấn đề của bạn, AIC đã sửa bao gồm một hiệu chỉnh cỡ mẫu nhỏ. Bạn có thể thấy mô tả Wikipedia về AICc dễ theo dõi hơn so với bài báo. Bài viết Wikipedia cũng bao gồm một số lời khuyên tốt từ Burnham & Anderson (tức là sử dụng AICc thay vì AIC bất kể kích thước mẫu).

Tóm lại, đề xuất của tôi sẽ là, theo thứ tự ưu tiên:

  1. Chọn tham số làm mịn bằng tay thông qua đánh giá trực quan
  2. Sử dụng AIC đã sửa (AICc) thay vì GCV
  3. Sử dụng AIC tiêu chuẩn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.