Làm cách nào tôi có thể diễn giải kết quả GAM?


9

Tôi có một câu hỏi về mô hình phụ gia tổng quát. Deviance được giải thích là gì, điểm số GCV và Scale est. Trong kết quả GAM? Những chỉ số này cho thấy gì?

Câu trả lời:


17

Sự sai lệch được giải thích là một chút giống nhưR2đối với các mô hình trong đó các tổng bình phương không có ý nghĩa nhiều như là thước đo sự khác biệt giữa các quan sát và các giá trị được trang bị. Trong các mô hình tổng quát thay vì chúng tôi đo lường sự khác biệt này bằng cách sử dụng độ lệch . Nó được tính toán bằng khả năng của mô hình và do đó có một định nghĩa toán học hơi khác nhau cho mỗi phân phối lỗi ( familyđối số trong glm()/ gam()). Trong trường hợp các mô hình Gaussian được ước tính là GLM / GAM, độ lệch và tổng bình phương còn lại là tương đương.

Sự lệch lạc D của một mô hình được định nghĩa là:

D=2[l(β^max)l(β^)]ϕ

Ở đâu l(β^max) là khả năng tối đa của mô hình bão hòa và l(β^)là khả năng tối đa của mô hình bạn đã trang bị. Mô hình bão hòa là một mô hình với một tham số cho mỗi điểm dữ liệu; bạn không thể có khả năng cao hơn điều này, dựa trên dữ liệu.ϕlà tham số tỷ lệ. Độ lệch tỷ lệ đơn giản là

D=D/ϕ

Các độ lệch tỷ lệ này đóng một vai trò trong các thử nghiệm tỷ lệ khả năng, trong đó sự khác biệt của độ lệch tỷ lệ cho hai mô hình là ~χp1,p22 (chi bình phương phân phối với bậc tự do p1p2).

Sự sai lệch được giải thích chỉ đại diện cho ở trên là tỷ lệ của tổng độ lệch được giải thích bởi mô hình hiện tại.

Các ước tính quy môφ^, tức là đây là giá trị của φước tính trong quá trình lắp mô hình. Đối với các gia đình / phân phối Poisson và Binomial, theo định nghĩaφ= =1, nhưng đối với các bản phân phối khác thì đây không phải là trường hợp, bao gồm cả Gaussian. Trong trường hợp Gaussian,φ^sai số chuẩn bình phương .

Các điểm GCV là giảm thiểu tổng quát cross-validation (GCV) điểm của GAM lắp. GCV được sử dụng để lựa chọn độ mịn trong gói mgcv cho R; tham số làm mịn được chọn để giảm thiểu lỗi dự đoán trong đóφkhông xác định và CV hoặc GCV tiêu chuẩn có thể được sử dụng để ước tính lỗi dự đoán. GCv được ưa thích ở đây vì nó có thể được tính toán mà không thực sự xác thực chéo (tinh chỉnh mô hình thành tập hợp con của dữ liệu), giúp tiết kiệm thời gian / công sức tính toán. Giá trị được báo cáo là điểm số GCV được tối thiểu hóa (UBRE, Công cụ ước tính rủi ro không thiên vị, điểm số được hiển thị thay vì bạn đang lắp một mô hình đã biếtφ) và bạn có thể sử dụng các điểm số này một chút như AIC, các giá trị nhỏ hơn biểu thị các mô hình phù hợp tốt hơn.

GAM được trang bị bằng cách sử dụng lựa chọn độ mịn của GCV có thể bị giảm độ mịn. Điều này có thể xảy ra khi cấu hình GCV tương đối phẳng và biến thiên ngẫu nhiên có thể dẫn đến thuật toán hội tụ ở mức quá phù hợp. Phù hợp thông qua REML (sử dụng method = "REML"trong gam()cuộc gọi) hoặc ML đã được Simon Wood và các đồng nghiệp thể hiện là mạnh mẽ hơn nhiều để làm mịn, nhưng với chi phí tính toán.

Các bản tóm tắt ở trên được dựa trên các mô tả trong cuốn sách khá xuất sắc của Simon Wood về GAM:

Gỗ, SN (2006). Khái quát hóa mô hình Additive: Giới thiệu với R . Chapman và Hội trường / CRC.


@ gavin.simpson có giá trị gcv lý tưởng hay chỉ là tương đối như AIC?
Học thống kê bằng ví dụ

Tôi cho rằng giá trị lý tưởng có thể là 0 (gần với nó) vì nó là một ước tính của lỗi bình phương trung bình. Vì nó sử dụng độ lệch so với dữ liệu được quan sát, nên giá trị của nó phụ thuộc vào giá trị của phản hồi. Vì vậy, hãy đối xử với nó như AIC theo nghĩa nhỏ hơn là tốt hơn.
Gavin Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.