Tôi có một câu hỏi về mô hình phụ gia tổng quát. Deviance được giải thích là gì, điểm số GCV và Scale est. Trong kết quả GAM? Những chỉ số này cho thấy gì?
Tôi có một câu hỏi về mô hình phụ gia tổng quát. Deviance được giải thích là gì, điểm số GCV và Scale est. Trong kết quả GAM? Những chỉ số này cho thấy gì?
Câu trả lời:
Sự sai lệch được giải thích là một chút giống nhưđối với các mô hình trong đó các tổng bình phương không có ý nghĩa nhiều như là thước đo sự khác biệt giữa các quan sát và các giá trị được trang bị. Trong các mô hình tổng quát thay vì chúng tôi đo lường sự khác biệt này bằng cách sử dụng độ lệch . Nó được tính toán bằng khả năng của mô hình và do đó có một định nghĩa toán học hơi khác nhau cho mỗi phân phối lỗi ( family
đối số trong glm()
/ gam()
). Trong trường hợp các mô hình Gaussian được ước tính là GLM / GAM, độ lệch và tổng bình phương còn lại là tương đương.
Sự lệch lạc của một mô hình được định nghĩa là:
Ở đâu là khả năng tối đa của mô hình bão hòa và là khả năng tối đa của mô hình bạn đã trang bị. Mô hình bão hòa là một mô hình với một tham số cho mỗi điểm dữ liệu; bạn không thể có khả năng cao hơn điều này, dựa trên dữ liệu.là tham số tỷ lệ. Độ lệch tỷ lệ đơn giản là
Các độ lệch tỷ lệ này đóng một vai trò trong các thử nghiệm tỷ lệ khả năng, trong đó sự khác biệt của độ lệch tỷ lệ cho hai mô hình là (chi bình phương phân phối với bậc tự do và ).
Sự sai lệch được giải thích chỉ đại diện cho ở trên là tỷ lệ của tổng độ lệch được giải thích bởi mô hình hiện tại.
Các ước tính quy mô là, tức là đây là giá trị của ước tính trong quá trình lắp mô hình. Đối với các gia đình / phân phối Poisson và Binomial, theo định nghĩa, nhưng đối với các bản phân phối khác thì đây không phải là trường hợp, bao gồm cả Gaussian. Trong trường hợp Gaussian,là sai số chuẩn bình phương .
Các điểm GCV là giảm thiểu tổng quát cross-validation (GCV) điểm của GAM lắp. GCV được sử dụng để lựa chọn độ mịn trong gói mgcv cho R; tham số làm mịn được chọn để giảm thiểu lỗi dự đoán trong đókhông xác định và CV hoặc GCV tiêu chuẩn có thể được sử dụng để ước tính lỗi dự đoán. GCv được ưa thích ở đây vì nó có thể được tính toán mà không thực sự xác thực chéo (tinh chỉnh mô hình thành tập hợp con của dữ liệu), giúp tiết kiệm thời gian / công sức tính toán. Giá trị được báo cáo là điểm số GCV được tối thiểu hóa (UBRE, Công cụ ước tính rủi ro không thiên vị, điểm số được hiển thị thay vì bạn đang lắp một mô hình đã biết) và bạn có thể sử dụng các điểm số này một chút như AIC, các giá trị nhỏ hơn biểu thị các mô hình phù hợp tốt hơn.
GAM được trang bị bằng cách sử dụng lựa chọn độ mịn của GCV có thể bị giảm độ mịn. Điều này có thể xảy ra khi cấu hình GCV tương đối phẳng và biến thiên ngẫu nhiên có thể dẫn đến thuật toán hội tụ ở mức quá phù hợp. Phù hợp thông qua REML (sử dụng method = "REML"
trong gam()
cuộc gọi) hoặc ML đã được Simon Wood và các đồng nghiệp thể hiện là mạnh mẽ hơn nhiều để làm mịn, nhưng với chi phí tính toán.
Các bản tóm tắt ở trên được dựa trên các mô tả trong cuốn sách khá xuất sắc của Simon Wood về GAM:
Gỗ, SN (2006). Khái quát hóa mô hình Additive: Giới thiệu với R . Chapman và Hội trường / CRC.