Cách đầu ra của cách tiếp cận này để phù hợp với GAM được cấu trúc là nhóm các phần tuyến tính của bộ làm mịn theo các thuật ngữ tham số khác. Thông báo Private
có một mục trong bảng đầu tiên nhưng mục đó trống trong mục thứ hai. Điều này là bởi vì Private
là một thuật ngữ tham số nghiêm ngặt; nó là một biến nhân tố và do đó được liên kết với một tham số ước tính đại diện cho tác động của Private
. Lý do các thuật ngữ trơn được tách thành hai loại hiệu ứng là vì đầu ra này cho phép bạn quyết định xem một thuật ngữ trơn tru có
- một hiệu ứng phi tuyến : nhìn vào bảng không tham số và đánh giá ý nghĩa. Nếu có ý nghĩa, để lại như một hiệu ứng phi tuyến trơn tru. Nếu không đáng kể, hãy xem xét hiệu ứng tuyến tính (2. bên dưới)
- một hiệu ứng tuyến tính : nhìn vào bảng tham số và đánh giá tầm quan trọng của hiệu ứng tuyến tính. Nếu có ý nghĩa, bạn có thể biến thuật ngữ thành trơn tru
s(x)
-> x
trong công thức mô tả mô hình. Nếu không đáng kể, bạn có thể xem xét bỏ hoàn toàn thuật ngữ khỏi mô hình (nhưng hãy cẩn thận với điều này --- có nghĩa là một tuyên bố mạnh mẽ rằng hiệu ứng thực sự là == 0).
Bảng tham số
Các mục nhập ở đây giống như những gì bạn nhận được nếu bạn trang bị mô hình tuyến tính này và tính toán bảng ANOVA, ngoại trừ không có ước tính nào cho bất kỳ hệ số mô hình liên quan nào được hiển thị. Thay vì các hệ số ước tính và sai số chuẩn và các thử nghiệm t hoặc Wald liên quan , lượng phương sai được giải thích (tính theo tổng bình phương) được hiển thị cùng với các thử nghiệm F. Cũng như các mô hình hồi quy khác được trang bị nhiều hiệp phương sai (hoặc hàm của hiệp phương sai), các mục trong bảng có điều kiện dựa trên các điều khoản / hàm khác trong mô hình.
Bảng không đối xứng
Các hiệu ứng phi tham số liên quan đến các phần phi tuyến của máy làm mịn được trang bị. Không phải các hiệu ứng phi tuyến này là đáng kể ngoại trừ hiệu ứng phi tuyến của Expend
. Có một số bằng chứng về hiệu ứng phi tuyến của Room.Board
. Mỗi trong số này được liên kết với một số mức độ tự do không tham số ( Npar Df
) và chúng giải thích một lượng biến thể trong phản hồi, mức độ được đánh giá thông qua kiểm tra F (theo mặc định, xem đối số test
).
Các thử nghiệm này trong phần không tham số có thể được hiểu là thử nghiệm giả thuyết khống về mối quan hệ tuyến tính thay vì mối quan hệ phi tuyến tính .
Cách bạn có thể diễn giải điều này là chỉ Expend
đảm bảo được coi là hiệu ứng phi tuyến trơn tru. Các mịn khác có thể được chuyển đổi sang các thuật ngữ tham số tuyến tính. Bạn có thể muốn kiểm tra xem độ mịn Room.Board
tiếp tục có hiệu ứng không tham số không đáng kể sau khi bạn chuyển đổi các độ mịn khác thành các thuật ngữ tuyến tính, tham số; nó có thể là hiệu ứng của Room.Board
hơi phi tuyến nhưng điều này đang bị ảnh hưởng bởi sự hiện diện của các điều khoản trơn tru khác trong mô hình.
Tuy nhiên, rất nhiều điều này có thể phụ thuộc vào thực tế là nhiều sự trơn tru chỉ được phép sử dụng 2 bậc tự do; tại sao 2?
Lựa chọn độ mịn tự động
Các cách tiếp cận mới hơn để phù hợp với GAM sẽ chọn mức độ mượt mà cho bạn thông qua các phương pháp lựa chọn độ mịn tự động như cách tiếp cận spline bị phạt của Simon Wood như được thực hiện trong gói mgcv được đề xuất :
data(College, package = 'ISLR')
library('mgcv')
set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate), data = College.train,
method = 'REML')
Tóm tắt mô hình ngắn gọn hơn và trực tiếp xem xét hàm tổng thể trơn tru hơn là đóng góp tuyến tính (tham số) và phi tuyến tính (không tham số):
> summary(m)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8544.1 217.2 39.330 <2e-16 ***
PrivateYes 2499.2 274.2 9.115 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.190 2.776 20.233 3.91e-11 ***
s(PhD) 2.433 3.116 3.037 0.029249 *
s(perc.alumni) 1.656 2.072 15.888 1.84e-07 ***
s(Expend) 4.528 5.592 19.614 < 2e-16 ***
s(Grad.Rate) 2.125 2.710 6.553 0.000452 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.2%
-REML = 3436.4 Scale est. = 3.3143e+06 n = 389
Bây giờ đầu ra tập hợp các thuật ngữ trơn tru và các thuật ngữ tham số vào các bảng riêng biệt, với các điều khoản sau nhận được một đầu ra quen thuộc hơn tương tự như mô hình tuyến tính. Các điều khoản trơn tru toàn bộ hiệu ứng được hiển thị trong bảng dưới. Đây không phải là các thử nghiệm tương tự như đối với gam::gam
mô hình bạn hiển thị; chúng là các thử nghiệm chống lại giả thuyết null rằng hiệu ứng mịn là một đường thẳng, nằm ngang, hiệu ứng null hoặc cho thấy hiệu ứng bằng không. Thay thế là hiệu ứng phi tuyến thực sự khác với số không.
Lưu ý rằng các EDF đều lớn hơn 2 ngoại trừ s(perc.alumni)
, cho thấy rằng gam::gam
mô hình có thể bị hạn chế một chút.
Các mịn được trang bị để so sánh được đưa ra bởi
plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)
sản xuất
Lựa chọn độ mịn tự động cũng có thể được đồng ý chọn để thu hẹp các thuật ngữ ra khỏi mô hình hoàn toàn:
Làm xong điều đó, chúng tôi thấy rằng sự phù hợp của mô hình không thực sự thay đổi
> summary(m2)
Family: gaussian
Link function: identity
Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) +
s(Expend) + s(Grad.Rate)
Parametric coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8539.4 214.8 39.755 <2e-16 ***
PrivateYes 2505.7 270.4 9.266 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Approximate significance of smooth terms:
edf Ref.df F p-value
s(Room.Board) 2.260 9 6.338 3.95e-14 ***
s(PhD) 1.809 9 0.913 0.00611 **
s(perc.alumni) 1.544 9 3.542 8.21e-09 ***
s(Expend) 4.234 9 13.517 < 2e-16 ***
s(Grad.Rate) 2.114 9 2.209 1.01e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
R-sq.(adj) = 0.794 Deviance explained = 80.1%
-REML = 3475.3 Scale est. = 3.3145e+06 n = 389
Tất cả các độ mịn dường như đề xuất các hiệu ứng phi tuyến tính ngay cả sau khi chúng ta thu nhỏ các phần tuyến tính và phi tuyến của các spline.
Cá nhân, tôi thấy đầu ra từ mgcv dễ diễn giải hơn và bởi vì nó đã được chứng minh rằng các phương pháp chọn độ mịn tự động sẽ có xu hướng phù hợp với hiệu ứng tuyến tính nếu được dữ liệu hỗ trợ.