Khi chọn số lượng nút thắt thích hợp cho GAM, người ta có thể muốn tính đến số lượng dữ liệu và gia số trên trục x.
Điều gì xảy ra nếu chúng ta có 100 gia số trên trục x với 1000 điểm dữ liệu ở mỗi mức tăng.
Thông tin ở đây cho biết:
Nếu chúng không được cung cấp thì các nút của spline được đặt đồng đều trong các giá trị hiệp biến mà thuật ngữ này đề cập đến: Ví dụ: nếu khớp 101 dữ liệu với một nút 11 nút của x thì sẽ có một nút ở mỗi 10 (theo thứ tự) giá trị x.
Vì vậy, một khởi đầu cơ bản nên là 9 hải lý trong ví dụ này? Tôi chỉ không chắc chắn phạm vi nút thắt nào sẽ phù hợp với tập dữ liệu này vì có thể phù hợp với số lượng rất nhỏ đến rất lớn.
set.seed(1)
dat <- data.frame(y = rnorm(10000), x = 100)
library(ggplot)
ggplot(dat, aes(x = x, y = y)) +
geom_point(size= 0.5) +
stat_smooth(method = "gam",
formula = y ~ s(x, bs = "cs"),k=9, col = "black")
Nếu k = 25 cung cấp một sự phù hợp hữu ích, nó có hợp lý cho dữ liệu này không?
bs = "cs"
hạn trong spline làm gì?