Khi sử dụng các khối vuông tự nhiên (bị hạn chế), các hàm cơ bản được tạo rất cao và khi được sử dụng trong hồi quy dường như tạo ra số liệu thống kê VIF (hệ số lạm phát phương sai) rất cao, báo hiệu tính đa hình. Khi một người đang xem xét trường hợp của một mô hình cho mục đích dự đoán, đây có phải là một vấn đề không? Có vẻ như nó sẽ luôn luôn như vậy vì bản chất của việc xây dựng spline.
Đây là một ví dụ trong R:
library(caret)
library(Hmisc)
library(car)
data(GermanCredit)
spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots
class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))
cor(spl_mat)
OUTPUT:
x
x 1.0000000 0.9386463 0.9270723 0.9109491
0.9386463 1.0000000 0.9994380 0.9969515
0.9270723 0.9994380 1.0000000 0.9989905
0.9109491 0.9969515 0.9989905 1.0000000
mod<-glm(class~.,data=dat,family=binomial()) #model
vif(mod) #massively high
OUTPUT:
x V2 V3 V4
319.573 204655.833 415308.187 45042.675
CẬP NHẬT:
Tôi đã tìm đến Tiến sĩ Harrell, tác giả của gói Hiscisc ở R (và những người khác) và anh ta trả lời rằng chừng nào thuật toán hội tụ (ví dụ hồi quy logistic) và các lỗi tiêu chuẩn chưa bùng nổ (như Maarten đã nói bên dưới) - và mô hình phù hợp tốt, được hiển thị tốt nhất trên một bộ thử nghiệm, sau đó không có vấn đề gì với sự cộng tác này.
Hơn nữa, ông đã tuyên bố (và điều này có mặt ở trang 65 của cuốn sách Chiến lược mô hình hồi quy tuyệt vời của ông ) rằng sự cộng tác giữa các biến được xây dựng theo kiểu đại số như các khối vuông bị hạn chế không phải là vấn đề vì tính đa hình chỉ thay đổi khi mẫu cộng tuyến thay đổi từ mẫu này sang mẫu khác.
rcsgen
lệnh Stata sử dụng Gram-Schmidt orthogonalizaton)