Có một vấn đề với đa cộng đồng và cho hồi quy splines?


12

Khi sử dụng các khối vuông tự nhiên (bị hạn chế), các hàm cơ bản được tạo rất cao và khi được sử dụng trong hồi quy dường như tạo ra số liệu thống kê VIF (hệ số lạm phát phương sai) rất cao, báo hiệu tính đa hình. Khi một người đang xem xét trường hợp của một mô hình cho mục đích dự đoán, đây có phải là một vấn đề không? Có vẻ như nó sẽ luôn luôn như vậy vì bản chất của việc xây dựng spline.

Đây là một ví dụ trong R:

library(caret)
library(Hmisc)
library(car)
data(GermanCredit)

spl_mat<-rcspline.eval(GermanCredit$Amount,  nk=5, inclx=TRUE) #natural cubic splines with 5 knots

class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable
dat<-data.frame(cbind(spl_mat,class))

cor(spl_mat)

OUTPUT:
              x                              
    x 1.0000000 0.9386463 0.9270723 0.9109491
      0.9386463 1.0000000 0.9994380 0.9969515
      0.9270723 0.9994380 1.0000000 0.9989905
      0.9109491 0.9969515 0.9989905 1.0000000


mod<-glm(class~.,data=dat,family=binomial()) #model

vif(mod) #massively high

OUTPUT:
x         V2         V3         V4 
319.573 204655.833 415308.187  45042.675

CẬP NHẬT:

Tôi đã tìm đến Tiến sĩ Harrell, tác giả của gói Hiscisc ở R (và những người khác) và anh ta trả lời rằng chừng nào thuật toán hội tụ (ví dụ hồi quy logistic) và các lỗi tiêu chuẩn chưa bùng nổ (như Maarten đã nói bên dưới) - và mô hình phù hợp tốt, được hiển thị tốt nhất trên một bộ thử nghiệm, sau đó không có vấn đề gì với sự cộng tác này.

Hơn nữa, ông đã tuyên bố (và điều này có mặt ở trang 65 của cuốn sách Chiến lược mô hình hồi quy tuyệt vời của ông ) rằng sự cộng tác giữa các biến được xây dựng theo kiểu đại số như các khối vuông bị hạn chế không phải là vấn đề vì tính đa hình chỉ thay đổi khi mẫu cộng tuyến thay đổi từ mẫu này sang mẫu khác.


1
Bạn luôn có thể trực giao hóa các spline được tạo ra (ví dụ rcsgenlệnh Stata sử dụng Gram-Schmidt orthogonalizaton)
boscovich

Câu trả lời:


7

Tính đa hình có thể dẫn đến các vấn đề về số khi ước tính hàm như vậy. Đây là lý do tại sao một số sử dụng B-splines (hoặc các biến thể trong chủ đề đó) thay vì các spline khối bị hạn chế. Vì vậy, tôi có xu hướng xem các khối vuông bị hạn chế là một công cụ có khả năng hữu ích trong một hộp công cụ lớn hơn.


Xin chào Maarten, khi bạn nói vấn đề về số, bạn có đề cập đến sự hội tụ hay không? Nếu hồi quy hội tụ và có vẻ hoạt động tốt trên tập kiểm tra - bạn có kết luận tình huống không phải là vấn đề không?
B_Miner

Nếu có vấn đề về số thì thiếu hội tụ là hậu quả có thể (nhưng không phải là cần thiết). Ước tính hệ số không thực tế và / hoặc lỗi tiêu chuẩn cao không thực tế là những hậu quả có thể khác.
Maarten Buis

1
Các phương pháp như phân tách QR đã giúp rất nhiều. Tuy nhiên, bạn vẫn có thể phá vỡ phần mềm hiện đại, nó đã trở nên khó khăn hơn để làm như vậy.
Maarten Buis

1
Đó có thể không phải là một vấn đề. Nhưng nếu có vấn đề về số, thì scale=TRUEđối số của một số hàm phù hợp trong rmsgói R sẽ chuẩn hóa tất cả các cột trước khi lắp và không chuẩn hóa các hệ số sau khi khớp theo cách mà người dùng không cần tính đến.
Frank Harrell

2
Đừng nhìn vào các hệ số riêng biệt và các lỗi tiêu chuẩn rất nhiều. Nhìn vào toàn bộ đường cong được trang bị.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.