Khi xây dựng mô hình GIỎ HÀNG (cụ thể là cây phân loại) bằng rpart (trong R), thường rất thú vị khi biết tầm quan trọng của các biến khác nhau được giới thiệu cho mô hình là gì.
Vì vậy, câu hỏi của tôi là: Những biện pháp phổ biến nào tồn tại để xếp hạng / đo lường tầm quan trọng của biến tham gia trong mô hình GIỎI? Và làm thế nào điều này có thể được tính bằng R (ví dụ: khi sử dụng gói rpart)
Ví dụ, đây là một số mã giả, được tạo để bạn có thể hiển thị các giải pháp của mình trên đó. Ví dụ này được cấu trúc sao cho rõ ràng biến x1 và x2 là "quan trọng" trong khi (về mặt nào đó) x1 quan trọng hơn x2 (vì x1 nên áp dụng cho nhiều trường hợp hơn, do đó ảnh hưởng nhiều hơn đến cấu trúc của dữ liệu, thì x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(tài liệu tham khảo luôn được hoan nghênh)