Sự lệch lạc và GLM
Chính thức, người ta có thể xem sự lệch lạc như một loại khoảng cách giữa hai mô hình xác suất; trong ngữ cảnh GLM, tỷ lệ nhật ký khả năng giữa hai mô hình lồng nhau trong đó là mô hình "nhỏ hơn" gấp hai lần ; nghĩa là, một hạn chế tuyến tính đối với các tham số mô hình (xem bổ đề Neyman , Pear Pearson ), như @suncoolsu nói. Như vậy, nó có thể được sử dụng để thực hiện so sánh mô hình . Nó cũng có thể được xem như là một khái quát của RSS được sử dụng trong ước tính OLS (ANOVA, hồi quy), vì nó cung cấp thước đo mức độ phù hợp của mô hình được đánh giá khi so sánh với mô hình null (chỉ chặn). Nó cũng hoạt động với LM:ℓ1/ ℓ0ℓ0
> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)
SS dư (RSS) được tính là , có thể dễ dàng nhận được là:ε^tε^
> t(residuals(lm.res))%*%residuals(lm.res)
[,1]
[1,] 98.66754
hoặc từ (không điều chỉnh)R2
> summary(lm.res)
Call:
lm(formula = y ~ x)
(...)
Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175
F-statistic: 71.97 on 1 and 98 DF, p-value: 2.334e-13
vì trong đó là tổng phương sai. Lưu ý rằng nó có sẵn trực tiếp trong bảng ANOVA, nhưR2= 1 - RSS / TSSTSS
> summary.aov(lm.res)
Df Sum Sq Mean Sq F value Pr(>F)
x 1 72.459 72.459 71.969 2.334e-13 ***
Residuals 98 98.668 1.007
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Bây giờ, hãy nhìn vào sự lệch lạc:
> deviance(lm.res)
[1] 98.66754
Trong thực tế, đối với các mô hình tuyến tính, độ lệch bằng với RSS (bạn có thể nhớ rằng các ước tính OLS và ML trùng khớp trong trường hợp như vậy).
Deviance và GIỎ HÀNG
Chúng ta có thể nhìn thấy Toán như một cách để phân bổ đã cá nhân dán nhãn vào các lớp tùy ý (trong bối cảnh phân loại). Cây có thể được xem như là một mô hình xác suất cho thành viên lớp cá nhân. Vì vậy, tại mỗi nút , chúng ta có phân phối xác suất trên các lớp. Điều quan trọng ở đây là các lá của cây cung cấp cho chúng ta một mẫu ngẫu nhiên từ một phân phối đa thức được chỉ định bởi . Do đó, chúng ta có thể định nghĩa độ lệch của cây, , là tổng của tất cả các lá củaviết sai rồiTôiptôi knikpikD
Di=−2∑kniklog(pik),
theo các ký hiệu của Venables và Ripley ( MASS , Springer 2002, 4th ed.). Nếu bạn có quyền truy cập vào tài liệu tham khảo thiết yếu này cho người dùng R (IMHO), bạn có thể tự kiểm tra cách tiếp cận như vậy được sử dụng để phân chia các nút và khớp cây với dữ liệu được quan sát (tr. 255 ff.); Về cơ bản, ý tưởng là để giảm thiểu, bằng cách cắt tỉa cây, nơi là số nút trong cây . Ở đây chúng tôi nhận ra sự đánh đổi phức tạp về chi phí . Ở đây, tương đương với khái niệm tạp chất nút (nghĩa là tính không đồng nhất của phân phối tại một nút đã cho) dựa trên thước đo entropy hoặc mức tăng thông tin, hoặc chỉ số Gini nổi tiếng, được định nghĩa làD+α#(T)#(T)TD1−∑kp2ik (tỷ lệ chưa biết được ước tính từ tỷ lệ nút).
Với cây hồi quy, ý tưởng này khá giống nhau và chúng ta có thể khái niệm hóa độ lệch là tổng bình phương được xác định cho các cá nhân theoj
Di=∑j(yj−μi)2,
tổng hợp trên tất cả các lá. Ở đây, mô hình xác suất được xem xét trong mỗi lá là một gaussian . Trích dẫn Venables và Ripley (tr. 256), " là độ lệch tỷ lệ thông thường cho GLM gaussian. Tuy nhiên, phân phối tại các nút bên trong của cây sau đó là hỗn hợp của các phân phối bình thường, và do đó chỉ thích hợp ở các lá. Quá trình xây dựng cây phải được xem như là một sàng lọc phân cấp của các mô hình xác suất, rất giống với lựa chọn biến chuyển tiếp trong hồi quy . " Mục 9.2 cung cấp thêm thông tin chi tiết về việc triển khai, nhưng bạn đã có thể xem chức năng choN(μi,σ2)DDirpart
residuals()
rpart
đối tượng, trong đó "phần dư sai lệch" được tính là căn bậc hai trừ hai lần logarit của mô hình được trang bị.
Giới thiệu về phân vùng đệ quy bằng cách sử dụng các thường trình rpart , bởi Atkinson và Therneau, cũng là một khởi đầu tốt. Để đánh giá tổng quát hơn (bao gồm cả đóng bao), tôi muốn giới thiệu