Sự sai lệch là gì? (cụ thể là trong GIỎ HÀNG / rpart)


45

"Deviance" là gì, nó được tính như thế nào và công dụng của nó trong các lĩnh vực khác nhau trong thống kê là gì?

Đặc biệt, cá nhân tôi quan tâm đến việc sử dụng nó trong GIỎI (và việc triển khai trong rpart trong R).

Tôi đang hỏi điều này vì bài viết wiki có vẻ hơi thiếu và những hiểu biết của bạn sẽ được hoan nghênh nhất.

Câu trả lời:


48

Sự lệch lạc và GLM

Chính thức, người ta có thể xem sự lệch lạc như một loại khoảng cách giữa hai mô hình xác suất; trong ngữ cảnh GLM, tỷ lệ nhật ký khả năng giữa hai mô hình lồng nhau trong đó là mô hình "nhỏ hơn" gấp hai lần ; nghĩa là, một hạn chế tuyến tính đối với các tham số mô hình (xem bổ đề Neyman , Pear Pearson ), như @suncoolsu nói. Như vậy, nó có thể được sử dụng để thực hiện so sánh mô hình . Nó cũng có thể được xem như là một khái quát của RSS được sử dụng trong ước tính OLS (ANOVA, hồi quy), vì nó cung cấp thước đo mức độ phù hợp của mô hình được đánh giá khi so sánh với mô hình null (chỉ chặn). Nó cũng hoạt động với LM:1/00

> x <- rnorm(100)
> y <- 0.8*x+rnorm(100)
> lm.res <- lm(y ~ x)

SS dư (RSS) được tính là , có thể dễ dàng nhận được là:ε^tε^

> t(residuals(lm.res))%*%residuals(lm.res)
         [,1]
[1,] 98.66754

hoặc từ (không điều chỉnh)R2

> summary(lm.res)

Call:
lm(formula = y ~ x)

(...)

Residual standard error: 1.003 on 98 degrees of freedom
Multiple R-squared: 0.4234, Adjusted R-squared: 0.4175 
F-statistic: 71.97 on 1 and 98 DF,  p-value: 2.334e-13 

vì trong đó là tổng phương sai. Lưu ý rằng nó có sẵn trực tiếp trong bảng ANOVA, nhưR2=1RSS/TSSTSS

> summary.aov(lm.res)
            Df Sum Sq Mean Sq F value    Pr(>F)    
x            1 72.459  72.459  71.969 2.334e-13 ***
Residuals   98 98.668   1.007                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Bây giờ, hãy nhìn vào sự lệch lạc:

> deviance(lm.res)
[1] 98.66754

Trong thực tế, đối với các mô hình tuyến tính, độ lệch bằng với RSS (bạn có thể nhớ rằng các ước tính OLS và ML trùng khớp trong trường hợp như vậy).

Deviance và GIỎ HÀNG

Chúng ta có thể nhìn thấy Toán như một cách để phân bổ đã cá nhân dán nhãn vào các lớp tùy ý (trong bối cảnh phân loại). Cây có thể được xem như là một mô hình xác suất cho thành viên lớp cá nhân. Vì vậy, tại mỗi nút , chúng ta có phân phối xác suất trên các lớp. Điều quan trọng ở đây là các lá của cây cung cấp cho chúng ta một mẫu ngẫu nhiên từ một phân phối đa thức được chỉ định bởi . Do đó, chúng ta có thể định nghĩa độ lệch của cây, , là tổng của tất cả các lá củanipiknikpikD

Di=2kniklog(pik),

theo các ký hiệu của Venables và Ripley ( MASS , Springer 2002, 4th ed.). Nếu bạn có quyền truy cập vào tài liệu tham khảo thiết yếu này cho người dùng R (IMHO), bạn có thể tự kiểm tra cách tiếp cận như vậy được sử dụng để phân chia các nút và khớp cây với dữ liệu được quan sát (tr. 255 ff.); Về cơ bản, ý tưởng là để giảm thiểu, bằng cách cắt tỉa cây, nơi là số nút trong cây . Ở đây chúng tôi nhận ra sự đánh đổi phức tạp về chi phí . Ở đây, tương đương với khái niệm tạp chất nút (nghĩa là tính không đồng nhất của phân phối tại một nút đã cho) dựa trên thước đo entropy hoặc mức tăng thông tin, hoặc chỉ số Gini nổi tiếng, được định nghĩa làD+α#(T)#(T)TD1kpik2 (tỷ lệ chưa biết được ước tính từ tỷ lệ nút).

Với cây hồi quy, ý tưởng này khá giống nhau và chúng ta có thể khái niệm hóa độ lệch là tổng bình phương được xác định cho các cá nhân theoj

Di=j(yjμi)2,

tổng hợp trên tất cả các lá. Ở đây, mô hình xác suất được xem xét trong mỗi lá là một gaussian . Trích dẫn Venables và Ripley (tr. 256), " là độ lệch tỷ lệ thông thường cho GLM gaussian. Tuy nhiên, phân phối tại các nút bên trong của cây sau đó là hỗn hợp của các phân phối bình thường, và do đó chỉ thích hợp ở các lá. Quá trình xây dựng cây phải được xem như là một sàng lọc phân cấp của các mô hình xác suất, rất giống với lựa chọn biến chuyển tiếp trong hồi quy . " Mục 9.2 cung cấp thêm thông tin chi tiết về việc triển khai, nhưng bạn đã có thể xem chức năng choN(μi,σ2)DDirpartresiduals()rpart đối tượng, trong đó "phần dư sai lệch" được tính là căn bậc hai trừ hai lần logarit của mô hình được trang bị.

Giới thiệu về phân vùng đệ quy bằng cách sử dụng các thường trình rpart , bởi Atkinson và Therneau, cũng là một khởi đầu tốt. Để đánh giá tổng quát hơn (bao gồm cả đóng bao), tôi muốn giới thiệu


1
+1 câu trả lời hay, như bạn nói, bổ sung cho tôi nên không có vấn đề gì ở đó. Rất độc đáo đặt.
Phục hồi Monica - G. Simpson

Một điều nhỏ - có lẽ không tốt nhất để sử dụng lm.fittrong ví dụ của bạn, vì đây là tên của con ngựa đằng sau lm.
Phục hồi Monica - G. Simpson

@Gavin Ồ, vâng, đúng vậy. Thx đã nhắc nhở tôi rằng, tôi thường mắc lỗi này ...
chl

3
Chỉ có một nhận xét: Đối với hồi quy tuyến tính Độ lệch bằng với RSS vì giả định tính chuẩn của các lỗi ngụ ý RSS giống như thống kê kiểm tra LR, điều này ngụ ý thêm Sự sai lệch thường được phân phối, bất kể không có triệu chứng . Đây chỉ là một bản mở rộng của (tôi nghĩ) bình luận ngắn gọn của chl.
suncoolsu

@suncoolsu Nếu đó là về nhận xét của tôi về ước tính ML và OLS, vâng tôi có nghĩa là "giả sử phân phối gaussian" cho (nghĩa là trong các mô hình tuyến tính). Nhận xét của bạn được chào đón. εi
chl

25

Có thể rõ ràng hơn một chút nếu chúng ta nghĩ về một mô hình hoàn hảo với nhiều tham số như các quan sát sao cho nó giải thích tất cả các phương sai trong phản hồi. Đây là mô hình bão hòa. Độ lệch chỉ đơn giản là đo lường sự khác biệt về "mức độ phù hợp" của mô hình ứng viên và mô hình bão hòa.

Trong cây hồi quy, mô hình bão hòa sẽ là mô hình có nhiều nút đầu cuối (lá) như các quan sát để nó hoàn toàn phù hợp với đáp ứng. Độ lệch của một mô hình đơn giản hơn có thể được tính là tổng các bình phương còn lại của nút, được tính tổng trên tất cả các nút. Nói cách khác, tổng của sự khác biệt bình phương giữa các giá trị dự đoán và quan sát. Đây là cùng một loại lỗi (hoặc sai lệch) được sử dụng trong hồi quy bình phương tối thiểu.

Đối với một cây phân loại, tổng số bình phương còn lại không phải là biện pháp thích hợp nhất cho sự thiếu phù hợp. Thay vào đó, có một biện pháp sai lệch khác, cộng với cây có thể được xây dựng để giảm thiểu biện pháp entropy hoặc chỉ số Gini. Cái sau là mặc định trong rpart. Chỉ số Gini được tính là:

Di=1k=1Kpik2

Trong đó là tỷ lệ quan sát của lớp trong nút . Biện pháp này được tổng hợp của tất cả các nút cuối trong cây để đi đến độ lệch cho mô hình cây được trang bị.pikkii


(+1) Xin lỗi, bài đăng của tôi đến sau và tôi không nhận thấy bạn. Vì tôi nghĩ họ không chồng chéo quá nhiều, tôi sẽ rời bỏ tôi nếu bạn không phiền.
chl

Vì vậy, sự lệch lạc là thước đo của sự phù hợp, phải không? AFAIK, trong hồi quy, chúng tôi có một số thống kê (như RSS, ) để đo lường mức độ phù hợp; và trong phân loại, chúng ta có thể sử dụng tỷ lệ phân loại sai. Tôi có đúng không R2

11

Độ lệch là thống kê tỷ lệ khả năng để kiểm tra giả thuyết null mà mô hình giữ lại thay thế chung (nghĩa là mô hình bão hòa). Đối với một số GLM Poisson và nhị thức, số lượng quan sát cố định khi số lượng riêng lẻ tăng kích thước. Sau đó, sự lệch lạc có một phân phối null tiệm cận chi bình phương . Độ tự do = N - p, trong đó p là số lượng tham số mô hình; tức là bằng số lượng tham số tự do trong các mô hình bão hòa và không bão hòa. Sự sai lệch sau đó cung cấp một bài kiểm tra cho phù hợp với mô hình.N

Deviance=2[L(μ^|y)L(y|y)]

Tuy nhiên, hầu hết các lần, bạn muốn kiểm tra nếu bạn cần bỏ một số biến. Giả sử có hai mô hình và với các tham số và tương ứng và bạn cần kiểm tra xem hai mô hình nào tốt hơn. Giả sử là trường hợp đặc biệt của tức là các mô hình lồng nhau. M1M2p1p2M1M2

Trong trường hợp đó, sự khác biệt của độ lệch được thực hiện:

ΔDeviance=2[L(μ1^|y)L(μ2^|y)]

Lưu ý rằng khả năng đăng nhập của mô hình bão hòa sẽ hủy và mức độ tự do của thay đổi thành . Đây là những gì chúng ta sử dụng thường xuyên nhất khi chúng ta cần kiểm tra xem một số tham số có bằng 0 hay không. Nhưng khi bạn phù hợp ở đầu ra lệch là dành cho mô hình bão hòa vs mô hình hiện tại.p 2 - p 1ΔDeviancep2p1glmR

Nếu bạn muốn đọc chi tiết hơn: cf: Phân tích dữ liệu phân loại của Alan Agresti, trang 118.


@Tal, tôi không sử dụng rpartvà tôi sẽ để lại câu trả lời cho các thành viên giàu kinh nghiệm hơn của diễn đàn này.
suncoolsu

Tôi nghĩ rằng tôi đã có ý tưởng ... Nhưng rpart in sai lệch ngay cả đối với cây hồi quy Oo
deps_stats

@deps_stats sự sai lệch đó là tổng số dư của các ô vuông được tính tổng trên các nút cuối của cây.
Phục hồi Monica - G. Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.