Giải thích sự sai lệch còn lại và Null trong GLM R


47

Làm thế nào để giải thích sự sai lệch Null và dư trong GLM trong R? Giống như, chúng tôi nói rằng AIC nhỏ hơn là tốt hơn. Có bất kỳ giải thích tương tự và nhanh chóng cho các sai lệch cũng?

Độ lệch không: 1146.1 trên 1077 độ tự do Độ lệch dư: 4589,4 trên 1099 độ tự do AIC: 11089

Câu trả lời:


74

Đặt LL = loglikabilities

Dưới đây là một bản tóm tắt nhanh chóng về những gì bạn nhìn thấy từ đầu ra tóm tắt (glm.fit),

Null Deviance = 2 (LL (Mô hình bão hòa) - LL (Mô hình Null)) trên df = df_Sat - df_Null

Độ lệch dư = 2 (LL (Mô hình bão hòa) - LL (Mô hình đề xuất)) df = df_Sat - df_Proposes

Các bão hòa mẫu là một mô hình giả định mỗi điểm dữ liệu có các thông số riêng của mình (có nghĩa là bạn có n thông số để ước lượng.)

Các Null mẫu giả định "đối diện" chính xác, trong đó là giả định một tham số cho tất cả các điểm dữ liệu, có nghĩa là bạn chỉ ước 1 tham số.

Các đề xuất mô hình giả định bạn có thể giải thích các điểm dữ liệu của bạn với p thông số + một thuật ngữ đánh chặn, vì vậy bạn có p + 1 tham số.

Nếu Null Deviance của bạn thực sự nhỏ, điều đó có nghĩa là Mô hình Null giải thích dữ liệu khá tốt. Tương tự như vậy với sự sai lệch còn lại của bạn .

Những gì thực sự nhỏ có nghĩa là gì? Nếu mô hình của bạn là "tốt" thì Deviance của bạn xấp xỉ Chi ^ 2 với mức độ tự do (df_sat - df_model).

Nếu bạn muốn so sánh mô hình Null của bạn với mô hình Đề xuất của bạn, thì bạn có thể xem

(Null Deviance - Residual Deviance) xấp xỉ Chi ^ 2 với df Đề xuất - df Null = (n- (p + 1)) - (n-1) = p

Là kết quả bạn đưa ra trực tiếp từ R? Chúng có vẻ hơi kỳ lạ, bởi vì nhìn chung bạn sẽ thấy rằng mức độ tự do được báo cáo trên Null luôn cao hơn mức độ tự do được báo cáo trên Residual. Đó là bởi vì một lần nữa, Null Deviance df = bão hòa df - Null df = n-1 Residual Deviance df = bão hòa df - Đề xuất df = n- (p + 1)


Vâng, đó là một bài viết rất hữu ích @TeresaStat, cảm ơn. Làm thế nào là mạnh mẽ này? Các định nghĩa có thay đổi nếu bạn đang nói về một mô hình đa phương thay vì một GLM?
Hack-R

@Teresa: Vâng, những kết quả này là của R. Tại sao điều này sẽ xảy ra? Bất kỳ vấn đề với mô hình ở đây?
Anjali

@ Hack-R: xin lỗi vì phản hồi muộn như vậy, tôi mới biết về Stackexchange. Đối với các mô hình đa cực, bạn không sử dụng hàm glm trong R và đầu ra thì khác. Bạn sẽ cần xem xét một mô hình tỷ lệ cược tỷ lệ hoặc hồi quy thứ tự, hàm mlogit. Đó là giá trị nó để làm một chút đọc trên glms đa quốc gia, họ có giả định hơi khác nhau. Nếu tôi có thể lấy nó trong giờ nghỉ, tôi sẽ cập nhật thông tin này với một số thông tin khác.
TeresaStat

@Anjali, tôi không chắc tại sao bạn lại nhận được kết quả như vậy trong R. Thật khó để biết mà không thấy dữ liệu / kết quả của bạn. Nói chung, tôi không thấy lý do tại sao mức độ tự do còn lại sẽ cao hơn null df. Có bao nhiêu thông số bạn đã ước tính?
TeresaStat

1
@ user4050 Mục tiêu của mô hình hóa nói chung có thể được xem là sử dụng số lượng tham số nhỏ nhất để giải thích rõ nhất về phản ứng của bạn. Để tìm ra có bao nhiêu tham số để sử dụng, bạn cần xem xét lợi ích của việc thêm một tham số. Nếu một tham số phụ giải thích rất nhiều (tạo ra độ lệch cao) từ mô hình nhỏ hơn của bạn, thì bạn cần tham số phụ. Để định lượng những gì nhiều bạn cần lý thuyết thống kê. Lý thuyết cho chúng ta biết rằng độ lệch là bình phương với mức độ tự do bằng với sự khác biệt của các tham số giữa hai mô hình của bạn. Có rõ ràng hơn không?
TeresaStat

13

Độ lệch null cho thấy mức độ đáp ứng được dự đoán bởi mô hình mà không có gì ngoài việc chặn.

Độ lệch còn lại cho thấy mức độ đáp ứng được dự đoán bởi mô hình khi các yếu tố dự đoán được đưa vào. Từ ví dụ của bạn, có thể thấy rằng độ lệch tăng lên 3443.3 khi thêm 22 biến dự đoán (lưu ý: bậc tự do = không có quan sát - không có dự đoán). Sự gia tăng sai lệch này là bằng chứng của sự thiếu phù hợp đáng kể.

Chúng ta cũng có thể sử dụng độ lệch còn lại để kiểm tra xem giả thuyết null có đúng không (tức là mô hình hồi quy Logistic cung cấp mức độ phù hợp cho dữ liệu). Điều này là có thể bởi vì độ lệch được cho bởi giá trị chi bình phương ở một mức độ tự do nhất định. Để kiểm tra mức độ quan trọng, chúng ta có thể tìm ra các giá trị p liên quan bằng cách sử dụng công thức dưới đây trong R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Sử dụng các giá trị trên của độ lệch còn lại và DF, bạn nhận được giá trị p xấp xỉ bằng 0 cho thấy rằng thiếu bằng chứng đáng kể để hỗ trợ cho giả thuyết khống.

> 1 - pchisq(4589.4, 1099)
[1] 0

2
Làm thế nào để bạn biết những gì bị cắt là phù hợp tốt / xấu dựa trên độ lệch và số lượng biến dự đoán (không có pchisq)? Có phải chỉ là nếu Độ lệch dư> Độ lệch NULL hoặc có một số phạm vi / tỷ lệ?
Hack-R

3
Câu trả lời của bạn không sai, nhưng có thể bị hiểu lầm. Trong thực tế, nó đã bị hiểu lầm (cf ở đây ). Trong bối cảnh đó, bạn có thể làm rõ những khác biệt tiềm ẩn trong mã của bạn không?
gung - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.