Giải thích Pseudo-R2 của McFadden


29

Tôi có mô hình hồi quy logistic nhị phân với giả R của bình phương R của bình phương là 0,192 với một biến phụ thuộc được gọi là thanh toán (1 = thanh toán và 0 = không thanh toán). Giải thích của giả R-bình phương này là gì?

Đây có phải là một so sánh tương đối cho các mô hình lồng nhau không (ví dụ mô hình 6 biến có giả R của bình phương là 0,192, trong khi mô hình 5 biến (sau khi loại bỏ một biến khỏi mô hình 6 biến đã nói ở trên), mô hình 5 biến này có giả R -có giá trị bằng 0.131. Chúng ta có muốn giữ biến số thứ 6 đó trong mô hình không?) hoặc đó là một đại lượng tuyệt đối (ví dụ: một mô hình nhất định có giả R-bình phương R.192 của McFadden tốt hơn bất kỳ mô hình hiện có nào với giả của McFadden Đây là những cách khả thi để xem xét giả R-squared của McFadden, tuy nhiên, tôi cho rằng hai quan điểm này đã bị loại bỏ, vì vậy lý do tại sao tôi lại hỏi câu hỏi này ở đây.

Tôi đã thực hiện rất nhiều nghiên cứu về chủ đề này và tôi vẫn chưa tìm thấy câu trả lời mà tôi đang tìm kiếm để có thể diễn giải giả R-bình phương của McFadden là 0,192. Bất kỳ cái nhìn sâu sắc và / hoặc tài liệu tham khảo được đánh giá rất cao! Trước khi trả lời câu hỏi này, tôi biết rằng đây không phải là biện pháp tốt nhất để mô tả mô hình hồi quy logistic, nhưng tôi muốn hiểu rõ hơn về thống kê này bất kể!

Câu trả lời:


34

Vì vậy, tôi nghĩ rằng tôi đã tóm tắt những gì tôi đã học về giả R2 của McFadden như một câu trả lời thích hợp.

Tài liệu tham khảo chính mà tôi có thể thấy cho giả của McFadden là: McFadden, D. (1974) Phân tích logit có điều kiện về hành vi lựa chọn định tính. 105-142 tại P. Zarembka (chủ biên), Biên giới trong Kinh tế lượng. Báo chí học thuật. http: // eml.ber siêu.edu / ~ mcfadden / training.html Hình 5.5 cho thấy mối quan hệ giữa các biện pháp rho bình phương và R2 truyền thống từ OLS. Giải thích của tôi là các giá trị lớn hơn của rho-squared (McFadden's pseudo R2) tốt hơn các giá trị nhỏ hơn.

Việc giải thích giả của R2 của McFadden trong khoảng 0,2-0,4 xuất phát từ một chương sách mà ông đã đóng góp cho: Mô hình du lịch Bahvioural. Do David Hensher và Peter Stopher biên soạn. 1979. McFadden đóng góp Ch. 15 "Phương pháp định lượng để phân tích hành vi du lịch đối với cá nhân: Một số phát triển gần đây". Thảo luận về đánh giá mô hình (trong bối cảnh các mô hình logit đa phương) bắt đầu ở trang 306 nơi ông giới thiệu rho-squared (McFadden's pseudo R2). McFadden tuyên bố "trong khi chỉ số R2 là một khái niệm quen thuộc hơn với người lập kế hoạch đã có kinh nghiệm trong OLS, thì nó không hoạt động tốt như thước đo rho bình phương, đối với ước tính ML. Những người không quen thuộc với rho-squared nên được báo trước rằng các giá trị của nó có xu hướng thấp hơn đáng kể so với chỉ số R2 ... Ví dụ: các giá trị 0,2 đến 0,4 cho rho bình phương thể hiện sự phù hợp TUYỆT VỜI.

Về cơ bản, rho-squared có thể được hiểu như R2, nhưng đừng hy vọng nó sẽ lớn như vậy. Và các giá trị từ 0,2-0,4 cho thấy (theo lời của McFadden) phù hợp với mô hình xuất sắc.


Tốt lắm, Chris. Cảm ơn sự nỗ lực của bạn!
Matt Reichenbach

13

Bình phương R của McFadden được định nghĩa là 1-l_mod / l_null, trong đó l_mod là giá trị khả năng nhật ký của mô hình được trang bị và l_null là khả năng nhật ký của mô hình null chỉ bao gồm một phần tử chặn như dự đoán (do đó mọi cá nhân đều được dự đoán cùng một xác suất thành công').

Đối với mô hình hồi quy logistic, giá trị khả năng log luôn luôn âm (bởi vì đóng góp khả năng từ mỗi quan sát là xác suất trong khoảng từ 0 đến 1). Nếu mô hình của bạn không thực sự dự đoán kết quả tốt hơn mô hình null, l_mod sẽ không lớn hơn l_null và vì vậy l_mod / l_null xấp xỉ 1 và bình phương R của McFadden gần bằng 0 (mô hình của bạn không có giá trị dự đoán) .

Ngược lại nếu mô hình của bạn thực sự tốt, những cá nhân có kết quả thành công (1) sẽ có xác suất phù hợp gần bằng 1 và ngược lại với những người có kết quả thất bại (0). Trong trường hợp này, nếu bạn thực hiện tính toán khả năng, đóng góp khả năng từ mỗi cá nhân cho mô hình của bạn sẽ gần bằng 0, sao cho l_mod gần bằng 0 và bình phương R của McFadden gần bằng 1, cho thấy khả năng dự đoán rất tốt.

Đối với những gì có thể được coi là một giá trị tốt, quan điểm cá nhân của tôi là giống như những câu hỏi tương tự trong thống kê (ví dụ: điều gì tạo nên một mối tương quan lớn?), Đó có thể không bao giờ là một câu trả lời dứt khoát. Năm ngoái tôi đã viết một bài đăng trên blog về McFadden's R bình phương trong hồi quy logistic, trong đó có một số minh họa mô phỏng hơn nữa.


5

Tôi đã thực hiện một số nghiên cứu tập trung hơn về chủ đề này và tôi thấy rằng những diễn giải về giả R-bình phương của McFadden (còn được gọi là chỉ số tỷ lệ khả năng) không rõ ràng; tuy nhiên, nó có thể nằm trong khoảng từ 0 đến 1, nhưng sẽ không bao giờ đạt hoặc vượt quá 1 do tính toán của nó.

Một nguyên tắc nhỏ mà tôi thấy khá hữu ích là giả R-bình phương của McFadden dao động từ 0,2 đến 0,4 cho thấy mô hình rất phù hợp. Như vậy, mô hình được đề cập ở trên với giả R-bình phương 0,192 của McFadden có thể không phải là một mô hình khủng khiếp, ít nhất là theo số liệu này, nhưng nó cũng không đặc biệt mạnh.

Cũng cần lưu ý rằng giả R-bình phương của McFadden được sử dụng tốt nhất để so sánh các thông số kỹ thuật khác nhau của cùng một mô hình (ví dụ: các mô hình lồng nhau). Để tham khảo ví dụ đã nói ở trên, mô hình 6 biến (McFadden's pseudo R-squared = 0.192) phù hợp với dữ liệu tốt hơn mô hình 5 biến (giả ngẫu nhiên của McFadden R-squared = 0.131), mà tôi đã chính thức kiểm tra bằng cách sử dụng phép thử tỷ lệ log , cho biết có sự khác biệt đáng kể ( p <0,001) giữa hai mô hình và do đó mô hình 6 biến được ưu tiên cho tập dữ liệu đã cho.


1
Tài liệu tham khảo mà bạn tìm thấy trong đó tuyên bố McFadden's R2 trong khoảng 0,2 - 0,4 là phù hợp "rất tốt"?
Chris

Btw ... đây là một tài liệu tham khảo và liên kết đến bài báo McFadden ban đầu nơi anh ta xác định biện pháp giả R2 của mình. McFadden, D. (1974) Phân tích logit có điều kiện về hành vi lựa chọn định tính. 105-142 tại P. Zarembka (chủ biên), Biên giới trong Kinh tế lượng. Báo chí học thuật. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris

1
Cảm ơn các tài liệu tham khảo. Dường như rất nhiều tác phẩm của McFadden có thể được tìm thấy trên trang web Berkeley của anh ấy. Dưới đây là một liên kết đến toàn bộ cuốn sách bạn trích dẫn ở trên: elsa.ber siêu.edu / users / mcfadden / Travel.html Tất cả các chương xuất hiện dưới dạng PDF. Hình vuông Rho (giả McFadden của R2) được đề cập trong Chương 5. Trang 122 trở đi (xem phương trình 5.33 và biểu đồ tiếp theo ngay sau đó). Tôi không thấy bất kỳ đề cập nào về 0,2-0,4 = "mô hình VG phù hợp". Tôi sẽ tiếp tục tìm kiếm sự xuất hiện của "quy tắc ngón tay cái" này. Cảm ơn bạn đã giúp đỡ!
Chris

1
Không vấn đề gì! Tôi đánh giá cao sự tò mò và kỹ lưỡng của bạn. Cụm từ chính xác có thể được tìm thấy tại lifescaticsite.com/lsj/life1002/ , trong đó các tác giả nêu rõ "Một sự phù hợp khi sử dụng pseudo r-vuông (2) của McFadden được sử dụng để phù hợp với mô hình tổng thể. McFadden đề xuất 2 các giá trị từ 0,2 đến 0,4 nên được sử dụng để thể hiện sự phù hợp rất tốt của mô hình (Louviere et al., 2000). "
Matt Reichenbach

4
Tổ chức của tôi có một bản sao điện tử của Louviere et al (2000). "Phương pháp lựa chọn được nêu: Phân tích và ứng dụng". Nhà xuất bản Đại học Cambridge. Đây là tài liệu tham khảo mà Lee (Tạp chí Khoa học Đời sống) trích dẫn cho rho-squared trong {0.2-0.4} = "VG fit". Trên trang 55 của Louviere (liên kết với phương trình 3.32), chúng ta thấy câu trích dẫn sau: "Các giá trị của rho bình phương trong khoảng 0,2-0,4 được coi là biểu thị của sự phù hợp mô hình cực kỳ tốt. Mô phỏng của Domenich và McFadden (1975) tương đương với phạm vi này 0,7 đến 0,9 cho một hàm tuyến tính ".
Chris

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.