Biện pháp giả nào - là biện pháp báo cáo cho hồi quy logistic (Cox & Snell hoặc Nagelkerke)?


55

Tôi có SPSSđầu ra cho một mô hình hồi quy logistic. Đầu ra báo cáo hai biện pháp cho mô hình phù hợp, Cox & SnellNagelkerke.

Vì vậy, theo nguyên tắc thông thường, biện pháp nào bạn sẽ báo cáo là phù hợp với mô hình?R²

Hoặc, chỉ số nào trong số các chỉ số phù hợp này là chỉ số thường được báo cáo trong các tạp chí?


Một số thông tin cơ bản: Hồi quy cố gắng dự đoán sự hiện diện hay vắng mặt của một con chim (capercaillie) từ một số biến môi trường (ví dụ: độ dốc, độ che phủ thực vật, ...). Thật không may, con chim không xuất hiện rất thường xuyên (35 lần đánh tới 468 lần bỏ lỡ) nên hồi quy thực hiện khá kém. Cox & Snell là .09, Nagelkerke, .23.

Môn học là khoa học môi trường hoặc sinh thái.


3
Các tuyệt vời UCLA stats giúp trang web có một trang tuyệt vời giải thích khác nhau pseudo- R2 's và cách thức họ có liên quan đến nhau.
gung - Phục hồi Monica

Dưới đây là hai liên kết thảo luận về một thuật toán phi tham số chính xác nhằm tối đa hóa độ chính xác của các mô hình hồi quy logistic. Nếu bạn sử dụng phương pháp này với dữ liệu của mình, nó sẽ tăng hiệu suất phân loại của mô hình hồi quy logistic của bạn khi áp dụng cho mẫu. Ví dụ 1: onlinel Library.wiley.com/doi/10.1111/j.1540-5915.1991.tb01912.x/ Ví dụ 2: epm.sagepub.com/content/54/1/73.abab
user31256

Câu trả lời:


74

Thông thường tôi sẽ không báo cáo . Hosmer và Lemeshow, trong sách giáo khoa Áp dụng hồi quy logistic (Ed 2), giải thích lý do:R2

Nói chung, [ các biện pháp ] dựa trên các so sánh khác nhau của các giá trị dự đoán từ mô hình được trang bị với các mô hình từ [mô hình cơ sở], mô hình không có dữ liệu hoặc chỉ chặn và do đó, không đánh giá mức độ tốt của -Phù hợp. Chúng tôi nghĩ rằng một thước đo thực sự của sự phù hợp là dựa trên việc so sánh các giá trị được quan sát với các giá trị dự đoán từ mô hình được trang bị.R2

[Tại p. 164.]

Liên quan đến các phiên bản ML khác nhau của , chỉ số "giả ", họ đề cập rằng nó không được "khuyến nghị sử dụng thường xuyên, vì nó không dễ giải thích bằng trực giác", nhưng họ cảm thấy bắt buộc phải mô tả nó vì khác nhau gói phần mềm báo cáo nó.R2R2

Họ kết thúc cuộc thảo luận này bằng văn bản,

... các giá trị thấp trong hồi quy logistic là tiêu chuẩn và điều này gây ra vấn đề khi báo cáo giá trị của chúng cho đối tượng quen với việc xem các giá trị hồi quy tuyến tính. ... Do đó [tranh luận bằng cách tham chiếu đến các ví dụ đang chạy trong văn bản] chúng tôi không khuyên bạn nên xuất bản thường xuyên các giá trị với kết quả từ các mô hình logistic được trang bị. Tuy nhiên, chúng có thể hữu ích trong trạng thái xây dựng mô hình như một thống kê để đánh giá các mô hình cạnh tranh.R2R2

[Tại p. 167.]

Kinh nghiệm của tôi với một số mô hình logistic lớn (100k đến 300k hồ sơ, 100 - 300 biến giải thích) đã chính xác như mô tả của H & L. Tôi có thể đạt được tương đối cao với dữ liệu của mình, lên tới khoảng 0,40. Chúng tương ứng với tỷ lệ lỗi phân loại từ 3% đến 15% (âm tính giả và dương tính giả, cân bằng, như được xác nhận bằng cách sử dụng bộ dữ liệu giữ 50%). Như H & L gợi ý, tôi đã phải dành nhiều thời gian để không cho phép khách hàng (một chuyên gia tư vấn tinh vi, người quen thuộc với ) liên quan đến và khiến anh ta tập trung vào những gì quan trọng trong phân tích (lỗi phân loại giá). Tôi có thể nhiệt tình đề nghị mô tả kết quả phân tích của bạn mà không cần tham khảo , điều này có nhiều khả năng gây hiểu lầm hơn là không.R2R2R2R2


1
(+1) Ban đầu tôi đã nghĩ đến việc mở rộng phản hồi của mình (điều đó xuất hiện ngay sau câu trả lời của bạn), nhưng chắc chắn câu trả lời của bạn là tự túc.
chl

cảm ơn vì điều này, hữu ích cho một dự án tôi đang làm hiện tại - và hoàn toàn có ý nghĩa.
Brandon Bertelsen

1
@whuber: Tôi cũng có xu hướng hấp dẫn về classif chính xác. tỷ lệ, nhưng tôi đã thấy nhiều tài liệu tham khảo trong sách giáo khoa và trang web cảnh báo các nhà phân tích không nên tin tưởng họ và nhấn mạnh rằng giả giả, mặc dù hạn chế của nó, là một số liệu công bằng hơn. Tôi thường đọc một cái gì đó có vẻ như ở một mức độ nào đó trong các phân tích của riêng tôi: rằng với việc thêm một giả dự đoán nhất định có thể tăng lên (và các số liệu khác sẽ chỉ ra lợi ích từ việc bổ sung) trong khi tỷ lệ phân loại chính xác không thành, và người ta không nên tin vào cái sau. Bạn đã từng nghĩ điều này chưa?
rolando2

4
@ rolando2 Vâng, tôi có. Điều này đặt ra câu hỏi về mức giả bao nhiêu - phải tăng lên để biện minh cho việc đưa vào các biến. Tôi nghi ngờ "tỷ lệ phân loại chính xác" của bạn có thể đề cập đến tỷ lệ trong mẫu , tất nhiên là sai lệch. Nếu đó là chính xác, thì những gì bạn đọc chỉ so sánh hai thống kê kém hơn. Các hiện của mẫu tỷ lệ còn lâu mới hữu ích hơn một chỉ so với pseudo- . R2R2
whuber

1
+1. Ngoài ra, để mở rộng một phần tinh tế trong câu trả lời của bạn, bạn đề cập đến tỷ lệ lỗi phân loại , số nhiều và không nên nhầm lẫn với độ chính xác . Có nhiều loại tính toán khác nhau có thể xuất phát từ ma trận nhầm lẫn - độ chính xác , tỷ lệ dương tính giả , độ chính xác , v.v. - và loại nào chúng tôi quan tâm phụ thuộc vào ứng dụng. Ngoài ra, bạn phân biệt mẫu ngoài mẫu , khác với xác nhận chéo , nhưng đôi khi nhầm lẫn với nó.
Wayne

27

Cả hai chỉ số đều là thước đo sức mạnh của sự liên kết (nghĩa là liệu có bất kỳ yếu tố dự đoán nào có liên quan đến kết quả hay không, như đối với thử nghiệm LR) và có thể được sử dụng để định lượng khả năng dự đoán hoặc hiệu suất mô hình. Một công cụ dự đoán duy nhất có thể có ảnh hưởng đáng kể đến kết quả nhưng nó có thể không nhất thiết hữu ích cho việc dự đoán đáp ứng riêng lẻ , do đó cần phải đánh giá toàn bộ hiệu suất của mô hình (mô hình null). Nagelkerke rất hữu ích vì nó có giá trị tối đa là 1.0, như Srikant nói. Đây chỉ là phiên bản chuẩn hóa của tính từ tỷ lệ khả năng,R2R2RLR2=1exp(LR/n), có mối liên hệ với thống kê Wald cho sự liên kết tổng thể, như đề xuất ban đầu của Cox và Snell. Các chỉ số khác về khả năng dự đoán là điểm Brier, chỉ số C (xác suất phù hợp hoặc khu vực ROC) hoặc Som 'D, hai chỉ số sau cung cấp một biện pháp phân biệt dự đoán tốt hơn.

Các giả định duy nhất được thực hiện trong hồi quy logistic là tính tuyến tínhtính gây nghiện (+ tính độc lập). Mặc dù nhiều bài kiểm tra mức độ phù hợp toàn cầu (như bài kiểm tra của Hosmer & Lemeshow , nhưng hãy xem nhận xét của tôi về @onestop) đã được đề xuất, nhưng nhìn chung họ thiếu sức mạnh. Để đánh giá mức độ phù hợp của mô hình, tốt hơn là dựa vào các tiêu chí trực quan (ước tính phân tầng, làm mịn không theo tỷ lệ) giúp phát hiện sự khởi hành cục bộ hoặc toàn cầu giữa các kết quả được dự đoán và quan sát (ví dụ như phi tuyến tính hoặc tương tác), và điều này chủ yếu được nêu chi tiết trong RMS củaellell Bản tin . Về một chủ đề liên quan (kiểm tra hiệu chuẩn), Steyerberg ( Mô hình dự đoán lâm sàngχ2, 2009) chỉ ra cách tiếp cận tương tự để đánh giá sự thỏa thuận giữa các kết quả được quan sát và xác suất dự đoán:

Hiệu chuẩn có liên quan đến mức độ phù hợp, liên quan đến khả năng của một mô hình phù hợp với một tập hợp dữ liệu nhất định. Thông thường, không có thử nghiệm độ phù hợp duy nhất nào có sức mạnh tốt để chống lại tất cả các loại thiếu phù hợp của mô hình dự đoán. Các ví dụ về sự không phù hợp bị bỏ sót phi tuyến tính, tương tác hoặc chức năng liên kết không phù hợp giữa yếu tố dự đoán tuyến tính và kết quả. Mức độ phù hợp có thể được kiểm tra với thống kê . (trang 274)χ2

Ông cũng đề nghị dựa vào sự khác biệt tuyệt đối giữa các kết quả được quan sát trơn tru và các xác suất dự đoán bằng trực quan, hoặc với cái gọi là thống kê E củaellell.

Thông tin chi tiết có thể được tìm thấy trong cuốn sách của Gurell, Chiến lược mô hình hồi quy (trang 203-205, 230-244, 247-249). Đối với một cuộc thảo luận gần đây, xem thêm

Steyerberg, EW, Vickers, AJ, Cook, NR, Gerds, T, Gonen, M, Obuchowski, N, Pencina, MJ, và Kattan, MW (2010). Đánh giá hiệu suất của các mô hình dự đoán, Khung cho các biện pháp truyền thống và tiểu thuyết . Dịch tễ học , 21 (1) , 128-138.


bạn có thể giải thích về sự khác biệt giữa "lòng tốt của sự phù hợp" và sức mạnh của sự liên kết hoặc khả năng dự đoán?
Andy W

@Andy Cảm ơn bạn đã chỉ ra điều đó. Sau đó tôi nhận ra rằng câu đầu tiên của tôi nghe không hay lắm. Tôi sẽ cập nhật câu trả lời của tôi, xin vui lòng cho tôi biết nếu điều này ok với bạn.
chl

Cảm ơn đã cập nhật và nó làm rõ sự khác biệt.
Andy W

21

Tôi đã nghĩ rằng vấn đề chính với bất kỳ loại biện pháp cho hồi quy logistic là bạn đang xử lý một mô hình có giá trị nhiễu đã biết. Điều này không giống như hồi quy tuyến tính tiêu chuẩn, trong đó mức độ nhiễu thường được coi là không xác định. Để chúng ta có thể viết hàm mật độ xác suất glm là:R2

f(yi|μi,ϕ)=exp(yib(μi)c(μi)ϕ+d(yi,ϕ))

Trong đó Là các hàm đã biết và cho hàm liên kết nghịch . Nếu chúng ta xác định phần dư sai lệch GLM thông thường làb(.), c(.), d(.;.)μi=g1(xiTβ)g1(.)

di2=2ϕ(log[f(yi|μi=yi,ϕ)]log[f(yi|μi=μ^i,ϕ)])=2ϕ[yib(yi)yib(μ^i)c(yi)+c(μ^i)]
Chúng ta có (thông qua tỷ lệ khả năng chi bình phương, )χ2=1ϕi=1Ndi2

E(i=1Ndi2)=E(ϕχ2)(Np)ϕ

Trong đó là thứ nguyên của . Đối với hồi quy logistic, chúng ta có , được biết đến. Vì vậy, chúng ta có thể sử dụng điều này để quyết định mức độ dư nhất định là "chấp nhận được" hoặc "hợp lý". Điều này thường không thể được thực hiện cho hồi quy OLS (trừ khi bạn có thông tin trước về nhiễu). Cụ thể, chúng tôi hy vọng mỗi độ lệch còn lại là khoảng . Quá nhiều và có khả năng thiếu một hiệu ứng quan trọng trong mô hình (không phù hợp); quá nhiều và có khả năng là có các hiệu ứng dư thừa hoặc giả trong mô hình (quá khớp). (những điều này cũng có thể có nghĩa là mô hình sai).pβϕ=11di21di21

Bây giờ điều này có nghĩa là vấn đề đối với giả là nó không tính đến việc mức độ biến đổi nhị thức là có thể dự đoán được (với điều kiện cấu trúc lỗi nhị thức không bị nghi ngờ). Do đó, mặc dù Nagelkerke nằm trong khoảng từ đến , nhưng nó vẫn không được chia tỷ lệ đúng. Ngoài ra, tôi không thể hiểu tại sao chúng được gọi là giả nếu chúng không bằng thông thường khi bạn lắp "GLM" với liên kết nhận dạng và lỗi thông thường. Ví dụ, bình phương cox-snell R bình phương cho lỗi thông thường (sử dụng ước lượng phương sai REML) được đưa ra bởi:R201R2R2

RCS2=1exp(NpNROLS21ROLS2)

Mà chắc chắn trông lạ.

Tôi nghĩ rằng biện pháp "Mức độ phù hợp" tốt hơn là tổng của phần dư sai lệch, . Điều này chủ yếu là vì chúng tôi có một mục tiêu để nhắm đến.χ2


+1 Giải thích rõ ràng về các vấn đề được gợi ý trong các bình luận sau câu trả lời của Srikant .
whuber

Cho rằng một GLM nhị thức sẽ phù hợp bằng cách sử dụng các bình phương tối thiểu lặp lại, tại sao người ta có thể đo lường chất lượng của sự phù hợp mà không báo cáo R2 về bình phương nhỏ nhất có trọng số của lần lặp IRLS cuối cùng mà GLM phù hợp? Như trong stats.stackexchange.com/questions/412580/ trên ?
Tom Wenseleers

16

Tôi tìm thấy bài viết ngắn của Tue Tjur "Các hệ số xác định trong các mô hình hồi quy logistic - Một đề xuất mới: Hệ số phân biệt đối xử" (2009, Thống kê Mỹ ) về các đề xuất khác nhau về hệ số xác định trong các mô hình logistic khá sáng tỏ. Anh ấy làm tốt công việc nêu bật những ưu và nhược điểm - và tất nhiên đưa ra một định nghĩa mới. Rất nhiều đề nghị (mặc dù bản thân tôi không có yêu thích).


1
Cảm ơn đã chỉ ra giấy đó; bằng cách nào đó tôi đã bỏ lỡ nó (và nó xuất hiện khi tôi đang ở giữa một dự án hồi quy logistic lớn!).
whuber

3
Đối với bản ghi, định nghĩa mới này là , là giá trị dự đoán trung bình cho phản hồi trừ giá trị dự đoán trung bình cho phản hồi. Nó có thể dao động từ đến . Tjur không loại bỏ Nagelkerke giả , nhưng cho thấy nó thiếu "sự hấp dẫn trực quan" mà yêu thích . D=π^¯1π^¯01001R2D
whuber

8

Tôi cũng sẽ nói 'không phải ai trong số họ', vì vậy tôi đã nêu lên câu trả lời của người làm bánh.

Cùng với việc chỉ trích R ^ 2, Hosmer & Lemeshow đã đề xuất một biện pháp thay thế phù hợp cho sự hồi quy logistic đôi khi hữu ích. Điều này dựa trên việc chia dữ liệu thành (giả sử) 10 nhóm có kích thước bằng nhau (hoặc càng gần càng tốt) bằng cách sắp xếp theo xác suất dự đoán (hoặc tương đương, dự đoán tuyến tính) sau đó so sánh số lượng phản ứng tích cực được quan sát trong mỗi nhóm và thực hiện một bài kiểm tra chi bình phương. 'Kiểm tra mức độ phù hợp của Hosmer-Lemeshow' này được triển khai trong hầu hết các gói phần mềm thống kê.


3
Thử nghiệm GoF ban đầu của HL không mạnh lắm vì nó phụ thuộc vào việc phân loại thang đo dự đoán liên tục thành một số nhóm tùy ý; H & L đề xuất xem xét dịch ngược, nhưng rõ ràng nó phụ thuộc vào kích thước mẫu và trong một số trường hợp (ví dụ: mô hình IRT), bạn thường có rất ít người ở một hoặc cả hai đầu của thang đo sao cho các điểm cắt không đều nhau. Xem So sánh các kiểm tra mức độ phù hợp cho mô hình hồi quy logistic, Stat. Med. 1997 16 (9): 965, j.mp/aV2W6Iχ2
chl

Cảm ơn chi, đó là một giới thiệu hữu ích, mặc dù liên kết j.mp của bạn đã đưa tôi đến dấu nhắc đăng nhập BiblioInserm. Đây là một liên kết dựa trên doi: dx.doi.org/10.1002/,
onestop

Xin lỗi vì liên kết không chính xác ... Tôi dường như nhớ Designgói của Frank Harrell có tính năng kiểm tra df H & L 1 thay thế.
chl

3

Tôi thích Nagelkerke vì mô hình này phù hợp đạt 1 khi mô hình phù hợp hoàn hảo mang đến cho người đọc cảm giác về mô hình của bạn từ mức độ phù hợp hoàn hảo. Cox & Shell không đạt được 1 cho phù hợp với mô hình hoàn hảo và do đó việc giải thích giá trị 0,09 khó hơn một chút. Xem url này để biết thêm thông tin về Pseudo RSquared để được giải thích về các loại phù hợp khác nhau.


8
Một "sự phù hợp hoàn hảo" cho đến nay có thể đạt được trong bất kỳ hồi quy logistic thực tế nào mà dường như không công bằng khi sử dụng nó như một tài liệu tham khảo hoặc một tiêu chuẩn.
whuber

1
@whuber Đúng nhưng bạn có thể sử dụng tiêu chuẩn để so sánh hiệu suất tương đối của hai mô hình cạnh tranh. Điểm của bạn thấp R ^ 2 trong câu trả lời của bạn và ý nghĩa của nó là những điểm tốt nhưng nếu bạn (ví dụ, người đánh giá yêu cầu nó v.v.) sử dụng một số dạng R ^ 2 thì nên sử dụng Nagelkerke.

1
@Skridant Vâng, vẫn còn vấn đề của những người đánh giá muốn thấy và Bonferroni chỉnh sửa ở mọi nơi ...R2
chl

@Srikant, @chl: Một bài đọc hoài nghi về chủ đề này sẽ đề nghị chỉ chọn R ^ 2 lớn nhất trong số tất cả các báo cáo phần mềm ;-).
whuber

2
@chl Cung cấp đẩy lùi cho người đánh giá / khách hàng là điều tất nhiên là cần thiết nhưng đôi khi chúng ta cũng phải thực dụng. Nếu độc giả không hiểu sai R ^ 2 thấp vì thiếu hiệu suất mô hình đầy đủ thì các vấn đề được nêu ra bởi @whuber sẽ được giảm nhẹ ở một mức độ nào đó.

3

Bất chấp những lập luận chống lại việc sử dụng giả bình phương, một số người sẽ vì nhiều lý do muốn tiếp tục sử dụng chúng ít nhất tại một số thời điểm nhất định. Những gì tôi đã nội tâm hóa từ các bài đọc của mình (và tôi xin lỗi tôi không thể cung cấp trích dẫn tại thời điểm này) là

  • nếu cả C & S và Nag. dưới 0,5, C & S sẽ là thước đo tốt hơn;
    nếu cả hai đều ở trên .5, Nag. sẽ; và
    nếu họ đứng .5, punt.

Ngoài ra, một công thức có kết quả thường nằm giữa hai điều này, được đề cập bởi Scott Menard trong Phân tích hồi quy logistic ứng dụng (Sage), là

[-2LL0 - (-2LL1)]/-2LL0.

Điều này được ký hiệu là "L" trong biểu đồ dưới đây.

nhập mô tả hình ảnh ở đây


Hình ảnh này cho thấy gì (trục ngang tượng trưng cho cái gì)? Ngoài ra, công thức cuối cùng (trông giống như một thống kê tỷ lệ khả năng tỷ lệ) khác với Nagelkerke chính xác như thế nào? R2
chl

Phân tích #: Tôi đã thử các phân tích khác nhau với các bộ dữ liệu khác nhau. Không có công thức Nagelkerke tiện dụng nhưng tôi cá là nó có sẵn.
rolando2

Paul Allison bao gồm các công thức Nagelkerke, mà là một Cox & Snell thức trở lên được điều chỉnh, tại statisticalhorizons.com/2013/02 . Sau khi đọc blog đó, và nói chung trong 2-3 năm kể từ khi hầu hết các cuộc thảo luận này diễn ra, tôi đã bị thuyết phục hơn rằng những đánh giá thấp của Cox & Snell đã giải thích phương sai và rằng tôi nên lấy trung bình kết quả của C & S và Nagelkerke.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.