Giải thích đầu ra của R cho hồi quy nhị thức


38

Tôi khá mới về điều này với các bài kiểm tra dữ liệu nhị thức, nhưng cần phải thực hiện một và bây giờ tôi không biết làm thế nào để diễn giải kết quả. Biến y, biến trả lời, là nhị thức và các yếu tố giải thích là liên tục. Đây là những gì tôi nhận được khi tóm tắt kết quả:

glm(formula = leaves.presence ~ Area, family = binomial, data = n)

Deviance Residuals: 
Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Có một số điều tôi không nhận được ở đây, điều này thực sự nói gì:

                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
leaves.presence        0.0008166  0.0002472   3.303 0.000956 ***

Và AIC và Số lần lặp điểm của Fisher có nghĩa là gì?

> fit
Call:  glm(formula = Lövförekomst ~ Areal, family = binomial, data = n)

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166  

Degrees of Freedom: 12237 Total (i.e. Null);  12236 Residual
(314 observations deleted due to missingness)
Null Deviance:      16660 
Residual Deviance: 16650        AIC: 16650

Và đây là những gì có nghĩa là:

Coefficients:
(Intercept)        Areal  
-0.3877697    0.0008166 

6
Vì câu hỏi của bạn rất rộng - "làm thế nào để người ta diễn giải hồi quy nhị thức?" - Tôi sẽ đề nghị chọn một văn bản giới thiệu về chủ đề này. Giới thiệu về phân tích dữ liệu phân loại của Agresti's rất dễ tiếp cận.
Sycorax nói Phục hồi lại

2
Điều này có thể quá rộng để trả lời ở đây; như @ user777 đã nói, việc tư vấn một văn bản tốt có thể theo thứ tự. Agresti là tốt, tôi đồng ý. Hosmer & Lemeshow cũng tốt. Nếu bạn muốn một cái gì đó ngắn gọn và miễn phí (cảnh báo tự cắm) hãy xem phần giới thiệu của tôi về hồi quy logistic nhưng nó có thể quá cơ bản cho nhu cầu của bạn.
Peter Flom - Tái lập Monica

Ok, cảm ơn bạn đã trả lời nhanh, tôi sẽ dùng thử Agresti và xem nó có giúp ích không :)
user40116

4
Tôi không nghĩ câu hỏi này quá rộng để có thể trả lời. Dường như với tôi, về cơ bản, đây là phiên bản hồi quy logistic của phiên dịch-rs-lm-output , vốn luôn được xem xét theo chủ đề.
gung - Phục hồi Monica

1
Tôi với @gung về vấn đề này, nếu câu hỏi là về việc diễn giải những gì R phun ra trên màn hình. Trường hợp có sự mơ hồ là "nghĩa là" nghĩa là gì? Nếu OP vui mừng khi được thông báo rằng các hệ số là giá trị ước tính của mô hình với các giá trị theo tỷ lệ của tỷ lệ cược log, thì Q này là OK. Nếu OP không hài lòng với điều này và yêu cầu giải thích về ý nghĩa của chúng về dữ liệu, mô hình, v.v. thì đó sẽ là một câu hỏi quá rộng cho rằng đây chỉ là một trong vài câu hỏi.
Phục hồi Monica - G. Simpson

Câu trả lời:


74

Những gì bạn đã làm là hồi quy logistic . Điều này có thể được thực hiện trong cơ bản bất kỳ phần mềm thống kê nào và đầu ra sẽ tương tự (ít nhất là về nội dung, mặc dù cách trình bày có thể khác nhau). Có một hướng dẫn về hồi quy logistic với R trên trang web trợ giúp thống kê tuyệt vời của UCLA. Nếu bạn không quen với điều này, câu trả lời của tôi ở đây: sự khác biệt giữa các mô hình logit và probit , có thể giúp bạn hiểu về những gì LR nói về (mặc dù nó được viết trong một ngữ cảnh khác).

Bạn dường như có hai mô hình được trình bày, tôi sẽ chủ yếu tập trung vào mô hình hàng đầu. Ngoài ra, dường như đã xảy ra lỗi khi sao chép và dán mô hình hoặc đầu ra, vì vậy tôi sẽ trao đổi leaves.presencevới Areađầu ra để làm cho nó phù hợp với mô hình. Đây là mô hình mà tôi đang đề cập đến (chú ý rằng tôi đã thêm (link="logit"), được ngụ ý bởi family=binomial; see ? Glm? Family ):

glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)

Chúng ta hãy đi qua đầu ra này (lưu ý rằng tôi đã thay đổi tên của biến trong dòng thứ hai bên dưới Coefficients):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 
(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Giống như có phần dư trong hồi quy tuyến tính (OLS), có thể có phần dư trong hồi quy logistic và các mô hình tuyến tính tổng quát khác. Chúng phức tạp hơn khi biến phản ứng không liên tục, tuy nhiên. GLiM có thể có năm loại dư khác nhau, nhưng tiêu chuẩn được liệt kê là phần dư lệch. ( Sự lạc lối và lệch dư được nâng cao hơn, vì vậy tôi sẽ ngắn gọn ở đây, nếu cuộc thảo luận này là hơi khó để làm theo, tôi sẽ không lo lắng quá nhiều, bạn có thể bỏ qua nó):

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.213  -1.044  -1.023   1.312   1.344  

Đối với mọi điểm dữ liệu được sử dụng trong mô hình của bạn, độ lệch được liên kết với điểm đó được tính toán. Đã làm điều này cho từng điểm, bạn có một tập hợp các phần dư như vậy và đầu ra ở trên chỉ đơn giản là một mô tả không tham số về phân phối của chúng.


Tiếp theo chúng ta thấy thông tin về hiệp phương sai, đó là điều mà mọi người thường quan tâm chủ yếu:

Coefficients:
                        Estimate Std. Error z value Pr(>|z|) 
(Intercept)           -0.3877697  0.0282178 -13.742  < 2e-16 ***
Area                   0.0008166  0.0002472   3.303 0.000956 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

AreaEstimateleaves.presenceArealeaves.presenceArea0.) Trong cột tiếp theo, chúng tôi thấy lỗi tiêu chuẩn liên quan đến các ước tính này. Nghĩa là, chúng là một ước tính về mức độ trung bình, các ước tính này sẽ bị trả lại nếu nghiên cứu được chạy lại giống hệt nhau, nhưng với dữ liệu mới, lặp đi lặp lại. (Nếu bạn không quen với ý tưởng về lỗi tiêu chuẩn, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: cách giải thích các lỗi tiêu chuẩn hệ số trong hồi quy tuyến tính .) Nếu chúng ta chia ước lượng cho lỗi tiêu chuẩn, chúng tôi sẽ lấy một thương số được cho là thường được phân phối với các mẫu đủ lớn. Giá trị này được liệt kê dưới z value. Dưới đây Pr(>|z|)được liệt kê các giá trị p hai đuôitương ứng với các giá trị z trong phân phối chuẩn thông thường. Cuối cùng, có các ngôi sao có ý nghĩa truyền thống (và lưu ý khóa bên dưới bảng hệ số).


Các Dispersiondòng được in theo mặc định với GLiMs, nhưng không thêm nhiều thông tin ở đây (nó là quan trọng hơn với các mô hình số, ví dụ). Chúng ta có thể bỏ qua điều này.


Cuối cùng, chúng tôi nhận được thông tin về mô hình và mức độ phù hợp của nó:

    Null deviance: 16662  on 12237  degrees of freedom
Residual deviance: 16651  on 12236  degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4

Các dòng về missingnessthường là, um, mất tích. Nó xuất hiện ở đây vì bạn đã có 314 quan sát mà một trong hai leaves.presence, Areahoặc cả hai bị mất tích. Những quan sát một phần đã không được sử dụng để phù hợp với mô hình.

Residual devianceNull devianceEstimateAreaF

Các AIC là một biện pháp tốt lành của sự phù hợp mà sẽ đưa vào tài khoản các khả năng của mô hình để phù hợp với dữ liệu. Điều này rất hữu ích khi so sánh hai mô hình trong đó một mô hình có thể phù hợp hơn nhưng có lẽ chỉ nhờ linh hoạt hơn và do đó có thể phù hợp hơn với bất kỳ dữ liệu nào. Vì bạn chỉ có một mô hình, điều này là không chính xác.

Việc tham khảo phải Fisher scoring iterationslàm với cách ước tính mô hình. Một mô hình tuyến tính có thể phù hợp bằng cách giải các phương trình dạng đóng. Thật không may, điều đó không thể được thực hiện với hầu hết các GLiM bao gồm cả hồi quy logistic. Thay vào đó, một cách tiếp cận lặp lại ( thuật toán Newton-Raphson theo mặc định) được sử dụng. Một cách lỏng lẻo, mô hình phù hợp dựa trên dự đoán về những ước tính có thể là gì. Thuật toán sau đó nhìn xung quanh để xem liệu sự phù hợp sẽ được cải thiện bằng cách sử dụng các ước tính khác nhau thay thế. Nếu vậy, nó di chuyển theo hướng đó (giả sử sử dụng giá trị cao hơn cho ước tính) và sau đó khớp lại với mô hình. Thuật toán dừng lại khi nó không nhận thấy rằng việc di chuyển lại sẽ mang lại nhiều cải tiến bổ sung. Dòng này cho bạn biết có bao nhiêu lần lặp lại trước khi quá trình dừng lại và đưa ra kết quả.



Về mô hình thứ hai và đầu ra mà bạn liệt kê, đây chỉ là một cách khác để hiển thị kết quả. Cụ thể, những

Coefficients:
(Intercept)       Areal  
-0.3877697    0.0008166

là cùng một loại ước tính được thảo luận ở trên (mặc dù từ một mô hình khác và được trình bày với ít thông tin bổ sung hơn).


1

Gọi : Đây chỉ là cuộc gọi mà bạn đã thực hiện cho chức năng. Nó sẽ là cùng một mã chính xác mà bạn đã nhập vào R. Điều này có thể hữu ích để xem nếu bạn thực hiện bất kỳ lỗi chính tả nào.

(Deviance) Residuals: Bạn có thể bỏ qua những thứ này để hồi quy logistic. Đối với hồi quy Poisson hoặc hồi quy tuyến tính, bạn muốn các giá trị này được phân phối nhiều hơn hoặc ít hơn (đó là điều tương tự mà hai lô chẩn đoán hàng đầu đang kiểm tra). Bạn có thể kiểm tra điều này bằng cách xem giá trị tuyệt đối của 1Q và 3Q có gần (ish) với nhau không và nếu trung vị gần bằng 0. Giá trị trung bình không được hiển thị vì luôn luôn là 0. Nếu bất kỳ giá trị nào trong số này đều siêu bạn có thể có một số sai lệch kỳ lạ trong dữ liệu của bạn. (Điều này cũng sẽ hiển thị trong các ô chẩn đoán của bạn!)

Hệ số : Đây là thịt của đầu ra.

  • Chặn : Đối với hồi quy Poisson và hồi quy tuyến tính, đây là đầu ra dự đoán khi tất cả các đầu vào của chúng là 0. Đối với hồi quy logistic, giá trị này sẽ càng xa 0 thì sự khác biệt lớn hơn giữa số lượng quan sát trong mỗi lớp .. Lỗi tiêu chuẩn thể hiện làm thế nào chúng ta không chắc chắn về điều này (thấp hơn là tốt hơn). Trong trường hợp này, vì khả năng chặn của chúng tôi cách xa 0 và lỗi tiêu chuẩn của chúng tôi nhỏ hơn nhiều so với đánh chặn, chúng tôi có thể chắc chắn rằng một trong các lớp của chúng tôi (thất bại hoặc không thất bại) có nhiều quan sát hơn trong đó. (Trong trường hợp này, "không thất bại", rất may!)

  • Nhiều đầu vào khác nhau (mỗi đầu vào sẽ nằm trên một dòng khác nhau): Ước tính này thể hiện mức độ chúng tôi nghĩ đầu ra sẽ thay đổi mỗi khi chúng tôi tăng đầu vào này thêm 1. Ước tính càng lớn, tác động của biến đầu vào này đến đầu ra càng lớn. Các lỗi tiêu chuẩn là làm thế nào chắc chắn về chúng tôi. Thông thường, chúng ta có thể khá chắc chắn rằng một đầu vào có nhiều thông tin là lỗi tiêu chuẩn là 1/10 của ước tính. Vì vậy, trong trường hợp này, chúng tôi khá chắc chắn rằng việc đánh chặn là quan trọng.

  • Dấu hiệu. Mã : Đây là một chìa khóa cho tầm quan trọng của từng: đầu vào và đánh chặn. Điều này chỉ đúng nếu bạn chỉ phù hợp với một mô hình cho dữ liệu của bạn. (Nói cách khác, chúng tuyệt vời cho dữ liệu thử nghiệm nếu bạn từ đầu mà biến bạn quan tâm và không cung cấp thông tin cho phân tích dữ liệu hoặc lựa chọn biến.)

    Đợi đã, tại sao chúng ta không thể sử dụng ý nghĩa thống kê? Bạn có thể, tôi thường không khuyên bạn nên nó. Trong khoa học dữ liệu, bạn thường sẽ điều chỉnh nhiều mô hình bằng cách sử dụng cùng một bộ dữ liệu để thử và chọn mô hình tốt nhất. Nếu bạn từng chạy nhiều hơn một thử nghiệm về ý nghĩa thống kê trên cùng một tập dữ liệu, bạn cần phải xác nhận giá trị p của mình để bù cho nó. Bạn có thể nghĩ về nó theo cách này: nếu bạn quyết định rằng bạn sẽ chấp nhận kết quả dưới p = 0,05, về cơ bản, bạn đang nói rằng bạn ổn với việc sai một trong hai mươi lần. Tuy nhiên, nếu sau đó bạn thực hiện năm bài kiểm tra và với mỗi bài kiểm tra thì có 1/20 khả năng bạn sẽ sai, giờ bạn có 1/4 khả năng đã sai ở ít nhất một trong những bài kiểm tra đó ... nhưng bạn không biết cái nào Bạn có thể sửa cho nó (bằng cách nhân giá trị p, bạn sẽ chấp nhận mức độ đáng kể theo số lượng thử nghiệm bạn sẽ thực hiện) nhưng trong thực tế tôi thấy việc tránh sử dụng giá trị p hoàn toàn dễ dàng hơn.

(Tham số phân tán cho họ nhị thức được lấy là 1): Bạn sẽ chỉ thấy điều này đối với hồi quy Poisson và nhị thức (logistic). Nó chỉ cho bạn biết rằng đã có một tham số tỷ lệ bổ sung được thêm vào để giúp phù hợp với mô hình. Bạn có thể bỏ qua nó.

Độ lệch không: Độ lệch null cho chúng ta biết chúng ta có thể dự đoán đầu ra của mình tốt như thế nào chỉ bằng cách sử dụng chặn. Nhỏ hơn là tốt hơn.

Độ lệch dư: Độ lệch dư cho chúng ta biết chúng ta có thể dự đoán đầu ra của mình tốt như thế nào bằng cách sử dụng chặn và đầu vào của chúng ta. Nhỏ hơn là tốt hơn. Sự khác biệt giữa độ lệch null và độ lệch dư càng lớn thì các biến đầu vào của chúng ta càng hữu ích để dự đoán biến đầu ra.

AIC: AIC là "tiêu chí thông tin của Akaike" và đó là ước tính mức độ mô hình của bạn mô tả các mẫu trong dữ liệu của bạn. Nó chủ yếu được sử dụng để so sánh các mô hình được đào tạo trên cùng một bộ dữ liệu. Nếu bạn cần chọn giữa các mô hình, mô hình có AIC thấp hơn sẽ thực hiện công việc tốt hơn mô tả phương sai trong dữ liệu.

Số lần lặp điểm của Fisher: Đây chỉ là thước đo thời gian cần thiết để phù hợp với mô hình của bạn. Bạn có thể yên tâm bỏ qua nó.

Tôi đề nghị tổng số này để tìm hiểu thêm. https://www.kaggle.com/rtatman/regression-challenge-day-5

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.