Những gì bạn đã làm là hồi quy logistic . Điều này có thể được thực hiện trong cơ bản bất kỳ phần mềm thống kê nào và đầu ra sẽ tương tự (ít nhất là về nội dung, mặc dù cách trình bày có thể khác nhau). Có một hướng dẫn về hồi quy logistic với R trên trang web trợ giúp thống kê tuyệt vời của UCLA. Nếu bạn không quen với điều này, câu trả lời của tôi ở đây: sự khác biệt giữa các mô hình logit và probit , có thể giúp bạn hiểu về những gì LR nói về (mặc dù nó được viết trong một ngữ cảnh khác).
Bạn dường như có hai mô hình được trình bày, tôi sẽ chủ yếu tập trung vào mô hình hàng đầu. Ngoài ra, dường như đã xảy ra lỗi khi sao chép và dán mô hình hoặc đầu ra, vì vậy tôi sẽ trao đổi leaves.presence
với Area
đầu ra để làm cho nó phù hợp với mô hình. Đây là mô hình mà tôi đang đề cập đến (chú ý rằng tôi đã thêm (link="logit")
, được ngụ ý bởi family=binomial
; see ? Glm và ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Chúng ta hãy đi qua đầu ra này (lưu ý rằng tôi đã thay đổi tên của biến trong dòng thứ hai bên dưới Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Giống như có phần dư trong hồi quy tuyến tính (OLS), có thể có phần dư trong hồi quy logistic và các mô hình tuyến tính tổng quát khác. Chúng phức tạp hơn khi biến phản ứng không liên tục, tuy nhiên. GLiM có thể có năm loại dư khác nhau, nhưng tiêu chuẩn được liệt kê là phần dư lệch. ( Sự lạc lối và lệch dư được nâng cao hơn, vì vậy tôi sẽ ngắn gọn ở đây, nếu cuộc thảo luận này là hơi khó để làm theo, tôi sẽ không lo lắng quá nhiều, bạn có thể bỏ qua nó):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Đối với mọi điểm dữ liệu được sử dụng trong mô hình của bạn, độ lệch được liên kết với điểm đó được tính toán. Đã làm điều này cho từng điểm, bạn có một tập hợp các phần dư như vậy và đầu ra ở trên chỉ đơn giản là một mô tả không tham số về phân phối của chúng.
Tiếp theo chúng ta thấy thông tin về hiệp phương sai, đó là điều mà mọi người thường quan tâm chủ yếu:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0.) Trong cột tiếp theo, chúng tôi thấy lỗi tiêu chuẩn liên quan đến các ước tính này. Nghĩa là, chúng là một ước tính về mức độ trung bình, các ước tính này sẽ bị trả lại nếu nghiên cứu được chạy lại giống hệt nhau, nhưng với dữ liệu mới, lặp đi lặp lại. (Nếu bạn không quen với ý tưởng về lỗi tiêu chuẩn, nó có thể giúp bạn đọc câu trả lời của tôi ở đây: cách giải thích các lỗi tiêu chuẩn hệ số trong hồi quy tuyến tính .) Nếu chúng ta chia ước lượng cho lỗi tiêu chuẩn, chúng tôi sẽ lấy một thương số được cho là thường được phân phối với các mẫu đủ lớn. Giá trị này được liệt kê dưới z value
. Dưới đây Pr(>|z|)
được liệt kê các giá trị p hai đuôitương ứng với các giá trị z trong phân phối chuẩn thông thường. Cuối cùng, có các ngôi sao có ý nghĩa truyền thống (và lưu ý khóa bên dưới bảng hệ số).
Các Dispersion
dòng được in theo mặc định với GLiMs, nhưng không thêm nhiều thông tin ở đây (nó là quan trọng hơn với các mô hình số, ví dụ). Chúng ta có thể bỏ qua điều này.
Cuối cùng, chúng tôi nhận được thông tin về mô hình và mức độ phù hợp của nó:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Các dòng về missingness
thường là, um, mất tích. Nó xuất hiện ở đây vì bạn đã có 314 quan sát mà một trong hai leaves.presence
, Area
hoặc cả hai bị mất tích. Những quan sát một phần đã không được sử dụng để phù hợp với mô hình.
Residual deviance
Null deviance
Estimate
Area
F
Các AIC là một biện pháp tốt lành của sự phù hợp mà sẽ đưa vào tài khoản các khả năng của mô hình để phù hợp với dữ liệu. Điều này rất hữu ích khi so sánh hai mô hình trong đó một mô hình có thể phù hợp hơn nhưng có lẽ chỉ nhờ linh hoạt hơn và do đó có thể phù hợp hơn với bất kỳ dữ liệu nào. Vì bạn chỉ có một mô hình, điều này là không chính xác.
Việc tham khảo phải Fisher scoring iterations
làm với cách ước tính mô hình. Một mô hình tuyến tính có thể phù hợp bằng cách giải các phương trình dạng đóng. Thật không may, điều đó không thể được thực hiện với hầu hết các GLiM bao gồm cả hồi quy logistic. Thay vào đó, một cách tiếp cận lặp lại ( thuật toán Newton-Raphson theo mặc định) được sử dụng. Một cách lỏng lẻo, mô hình phù hợp dựa trên dự đoán về những ước tính có thể là gì. Thuật toán sau đó nhìn xung quanh để xem liệu sự phù hợp sẽ được cải thiện bằng cách sử dụng các ước tính khác nhau thay thế. Nếu vậy, nó di chuyển theo hướng đó (giả sử sử dụng giá trị cao hơn cho ước tính) và sau đó khớp lại với mô hình. Thuật toán dừng lại khi nó không nhận thấy rằng việc di chuyển lại sẽ mang lại nhiều cải tiến bổ sung. Dòng này cho bạn biết có bao nhiêu lần lặp lại trước khi quá trình dừng lại và đưa ra kết quả.
Về mô hình thứ hai và đầu ra mà bạn liệt kê, đây chỉ là một cách khác để hiển thị kết quả. Cụ thể, những
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
là cùng một loại ước tính được thảo luận ở trên (mặc dù từ một mô hình khác và được trình bày với ít thông tin bổ sung hơn).