Hồi quy tuyến tính so với hồi quy logistic


21

Bất cứ ai cũng có thể cung cấp một danh sách rõ ràng về sự khác biệt giữa hồi quy log-linear và hồi quy logistic? Tôi hiểu trước đây là một mô hình hồi quy tuyến tính đơn giản nhưng tôi không rõ khi nào nên sử dụng từng mô hình.

Câu trả lời:


19

Tên là một chút sai lầm. Các mô hình log-linear thường được sử dụng để phân tích dữ liệu theo định dạng bảng dự phòng. Mặc dù "dữ liệu đếm" không nhất thiết phải tuân theo phân phối Poisson, nhưng mô hình log-linear thực sự chỉ là mô hình hồi quy Poisson. Do đó, tên "log" (mô hình hồi quy Poisson chứa hàm liên kết "log").

"Biến kết quả được chuyển đổi nhật ký" trong mô hình hồi quy tuyến tính không phải là mô hình log-linear, (cũng không phải là biến kết quả lũy thừa, như "log-linear" sẽ đề xuất). Cả mô hình tuyến tính và hồi quy logistic đều là ví dụ của mô hình tuyến tính tổng quát , trong đó mối quan hệ giữa bộ dự báo tuyến tính (như tỷ lệ cược log hoặc tỷ lệ log) là tuyến tính trong các biến mô hình. Chúng không phải là "mô hình hồi quy tuyến tính đơn giản" (hoặc các mô hình sử dụng định dạng ).E[Y|X]= =một+bX

Bất chấp tất cả, có thể có được suy luận tương đương về mối liên hệ giữa các biến phân loại bằng cách sử dụng hồi quy logistic và hồi quy poisson. Chỉ là trong mô hình poisson, các biến kết quả được xử lý như hiệp phương sai. Thật thú vị, bạn có thể thiết lập một số mô hình mượn thông tin giữa các nhóm theo cách tương tự như mô hình tỷ lệ cược tỷ lệ, nhưng điều này không được hiểu rõ và hiếm khi được sử dụng.

Các ví dụ về thu được suy luận tương đương trong các mô hình hồi quy logistic và poisson bằng R được minh họa dưới đây:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Thật thú vị, thiếu sự liên kết giữa và có nghĩa là tỷ lệ chênh lệch là 1 trong mô hình hồi quy logistic và tương tự, thuật ngữ tương tác là 0 trong mô hình loglinear. Cung cấp cho bạn ý tưởng về cách chúng tôi đo lường tính độc lập có điều kiện trong dữ liệu bảng dự phòng.yx


Một lần nữa, điều này có thể cho thấy sự thiếu kinh nghiệm của tôi, nhưng bạn có thể cung cấp một định nghĩa cho các bảng dự phòng không? Nó cũng có thể giúp những người khác gặp phải câu hỏi này.
dùng38133

Các bảng dự phòng là (thường) các bảng 2 chiều liệt kê tất cả các phản ứng có thể có của hai biến và hiển thị tần suất quan sát trong các ô. Chẳng hạn, bạn có thể có bảng dự phòng 2 trên 2 cho thấy tình trạng hút thuốc (không bao giờ so với hiện tại) và ung thư (phổi ca so với không ung thư) mà bạn sẽ sử dụng để ước tính mối liên quan giữa hút thuốc và nguy cơ ung thư.
AdamO

15

Tôi không nghĩ rằng tôi sẽ gọi một trong số họ là "mô hình hồi quy tuyến tính đơn giản". Mặc dù có thể sử dụng các phép biến đổi log hoặc logit làm hàm liên kết cho một số mô hình khác nhau, nhưng chúng thường được hiểu là để chỉ các mô hình cụ thể. Ví dụ: "hồi quy logistic" được hiểu là một mô hình tuyến tính tổng quát (GLiM) cho các tình huống trong đó biến trả lời được phân phối dưới dạng nhị thức . Ngoài ra, "hồi quy log-linear" thường được hiểu là Poisson GLiM được áp dụng cho các bảng dự phòng đa chiều. Nói cách khác, ngoài thực tế là cả hai mô hình hồi quy / GLiM, tôi không thấy chúng giống nhau nhất thiết (có một số kết nối giữa chúng, như @AdamO chỉ ra, nhưng cách sử dụng điển hình khá khác biệt). Sự khác biệt lớn nhất là hồi quy logistic giả định rằng phản hồi được phân phối dưới dạng hồi quy nhị thức và log-linear giả định rằng phản hồi được phân phối dưới dạng Poisson . Trong thực tế, hồi quy log-linear khá khác so với hầu hết các mô hình hồi quy ở chỗ biến phản ứng hoàn toàn không phải là một trong các biến của bạn (theo nghĩa thông thường), mà là tập hợp các tần số được liên kết với các tổ hợp biến của bạn trong bảng dự phòng đa chiều.


Cảm ơn! Tôi đoán sau đó câu hỏi tiếp theo tự nhiên của tôi, một câu hỏi có thể cho thấy sự thiếu kinh nghiệm của tôi, là về cách xác định phân phối đúng để mô hình hóa một vấn đề nhất định là gì. Tôi nghĩ rằng tôi sẽ cần đọc thêm một chút để đảm bảo tôi luôn có thể chọn chính xác.
dùng38133

2
{0, 1}

0

Để làm rõ, hồi quy logistic "nhị phân" có một biến phụ thuộc với hai kết quả. Tôi hiểu rằng cũng có tùy chọn sử dụng hồi quy logistic "đa cực" nếu biến phụ thuộc, biến kết quả của bạn có nhiều hơn 2 loại. Xem tại đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.