Họ của GLM đại diện cho phân phối của biến trả lời hoặc phần dư?


13

Tôi đã thảo luận với một số thành viên phòng thí nghiệm về vấn đề này và chúng tôi đã đi đến một số nguồn nhưng vẫn chưa có câu trả lời:

Khi chúng ta nói một GLM có một họ poisson, giả sử chúng ta đang nói về sự phân phối của phần dư hoặc biến phản ứng?

Điểm tranh chấp

  1. Đọc sách này Điều đó khẳng định rằng các giả định của GLM là Sự độc lập thống kê của các quan sát, các đặc điểm kỹ thuật chính xác của các liên kết và phương sai chức năng (mà làm cho tôi suy nghĩ về dư, không phải là biến phản ứng), quy mô chính xác của phép đo cho biến phản ứng và thiếu ảnh hưởng không đáng có của các điểm duy nhất

  2. Câu hỏi này có hai câu trả lời với hai điểm, mỗi câu xuất hiện đầu tiên nói về phần dư và câu thứ hai về biến trả lời, đó là gì?

  3. Trong blogpost này , khi nói về các giả định, họ nói rằng " Sự phân phối của phần dư có thể là khác, ví dụ, nhị thức "

  4. Ở đầu chương này , họ nói rằng cấu trúc của các lỗi phải là Poisson, nhưng phần dư chắc chắn sẽ có giá trị dương và âm, làm sao đó có thể là Poisson?

  5. Câu hỏi này , thường được trích dẫn trong các câu hỏi như câu hỏi này để làm cho chúng trùng lặp không có câu trả lời được chấp nhận

  6. Câu hỏi này các câu trả lời nói về phản ứng và không dư

  7. Trong mô tả khóa học này từ Đại học Pensilvania, họ nói về biến trả lời trong các giả định, chứ không phải phần dư

Câu trả lời:


18

Đối số gia đình cho các mô hình glm xác định họ phân phối cho phân phối có điều kiện của đáp ứng , không phải của phần dư (ngoại trừ quasi -models).

Nhìn vào cách này: Đối với hồi quy tuyến tính thông thường, chúng ta có thể viết các mô hình như

YiNormal(β0+xiTβ,σ2).
Điều này có nghĩa là đáp ứng Yi có phân phối bình thường (với phương sai không đổi), nhưng kỳ vọng là khác nhau đối với mỗi i . Do đó, phân phối có điều kiện của phản hồi là phân phối bình thường (nhưng là phân phối khác nhau cho mỗi i ). Một cách khác để viết mô hình này là
Yi=β0+xiTβ+ϵi
trong đó mỗiϵi được phân phốiNormal(0,σ2) .

Vì vậy, đối với gia đình phân phối bình thường, cả hai mô tả đều đúng (khi được giải thích chính xác). Điều này là do đối với mô hình tuyến tính bình thường, chúng ta có sự phân tách rõ ràng trong mô hình của phần hệ thống ( β0+xiTβ ) và phần nhiễu ( ϵi ) được thêm vào một cách đơn giản. Nhưng đối với các chức năng gia đình khác, sự tách biệt này là không thể ! Thậm chí không có một định nghĩa rõ ràng về ý nghĩa còn lại (và vì lý do đó, nhiều định nghĩa khác nhau về "dư").

Vì vậy, đối với tất cả các gia đình khác, chúng tôi sử dụng một định nghĩa theo kiểu phương trình hiển thị đầu tiên ở trên. Đó là, phân phối có điều kiện của các phản ứng. Vì vậy, không, phần dư (bất cứ điều gì được xác định) trong hồi quy Poisson không có phân phối Poisson.


13

Ngoài câu trả lời xuất sắc của Kjetil, tôi muốn thêm một số ví dụ cụ thể để giúp làm rõ ý nghĩa của phân phối có điều kiện , có thể là một chút khái niệm khó nắm bắt.

Giả sử bạn đã lấy một mẫu ngẫu nhiên 100 con cá từ một hồ nước và bạn quan tâm xem tuổi của cá ảnh hưởng đến một số biến số kết quả như thế nào:

  1. Trọng lượng cá (Trọng lượng);
  2. Có hay không con cá dài hơn 30cm;
  3. Số lượng vảy cá.

Biến kết quả đầu tiên là liên tục, biến thứ hai là nhị phân (0 = cá KHÔNG dài hơn 30 cm; 1 = cá IS dài hơn 30 cm) và biến thứ ba là biến đếm.

Hồi quy tuyến tính cơ bản

Tuổi tác ảnh hưởng đến cân nặng như thế nào? Bạn sẽ xây dựng một mô hình hồi quy tuyến tính đơn giản có dạng:

Weight=β0+β1Age+ϵ

ϵσβ0+β1Age

Hồi quy nhị phân đơn giản

Tuổi tác ảnh hưởng đến việc cá có dài hơn 30cm hay không? Bạn sẽ xây dựng một mô hình hồi quy logistic nhị phân đơn giản của biểu mẫu:

log(p1p)=β0+β1Age

pβ0+β1Agepp(1p)

Hồi quy Poisson đơn giản

Tuổi tác ảnh hưởng đến số lượng vảy cá như thế nào? Bạn sẽ xây dựng một mô hình hồi quy Poisson đơn giản có dạng:

log(μ)=β0+β1Age

μβ0+β1Age

Tóm lại, một phân phối có điều kiện thể hiện phân phối các giá trị kết quả cho các giá trị cụ thể của (các) biến dự đoán được bao gồm trong mô hình . Mỗi loại mô hình hồi quy được minh họa ở trên áp đặt một số giả định phân phối nhất định vào phân phối có điều kiện của biến kết quả cho Tuổi. Dựa trên các giả định phân phối này, mô hình tiến hành hình thành cách (1) giá trị trung bình của phân phối có điều kiện thay đổi theo hàm tuổi (hồi quy tuyến tính đơn giản), (2) giá trị trung bình biến đổi logit của phân phối có điều kiện thay đổi theo hàm của tuổi (hồi quy logistic nhị phân đơn giản) hoặc (3) giá trị trung bình chuyển đổi log của phân phối có điều kiện thay đổi theo chức năng của tuổi.

Đối với mỗi loại mô hình, người ta có thể định nghĩa các phần dư tương ứng cho mục đích kiểm tra mô hình. Cụ thể, phần dư Pearson và phần tử lệch có thể được định nghĩa cho mô hình hồi quy logistic và Poisson.


2
Câu trả lời TUYỆT VỜI. Cám ơn hai bạn. Tôi chưa bao giờ nhận ra rằng phần dư "thực tế" không bao giờ thực sự rõ ràng trong khung GLM chung giống như trong trường hợp phân phối bình thường.
mlofton

1
@mlofton: Cảm ơn bạn vì những lời tốt đẹp của bạn. Một câu hỏi xuất sắc mời câu trả lời xuất sắc. Tất cả chúng ta đều được hưởng lợi từ sự trao đổi kiến ​​thức này.
Isabella Ghement

4
Tôi đã sử dụng GLM một thời gian dài (trong một hoặc hai năm như 10 năm trước) và đó luôn là sự nhầm lẫn của tôi nhưng tôi không bao giờ biết đó là sự nhầm lẫn của mình cho đến khi nó được hỏi rõ ràng và được giải thích rõ ràng như vậy. Vì vậy, đôi khi nhầm lẫn có nghĩa là thậm chí không thể hỏi đúng câu hỏi. Cảm ơn một lần nữa.
mlofton

1
Bạn hoàn toàn đúng! Nhầm lẫn là một phần của việc học - khi chúng ta vật lộn với một cái gì đó trong một thời gian, chúng ta có khả năng hiểu nó tốt hơn khi chúng ta đột nhiên vấp phải một lời giải thích rõ ràng.
Isabella Ghement

1
Tôi rất vui và cảm ơn bạn vì câu trả lời tuyệt vời của bạn @IsabellaGhement
Patrick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.