Đăng nhập so với liên kết căn bậc hai cho dữ liệu Poisson trong R

8

Tôi hiện đang làm việc để mô hình các trường hợp tử vong do AIDS theo thời gian bằng GLM trong R. Tôi biết rằng có hai tùy chọn có thể cho chức năng liên kết cho dữ liệu Poisson, log và căn bậc hai.

Tôi biết rằng căn bậc hai thậm chí sẽ giải quyết được các vấn đề thay đổi trong khi log cần phải làm thẳng đường cong. Nhưng, làm thế nào tôi thực sự có thể kiểm tra liên kết nào tốt hơn cho dữ liệu?

— Ellie
nguồn

2

Có thể quan tâm: Tại sao chuyển đổi căn bậc hai được khuyến nghị cho dữ liệu đếm?

— gung - Phục hồi Monica

6

Bạn đang nhầm lẫn giữa hiệu ứng chuyển đổi dữ liệu với việc sử dụng chức năng liên kết trong GLM.

$E(Y|x)$ $\exp(a+bx)$

Tuy nhiên, trong GLM, chức năng liên kết không được sử dụng để chuyển đổi dữ liệu.

Bản thân GLM có tính đến thực tế là phương sai của Poisson tăng theo giá trị trung bình; bạn không cần phải làm bất cứ điều gì về điều đó (miễn là giả định Poisson là phù hợp).

Điều duy nhất còn lại để giải thích cho mối quan hệ giữa người dự đoán và phản ứng. Hàm liên kết xác định dạng của mối quan hệ giữa giá trị trung bình có điều kiện của đáp ứng và yếu tố dự đoán.

Liên kết sqrt chủ yếu được sử dụng cho mục đích so sánh với phân tích cũ hơn trong đó một biến đổi căn bậc hai đã được sử dụng để áp dụng hồi quy bình phương tối thiểu. Bằng cách sử dụng liên kết căn bậc hai, bạn có thể phù hợp với một mô hình có cùng chức năng nhưng với ước tính ML đầy đủ của các tham số.

Nếu bạn đang cân nhắc sử dụng nhật ký vì thực tế là nó đã tuyến tính hóa mối quan hệ, đó chắc chắn là liên kết bạn nên sử dụng. (Nói chung, liên kết nhật ký cũng dễ hiểu hơn.)

Nếu bạn thực sự muốn giải trí cả hai chức năng liên kết và chọn giữa chúng, bạn có thể so sánh AIC; hoặc bạn có thể so sánh độ lệch (tất nhiên có những lựa chọn khác, nhưng cả hai đều được cung cấp trong đầu ra tóm tắt và chúng đo "phù hợp"; bất cứ khi nào bạn nhìn vào, chúng sẽ dẫn đến cùng một kết luận). Tuy nhiên, trừ khi có một số dấu hiệu rõ ràng rằng liên kết nhật ký không đầy đủ hoặc một số lý do khác để giải trí liên kết căn bậc hai, tôi chỉ đơn giản là thực hiện liên kết nhật ký.

Lưu ý rằng nếu bạn sử dụng dữ liệu để chọn giữa các hàm liên kết, các kiểm tra giả thuyết tiếp theo về các hệ số được ước tính từ cùng một điểm dữ liệu sẽ không còn thuộc tính danh nghĩa của chúng (sai số chuẩn sẽ quá nhỏ, khoảng tin cậy quá hẹp , giá trị p không có nghĩa tương tự ...)

(Nhân tiện, đó không phải là hai tùy chọn chức năng liên kết duy nhất cho Poisson trong R, vì cũng có liên kết nhận dạng ... và đó là không tính những gì bạn có thể làm nếu bạn chuyển sang phù hợp với một nửa)

Cảnh báo: nếu bạn lập mô hình một biến theo thời gian, bạn nên nhớ rằng (a) có khả năng phụ thuộc thời gian vào số đếm của bạn, theo cách có thể vô hiệu hóa các giả định độc lập GLM (ví dụ: các lỗi tiêu chuẩn của bạn có thể dễ dàng sai); và (b) khái niệm hồi quy giả có thể dễ dàng áp dụng cho hồi quy Poisson như một hồi quy thông thường (vì vậy ước tính tham số của bạn cũng có thể dễ dàng bị sai / sai).

Tôi nghi ngờ rằng loạt của bạn sẽ được cố định, vì vậy đây là khả năng một mối đe dọa nghiêm trọng đối với kết luận của bạn - nhưng hồi quy giả mạo có thể là một vấn đề thậm chí với hàng loạt văn phòng phẩm (một điểm mà không được hiểu rất rộng rãi, tôi đưa ra một tài liệu tham khảo cho rằng trong này Trả lời câu trả lời nào cũng minh họa hiện tượng có tương quan trong trường hợp không cố định với một ví dụ tung đồng xu đơn giản).

— Glen_b -Reinstate Monica
nguồn

1

Nếu bạn đang lắp GLiM với phân phối Poisson được chỉ định cho phản hồi, bạn không phải cố gắng ổn định phương sai có điều kiện của phản hồi. Điều đó được tự động chăm sóc cho bạn. Poisson GLiM không giả sử phương sai không đổi theo nghĩa mô hình hồi quy tuyến tính (Gaussian) thông thường.

Tác dụng của hàm liên kết sẽ là thay đổi hình dạng của đường hồi quy trong không gian dữ liệu gốc và do đó thay đổi cách hiểu của các hệ số. Nếu bạn lo lắng về việc hình dạng / số lượng độ cong sẽ phù hợp, bạn luôn có thể sử dụng splines. Vì vậy, bạn có thể muốn chọn liên kết nào sẽ được sử dụng dựa trên tính dễ hiểu của các hệ số của bạn. Theo tôi, điều đó thường sẽ ủng hộ liên kết nhật ký.

Nếu bạn chỉ muốn sử dụng đồng biến của mình mà không có hàm spline và bạn muốn xác định hình dạng nào phù hợp hơn với dữ liệu của mình, bạn có thể sử dụng xác thực chéo và kiểm tra lỗi dự đoán mẫu.

Mặc dù được viết trong bối cảnh của GLiM nhị thức (không phải Poisson), bạn vẫn có thể quan tâm đến việc đọc câu trả lời của tôi ở đây: Sự khác biệt giữa mô hình logit và probit .

— gung - Phục hồi Monica
nguồn