Tôi đang làm việc với một tập dữ liệu lớn (bí mật, vì vậy tôi không thể chia sẻ quá nhiều),
Có thể tạo một tập dữ liệu nhỏ có một số đặc điểm chung của dữ liệu thực mà không có tên biến cũng như bất kỳ giá trị thực nào.
và đi đến kết luận một hồi quy nhị thức âm sẽ là cần thiết. Tôi chưa bao giờ thực hiện hồi quy glm trước đây và tôi không thể tìm thấy bất kỳ thông tin rõ ràng nào về các giả định. Chúng có giống với MLR không?
Rõ ràng không! Bạn đã biết rằng bạn cho rằng phản hồi là nhị thức có điều kiện, không phải là điều kiện bình thường. ( Một số giả định được chia sẻ. Độc lập chẳng hạn.)
Hãy để tôi nói về GLM nói chung trước tiên.
GLM bao gồm nhiều hồi quy nhưng khái quát theo nhiều cách:
1) phân phối có điều kiện của đáp ứng (biến phụ thuộc) là từ họ hàm mũ , bao gồm Poisson, nhị thức, gamma, bình thường và nhiều phân phối khác.
2) phản ứng trung bình có liên quan đến các yếu tố dự đoán (biến độc lập) thông qua chức năng liên kết . Mỗi họ phân phối có một chức năng liên kết chính tắc liên quan - ví dụ trong trường hợp Poisson, liên kết chính là nhật ký . Các liên kết chính hầu như luôn luôn là mặc định, nhưng trong hầu hết các phần mềm, bạn thường có một số lựa chọn trong mỗi lựa chọn phân phối. Đối với nhị thức, liên kết chính là logit (công cụ dự đoán tuyến tính đang mô hình hóa , tỷ lệ cược thành công hoặc "1") và đối với Gamma là chính tắc liên kết là nghịch đảo - nhưng trong cả hai trường hợp, các hàm liên kết khác thường được sử dụng.đăng nhập( p1 - p)
Vì vậy, nếu phản hồi của bạn là và các yếu tố dự đoán của bạn là và , với hồi quy Poisson với liên kết nhật ký, bạn có thể có mô tả về mức độ trung bình của có liên quan đến :YX1X2YX
E ( Ytôi) = μtôi
đăng nhậpμtôi= ηtôi ( được gọi là 'dự đoán tuyến tính' và ở đây hàm liên kết là , ký hiệu thường được sử dụng để biểu thị chức năng liên kết)ηđăng nhậpg
ηtôi= β0+ β1x1 tôi+ β2x2 tôi
3) phương sai của đáp ứng không phải là hằng số, nhưng hoạt động thông qua hàm phương sai (một hàm của giá trị trung bình, có thể nhân với một tham số tỷ lệ). Ví dụ, phương sai của Poisson bằng với giá trị trung bình, trong khi đối với gamma, nó tỷ lệ với bình phương trung bình. (Các phân phối gần đúng cho phép một số mức độ tách rời chức năng Phương sai khỏi phân phối giả định)
-
Vậy những giả định nào giống với những gì bạn nhớ từ MLR?
Độc lập vẫn còn đó.
Homoskedasticity không còn được giả định; phương sai rõ ràng là một hàm của giá trị trung bình và do đó nói chung thay đổi theo các yếu tố dự đoán (vì vậy trong khi mô hình nói chung là không đồng nhất, thì dị thể có dạng cụ thể).
Độ tuyến tính: Mô hình vẫn tuyến tính trong các tham số (tức là bộ dự báo tuyến tính là ), nhưng đáp ứng dự kiến không liên quan tuyến tính với chúng (trừ khi bạn sử dụng chức năng liên kết nhận dạng!).Xβ
Sự phân phối của phản hồi về cơ bản là tổng quát hơn
Việc giải thích đầu ra theo nhiều cách khá giống nhau; bạn vẫn có thể xem xét các hệ số ước tính được chia cho các lỗi tiêu chuẩn của chúng và giải thích chúng tương tự nhau (chúng không có triệu chứng - một phép thử Wald z - nhưng mọi người dường như vẫn gọi chúng là các tỷ số t, ngay cả khi không có lý thuyết nào tạo ra họ phân phối nói chung).t
So sánh giữa các mô hình lồng nhau (thông qua các thiết lập giống như "bảng anova") có một chút khác biệt, nhưng tương tự nhau (liên quan đến các thử nghiệm chi bình phương không triệu chứng). Nếu bạn cảm thấy thoải mái với AIC và BIC, những điều này có thể được tính toán.
Các loại màn hình chẩn đoán tương tự thường được sử dụng, nhưng có thể khó diễn giải hơn.
Phần lớn trực giác hồi quy tuyến tính của bạn sẽ tiếp tục nếu bạn giữ sự khác biệt trong tâm trí.
Đây là một ví dụ về những điều bạn có thể làm với một glm mà bạn thực sự không thể làm với hồi quy tuyến tính (thực sự, hầu hết mọi người sẽ sử dụng hồi quy phi tuyến cho việc này, nhưng GLM thì dễ dàng và đẹp hơn cho nó) trong trường hợp bình thường - là bình thường , được mô hình hóa như một hàm của :Yx
E ( Y) = điểm kinh nghiệm( η) = điểm kinh nghiệm( Xβ) = điểm kinh nghiệm( β0+ β1x ) (nghĩa là liên kết nhật ký)
Var ( Y) = = σ2
Đó là, một hình vuông nhỏ nhất phù hợp với mối quan hệ theo cấp số nhân giữa và .Yx
Tôi có thể chuyển đổi các biến theo cùng một cách không (tôi đã phát hiện ra việc biến đổi biến phụ thuộc là một cuộc gọi xấu vì nó cần phải là một số tự nhiên)?
Bạn (thường) không muốn chuyển đổi phản hồi (DV). Đôi khi bạn có thể muốn biến đổi các yếu tố dự đoán (IV) để đạt được độ tuyến tính của yếu tố dự báo tuyến tính.
Tôi đã xác định rằng phân phối nhị thức âm sẽ giúp phân tán quá mức trong dữ liệu của tôi (phương sai là khoảng năm 2000, giá trị trung bình là 48).
Vâng, nó có thể đối phó với quá mức. Nhưng nâng niu mang không nhầm lẫn giữa điều kiện phân tán với vô điều kiện phân tán.
Một cách tiếp cận phổ biến khác - nếu một chút ít hơn và do đó ít thỏa mãn với tâm trí của tôi - là hồi quy quasi-Poisson (hồi quy Poisson quá mức).
Với nhị thức âm, nó thuộc họ hàm mũ nếu bạn chỉ định một trong các tham số cụ thể của nó (cách nó thường được xác định lại cho GLMS ít nhất). Một số gói sẽ phù hợp với nó nếu bạn chỉ định tham số, các gói khác sẽ bao bọc ước tính ML của tham số đó (nói thông qua khả năng hồ sơ) xung quanh một thói quen GLM, tự động hóa quy trình. Một số sẽ giới hạn bạn trong một bộ phân phối nhỏ hơn; bạn không nói phần mềm nào bạn có thể sử dụng nên rất khó để nói nhiều hơn ở đó.
Tôi nghĩ thông thường liên kết log có xu hướng được sử dụng với hồi quy nhị thức âm.
Có một số tài liệu ở cấp độ giới thiệu (có thể tìm thấy qua google) dẫn qua một số phân tích dữ liệu cơ bản của Poisson GLM và sau đó phân tích dữ liệu nhị phân âm tính, nhưng trước tiên bạn có thể xem xét một cuốn sách về GLM và có thể thực hiện hồi quy Poisson một chút chỉ để làm quen với điều đó.