Khi nào nên sử dụng gamma GLM?


88

Phân phối gamma có thể có một phạm vi hình dạng khá rộng và được liên kết giữa giá trị trung bình và phương sai thông qua hai tham số của nó, có vẻ phù hợp để xử lý sự không đồng nhất trong dữ liệu không âm, theo cách mà OLS biến đổi log có thể sẽ không thực hiện mà không có WLS hoặc một số loại công cụ ước tính VCV phù hợp không đồng nhất.

Tôi sẽ sử dụng nó nhiều hơn cho mô hình dữ liệu không âm thường quy, nhưng tôi không biết ai khác sử dụng nó, tôi đã không học nó trong một lớp học chính thức và tài liệu mà tôi đọc không bao giờ sử dụng nó. Bất cứ khi nào tôi Google một cái gì đó như "sử dụng thực tế của gamma GLM", tôi sẽ đưa ra lời khuyên để sử dụng nó cho thời gian chờ đợi giữa các sự kiện Poisson. ĐỒNG Ý. Nhưng điều đó có vẻ hạn chế và không thể được sử dụng duy nhất.

Ngây thơ, có vẻ như gamma GLM là một phương tiện tương đối giả định để mô hình hóa dữ liệu không âm, do tính linh hoạt của gamma. Tất nhiên bạn cần kiểm tra các lô QQ và các lô còn lại như bất kỳ mô hình nào. Nhưng có bất kỳ nhược điểm nghiêm trọng nào mà tôi đang thiếu? Ngoài giao tiếp với những người "chỉ chạy OLS"?

Câu trả lời:


57

Gamma có một tài sản được chia sẻ bởi lognatural; cụ thể là khi tham số hình dạng được giữ không đổi trong khi tham số tỷ lệ thay đổi (như thường được thực hiện khi sử dụng cho các mô hình), phương sai tỷ lệ với bình phương trung bình (hệ số biến thiên không đổi).

Một cái gì đó gần đúng với điều này xảy ra khá thường xuyên với dữ liệu tài chính, hoặc thực sự, với nhiều loại dữ liệu khác.

Do đó, nó thường phù hợp với dữ liệu liên tục, tích cực, lệch phải và trong đó phương sai gần như không đổi trên thang đo log, mặc dù có một số lựa chọn nổi tiếng khác (và thường có sẵn) tính chất.

Hơn nữa, thông thường để phù hợp với một liên kết nhật ký với gamma GLM (việc sử dụng liên kết tự nhiên tương đối hiếm hơn). Điều làm cho nó hơi khác so với việc khớp một mô hình tuyến tính bình thường với các bản ghi của dữ liệu là ở thang đo log, gamma bị lệch sang các mức độ khác nhau trong khi bình thường (log của lognatural) là đối xứng. Điều này làm cho nó (gamma) hữu ích trong nhiều tình huống.

Tôi đã thấy những ứng dụng thực tế cho các GLM gamma được thảo luận (với các ví dụ dữ liệu thực) trong (ngoài đỉnh đầu của tôi) de Jong & HellerFrees cũng như nhiều bài báo; Tôi cũng đã thấy các ứng dụng trong các lĩnh vực khác. Ồ, và nếu tôi nhớ đúng, MASS của Venables và Ripley sử dụng nó khi vắng mặt ở trường (dữ liệu quine; Chỉnh sửa: hóa ra nó thực sự trong Thống kê tuân thủ MASS , xem p11, trang 14 của pdf, nó có liên kết nhật ký nhưng có một sự thay đổi nhỏ của DV). Uh, và McCullagh và Nelder đã làm một ví dụ đông máu, mặc dù có lẽ đó có thể là liên kết tự nhiên.

Sau đó, có cuốn sách của Faraway nơi ông đã làm một ví dụ bảo hiểm xe hơi và một ví dụ về dữ liệu sản xuất chất bán dẫn.

Có một số ưu điểm và một số nhược điểm khi chọn một trong hai tùy chọn. Vì những ngày này cả hai đều dễ dàng để phù hợp; nói chung là vấn đề chọn cái gì phù hợp nhất.

Đó là xa lựa chọn duy nhất; ví dụ, cũng có các GLM Gauss nghịch đảo, có đuôi xiên / nặng hơn (và thậm chí nhiều dị hơn) so với gamma hoặc lognatural.

Đối với nhược điểm, khó thực hiện các khoảng dự đoán. Một số màn hình chẩn đoán khó diễn giải hơn. Tính toán các kỳ vọng về thang đo của bộ dự báo tuyến tính (nói chung là thang đo log) khó hơn so với mô hình lognatural tương đương. Các xét nghiệm giả thuyết và khoảng thời gian nói chung là không có triệu chứng. Đây thường là những vấn đề tương đối nhỏ.

Nó có một số lợi thế so với hồi quy lognatural log-link (lấy nhật ký và phù hợp với mô hình hồi quy tuyến tính thông thường); một là dự đoán có nghĩa là dễ dàng.


3
Nên là "Gamma" hay "gamma"? Chúng tôi biết nó không được đặt tên cho một người. Tôi đã thấy chữ "g" thường xuyên hơn nhiều. Rõ ràng phân phối được đặt tên cho chức năng, quay trở lại thế kỷ 18.
Nick Cox

2
Các ký hiệu là lý do duy nhất tôi đã nhìn thấy cho sử dụng đó. Với các bản phân phối nói chung, chữ hoa thường lặp lại họ, ví dụ Poisson hoặc Gaussian, như bạn biết. Γ
Nick Cox

@NickCox Tôi đã thay đổi nó như bạn đề xuất và tôi đã sửa "Inverse Gaussian" khi tôi ở đó.
Glen_b

1
@Gleb_b: Bạn vẫn sử dụng liên kết nhật ký với họ Gaussian nghịch đảo chứ?
Dimitriy V. Masterov

@ DimitriyV.Masterov Nó ít được sử dụng nên khó khái quát hóa. Từ những gì tôi đã thấy, việc sử dụng một liên kết nhật ký với Gaussian nghịch đảo là khá phổ biến, nhưng các liên kết khác có thể phù hợp trong một số trường hợp, chẳng hạn như liên kết nghịch.
Glen_b

28

Đó là một câu hỏi hay. Trên thực tế, tại sao mọi người không sử dụng mô hình tuyến tính tổng quát (GLM) nhiều hơn cũng là một câu hỏi hay.

Lưu ý cảnh báo: Một số người sử dụng GLM cho mô hình tuyến tính nói chung, không phải là những gì trong tâm trí ở đây.

  • Nó không phụ thuộc vào nơi bạn nhìn. Ví dụ, phân phối gamma đã phổ biến trong một số ngành khoa học môi trường trong một vài thập kỷ và do đó, mô hình hóa với các biến dự đoán cũng là một phần mở rộng tự nhiên. Có nhiều ví dụ về thủy văn và địa mạo, để đặt tên cho một số lĩnh vực mà tôi đã đi lạc.

  • Thật khó để xác định chính xác khi sử dụng nó ngoài một câu trả lời trống rỗng bất cứ khi nào nó hoạt động tốt nhất. Đưa ra dữ liệu tích cực sai lệch, tôi sẽ thường thấy mình đang thử các mô hình gamma và lognatural (trong liên kết nhật ký ngữ cảnh GLM, họ Gaussian bình thường) và chọn cách nào hoạt động tốt hơn.

  • Mô hình Gamma vẫn còn khá khó thực hiện cho đến gần đây, chắc chắn so với việc nói ghi nhật ký và áp dụng hồi quy tuyến tính, mà không cần tự viết nhiều mã. Ngay cả bây giờ, tôi đoán rằng nó không dễ dàng như nhau trên tất cả các môi trường phần mềm thống kê chính.

  • Khi giải thích những gì được sử dụng và những gì không được sử dụng, mặc dù có những ưu điểm và nhược điểm, tôi nghĩ bạn luôn tìm ra chính xác loại yếu tố bạn xác định: những gì được dạy, những gì trong văn học mà mọi người đọc, những gì mọi người nghe nói về làm việc và tại các hội nghị. Vì vậy, bạn cần một loại xã hội học nghiệp dư của khoa học để giải thích. Hầu hết mọi người dường như đi theo những con đường thẳng và hẹp trong các lĩnh vực của riêng họ. Một cách lỏng lẻo, văn học nội bộ trong bất kỳ lĩnh vực nào về kỹ thuật mô hình hóa càng lớn, những người ít có khuynh hướng trong lĩnh vực đó dường như muốn thử một cái gì đó khác biệt.


1
Làm thế nào để bạn xác định cái nào hoạt động tốt hơn?
Dimitriy V. Masterov

7
Tôi xem xét khả năng, bình phương R (bất chấp mọi người nói gì), khoảng tin cậy xung quanh ước tính tham số, lô quan sát so với trang bị, dư so với trang bị, v.v. kinh nghiệm của tôi khoa học không được hình thành tốt. Làm thế nào khác nó có thể được thực hiện?
Nick Cox

@NickCox Chúng ta nên chú ý điều gì khi phân tích quan sát so với âm mưu được trang bị, dư so với âm mưu qq được trang bị và bình thường? Tôi hiểu điều này có thể khác nhau giữa các mô hình. Bạn có thể đưa ra một ví dụ cho gamma, poisson và nhị thức âm? Cảm ơn
chiếu

@tatami Đó là một câu hỏi hoàn toàn mới, hoặc nhiều hơn, tôi nghĩ vậy. Nếu bạn hỏi nó, bạn sẽ thấy ai cắn. Tôi chưa bao giờ nghĩ rằng một mô hình gamma và một mô hình nhị thức âm là đối thủ trong bất kỳ dự án nào, nhưng đó có thể là sự thất bại của trí tưởng tượng hoặc kinh nghiệm.
Nick Cox

13

Hồi quy Gamma có trong GLM và do đó bạn có thể nhận được nhiều đại lượng hữu ích cho mục đích chẩn đoán, chẳng hạn như phần dư lệch, đòn bẩy, khoảng cách của Cook, v.v. Chúng có lẽ không đẹp bằng số lượng tương ứng cho dữ liệu chuyển đổi nhật ký.

Một điều mà hồi quy gamma tránh được so với logic bất thường là sai lệch biến đổi. Sự bất bình đẳng của Jensen ngụ ý rằng các dự đoán từ hồi quy lognatural sẽ bị sai lệch một cách có hệ thống bởi vì nó mô hình hóa dữ liệu được chuyển đổi thay vì giá trị dự kiến ​​được chuyển đổi.

Ngoài ra, hồi quy gamma (hoặc các mô hình khác cho dữ liệu không âm) có thể đối phó với một mảng dữ liệu rộng hơn so với logic bất thường do thực tế là nó có thể có chế độ ở 0, như bạn có phân phối theo cấp số nhân, nằm trong gamma gia đình, đó là điều không thể đối với sự bất thường.

Tôi đã đọc các đề xuất rằng sử dụng khả năng Poisson như một khả năng gần như ổn định hơn. Họ là liên hợp của nhau. Quasi-Poisson cũng có lợi ích đáng kể là có thể đối phó với các giá trị 0 chính xác, gây rắc rối cho cả gamma và đặc biệt là logic bất thường.


11

Theo tôi, nó giả định rằng các lỗi nằm trên một họ phân phối gamma, có cùng hình dạng và với các thang đo thay đổi theo công thức liên quan.

Nhưng rất khó để làm chẩn đoán mô hình. Lưu ý rằng cốt truyện QQ đơn giản không phù hợp ở đây, bởi vì nó có cùng phân phối, trong khi chúng ta là một nhóm phân phối với các phương sai khác nhau.

Ngây thơ, âm mưu còn lại có thể được sử dụng để thấy rằng chúng có quy mô khác nhau nhưng hình dạng giống nhau, thường có đuôi dài.

Theo kinh nghiệm của tôi, gamma GLM có thể được dùng thử cho một số vấn đề phân tán đuôi dài và nó được sử dụng rộng rãi trong các lĩnh vực bảo hiểm và môi trường, v.v. lập luận để sử dụng các phân phối gia đình khác có cùng vấn đề, như nghịch đảo Gaussian, v.v. Trong thực tế, dường như các lựa chọn như vậy phụ thuộc vào đánh giá của chuyên gia với kinh nghiệm công nghiệp. Điều này giới hạn việc sử dụng gamma GLM.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.