Làm thế nào để quyết định sử dụng glm gia đình?


17

Tôi có dữ liệu mật độ cá mà tôi đang cố gắng so sánh giữa một số kỹ thuật thu thập khác nhau, dữ liệu có rất nhiều số không và biểu đồ có vẻ phù hợp với phân phối poisson ngoại trừ, vì mật độ, nó không phải là dữ liệu nguyên. Tôi còn khá mới với GLM và đã dành vài ngày qua để tìm kiếm trực tuyến về cách phân phối nên sử dụng phân phối nào nhưng đã thất bại hoàn toàn trong việc tìm kiếm bất kỳ tài nguyên nào giúp đưa ra quyết định này. Một biểu đồ mẫu của dữ liệu trông như sau:Biểu đồ mẫu

Tôi không biết làm thế nào để quyết định chọn gia đình phù hợp để sử dụng cho GLM. Nếu bất cứ ai có bất kỳ lời khuyên hoặc có thể cung cấp cho tôi một tài nguyên tôi nên kiểm tra, đó sẽ là tuyệt vời.


1
Chính xác thì "mật độ cá" là gì? Đây có phải là một số lượng cá trên một đơn vị khối lượng hồ, ví dụ?
gung - Phục hồi Monica

Đó là số lượng cá trên một đơn vị diện tích (trong trường hợp này là mét vuông). Chúng tôi đã sử dụng các công cụ khảo sát trực quan, do đó, nó được tính bằng số lượng cá quan sát được chia cho khu vực được khảo sát bởi công cụ. Chúng tôi đã phải sử dụng mật độ để chuẩn hóa giữa các công cụ vì chúng khảo sát số lượng diện tích rất khác nhau, nếu không tôi chỉ có thể sử dụng dữ liệu đếm và gắn bó với phân phối poisson.
C. Denney

7
Lời khuyên của tôi - quay lại dữ liệu đếm và sử dụng "diện tích" làm phần bù trong mô hình có liên kết nhật ký --- nhưng tôi không biết rằng Poisson sẽ rất phù hợp (hơi khó đoán vì biểu đồ của bạn chỉ hiển thị phân phối biên chứ không phải phân phối có điều kiện mà GLM sẽ được mô hình hóa ... và trong mọi trường hợp có quá ít thùng được sử dụng nhiều). Nếu Poisson không có đuôi nặng / tăng đột biến ở mức 0, thì một nhị thức âm có thể hoạt động hoặc bạn có thể cần các mô hình thổi phồng hoặc vượt rào
Glen_b -Reinstate Monica

Tôi thực hiện mô hình Poisson cả ngày mỗi ngày và nhận xét của Glen_b là câu trả lời chính tắc.
Paul

2
Một phụ lục - Mô hình Poisson hoàn toàn hợp lý về mặt lý thuyết khi các đơn vị quan sát (trong trường hợp này, tôi đoán bạn đếm từng con cá?) Được phân phối độc lập trên lĩnh vực quan sát, giống như những hạt cát rải rác ngẫu nhiên. Theo giả định này, có thể có một số thay đổi về mật độ, nhưng vị trí của một con cá không ngụ ý gì về vị trí của các loài cá khác. Nhưng được cảnh báo giả định này có thể bị vi phạm trong thực tế vì cá làm cụm, ví dụ vào trường học, và sau đó vị trí của chúng không còn độc lập.
Paul

Câu trả lời:


8

Các gia đình GLM bao gồm một chức năng liên kết cũng như mối quan hệ phương sai trung bình. Đối với các GLM Poisson, chức năng liên kết là một bản ghi và mối quan hệ phương sai trung bình là danh tính. Bất chấp các cảnh báo mà hầu hết các phần mềm thống kê mang lại cho bạn, việc mô hình hóa mối quan hệ trong dữ liệu liên tục trong đó mối quan hệ giữa hai biến là tuyến tính trên thang đo log và phương sai tăng theo giá trị trung bình.

Về cơ bản, đây là lý do căn bản để chọn hàm liên kết và phương sai trong GLM. Tất nhiên, có một số giả định đằng sau quá trình này. Bạn có thể tạo một mô hình mạnh hơn bằng cách sử dụng khả năng chuẩn hóa (xem ?quasipoisson) hoặc lỗi tiêu chuẩn mạnh (xem gói sandwichhoặc gee).

Bạn đã lưu ý chính xác rằng nhiều mật độ là 0 trong dữ liệu của bạn. Trong các mô hình xác suất Poisson, đôi khi thích hợp lấy mẫu 0 trong dữ liệu, do đó không nhất thiết là những quan sát này dẫn đến sai lệch trong ước tính tỷ lệ của bạn.

Để kiểm tra các giả định đằng sau GLM, thường hữu ích khi xem xét các phần dư Pearson. Các tài khoản này cho mối quan hệ phương sai trung bình và cho nhà thống kê xem các quan sát cụ thể, chẳng hạn như các số 0 này, có ảnh hưởng lớn đến ước tính và kết quả hay không.


22

Mô hình tuyến tính tổng quát được định nghĩa theo thuật ngữ dự báo tuyến tính

η=Xβ

g

g(E(Y|X))=η

YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

vì vậy mô hình có thể được định nghĩa theo thuật ngữ xác suất như

Y|Xf(μ,σ2)

ffYYXYX

Mặt khác, trong thực tế, nếu bạn quan tâm đến việc xây dựng một mô hình dự đoán, bạn có thể quan tâm đến việc thử nghiệm một vài phân phối khác nhau và cuối cùng biết rằng một trong số chúng mang lại cho bạn kết quả chính xác hơn những cái khác ngay cả khi đó không phải là "phù hợp" nhất về mặt cân nhắc lý thuyết (ví dụ về lý thuyết bạn nên sử dụng Poisson, nhưng trong thực tế, hồi quy tuyến tính tiêu chuẩn hoạt động tốt nhất cho dữ liệu của bạn).


2

Đây là một câu hỏi hơi rộng, bạn đang hỏi làm thế nào để làm mô hình, và có toàn bộ sách dành riêng cho điều đó. Ví dụ: khi xử lý dữ liệu đếm, hãy xem xét các điều sau:

Ngoài việc chọn phân phối, bạn phải chọn chức năng liên kết. Với dữ liệu đếm, bạn có thể thử phân phối nhị phân hoặc nhị phân âm và chức năng liên kết nhật ký. Một lý do cho liên kết nhật ký được đưa ra ở đây: Mức độ phù hợp và mô hình nào để chọn hồi quy tuyến tính hoặc Poisson Nếu các bản vá của bạn có các khu vực rất khác nhau, có lẽ bạn nên bao gồm logarit của diện tích như một phần bù, để tính mô hình trên một đơn vị diện tích và không tuyệt đối đếm Để biết giải thích về phần bù trong hồi quy dữ liệu đếm, hãy xem Khi nào nên sử dụng phần bù trong hồi quy Poisson?

EDIT 

Câu trả lời này ban đầu được đăng cho một câu hỏi khác, được hợp nhất với câu hỏi này. Trong khi câu trả lời là chung chung, nó đã bình luận các chi tiết cụ thể của một tập dữ liệu và vấn đề không còn trong câu hỏi nữa. Câu hỏi ban đầu có thể được tìm thấy trong liên kết sau: Gia đình trong GLM - làm thế nào để chọn đúng?


Chúng tôi không thể bỏ qua các câu hỏi, @kjetil, chỉ các nhà phát triển mới có thể làm điều đó (& họ thực sự không thích). Tôi vẫn có thể truy cập Q gốc. Có một khả năng là tôi có thể sao chép nội dung vào một Q mới (sẽ được tác giả bởi tôi), bạn có thể sao chép A này sang chủ đề mới, và sau đó tôi có thể đóng chủ đề đó như một bản sao của chủ đề này. Thật khó để nói rằng đó là một ý tưởng điên rồ, hoặc nếu nó đáng để gặp rắc rối, nhưng đó là những gì tôi có thể làm. Bạn có một sở thích?
gung - Phục hồi Monica

@gung: Bạn có thể làm điều đó, hoặc tôi có thể sao chép thông tin từ câu hỏi đó vào câu trả lời ở đây. Có lẽ đó là tốt nhất? (Tôi có thể chỉnh sửa có vẻ như từ lịch sử chỉnh sửa)
kjetil b halvorsen

1
@kjetilbhalvorsen trước hết, xin lỗi vì đã gây rối vì đó là ý tưởng của tôi để hợp nhất các chủ đề vì chúng dường như gần giống nhau và cả hai đều có câu trả lời tốt. Ấn tượng ban đầu của tôi là việc hợp nhất các chủ đề sẽ không có hại. Có lẽ bạn chỉ cần thêm "Ví dụ: khi xử lý dữ liệu đếm ..." vào đoạn thứ hai của bạn? Câu trả lời của bạn độc đáo trả lời chung chung "Làm thế nào để chọn gia đình?" Câu hỏi, vì vậy có lẽ nó là giá trị để lại nó trong chủ đề chung?
Tim

1
@Tim tôi sẽ chỉnh sửa như bạn nói!
kjetil b halvorsen

Hãy thử chỉnh sửa. Nếu bạn muốn tôi đăng lại Q, hãy ping tôi lại. Bây giờ tôi sẽ gạt cờ.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.