Phân phối nhị phân (trong bối cảnh của GLM) là gì?


30

Tôi hy vọng ai đó có thể cung cấp một cái nhìn tổng quan trực quan về phân phối quasibinomial và những gì nó làm. Tôi đặc biệt quan tâm đến những điểm này:

  1. Quasibinomial khác với phân phối nhị thức như thế nào.

  2. Khi biến trả lời là một tỷ lệ (các giá trị ví dụ bao gồm 0,23, 0,11, 0,78, 0,98), một mô hình quasibinomial sẽ chạy trong R nhưng một mô hình nhị thức sẽ không.

  3. Tại sao nên sử dụng mô hình quasibinomial khi biến phản ứng TRUE / FALSE bị quá mức.

Câu trả lời:


20
  1. Sự khác biệt giữa phân phối nhị thức và bán nhị phân có thể được nhìn thấy trong các hàm mật độ xác suất (pdf), đặc trưng cho các phân phối này.

    Nhị phân pdf:

    P(X=k)=(nk)pk(1p)nk

    Pdf nhị phân:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    Sự phân bố gần như nhị thức, trong khi tương tự như sự phân bố nhị thức, có thêm một tham số (giới hạn | φ |min { p / n , ( 1 - p ) / n } ) mà cố gắng để mô tả thêm khác biệt trong các dữ liệu mà không thể được giải thích chỉ bằng một phân phối nhị thức.ϕ|ϕ|min{p/n,(1p)/n}

    (Lưu ý rằng giá trị trung bình của phân phối bán nhị thức là chứ không phải làpriêng của mình.)pi=0nn!ϕi(nk)!p

  2. Tôi không chắc chắn về điều này, có lẽ chức năng glm trong R thêm trọng số trong chế độ quasibinomial để giải thích cho điều này?

  3. Mục đích của tham số thêm là để ước lượng thêm đúng trong dữ liệu. Mỗi mô hình tuyến tính tổng quát (GLM) đưa ra giả định phân phối cho kết quả / phản hồi và tối đa hóa khả năng của dữ liệu dựa trên phân phối này. Đó là một lựa chọn mà nhà phân tích đưa ra, và nếu bạn cảm thấy cần phải tính toán nhiều hơn về dữ liệu của mình, thì bạn có thể chọn phân biệt nhị phân để mô hình hóa phản hồi cho glm của mình. Một cách tuyệt vời để kiểm tra nếu chúng ta cần phải phù hợp với một mô hình bán nhị thức thay vì một nhị thức là để phù hợp với một mô hình bán nhị thức, và thử nghiệm để xem nếu φ tham số là 0.ϕϕ


2
Alejandro tuyệt vời, bây giờ làm thế nào tôi có thể kiểm tra nếu tham số is bằng 0?
Juanchi

2
Lưu ý rằng trong Rvới glm.fit, binomialquasibinomiallà giống hệt nhau, ngoại trừ việc quasibinomial(1) loại bỏ việc kiểm tra số nguyên, và (2) trả về một AIC của NA. Xem câu trả lời này để biết thêm chi tiết.
Miguelmorin

-1 Kiểu phân phối "bán nhị phân" này dường như hoàn toàn không liên quan đến khả năng bán nhị phân trong bối cảnh của glms, vì vậy thật khó để biết tại sao nó lại có quá nhiều sự ủng hộ.
Jarle Tufto

14

Các nhị thức không nhất thiết phải là một phân phối cụ thể; nó mô tả một mô hình cho mối quan hệ giữa phương sai và giá trị trung bình trong các mô hình tuyến tính tổng quát, gấp lần phương sai của một nhị thức về mặt trung bình của nhị thức.ϕ

Có một phân phối phù hợp với một đặc điểm kỹ thuật như vậy (rõ ràng - một nhị thức tỷ lệ), nhưng đó không nhất thiết là mục đích khi một mô hình nhị phân được trang bị; nếu bạn phù hợp với dữ liệu vẫn là 0-1 thì đó không thể là tỷ lệ nhị phân.

ϕ

Khi biến trả lời là một tỷ lệ (các giá trị ví dụ bao gồm 0,23, 0,11, 078, 0,98), một mô hình quasibinomial sẽ chạy trong R nhưng một mô hình nhị thức sẽ không

Theo hồi ức của tôi, một mô hình nhị thức có thể được chạy trong R với tỷ lệ *, nhưng bạn phải thiết lập nó đúng.

* có ba cách riêng biệt để cung cấp dữ liệu nhị thức cho R mà tôi biết. Tôi khá chắc chắn đó là một.


Làm thế nào điều này có liên quan đến ước tính quasilikabilities?
tim.farkas

2
+1 (nhưng tôi rất thích xem câu trả lời toàn diện hơn!). Ba cách để thiết lập GLM nhị thức với tỷ lệ có thể là: stats.stackexchange.com/a/26779/28666 ? Một liên kết có thể hữu ích. Ngoài ra, làm thế nào mà những gì bạn nói về "quasibinomial" không thực sự là một bản phân phối liên quan đến câu trả lời thứ hai trong chủ đề này?
amip nói rằng Phục hồi Monica

1
@amoeba bạn có thể viết phân phối cho nó, như đã nêu trong câu trả lời của tôi (một nhị thức tỷ lệ) nhưng đó không thể là phân phối cho dữ liệu đếm (quasibinomial không có trên tất cả các số nguyên trừ khi tham số phân tán là 1) cũng như cho dữ liệu liên tục ( nó rời rạc!). Mọi người thường sử dụng nó cho dữ liệu đếm vì cấu trúc phương sai của nó (nhưng trong trường hợp đó không có phân phối như vậy trong gia đình hàm mũ)
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.