Hãy để chúng tôi suy đoán tình huống đơn giản trong đó không có thông tin đồng biến trong dữ liệu của bạn. Giả sử, bạn chỉ có các quan sát .Y1,Y2,…,Yn∈R
Nếu bạn đang sử dụng phân phối bình thường để mô hình hóa dữ liệu của mình, có lẽ bạn sẽ viết rằng
Yi∼N(μ,σ2) ,
và sau đó thử ước tính và , có thể thông qua ước tính khả năng tối đa.σμσ
Nhưng giả sử dữ liệu của bạn là dữ liệu đếm và do đó thường không được phân phối. Nó thậm chí không liên tục trong trường hợp này, vì vậy bạn có thể sử dụng phân phối Poisson thay thế:
Yi∼Poisson(λ) .
Tuy nhiên, bạn chỉ có một tham số ở đây! Tham số duy nhất xác định cả giá trị trung bình và phương sai bởi và . Điều này cũng xảy ra khi bạn sử dụng Bernoulli hoặc phân phối nhị thức. Nhưng bạn có thể có phương sai lớn hơn hoặc nhỏ hơn trong dữ liệu của mình, có thể do các quan sát không thực sự iid hoặc phân phối bạn chọn không đủ thực tế.E [ Y i ] = λ V một r [ Y i ] = λλE[Yi]=λVar[Yi]=λ
Vì vậy, mọi người thêm tham số phân tán để có được mức độ tự do bổ sung trong mô hình trung bình và phương sai đồng thời. Tôi đoán bất kỳ sách giáo khoa nào trên GLM sẽ cung cấp cho bạn lời giải thích chi tiết và toán học hơn về nó là gì, nhưng động lực, tôi tin rằng, là khá đơn giản như thế này.