Vâng, có rất nhiều lý do để chọn một phân phối lỗi khác nhau. Nhưng tôi tin rằng bạn không biết tại sao chúng tôi có phân phối cho các biến ở vị trí đầu tiên. Nếu điều này là hiển nhiên, tôi tin rằng câu trả lời của tôi là vô ích với bạn, xin lỗi.
Tại sao phân phối lại quan trọng
Xem, có phân phối cho phép chúng ta xem xét một mô hình theo xác suất, có nghĩa là chúng ta có thể định lượng được sự không chắc chắn về mô hình của mình. Khi trong stat 101, chúng ta biết rằng phân phối mẫu của trung bình mẫu có nghĩa là (không có triệu chứng), chúng ta có thể, trong một khung xác suất, nói rất nhiều thứ về ước tính đó, như giả thuyết thử nghiệm, xây dựng các khoảng tin cậy.X¯~˙N( Μ , σ)
Phân phối xác suất trong các mô hình tuyến tính tuyến tính và tổng quát
Khi trong một khung mô hình tuyến tính, về cơ bản chúng ta có thể làm tương tự, nếu chúng ta biết phân phối của thuật ngữ lỗi. Tại sao? Đây là kết quả của sự kết hợp tuyến tính của các biến ngẫu nhiên ( xem câu trả lời này ). Nhưng vấn đề là, khi cấu trúc xác suất này có mặt trong mô hình, chúng ta lại có thể làm các loại công cụ. Đáng chú ý nhất, bên cạnh kiểm tra giả thuyết và xây dựng CI, chúng ta có thể xây dựng các dự đoán với độ không chắc chắn được định lượng, lựa chọn mô hình, độ tốt của tinh hoàn phù hợp và một loạt các công cụ khác.
Bây giờ tại sao chúng ta cần GLM cụ thể? Thứ nhất, khung xác suất của mô hình tuyến tính không thể xử lý các loại khác nhau, chẳng hạn như số lượng hoặc dữ liệu nhị phân. Những loại dữ liệu này thực chất khác nhau, chúng là dữ liệu liên tục thông thường, có nghĩa là nó có thể có chiều cao 1,83 mét, nhưng thật vô nghĩa khi có 4,5 đèn điện không hoạt động.
Do đó, động lực cho GLM bắt đầu bằng việc xử lý các loại dữ liệu khác nhau, chủ yếu bằng cách sử dụng các hàm liên kết hoặc / và bằng cách khéo léo điều khiển mô hình dự định thành một "khung" tuyến tính đã biết. Những nhu cầu và ý tưởng này được kết nối trực tiếp với cách các lỗi được mô hình hóa theo "khung" đang được sử dụng.