Khi nào nên sử dụng GLM thay vì LM?

Khi nào nên sử dụng mô hình tuyến tính tổng quát trên mô hình tuyến tính?

Tôi biết rằng mô hình tuyến tính tổng quát cho phép ví dụ các lỗi có một số phân phối khác hơn bình thường, nhưng tại sao người ta lại quan tâm đến việc phân phối các lỗi? Giống như tại sao các bản phân phối lỗi khác nhau hữu ích?

generalized-linear-model

— mavavilj
nguồn

Nếu giả định bạn đưa ra về lỗi là đúng, bạn sẽ có được ước tính (nói chung) là ước tính hiệu quả nhất. Đôi khi phân phối mà bạn áp đặt có một số thuộc tính tốt ... Giống như điều chỉnh kết quả giả với logit hoặc probit thay vì OLS

— Repmat

@Repmat Có phải vì người ta có thể thư giãn với giả định mô hình tuyến tính "lỗi phải được phân phối bình thường" và vì họ không phải làm vậy, nên người ta có thể có được sự phù hợp tốt hơn? Có bất kỳ loại vấn đề chung nào phù hợp với GLM hơn LM không?

— mavavilj

Câu trả lời:

GLM là phiên bản tổng quát hơn của mô hình tuyến tính: mô hình tuyến tính là trường hợp đặc biệt của GLM Gaussian với liên kết nhận dạng. Vì vậy, câu hỏi là: tại sao chúng ta sử dụng các hàm liên kết khác hoặc các mối quan hệ phương sai trung bình khác? Chúng tôi phù hợp với GLM vì họ trả lời một câu hỏi cụ thể mà chúng tôi quan tâm .

Chẳng hạn, không có gì sai khi điều chỉnh đáp ứng nhị phân trong mô hình hồi quy tuyến tính nếu bạn quan tâm đến sự liên kết giữa các biến này. Thật vậy, nếu tỷ lệ kết quả âm tính cao hơn có xu hướng được quan sát ở phần trăm thứ 50 thấp hơn của phơi nhiễm và tỷ lệ kết quả dương tính cao hơn được ghi nhận ở phần trăm trên 50, điều này sẽ mang lại một đường dốc tích cực mô tả chính xác mối liên hệ tích cực giữa các phần này hai biến.

Thay phiên, bạn có thể quan tâm đến việc mô hình hóa hiệp hội đã nói ở trên bằng cách sử dụng đường cong hình chữ S. Độ dốc và giao thoa của một đường cong như vậy cho thấy xu hướng cực kỳ rủi ro có xu hướng về xác suất 0/1. Ngoài ra độ dốc của đường cong logit được hiểu là tỷ lệ cược log. Điều đó thúc đẩy việc sử dụng chức năng liên kết logit. Tương tự, các xác suất được trang bị rất gần với 1 hoặc 0 có thể có xu hướng ít thay đổi hơn theo các bản sao của thiết kế nghiên cứu và do đó có thể được tính bằng mối quan hệ phương sai nhị thức nói rằng $se(\hat{Y}) = \hat{Y}(1-\hat{Y})$ mà thúc đẩy hồi quy logistic. Dọc theo những dòng đó, một cách tiếp cận hiện đại hơn cho vấn đề này sẽ đề xuất điều chỉnh mô hình rủi ro tương đối sử dụng liên kết nhật ký, sao cho độ dốc của đường xu hướng theo cấp số nhân được hiểu là rủi ro tương đối log, giá trị thực tế hơn so với log- tỷ số chênh.

— Adam
nguồn

Vâng, có rất nhiều lý do để chọn một phân phối lỗi khác nhau. Nhưng tôi tin rằng bạn không biết tại sao chúng tôi có phân phối cho các biến ở vị trí đầu tiên. Nếu điều này là hiển nhiên, tôi tin rằng câu trả lời của tôi là vô ích với bạn, xin lỗi.

Tại sao phân phối lại quan trọng

Xem, có phân phối cho phép chúng ta xem xét một mô hình theo xác suất, có nghĩa là chúng ta có thể định lượng được sự không chắc chắn về mô hình của mình. Khi trong stat 101, chúng ta biết rằng phân phối mẫu của trung bình mẫu có nghĩa là (không có triệu chứng), chúng ta có thể, trong một khung xác suất, nói rất nhiều thứ về ước tính đó, như giả thuyết thử nghiệm, xây dựng các khoảng tin cậy. $\bar{X} \dot{\sim} \mathcal{N}(\mu,\sigma)$

Phân phối xác suất trong các mô hình tuyến tính tuyến tính và tổng quát

Khi trong một khung mô hình tuyến tính, về cơ bản chúng ta có thể làm tương tự, nếu chúng ta biết phân phối của thuật ngữ lỗi. Tại sao? Đây là kết quả của sự kết hợp tuyến tính của các biến ngẫu nhiên ( xem câu trả lời này ). Nhưng vấn đề là, khi cấu trúc xác suất này có mặt trong mô hình, chúng ta lại có thể làm các loại công cụ. Đáng chú ý nhất, bên cạnh kiểm tra giả thuyết và xây dựng CI, chúng ta có thể xây dựng các dự đoán với độ không chắc chắn được định lượng, lựa chọn mô hình, độ tốt của tinh hoàn phù hợp và một loạt các công cụ khác.

Bây giờ tại sao chúng ta cần GLM cụ thể? Thứ nhất, khung xác suất của mô hình tuyến tính không thể xử lý các loại khác nhau, chẳng hạn như số lượng hoặc dữ liệu nhị phân. Những loại dữ liệu này thực chất khác nhau, chúng là dữ liệu liên tục thông thường, có nghĩa là nó có thể có chiều cao 1,83 mét, nhưng thật vô nghĩa khi có 4,5 đèn điện không hoạt động.

Do đó, động lực cho GLM bắt đầu bằng việc xử lý các loại dữ liệu khác nhau, chủ yếu bằng cách sử dụng các hàm liên kết hoặc / và bằng cách khéo léo điều khiển mô hình dự định thành một "khung" tuyến tính đã biết. Những nhu cầu và ý tưởng này được kết nối trực tiếp với cách các lỗi được mô hình hóa theo "khung" đang được sử dụng.

— Guilherme Marthe
nguồn

"lỗi" không có phân phối ngoại trừ trong một số công thức của các mô hình OLS. Nếu bạn đang nói về việc phân phối điều kiện trên , thì có thể thấy rằng một số GLM là một kỹ thuật khả năng tối đa sử dụng tham số tự nhiên. Tuy nhiên, không phải tất cả các GLM đều là MLE, nhưng tuy nhiên rất hữu ích

Y

$Y$

X

$X$

— AdamO

Có hai điều chúng ta nên quan tâm,

Tính nhất quán,
hiệu quả.

Nếu chúng ta không có 1, vít 2. Nhưng nếu chúng ta có 1, chúng ta muốn lấy 2 nếu có thể.

Nếu bạn chạy OLS, thì nó nhất quán theo các giả định rất chung về phân phối lỗi (bạn chỉ cần ngoại lệ). Tuy nhiên, GLS có thể hiệu quả hơn. Điều này đặc biệt tốt nếu bạn có một mẫu nhỏ.

— Siêu nhân
nguồn

Là tuyến tính nói chung thực sự chỉ về hiệu quả trong tính toán?

— mavavilj

Tôi đang nói về hiệu quả thống kê: tức là cần bao nhiêu quan sát để đạt được một mức độ chính xác nhất định (tính xác suất).

— Superpronker

@Superpronker Tôi nghĩ rằng một thiếu sót khá rõ ràng là tính dễ hiểu hoặc hữu ích. Dọc theo những dòng đó, Cox đã nói, "Cần nhấn mạnh rằng việc cung cấp chính xác, hoặc gần như, các công cụ ước tính không thiên vị hiếm khi, nếu có, quan trọng theo cách riêng của nó." Trên thực tế, tôi cá là có những ví dụ trong đó mô hình OLS sai chính tả sẽ hiệu quả hơn GLM.

— AdamO

@AdamO, điểm tốt. Ngoài ra, như OP gợi ý, hiệu quả tính toán: nếu chúng ta có thể tránh tối ưu hóa số hoàn toàn thì điều đó cũng tốt hơn.

— Superpronker

@Superpronker GLM thực sự không liên quan gì đến tối ưu hóa. Thực tế là đối với các gia đình theo cấp số nhân thông thường, mối quan hệ phương sai trung bình cho phép thực hiện tối đa khả năng với GLM, nhưng nói chung, đó chỉ là một cách tiếp cận phương trình ước tính. Chúng tôi tìm một gốc cho phương trình , cho bất kỳ hoặc cũ nào .

D^{T} V^{- 1} (Y - g^{- 1} (β X))

$D^TV^{-1} \left(Y - g^{-1} (\beta X) \right)$

D

$D$

V

$V$

— AdamO