Phần dư trong GLM ở đâu?


8

Bây giờ tôi mới chuyển sang GLM sau các mô hình tiêu chuẩn.

Trong mô hình tiêu chuẩn,

y = Xb + epsilon

và epsilon được coi là phân phối bình thường. Điều đó có nghĩa là chúng ta có thể viết

y - Xb = epsilon

và sau đó chúng ta có thể giảm thiểu các lhs bằng cách sử dụng một số định mức phù hợp với giả định về tính quy tắc.

Trong một GLM, những phần dư này không được nhìn thấy, vậy các giả định còn lại là gì? Đó là, khi bạn lắp GLM và xác định số dư, làm thế nào để bạn kiểm tra giả định phân phối của mình? Một qqplot? Chống lại cái gì? Các lượng tử bình thường? Hoặc các lượng tử của phân phối bạn đã chọn?

GLM theo tôi hiểu:

mu = Xb, mu = Ey, y follows some non-Gaussian distribution.


1
(+1) Một số lượt truy cập trong tìm kiếm trang web tập trung cho phần dư độ lệch GLM là hướng dẫn.
whuber

Tôi đã đọc một cái gì đó về phần dư lượng tử chuẩn hóa, mà luôn luôn được phân phối bình thường với các giả định mô hình. Chúng có thể được sử dụng trong các lô qq thông thường trái ngược với các phần dư tiêu chuẩn không?
Đợi

Câu trả lời:


7

Phần dư cụ thể phụ thuộc vào phân phối được sử dụng và vào các đặc tính của biến phụ thuộc. Đôi khi những điều này không có nhiều thông tin và đôi khi chúng không thể được tính toán dễ dàng.

Tiện ích của phần dư cũng rất khác nhau, trong việc đánh giá mô hình hoạt động tốt như thế nào. Hồi quy logistic của một biến nhị phân là một ví dụ tốt. Tất cả các phần dư có thể được tính toán, nhưng việc hiểu ý nghĩa của chúng là khó khăn nếu không có một bản tóm tắt như hiệu chuẩn và thử nghiệm Hosmer-Lemeshow. Tóm tắt của các loại khác, ví dụ, bởi một biến phân loại khác, cũng có thể hữu ích. Đôi khi bạn có thể học hỏi từ việc so sánh các xác suất ước tính từ hai mô hình khác nhau.

  • Đối với hồi quy logistic thứ tự hoặc danh nghĩa với một số loại, bạn có thể tính toán một tập hợp các xác suất cho mỗi quan sát. Chúng có thể hữu ích nhưng khó diễn giải bằng các phương pháp đồ họa đơn giản hoặc thống kê tóm tắt.

  • Phần dư cho dữ liệu sinh tồn bị kiểm duyệt không được xác định duy nhất. Thời gian tồn tại ước tính có thể dài hơn hoặc ngắn hơn thời gian kiểm duyệt.

  • Phần dư cho các biến phụ thuộc bị sai lệch cao, ví dụ: hàm mũ, nhị thức âm, Poisson, v.v., có thể gây hiểu nhầm trong màn hình đồ họa do các mô hình không làm giảm hoặc loại bỏ độ lệch. Họ để lại cho bạn ấn tượng của nhiều ngoại lệ lớn. Đôi khi, tốt hơn là kiểm tra những thứ này trên một quy mô được chuyển đổi, chẳng hạn như nhật ký.

Vì vậy, không có câu trả lời mục đích chung cho câu hỏi của bạn. Việc sử dụng phần dư phụ thuộc vào mô hình.

Đối với phần còn lại của Gaussian, câu chuyện dễ dàng hơn. Thật không may, chúng ta thường phát hiện ra rằng có một số vấn đề với mô hình tuyến tính không thể giải quyết theo các cách đơn giản, thuật toán.


5

Ngoài câu trả lời của @ DavidSmith, một số thuật ngữ chính thức hơn sau:

Các mô hình tuyến tính tổng quát gọi mối quan hệ phương sai trung bình là kết quả của hàm liên kết. Không có phần dư trong GLM vì phương sai chỉ là một hàm của giá trị trung bình. Vì vậy, khi chúng tôi viết GLM, nó có dạng:

g(E[Y|X])= =βX

Trong đó là hàm liên kết, các thuật ngữ là các yếu tố dự đoán tuyến tính và các giá trị được chuyển đổi là các giá trị được trang bị. Nói chung, trường hợp là ngụ ý . Chẳng hạn, với hồi quy logistic, liên kết logit nghịch đảo có với biểu thức thứ hai dễ dàng được nhận ra là phương sai nhị thức.gβXνg-1(βX)E[Y]= =g-1(βX)vmộtr(Y)= =βg-1(βX)g-1(x)= =đăng nhập(X1-X)g'-1(X)= =đăng nhập(11-X)= =g-1(X)(1-g-1(X))

Khi bạn viết ra các phương trình ước tính cho các mô hình xác suất phổ biến, như nhị thức, poisson hoặc hàm mũ, bạn thực sự quan sát thấy thông tin (hoặc phương sai) phụ thuộc vào giá trị trung bình và không có gì khác. Các mô hình một tham số này, như tên cho thấy, chỉ sử dụng một tham số (như tỷ lệ cược log hoặc tỷ lệ tương đối của nhật ký) để liên kết kết quả mong đợi với sự kết hợp tuyến tính của các yếu tố dự đoán và chức năng liên kết tương ứng. Hàm ảnh hưởng (độ dốc hoặc đạo hàm) của liên kết liên quan đến giá trị trung bình với phương sai.

Các mô hình xác suất Gaussian khác với các mô hình nhị thức (logistic) ở chỗ chúng là 2 mô hình tham số bao gồm một thuật ngữ phân tán (sigma hoặc phương sai dư). Một mô hình Gaussian cũng khác với 2 mô hình tham số khác (như nhị thức âm hoặc Gamma) vì bạn có thể viết phương sai dư dưới dạng một thuật ngữ riêng trong một mô hình.

Về cơ bản các bình phương tối thiểu thông thường có lỗi độc lập, bình thường là trường hợp duy nhất tôi biết về nơi chúng ta thực sự có thể viết: một cách có ý nghĩa.y= =βX+ε

Câu hỏi lớn hơn về cách bạn liên hệ kết quả mong đợi với kết quả quan sát là phức tạp. Trong một mô hình bình thường, đây là một sự khác biệt đơn giản của dự kiến ​​và được quan sát để có được phần dư. Trong GLM, phương sai không đồng nhất vì giá trị trung bình thay đổi theo chức năng của , do đó bạn có thể tiêu chuẩn hóa từng phần dư bằng cách chia cho sai số chuẩn dự kiến ​​để thu được phần dư Pearsonized.X

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.