Thông tin ra khỏi ma trận mũ cho hồi quy logistic


12

Rõ ràng với tôi, và được giải thích rõ trên nhiều trang web, thông tin nào các giá trị trên đường chéo của ma trận mũ cung cấp cho hồi quy tuyến tính.

Ma trận mũ của mô hình hồi quy logistic đối với tôi ít rõ ràng hơn. Có giống với thông tin bạn nhận được từ ma trận mũ áp dụng hồi quy tuyến tính không? Đây là định nghĩa của ma trận mũ tôi tìm thấy trong một chủ đề khác của CV (nguồn 1):

H= =VX(X'VX)-1X'V

với X vectơ của các biến dự đoán và V là ma trận đường chéo có (π(1-π)) .

Có phải, nói cách khác, cũng đúng là giá trị cụ thể của ma trận mũ của một quan sát cũng chỉ thể hiện vị trí của các hiệp phương sai trong không gian đồng biến và không liên quan gì đến giá trị kết quả của quan sát đó?

Điều này được viết trong cuốn sách "Phân tích dữ liệu phân loại" của Agresti:

Đòn bẩy quan sát càng lớn, ảnh hưởng tiềm năng của nó đối với sự phù hợp càng lớn. Như trong hồi quy thông thường, các đòn bẩy nằm trong khoảng từ 0 đến 1 và tổng với số lượng tham số mô hình. Không giống như hồi quy thông thường, các giá trị mũ phụ thuộc vào sự phù hợp cũng như ma trận mô hình và các điểm có giá trị dự đoán cực đoan không cần phải có đòn bẩy cao.

Vì vậy, từ định nghĩa này, có vẻ như chúng ta không thể sử dụng nó khi chúng ta sử dụng nó trong hồi quy tuyến tính thông thường?

Nguồn 1: Làm thế nào để tính ma trận mũ cho hồi quy logistic trong R?

Câu trả lời:


13

Hãy để tôi thay đổi ký hiệu một chút và viết ma trận mũ là trong đó là ma trận đối xứng đường chéo có các phần tử chung . Biểu thị là nhóm cá nhân với giá trị covariate cùng . Bạn có thể lấy phần tử đường chéo ( ) của ma trận mũ là Sau đó, tổng đưa ra số lượng tham số như trong hồi quy tuyến tính. Bây giờ đến câu hỏi của bạn: Vvj=mjπ(xj)[1-π(xj)]mjx=xjjthhjhj=mjπ(xj)[1-π(xj)]xj(XVX)-

H= =V12X(X'VX)-1X'V12
Vvj= =mjπ(xj)[1-π(xj)]mjx= =xjjthhj h j
hj= =mjπ(xj)[1-π(xj)]xj'(X'VX)-1xj'
hj

Việc giải thích các giá trị đòn bẩy trong ma trận mũ phụ thuộc vào xác suất ước tính . Nếu , bạn có thể diễn giải các giá trị đòn bẩy theo cách tương tự như trong trường hợp hồi quy tuyến tính, tức là cách xa giá trị trung bình mang lại cho bạn các giá trị cao hơn. Nếu bạn đang ở cuối cùng của phân phối xác suất, các giá trị đòn bẩy này có thể không đo khoảng cách nữa theo cùng một nghĩa. Điều này được thể hiện trong hình dưới đây được lấy từ Hosmer và Lemeshow (2000):π0,1<π<0,9

nhập mô tả hình ảnh ở đây

Trong trường hợp này, các giá trị cực đoan nhất trong không gian đồng biến có thể cung cấp cho bạn đòn bẩy nhỏ nhất, trái với trường hợp hồi quy tuyến tính. Lý do là đòn bẩy trong hồi quy tuyến tính là một hàm đơn điệu, điều này không đúng với hồi quy logistic phi tuyến tính. Có một phần tăng đơn điệu trong công thức trên của các yếu tố đường chéo của ma trận mũ đại diện cho khoảng cách từ giá trị trung bình. Đó là phần , mà bạn có thể nhìn vào nếu bạn chỉ quan tâm đến khoảng cách mỗi se. Phần lớn các thống kê chẩn đoán cho hồi quy logistic sử dụng toàn bộ đòn bẩy , vì vậy phần đơn điệu riêng biệt này hiếm khi được xem xét một mình.xj'(X'VX)-1xj'hj

Nếu bạn muốn đọc sâu hơn về chủ đề này, hãy xem bài báo của Pregibon (1981), người đã đưa ra ma trận mũ logistic, và cuốn sách của Hosmer và Lemeshow (2000).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.