Làm thế nào để đọc các khoảng cách khoảng cách của Cook?


40

Có ai biết làm thế nào để biết liệu điểm 7, 16 và 29 có phải là điểm ảnh hưởng hay không? Tôi đọc được ở đâu đó rằng vì khoảng cách của Cook thấp hơn 1, nên họ không có. Là tôi phải không?

nhập mô tả hình ảnh ở đây


1
Có nhiều ý kiến ​​khác nhau. Một số trong số chúng liên quan đến số lượng quan sát hoặc số lượng tham số. Chúng được phác họa tại en.wikipedia.org/wiki/ .
whuber

@whuber Cảm ơn. Đây luôn là một khu vực màu xám khi thực hiện khám phá dữ liệu cho tôi. Điểm dữ liệu 16 ở trên ảnh hưởng lớn đến kết quả mô hình, do đó làm tăng lỗi Loại I.
Platypezid

2
Người ta có thể lập luận rằng nó cũng làm tăng lỗi "Loại III", trong đó (nói chung và không chính thức) là các lỗi liên quan đến khả năng không thể áp dụng của mô hình xác suất cơ bản.
whuber

@whuber vâng, rất đúng!
Platypezid

Câu trả lời:


43

Một số văn bản cho bạn biết rằng những điểm mà khoảng cách của Cook cao hơn 1 sẽ được coi là có ảnh hưởng. Các văn bản khác cung cấp cho bạn ngưỡng hoặc , trong đó là số lượng quan sát và là số lượng các biến giải thích. Trong trường hợp của bạn, công thức sau sẽ mang lại một ngưỡng khoảng 0,1.4/N4/(Nk1)Nk

John Fox (1), trong cuốn sách nhỏ về chẩn đoán hồi quy khá thận trọng khi đưa ra các ngưỡng số. Ông khuyên nên sử dụng đồ họa và kiểm tra chi tiết hơn các điểm có "giá trị của D lớn hơn đáng kể so với phần còn lại". Theo Fox, các ngưỡng chỉ nên được sử dụng để tăng cường hiển thị đồ họa.

Trong trường hợp của bạn, các quan sát 7 và 16 có thể được coi là có ảnh hưởng. Chà, ít nhất tôi sẽ có cái nhìn cận cảnh hơn về họ. Quan sát 29 không khác biệt đáng kể so với một vài quan sát khác.


(1) Cáo, John. (1991). Chẩn đoán hồi quy: Giới thiệu . Ấn phẩm hiền triết.


9
+1 Tóm tắt rõ ràng. Tôi muốn nói thêm rằng trường hợp có ảnh hưởng không thường là một vấn đề khi bị tách ra khỏi bộ dữ liệu sẽ để lại các tham số ước tính về cơ bản không thay đổi: những người chúng ta lo lắng về việc là những người có sự hiện diện thực sự không thay đổi kết quả.
whuber

1
@lejohn Rất đánh giá cao phản ứng của bạn. Whuber là sự rõ ràng tuyệt vời trong câu trả lời của bạn. Điều này rất nhiều thông tin. Tôi có thể đề nghị bạn nêu bật Fox và ý kiến ​​của bạn trong trang wikipedia!
Platypezid

29

+1 cho cả @lejohn và @whuber. Tôi muốn mở rộng một chút về nhận xét của @ whuber. Khoảng cách của Cook có thể tương phản với dfbeta. Khoảng cách của Cook liên quan đến việc trung bình, các giá trị y dự đoán sẽ di chuyển được bao xa nếu quan sát trong câu hỏi bị loại bỏ khỏi tập dữ liệu. dfbeta đề cập đến việc ước tính tham số thay đổi bao nhiêu nếu quan sát trong câu hỏi bị loại bỏ khỏi tập dữ liệu. Lưu ý rằng với hiệp phương sai, sẽ có dfbetas (phần chặn, và 1 cho mỗi hiệp phương sai). Khoảng cách của Cook có lẽ quan trọng hơn đối với bạn nếu bạn đang thực hiện mô hình dự đoán, trong khi dfbeta quan trọng hơn trong mô hình giải thích. kk+1β0β

Có một điểm khác đáng làm ở đây. Trong nghiên cứu quan sát, thường rất khó để lấy mẫu thống nhất trong không gian dự đoán và bạn có thể chỉ có một vài điểm trong một khu vực nhất định. Những điểm như vậy có thể phân kỳ từ phần còn lại. Có một vài trường hợp riêng biệt có thể gây thất vọng, nhưng đáng suy nghĩ đáng kể trước khi bị loại ra khỏi ngoại lệ. Hợp pháp có thể có sự tương tác giữa các yếu tố dự đoán hoặc hệ thống có thể chuyển sang hành xử khác đi khi giá trị của yếu tố dự đoán trở nên cực đoan. Ngoài ra, họ có thể giúp bạn gỡ rối các tác động của các yếu tố dự đoán colinear. Điểm ảnh hưởng có thể là một phước lành trong ngụy trang.


6
+1 "Khoảng cách của Cook có lẽ quan trọng hơn đối với bạn nếu bạn đang thực hiện mô hình dự đoán, trong khi dfbeta quan trọng hơn trong mô hình giải thích": đây là lời khuyên rất hữu ích.
Anne Z.

Hi - thảo luận thú vị. Nhưng không thể hợp lý khi tích hợp một biến giả để đo hiệu ứng từ quan sát ví dụ 16?
Pantera

@Pantera Tôi đã xóa 16 và so sánh các mô hình ommission trước & sau
Platypezid

Xin chào - nếu bạn loại bỏ các quan sát, bạn nên đảm bảo rằng bạn có đối số "tốt" để làm điều đó, ví dụ như quan sát bị đo sai. Nếu chúng ta bỏ qua quan sát vì họ chỉ gây ra một số rắc rối thống kê, thì chúng ta gần với việc khai thác dữ liệu.
Pantera
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.