Giá trị cắt khoảng cách của Cook


9

Tôi đã đọc về khoảng cách của đầu bếp để xác định các ngoại lệ có ảnh hưởng lớn đến hồi quy của tôi. Trong nghiên cứu ban đầu của Cook, ông nói rằng tỷ lệ giới hạn là 1 nên tương đương để xác định những người có ảnh hưởng. Tuy nhiên, nhiều nghiên cứu khác sử dụng hoặc làm điểm dừng.4n4nk1

Trong nghiên cứu của tôi, không có phần dư nào của tôi có D cao hơn 1. Tuy nhiên, nếu tôi sử dụng làm điểm cắt , thì có nhiều dữ liệu khác nhau những điểm được coi là có ảnh hưởng. Tôi quyết định kiểm tra xem việc loại bỏ các điểm dữ liệu này có tạo ra sự khác biệt đối với hồi quy tuyến tính chung hay không. Tất cả các IV của tôi vẫn giữ được ý nghĩa của chúng và không có thay đổi rõ ràng.4n(4149=.026)

Tôi có nên giữ lại tất cả các điểm dữ liệu của mình và sử dụng tỷ lệ giới hạn là 1 không? Hoặc loại bỏ chúng?


Kiểm tra Baltagi (2011) Kinh tế lượng, 5e. Trong Chương 8, mục 8.1. Ông đề nghị một biện pháp khác xuất phát từ khoảng cách của Cook, đồng thời, cũng kiểm tra các biến dạng / ảnh hưởng từ quan sát có ảnh hưởng trong ma trận Var-Covar, mà bạn cũng có thể cần, vì các công cụ ước tính của bạn không thay đổi nhiều ...
SirAlex

10
Bạn không nên xóa bất kỳ dữ liệu nào trên cơ sở chẩn đoán này. Mục đích của nó là giúp bạn suy nghĩ về chúng và ảnh hưởng của chúng đối với phân tích của bạn.
whuber

Câu trả lời:


5

Tôi có thể sẽ đi với mô hình ban đầu của bạn với bộ dữ liệu đầy đủ của bạn. Tôi thường nghĩ về những điều này như tạo điều kiện cho các phân tích độ nhạy. Đó là, họ chỉ cho bạn những gì cần kiểm tra để đảm bảo rằng bạn không có kết quả nhất định chỉ vì điều gì đó ngu ngốc. Trong trường hợp của bạn, bạn có một số điểm có ảnh hưởng tiềm năng, nhưng nếu bạn chạy lại mô hình mà không có chúng, bạn sẽ nhận được câu trả lời tương tự (ít nhất là đối với các khía cạnh mà bạn có lẽ quan tâm). Nói cách khác, sử dụng bất kỳ ngưỡng nào bạn thích, bạn chỉ chỉnh lại mô hình dưới dạng kiểm tra, không phải là phiên bản 'đúng'. Nếu bạn nghĩ rằng những người khác sẽ đủ quan tâm đến các ngoại lệ tiềm năng, bạn có thể báo cáo cả hai mô hình phù hợp. Những gì bạn sẽ nói là dọc theo dòng,

Đây là kết quả của tôi. Người ta có thể lo ngại rằng bức tranh này chỉ nổi lên do một vài quan sát khác thường, nhưng có ảnh hưởng lớn. Đây là kết quả của cùng một mô hình, nhưng không có những quan sát đó. Không có sự khác biệt đáng kể.

Cũng có thể loại bỏ chúng và sử dụng mô hình thứ hai làm kết quả chính của bạn. Rốt cuộc, việc ở lại với bộ dữ liệu ban đầu sẽ dẫn đến một giả định về dữ liệu nào thuộc về mô hình giống như đi với tập hợp con. Nhưng mọi người có thể rất nghi ngờ về kết quả được báo cáo của bạn bởi vì về mặt tâm lý, quá dễ để ai đó tự thuyết phục bản thân, mà không có bất kỳ ý định tham nhũng thực tế nào, đi kèm với các chỉnh sửa hậu hoc (chẳng hạn như bỏ một số quan sát) mang lại cho họ kết quả mà họ mong đợi nhất để xem. Bằng cách luôn luôn đi cùng với bộ dữ liệu đầy đủ, bạn tránh được khả năng đó và đảm bảo với mọi người (giả sử, người đánh giá) rằng đó không phải là điều đang diễn ra trong dự án của bạn.

Một vấn đề khác ở đây là mọi người cuối cùng ' theo đuổi bong bóng '. Khi bạn bỏ một số ngoại lệ tiềm năng và chạy lại mô hình của mình, bạn sẽ có kết quả hiển thị các quan sát mới, khác nhau như các ngoại lệ tiềm năng. Có bao nhiêu lần lặp bạn phải trải qua? Đáp ứng tiêu chuẩn cho điều này là bạn nên ở lại với bộ dữ liệu gốc, đầy đủ của mình và chạy hồi quy mạnh mẽ thay thế. Điều này một lần nữa, có thể được hiểu là một phân tích độ nhạy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.