Tôi có thể sẽ đi với mô hình ban đầu của bạn với bộ dữ liệu đầy đủ của bạn. Tôi thường nghĩ về những điều này như tạo điều kiện cho các phân tích độ nhạy. Đó là, họ chỉ cho bạn những gì cần kiểm tra để đảm bảo rằng bạn không có kết quả nhất định chỉ vì điều gì đó ngu ngốc. Trong trường hợp của bạn, bạn có một số điểm có ảnh hưởng tiềm năng, nhưng nếu bạn chạy lại mô hình mà không có chúng, bạn sẽ nhận được câu trả lời tương tự (ít nhất là đối với các khía cạnh mà bạn có lẽ quan tâm). Nói cách khác, sử dụng bất kỳ ngưỡng nào bạn thích, bạn chỉ chỉnh lại mô hình dưới dạng kiểm tra, không phải là phiên bản 'đúng'. Nếu bạn nghĩ rằng những người khác sẽ đủ quan tâm đến các ngoại lệ tiềm năng, bạn có thể báo cáo cả hai mô hình phù hợp. Những gì bạn sẽ nói là dọc theo dòng,
Đây là kết quả của tôi. Người ta có thể lo ngại rằng bức tranh này chỉ nổi lên do một vài quan sát khác thường, nhưng có ảnh hưởng lớn. Đây là kết quả của cùng một mô hình, nhưng không có những quan sát đó. Không có sự khác biệt đáng kể.
Cũng có thể loại bỏ chúng và sử dụng mô hình thứ hai làm kết quả chính của bạn. Rốt cuộc, việc ở lại với bộ dữ liệu ban đầu sẽ dẫn đến một giả định về dữ liệu nào thuộc về mô hình giống như đi với tập hợp con. Nhưng mọi người có thể rất nghi ngờ về kết quả được báo cáo của bạn bởi vì về mặt tâm lý, quá dễ để ai đó tự thuyết phục bản thân, mà không có bất kỳ ý định tham nhũng thực tế nào, đi kèm với các chỉnh sửa hậu hoc (chẳng hạn như bỏ một số quan sát) mang lại cho họ kết quả mà họ mong đợi nhất để xem. Bằng cách luôn luôn đi cùng với bộ dữ liệu đầy đủ, bạn tránh được khả năng đó và đảm bảo với mọi người (giả sử, người đánh giá) rằng đó không phải là điều đang diễn ra trong dự án của bạn.
Một vấn đề khác ở đây là mọi người cuối cùng ' theo đuổi bong bóng '. Khi bạn bỏ một số ngoại lệ tiềm năng và chạy lại mô hình của mình, bạn sẽ có kết quả hiển thị các quan sát mới, khác nhau như các ngoại lệ tiềm năng. Có bao nhiêu lần lặp bạn phải trải qua? Đáp ứng tiêu chuẩn cho điều này là bạn nên ở lại với bộ dữ liệu gốc, đầy đủ của mình và chạy hồi quy mạnh mẽ thay thế. Điều này một lần nữa, có thể được hiểu là một phân tích độ nhạy.