Đó là hầu như luôn luôn là một gian lận để loại bỏ các quan sát để cải thiện một mô hình hồi quy. Bạn chỉ nên bỏ các quan sát khi bạn thực sự nghĩ rằng đây thực sự là những ngoại lệ.
Chẳng hạn, bạn có chuỗi thời gian từ máy đo nhịp tim được kết nối với đồng hồ thông minh của bạn. Nếu bạn xem loạt bài này, thật dễ dàng để thấy rằng sẽ có những quan sát sai lầm với các bài đọc như 300bps. Chúng nên được loại bỏ, nhưng không phải vì bạn muốn cải thiện mô hình (ý nghĩa của nó). Chúng là những lỗi đọc không liên quan gì đến nhịp tim của bạn.
Một điều cần cẩn thận là sự tương quan của các lỗi với dữ liệu. Trong ví dụ của tôi, có thể lập luận rằng bạn có lỗi khi máy đo nhịp tim bị dịch chuyển trong các bài tập như chạy o nhảy. Điều này sẽ làm cho các lỗi này tương quan với tỷ lệ hart. Trong trường hợp này, phải cẩn thận trong việc loại bỏ các ngoại lệ và lỗi này, vì chúng không phải là ngẫu nhiên
Tôi sẽ cung cấp cho bạn một ví dụ về thời điểm không loại bỏ các ngoại lệ . Giả sử bạn đang đo chuyển động của trọng lượng vào mùa xuân. Nếu trọng lượng nhỏ so với sức mạnh của trọng lượng, thì bạn sẽ nhận thấy luật Hooke hoạt động rất tốt: trong đó là lực, - hệ số căng và là vị trí của cân nặng.
F=−kΔx,
FkΔx
Bây giờ nếu bạn đặt một trọng lượng rất nặng hoặc thay thế trọng lượng quá nhiều, bạn sẽ bắt đầu thấy độ lệch: tại các chuyển vị đủ lớn chuyển động dường như sẽ lệch khỏi mô hình tuyến tính. Vì vậy, bạn có thể muốn loại bỏ các ngoại lệ để cải thiện mô hình tuyến tính. Đây sẽ không phải là một ý tưởng tốt, bởi vì mô hình không hoạt động tốt vì luật của Hooke chỉ gần đúng.Δx
CẬP NHẬT Trong trường hợp của bạn, tôi sẽ đề nghị kéo các điểm dữ liệu đó và nhìn chúng gần hơn. Nó có thể là dụng cụ phòng thí nghiệm thất bại? Giao thoa bên ngoài? Khiếm khuyết mẫu? Vân vân.
Tiếp theo hãy cố gắng xác định xem liệu sự giả định của các ngoại lệ này có thể tương quan với những gì bạn đo lường như trong ví dụ tôi đã đưa ra hay không. Nếu có tương quan thì không có cách nào đơn giản để đi về nó. Nếu không có mối tương quan thì bạn có thể loại bỏ các ngoại lệ