Câu trả lời của tôi cho thấy OP không biết những quan sát nào là ngoại lệ bởi vì nếu OP đã làm thì điều chỉnh dữ liệu sẽ là hiển nhiên. Do đó, một phần câu trả lời của tôi liên quan đến việc xác định (các) ngoại lệ
Khi bạn xây dựng mô hình OLS (y đấu với x), bạn có được một hệ số hồi quy và sau đó là hệ số tương quan Tôi nghĩ rằng nó có thể nguy hiểm nếu không thách thức các "givens". Theo cách này, bạn hiểu rằng hệ số hồi quy và anh chị em của nó được đặt ra không có giá trị ngoại lệ / giá trị bất thường. Bây giờ nếu bạn xác định một ngoại lệ và thêm một yếu tố dự đoán 0/1 thích hợp vào mô hình hồi quy của bạn thì hệ số hồi quy tổng hợp choxbây giờ được củng cố để ngoại lệ / dị thường. Hệ số hồi quy này choxsau đó là "truer" hơn hệ số hồi quy ban đầu vì nó không bị ảnh hưởng bởi các ngoại lệ được xác định. Lưu ý rằng không có quan sát nào bị "vứt bỏ" vĩnh viễn; nó chỉ là một sự điều chỉnh choygiá trị là ẩn cho điểm bất thường. Hệ số mới này chox sau đó có thể được chuyển đổi thành mạnh mẽ r.
Một cái nhìn khác về điều này chỉ là để điều chỉnh y giá trị và thay thế bản gốc y giá trị với "giá trị được làm mịn" này và sau đó chạy một tương quan đơn giản.
Quá trình này sẽ phải được thực hiện lặp đi lặp lại cho đến khi không tìm thấy ngoại lệ.
Tôi hy vọng việc làm rõ này sẽ giúp những người bỏ phiếu hiểu được thủ tục đề xuất. Cảm ơn whuber đã đẩy tôi để làm rõ. Nếu bất cứ ai vẫn cần giúp đỡ với điều này luôn có thể mô phỏng mộty, x tập dữ liệu và đưa ra một ngoại lệ tại bất kỳ x cụ thể nào và làm theo các bước được đề xuất để có được ước tính tốt hơn về r.
Tôi hoan nghênh bất kỳ ý kiến về điều này như thể nó là "không chính xác" Tôi thực sự muốn biết lý do tại sao hy vọng được hỗ trợ bởi một ví dụ ngược số.
EDITED ĐỂ HIỆN TẠI MỘT VÍ DỤ ĐƠN GIẢN:
Một ví dụ nhỏ sẽ đủ để minh họa cho phương pháp được đề xuất / minh bạch của việc có được một phiên bản r ít nhạy cảm hơn với các ngoại lệ, đó là câu hỏi trực tiếp của OP. Đây là một kịch bản dễ theo dõi bằng cách sử dụng ols tiêu chuẩn và một số số học đơn giản. Nhớ lại rằng B hệ số hồi quy ols bằng r * [sigmay / sigmax).
Hãy xem xét 10 cặp quan sát sau đây.
Và đồ họa
Hệ số tương quan đơn giản là 0,75 với sigmay = 18,41 và sigmax = .38
Bây giờ chúng ta tính toán hồi quy giữa y và x và thu được các giá trị sau
Trong đó 36,538 = .75 * [18,41 / .38] = r * [sigmay / sigmax]
Bảng thực tế / phù hợp cho thấy ước tính ban đầu về một ngoại lệ tại quan sát 5 với giá trị 32.799.
Nếu chúng tôi loại trừ điểm thứ 5, chúng tôi có được kết quả hồi quy sau
Điều này mang lại một dự đoán là 173,31 bằng cách sử dụng giá trị x 13,61. Dự đoán này sau đó cho thấy một ước tính tinh tế của ngoại lệ như sau; 209-173.31 = 35,69.
Nếu bây giờ chúng tôi khôi phục 10 giá trị ban đầu nhưng thay thế giá trị của y ở giai đoạn 5 (209) bằng giá trị ước tính / đã xóa 173.31, chúng tôi có được
và
Tính lại r chúng ta nhận được giá trị .98 từ phương trình hồi quy
r = B * [sigmax / sigmay] .98 = [37.4792] * [.38 / 14.71]
Do đó, bây giờ chúng ta có một phiên bản hoặc r (r = .98) ít nhạy cảm hơn với một ngoại lệ được xác định tại quan sát 5. Lưu ý rằng sigmay được sử dụng ở trên (14.71) dựa trên y đã điều chỉnh ở giai đoạn 5 và không phải là sigmay bị ô nhiễm ban đầu (18.41). Ảnh hưởng của ngoại lệ là lớn do kích thước ước tính và kích thước mẫu. Những gì chúng tôi đã có là 9 cặp bài đọc (1-4; 6-10) có mối tương quan cao nhưng tiêu chuẩn r bị che khuất / bị bóp méo bởi ngoại lệ ở mức 5.
Có một cách tiếp cận powerfiul ít minh bạch hơn để giải quyết vấn đề này và đó là sử dụng thủ tục TSAY http://docplayer.net/12080848-Outliers-level-shifts-and-variance-changes-in-time-series.html để tìm kiếm và giải quyết bất kỳ và tất cả các ngoại lệ trong một lần. Ví dụ , các giá trị ngoại lệ là 36,4481 do đó giá trị được điều chỉnh (một phía) là 172,5419. Đầu ra tương tự sẽ tạo ra một biểu đồ hoặc bảng thực tế / được làm sạch.. Quy trình của Tsay thực sự iterat khóa kiểm tra từng điểm cho "tầm quan trọng thống kê" và sau đó chọn điểm tốt nhất cần điều chỉnh. Các giải pháp chuỗi thời gian được áp dụng ngay lập tức nếu không có cấu trúc thời gian rõ ràng hoặc có khả năng được giả định trong dữ liệu. Những gì tôi đã làm là thay thế sự kết hợp của bất kỳ bộ lọc chuỗi thời gian nào vì tôi có kiến thức về miền / "biết" rằng nó đã được ghi lại theo cách thức dọc ienon cắt ngang.