Bỏ các ngoại lệ dựa trên Rô-bốt 2,5 lần RMSE '


13

Trong Kahneman và Deaton (2010) , các tác giả viết như sau:

Hồi quy này giải thích 37% phương sai, với sai số bình phương trung bình gốc (RMSE) là 0,67852. Để loại bỏ các ngoại lệ và báo cáo thu nhập hợp lý, chúng tôi đã bỏ các quan sát trong đó giá trị tuyệt đối của chênh lệch giữa thu nhập log và dự đoán của nó vượt quá 2,5 lần RMSE.

Đây có phải là thông lệ? Trực giác đằng sau làm như vậy là gì? Có vẻ hơi lạ khi định nghĩa một ngoại lệ dựa trên một mô hình có thể không được chỉ định rõ ở vị trí đầu tiên. Không nên xác định các ngoại lệ dựa trên một số cơ sở lý thuyết cho những gì tạo thành một giá trị hợp lý, thay vì mô hình của bạn dự đoán các giá trị thực như thế nào?


: Daniel Kahneman, Angus Deaton (2010): Thu nhập cao cải thiện đánh giá cuộc sống nhưng không hạnh phúc về mặt cảm xúc. Kỷ yếu của Viện Hàn lâm Khoa học Quốc gia Tháng 9 năm 2010, 107 (38) 16361-16493; DOI: 10.1073 / pnas.1011492107


1
Khi bạn đưa ra một trích dẫn từ một tờ giấy, luôn luôn đưa ra một tài liệu tham khảo bao gồm số trang .
Phục hồi Monica

7
Tôi không thể nói liệu đây có phải là 'thông lệ' hay không, nhưng tôi hy vọng là không. Tự động loại bỏ 'ngoại lệ' về cơ bản là một ý tưởng tồi. Có thể mô hình hoặc tiêu chí loại bỏ của bạn không tốt, có thể có điều gì đó mới đang diễn ra (bắt đầu suy thoái, thức tỉnh khả năng mới) mà bạn không nên bỏ qua. // Sẽ khác nếu bạn có thể theo dõi giá trị đáng ngờ đối với lỗi nhập dữ liệu hoặc lỗi thiết bị hoặc nếu giá trị đó đơn giản là vô lý (người cao 16'2 ", anh chàng có 61 giờ có thể thanh toán vào thứ ba tuần trước, chuyến bay 25 phút SFO-ORD). Nhưng không phải vì nó không phù hợp với một mô hình. Tôi biết một công ty khởi nghiệp đã phá vỡ cách đó.
BruceET

7
Giá trị thống kê của phương pháp này được phản ánh bằng số thập phân vô lý mà họ báo cáo cho RMSE.
Frans Rodenburg

Cảm giác này giống như một giải pháp giả định thô thiển / anh hùng cho một câu hỏi tôi đã hỏi vài tháng trước: stats.stackexchange.com/questions/390051/ Lỗi
Adrian

Câu trả lời:


30

Lý do bỏ dữ liệu này được nêu ngay trong trích dẫn: cụ thể là để "loại bỏ các ngoại lệ và báo cáo thu nhập hợp lý". Việc họ đề cập đến cả hai điều này cùng một lúc có nghĩa là họ thừa nhận rằng ít nhất một số ngoại lệ của họ không phải là giá trị hợp lý, và trong mọi trường hợp, họ không đưa ra lập luận về lý do tại sao các giá trị có số dư cao nên được coi là "hợp lý "Giá trị thu nhập. Bằng cách này, họ đang loại bỏ hiệu quả các điểm dữ liệu vì phần dư cao hơn so với những gì được mong đợi trong mô hình hồi quy của họ. Như tôi đã nói trong một câu trả lời khác ở đây , điều này tương đương với việc yêu cầu thực tế tuân thủ các giả định mô hình của bạn và bỏ qua các phần của thực tế không tuân thủ các giả định đó.

Có hay không đây là một thực tế phổ biến, nó là một thực tế khủng khiếp. Điều này xảy ra do các điểm dữ liệu bên ngoài rất khó xử lý và nhà phân tích không sẵn sàng mô hình hóa chúng đúng cách (ví dụ: bằng cách sử dụng mô hình cho phép độ nhiễu cao hơn trong các thuật ngữ lỗi), vì vậy họ chỉ loại bỏ các phần của thực tế không phù hợp với khả năng của họ để thực hiện mô hình thống kê. Thực tiễn này là không mong muốn về mặt thống kê và nó dẫn đến những suy luận đánh giá thấp một cách có hệ thống phương sai và sự bứt rứt trong các điều khoản lỗi. Các tác giả của bài báo này cho biết họ đã giảm 3,22% dữ liệu do loại bỏ các ngoại lệ này (trang 16490). Vì hầu hết các điểm dữ liệu này sẽ có thu nhập rất cao, điều này đặt ra nghi ngờ đáng kể về khả năng đưa ra kết luận mạnh mẽ về ảnh hưởng của thu nhập cao (đó là mục tiêu của bài báo của họ).


Sao ngươi dám chỉ trích các Daniel Kahneman! Đùa sang một bên, đó là những điểm rất tốt +1.
Tim

11
Kahneman là một nhà tâm lý học rất tốt, những cuốn sách mà tôi thường rất thích và thấy hữu ích. Mỗi người có thể có năm mươi giải thưởng Nobel --- điều đó sẽ không thay đổi thực tế rằng việc loại bỏ hàng loạt "ngoại lệ" là một thực tiễn thống kê khủng khiếp.
Phục hồi Monica

3
Tự nhiên tôi đồng ý với bạn. Tôi không nghĩ rằng cần phải nói.
Nick Cox

1
@NickCox Ý bạn là cái gọi là "Giải thưởng tưởng niệm Nobel" : vì tôi chắc rằng bạn biết nó không được thành lập bởi Nobel và thực sự không liên quan gì đến anh ta. Tên chính thức rõ ràng là "Giải thưởng Sveriges Riksbank về khoa học kinh tế để tưởng nhớ Alfred Nobel".
amip nói phục hồi Monica

1
Bạn chắc chắn tôi biết điều đó và bạn thực sự đúng. EJMR luôn có thẩm quyền đã từng mang bài đăng này về tôi "Không, anh ấy sẽ không bao giờ giành giải Nobel", nghĩa là giải thưởng đó.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.