Các vấn đề với phát hiện ngoại lệ


8

Trong một bài đăng trên blog Andrew Gelman viết :

Hồi quy từng bước là một trong những điều này, như phát hiện ngoại lệ và biểu đồ hình tròn, có vẻ phổ biến trong số những người không thống kê nhưng được các nhà thống kê coi là một trò đùa.

Tôi hiểu các tài liệu tham khảo về biểu đồ hình tròn, nhưng tại sao phát hiện ngoại lệ lại bị các nhà thống kê xem thường theo Gelman? Có phải nó chỉ có thể khiến mọi người cắt xén dữ liệu của họ?


2
Nếu bạn xem các bình luận trên cùng trang mà bạn đã liên kết, bạn sẽ tìm thấy câu trả lời từ chính Andrew, cũng như thảo luận thêm. Xem ví dụ nhận xét này: andrewgelman.com/2014/06/02/hate-stepwise-regression/iêu
Jerome Baum

1
Các chi tiết ở đây về các nhà thống kê so với người không thống kê là không may. Nhìn qua, ví dụ như chuyên luận của Barnett và Lewis về các ngoại lệ và bạn sẽ thấy thử nghiệm sau khi thử nghiệm được đề xuất chủ yếu bởi các nhà thống kê tập trung vào các tình huống có thể xảy ra. Đúng là (ví dụ) trong vật lý, mọi người vẫn thường tuân theo các quy tắc cổ xưa do Peirce và Chauvenet đề xuất, nhưng phần lớn sự ngu ngốc ở đây cũng liên quan đến các nhà thống kê. Tiết lộ: Tôi không phải là một nhà thống kê và tôi có xu hướng tin rằng các ngoại lệ thường là chính hãng và việc tìm đúng quy mô để làm việc khiến hầu hết mọi thứ đều có thể thực hiện được.
Nick Cox

@NickCox: Tôi nghĩ Gelman có thể đã đề cập đến các cuộc trò chuyện thống kê khác nhau và không thống kê. Ví dụ, khi tìm kiếm hành vi độc hại trên mạng, rất nhiều người không thống kê bị sa thải về phát hiện ngoại lệ; "Tất nhiên tôi muốn biết về hành vi bất thường !!". Đọc qua các tài liệu thống kê, nhiều nhà thống kê bắt đầu và kết thúc bài báo của họ "tốt, điều này có thể được thực hiện và đây là cách nhưng ..."
Cliff AB

... Hoặc cách khác, các nhà sinh học thường ổn với việc bỏ các ngoại lệ, bởi vì họ tin rằng các ngoại lệ này là do lỗi thủ tục chứ không phải là kết quả bất thường từ một thí nghiệm được thực hiện đúng. Vì vậy, với họ, một quy trình tự động giảm các lỗi thủ tục nghe có vẻ tuyệt vời, nhưng một nhà thống kê không hài lòng với những gì thực sự xảy ra trong thực tế.
Vách đá AB

Câu trả lời:


1

Nhận xét của @Jerome Baum là tại chỗ. Để mang báo giá Gelman ở đây:

Phát hiện ngoại lệ có thể là một điều tốt. Vấn đề là những người không phải là người thống kê dường như thích bám vào từ đó, ngoại trừ mà không cố gắng nghĩ về quá trình tạo ra ngoại lệ, một số sách giáo khoa có những quy tắc có vẻ ngu ngốc đối với các nhà thống kê như tôi, các quy tắc như ghi nhãn một cái gì đó là một ngoại lệ nếu nó nhiều hơn một số sd từ trung vị, hoặc bất cứ điều gì. Khái niệm về một ngoại lệ là hữu ích nhưng tôi nghĩ nó đòi hỏi bối cảnh nếu bạn gắn nhãn một cái gì đó là một ngoại lệ, bạn muốn thử hiểu lý do tại sao bạn nghĩ như vậy.

Để thêm một chút nữa, trước tiên chúng ta xác định ngoại lệ như thế nào . Cố gắng thực hiện một cách nghiêm ngặt mà không đề cập đến bất cứ điều gì trực quan như "có vẻ như nó ở rất xa các điểm khác". Nó thực sự khá khó khăn.

Tôi muốn nói rằng một ngoại lệ là một điểm rất khó có thể đưa ra một mô hình về cách các điểm được tạo ra. Trong hầu hết các tình huống, mọi người thực sự không có một mô hình về cách các điểm được tạo ra, hoặc nếu họ làm điều đó quá đơn giản đến mức bị sai nhiều lần. Vì vậy, như Andrew nói, mọi người sẽ làm những việc như giả định rằng một loại quy trình Gaussian nào đó đang tạo ra các điểm và vì vậy nếu một điểm có nhiều hơn một số SD nhất định từ trung bình, thì đó là một ngoại lệ. Toán học thuận tiện, không quá nguyên tắc.

Và chúng tôi thậm chí không hiểu được những gì mọi người làm với các ngoại lệ một khi họ được xác định. Hầu hết mọi người muốn ném những điểm bất tiện này đi, ví dụ. Trong nhiều trường hợp, đó là những ngoại lệ dẫn đến những đột phá và khám phá, chứ không phải những ngoại lệ!

Có rất nhiều quảng cáo đặc biệt trong phát hiện ngoại lệ, như được thực hiện bởi những người không thống kê, và Andrew không thoải mái với điều đó.


0

Điều này cho thấy sự giằng xé kinh điển giữa hai loại mục tiêu cho các phân tích thống kê như hồi quy: mô tả so với dự đoán. (Xin tha thứ cho những khái quát trong bình luận của tôi dưới đây.)

Từ quan điểm của nhà thống kê, mô tả thường quan trọng hơn dự đoán. Do đó, họ vốn đã "thiên vị" đối với lời giải thích. Tại sao có một ngoại lệ? Đây có thực sự là một lỗi trong việc nhập dữ liệu (các số 0 bổ sung ở cuối một giá trị) hay đó là một điểm dữ liệu hợp lệ xảy ra cực kỳ? Đây là những câu hỏi quan trọng cho một nhà thống kê.

OTOH, các nhà khoa học dữ liệu quan tâm đến dự đoán hơn là mô tả. Mục tiêu của họ là phát triển một mô hình mạnh thực hiện công việc tuyệt vời để dự đoán kết quả trong tương lai (ví dụ: mua hàng, tiêu hao). Nếu có một giá trị cực đoan trong một trong các lĩnh vực, một nhà khoa học dữ liệu sẽ vui vẻ giới hạn giá trị đó (ví dụ như giá trị phần trăm thứ 98) nếu điều đó giúp cải thiện độ chính xác dự đoán của mô hình.

Tôi không có thiên hướng chung về một trong hai cách tiếp cận này. Tuy nhiên, liệu các phương pháp / phương pháp tiếp cận như hồi quy từng bước và xử lý ngoại lệ có "một chút trò đùa" hay không phụ thuộc vào phía nào của hàng rào bạn đang đứng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.