Phát hiện các ngoại lệ bằng độ lệch chuẩn


27

Theo câu hỏi của tôi ở đây , tôi tự hỏi liệu có quan điểm mạnh đối với việc chống lại việc sử dụng độ lệch chuẩn để phát hiện các ngoại lệ hay không (ví dụ: bất kỳ dữ liệu nào có nhiều hơn 2 độ lệch chuẩn là một ngoại lệ).

Tôi biết điều này phụ thuộc vào bối cảnh nghiên cứu, ví dụ, một điểm dữ liệu, 48kg, chắc chắn sẽ là một ngoại lệ trong một nghiên cứu về cân nặng của trẻ sơ sinh nhưng không phải trong một nghiên cứu về cân nặng của người lớn.

Các ngoại lệ là kết quả của một số yếu tố như lỗi nhập dữ liệu. Trong trường hợp của tôi, các quá trình này là mạnh mẽ.

Tôi đoán câu hỏi tôi đang hỏi là: Sử dụng độ lệch chuẩn có phải là phương pháp âm thanh để phát hiện các ngoại lệ không?


1
Bạn nói, "Trong trường hợp của tôi, các quy trình này là mạnh mẽ". Nghĩa là gì? Rằng bạn có chắc là mình không có lỗi nhập dữ liệu?
Wayne

Có rất nhiều câu trả lời hay ở đây mà tôi không chắc nên chấp nhận câu trả lời nào! Mọi hướng dẫn về điều này sẽ hữu ích
Amarald

Nói chung, hãy chọn câu hỏi mà bạn cảm thấy trả lời câu hỏi của bạn một cách trực tiếp và rõ ràng nhất và nếu quá khó để nói, tôi sẽ đi với người có số phiếu cao nhất. Thậm chí hơi khó khăn khi quyết định chọn cái nào, điều quan trọng là phải thưởng cho ai đó đã dành thời gian để trả lời.
Wayne

1
PS Bạn có thể vui lòng làm rõ với một lưu ý về ý nghĩa của "các quá trình này là mạnh mẽ" không? Nó không quan trọng đối với các câu trả lời, tập trung vào tính bình thường, v.v., nhưng tôi nghĩ nó có một số mang.
Wayne

3
Outliers không phải là mô hình miễn phí. Một ngoại lệ khác thường trong một mô hình có thể là một điểm hoàn toàn bình thường dưới một mô hình khác. Câu hỏi đầu tiên phải là "tại sao bạn lại cố gắng phát hiện các ngoại lệ?" (thay vì làm một cái gì đó khác, như sử dụng các phương thức mạnh mẽ cho chúng) và thứ hai sẽ là "điều gì làm cho một quan sát trở thành một ngoại lệ trong ứng dụng cụ thể của bạn?"
Glen_b -Reinstate Monica

Câu trả lời:


26

Một số ngoại lệ rõ ràng là không thể . Bạn đề cập đến 48 kg cho cân nặng của bé. Đây rõ ràng là một lỗi. Đó không phải là một vấn đề thống kê , nó là một vấn đề quan trọng. Không có em bé 48 kg. Bất kỳ phương pháp thống kê sẽ xác định một điểm như vậy.

Cá nhân, thay vì dựa vào bất kỳ thử nghiệm nào (ngay cả những thử nghiệm phù hợp, như được đề xuất bởi @Michael) tôi sẽ vẽ biểu đồ dữ liệu. Cho thấy rằng một giá trị dữ liệu (hoặc giá trị) nhất định không thể xảy ra trong một số phân phối giả định không có nghĩa là giá trị đó bị sai và do đó, các giá trị không nên tự động bị xóa chỉ vì chúng cực đoan.

Ngoài ra, quy tắc bạn đề xuất (2 SD từ giá trị trung bình) là một quy tắc cũ đã được sử dụng trong những ngày trước khi máy tính làm cho mọi thứ trở nên dễ dàng. Nếu N là 100.000, thì bạn chắc chắn mong đợi khá nhiều giá trị hơn 2 SD từ giá trị trung bình, ngay cả khi có một phân phối bình thường hoàn hảo.

Nhưng nếu phân phối sai thì sao? Giả sử, trong dân số, biến trong câu hỏi không được phân phối bình thường nhưng có đuôi nặng hơn thế?


1
Giá trị lớn nhất của trọng lượng em bé mà bạn sẽ coi là có thể là gì?
mark999

2
Tôi không biết. Nhưng người ta có thể tra cứu hồ sơ. Theo answer.com (từ một google nhanh), nó là 23,12 pounds, được sinh ra từ hai cha mẹ với chủ nghĩa khổng lồ. Nếu tôi đang làm nghiên cứu, tôi sẽ kiểm tra thêm.
Peter Flom - Tái lập Monica

Điều gì xảy ra nếu một người không thể kiểm tra trực quan dữ liệu (nghĩa là nó có thể là một phần của quy trình tự động?)
user90772

Thêm đồ thị để tự động hóa, bằng cách nào đó.
Peter Flom - Tái lập Monica

24

Vâng. Đó là một cách xấu để "phát hiện" oultiers. Đối với dữ liệu được phân phối thông thường, một phương pháp như vậy sẽ gọi 5% các quan sát hoàn toàn tốt (nhưng hơi cực đoan) là "ngoại lệ". Ngoài ra khi bạn có một mẫu có kích thước n và bạn tìm kiếm các quan sát cực kỳ cao hoặc thấp để gọi chúng là các ngoại lệ, bạn thực sự đang xem các số liệu thống kê cực đoan. Tối đa và tối thiểu của một mẫu phân phối bình thường không được phân phối bình thường. Vì vậy, bài kiểm tra nên dựa trên sự phân bố của các thái cực. Đó là những gì bài kiểm tra của Grubbs và bài kiểm tra tỷ lệ của Dixon làm như tôi đã đề cập nhiều lần trước đây. Ngay cả khi bạn sử dụng một bài kiểm tra thích hợp cho các ngoại lệ, một quan sát không nên bị từ chối chỉ vì nó cực kỳ bất thường. Bạn nên điều tra tại sao quan sát cực đoan xảy ra đầu tiên.


1
Cũng "xấu" khi từ chối H0 dựa trên giá trị p thấp.
Leo

16

Khi bạn hỏi có bao nhiêu độ lệch chuẩn so với giá trị trung bình của một ngoại lệ tiềm năng, đừng quên rằng chính ngoại lệ đó sẽ tăng SD và cũng sẽ ảnh hưởng đến giá trị của giá trị trung bình. Nếu bạn có N giá trị, tỷ lệ khoảng cách từ giá trị trung bình chia cho SD không bao giờ có thể vượt quá (N-1) / sqrt (N). Điều này quan trọng nhất, tất nhiên, với các mẫu nhỏ. Ví dụ: nếu N = 3, không có ngoại lệ nào có thể nhiều hơn 1.155 * SD từ giá trị trung bình, do đó, không thể có bất kỳ giá trị nào vượt quá 2 SD so với giá trị trung bình. (Tất nhiên, điều này giả định rằng bạn đang tính toán SD mẫu từ dữ liệu trong tay và không có lý do lý thuyết để biết SD dân số).

Các giá trị tới hạn cho kiểm tra Grubbs đã được tính toán để tính đến điều này và do đó phụ thuộc vào kích thước mẫu.


12

Tôi nghĩ bối cảnh là tất cả. Đối với ví dụ đã nêu, có, rõ ràng một em bé nặng 48 kg là sai lầm và việc sử dụng 2 độ lệch chuẩn sẽ bắt gặp trường hợp này. Tuy nhiên, không có lý do nào để nghĩ rằng việc sử dụng 2 độ lệch chuẩn (hoặc bất kỳ bội số SD nào khác) là phù hợp với các dữ liệu khác. Ví dụ, nếu bạn đang xem xét dư lượng thuốc trừ sâu trong nước mặt, dữ liệu vượt quá 2 độ lệch chuẩn là khá phổ biến. Những giá trị đặc biệt cao này không phải là outliers, ngay cả khi chúng nằm cách xa trung bình, vì chúng là do các sự kiện mưa, các ứng dụng thuốc trừ sâu gần đây, v.v. Tất nhiên, bạn có thể tạo các quy tắc khác của ngón tay cái (tại sao không phải là 1,5 × SD, hoặc 3.1415927 × SD?), Nhưng thực sự các quy tắc như vậy rất khó bảo vệ và thành công hay thất bại của chúng sẽ thay đổi tùy thuộc vào dữ liệu bạn đang kiểm tra. Tôi nghĩ rằng sử dụng phán đoán và logic, mặc dù chủ quan, là một phương pháp tốt hơn để loại bỏ các ngoại lệ, thay vì sử dụng quy tắc tùy ý. Trong trường hợp này, bạn không cần 2 × SD để phát hiện 48 kg ngoại lệ - bạn có thể giải thích được. Đó không phải là một phương pháp ưu việt sao? Đối với trường hợp bạn không thể giải thích được, tốt, các quy tắc tùy ý có tốt hơn không?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.