Tìm ngoại lệ mà không giả sử phân phối bình thường


8

Tôi có bộ dữ liệu nhỏ kích thước 40-50 điểm. Không giả định rằng dữ liệu được phân phối bình thường, tôi muốn tìm ra các ngoại lệ với độ tin cậy ít nhất 90%. Tôi nghĩ boxplot có thể là một cách tốt để làm điều đó nhưng tôi không chắc chắn.

Bất kỳ trợ giúp đánh giá cao.

Ngoài ra với các triển khai boxplot, tôi không thể tìm thấy một triển khai nào ngoài việc vẽ cốt truyện rõ ràng tạo ra các ngoại lệ.


7
90% tự tin về những gì?
Henry

Đôi khi tôi cũng thấy rằng các nhà nghiên cứu bỏ X% trên cùng và dưới cùng của các quan sát của họ để giảm ảnh hưởng của các trường hợp cực đoan. Nhưng tôi không chắc liệu tôi có đồng ý với nó không, nó khá độc đoán phải không?
C. Pieters

Bạn không cần phải giả định rằng dữ liệu của bạn được phân phối bình thường, nhưng vì bạn biết dữ liệu nào bạn đang xử lý, bạn có thể sử dụng phân phối tham số khác. Ví dụ, thời gian chờ đợi thường được phân phối Poisson. Sau đó, sẽ hợp lý khi nói liệu một điểm dữ liệu Poisson có khả năng được tạo bởi một phân phối nhất định của chúng hay không.
Jack Tanner

Câu trả lời:


22

Đó là bởi vì một thuật toán như vậy không thể tồn tại. Bạn yêu cầu phân phối giả định để có thể phân loại thứ gì đó nằm ngoài phạm vi của các giá trị dự kiến.

Ngay cả khi bạn giả định phân phối bình thường, việc khai báo các điểm dữ liệu là ngoại lệ là một công việc đầy rủi ro. Nói chung, bạn không chỉ cần một ước tính tốt về phân phối thực sự, thường không có sẵn, mà còn là một lý do hỗ trợ tốt về mặt lý thuyết để đưa ra quyết định của bạn (ví dụ như đối tượng đã phá vỡ thiết lập thử nghiệm bằng cách nào đó). Một phán đoán như vậy thường là không thể mã hóa trong một thuật toán.


11
+1. Ngoài ra, việc sử dụng "với độ tin cậy 90%" cho thấy sự hiểu lầm về cách khái niệm niềm tin có thể áp dụng trong trường hợp này. Không có cơ sở cho một mức độ tự tin, không có cách nào có hệ thống để định lượng mức độ tự tin mà người ta có thể có. Nó sẽ đi xuống một điều tùy tiện, như thể người ta sẽ nói "Tôi x% tự tin rằng món súp này quá mặn."
rolando2

5
@ rolando2, đó là như nó có thể, nhưng dù sao, tôi tự tin 90% đó là một nhận xét tốt.
gung - Phục hồi Monica

6

Điều này không trực tiếp trả lời câu hỏi của bạn, nhưng bạn có thể học được điều gì đó từ việc xem outlierstập dữ liệu trong TeachingDemosgói cho R và làm việc thông qua các ví dụ trên trang trợ giúp. Điều này có thể giúp bạn hiểu rõ hơn về một số vấn đề với phát hiện ngoại lệ tự động.


2

R sẽ phun ra các ngoại lệ như trong

dat <- c(6,8.5,-12,1,rnorm(40),-1,10,0)
boxplot(dat)$out

Nó sẽ vẽ boxplot và đưa ra

[1]   6.0   8.5 -12.0  10.0

2
1.5IQR1.5IQRIQR

4
>|1.5IQR|

5
1.5IQR2IQR

1
2*(1-pnorm(4*qnorm(.75)))[1] 0.006976603Set.seed(1); out = c(); for(i in 1:100) x = rnorm(50) y = boxplot(x, plot=F) out[i] = length(y$out)>=1} sum(out)/100[1] 0.3n=50

1
@gung: set.seed(1); out = c(); for(i in 1:100) {x = rnorm(500); y = boxplot(x, plot=F); out[i] = length(y$out)}; sum(out)/50000đưa ra 0.00738gần hơn với những gì tôi đã mô tả
Henry

1

Như những người khác đã nói bạn đã nêu câu hỏi kém về sự tự tin. Có các bài kiểm tra thống kê cho các bài kiểm tra ngoại lệ như bài kiểm tra của Grubbs và bài kiểm tra tỷ lệ của Dixon mà tôi đã đề cập trên một bài đăng khác. Họ cho rằng sự phân bố dân số là bình thường mặc dù thử nghiệm của Dixon mạnh mẽ với giả định về tính quy tắc trong các mẫu nhỏ. Boxplot là một cách không chính thức để phát hiện ra các ngoại lệ trong dữ liệu của bạn. Thông thường, râu được đặt ở phân vị thứ 5 và 95 và các mệnh đề được vẽ ngoài ria thường được coi là ngoại lệ có thể. Tuy nhiên điều này không liên quan đến thử nghiệm thống kê chính thức.


2
Đặt râu ở những phần trăm cố định này có vẻ lạ đối với tôi. Bạn có một tài liệu tham khảo cho điều này? (Tukey, người khởi nguồn của boxplot, đã không sử dụng phương pháp này: anh ta đặt râu ở cực trị, nếu chúng đủ gần với các tứ phân vị, nhưng không quá 1,5 "bước" (bằng khoảng 1,5 lần IQR) từ các bộ tứ.) Điều này mạnh mẽ hơn nhiều cho việc phát hiện ngoại lệ so với việc sử dụng một tỷ lệ phần trăm cực đoan, theo định nghĩa - sẽ luôn xác định 10% dữ liệu là "ngoại lệ", đây sẽ không phải là một thủ tục rất hữu ích.
whuber

Tôi không biết nếu tôi nên nói thường xuyên. Tôi nghĩ rằng rất nhiều điểm khác nhau đã được sử dụng cho râu ria. Tôi nghĩ phần trăm thứ 1 và thứ 99 cũng đã được sử dụng và min và max. Nhưng nếu bạn sử dụng tối thiểu và tối đa, bạn không thể tìm thấy các ngoại lệ ngoài râu. Tôi không có tài liệu tham khảo cụ thể mà đến với tâm trí tại thời điểm này. Tôi không có nghĩa là bất cứ điều gì bên ngoài râu ria sẽ là một ngoại lệ khi phần trăm thứ 5 và 95 được sử dụng. Tôi chỉ có nghĩa là trực quan bạn có thể nhìn thấy chúng bởi vì chúng sẽ ở phía trên hoặc bên dưới râu.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.