Phát hiện ngoại lệ trên các bản phân phối sai lệch


24

Theo định nghĩa cổ điển về một ngoại lệ như một điểm dữ liệu nằm ngoài 1,5 * IQR từ phần tư trên hoặc dưới, có một giả định về phân phối không bị lệch. Đối với các phân phối sai lệch (Exponential, Poisson, hình học, v.v.) là cách tốt nhất để phát hiện ngoại lệ bằng cách phân tích một biến đổi của hàm ban đầu?

Ví dụ: các phân phối bị chi phối một cách lỏng lẻo bởi một phân phối theo cấp số nhân, có thể được chuyển đổi bằng hàm log - tại thời điểm nào có thể chấp nhận tìm kiếm các ngoại lệ dựa trên cùng định nghĩa IQR?


4
Có rất nhiều câu hỏi trên trang web này về việc đánh giá các ngoại lệ. Một điều bạn cần thêm vào đây để có câu trả lời hợp lý là những gì bạn thực sự đang cố gắng làm hoặc tìm hiểu. Nhưng đối với người mới bắt đầu, 1.5*IQRđịnh nghĩa về một ngoại lệ không được chấp nhận phổ biến. Cố gắng dỡ câu hỏi của bạn và mở rộng về vấn đề bạn đang cố gắng giải quyết.
Giăng

Tuyên bố rằng giá trị vượt quá 1,5 IQR là một ngoại lệ đơn giản là vô nghĩa. Dữ liệu vượt quá 1,5 IQR sẽ hoàn toàn phù hợp với số lượng phân phối vô hạn và khi kích thước mẫu trở nên lớn, người ta có thể tin tưởng gần như hoàn hảo rằng dữ liệu đó KHÔNG phải là ngoại lệ.
sói

Câu trả lời:


18

Theo định nghĩa cổ điển về ngoại lệ khi dữ liệu chỉ ra 1,5 * IQR từ phần tư trên hoặc dưới,

Đây là quy tắc để xác định các điểm bên ngoài đầu của râu trong hộp. Bản thân Tukey sẽ không nghi ngờ gì khi gọi họ là ngoại lệ trên cơ sở này (anh ta không nhất thiết coi các điểm bên ngoài các giới hạn đó là ngoại lệ). Đây có thể là những điểm - nếu dữ liệu của bạn được dự kiến ​​là từ một phân phối hơi giống với phân phối bình thường - người ta có thể phải điều tra thêm (chẳng hạn như kiểm tra bạn đã không hoán đổi hai chữ số) - ví dụ như nhiều nhất có thể là ngoại lệ tiềm năng . Như Nick Cox đã chỉ ra trong các bình luận dưới câu trả lời này , một đuôi của nhiều điểm như vậy sẽ được coi là một chỉ báo cho thấy một biểu thức lại có thể phù hợp hơn là một dấu hiệu của sự cần thiết phải coi các điểm là ngoại lệ.

có một giả định về phân phối không bị lệch.

Tôi giả sử bởi 'không sai lệch' bạn có nghĩa là đối xứng. Sau đó, giả định là nhiều hơn thế. Một phân phối đuôi nặng nhưng đối xứng có thể có nhiều điểm nằm ngoài giới hạn của quy tắc đó.

Đối với các phân phối sai lệch (Exponential, Poisson, hình học, v.v.) là cách tốt nhất để phát hiện ngoại lệ bằng cách phân tích một biến đổi của hàm ban đầu?

Điều đó phụ thuộc vào những gì cấu thành một ngoại lệ cho mục đích của bạn. Không có định nghĩa duy nhất nào phù hợp cho từng mục đích - thực sự, nói chung, có lẽ bạn tốt hơn nên làm những việc khác (nói) chọn ngoại lệ và bỏ qua chúng.

Đối với hàm mũ hoặc hình học, bạn có thể thực hiện một phép tính tương tự như đối với boxplot, nhưng sẽ chỉ xác định một phần tương tự ở đuôi phải (bạn sẽ không có các điểm cấp thấp được xác định theo cấp số nhân hoặc hình học) .. hoặc bạn có thể làm một cái gì đó khác.

Trong mẫu lớn, các vết boxplot khoảng 0,35% số điểm ở mỗi đầu, tương đương khoảng 0,7% trong tổng số. Ví dụ, đối với số mũ, bạn có thể đánh dấu một số bội số trung vị. Nếu bạn muốn gắn thẻ khoảng 0,7% tổng số điểm theo cấp số nhân thực tế, điều đó sẽ gợi ý các điểm đánh dấu vượt quá khoảng 7,1 lần so với trung bình.

Điểm đánh dấu trên 7,1 lần trung bình cho n = 1000 thường sẽ đạt từ 0,4% đến 1,1% giá trị:

ae <- rexp(1000)
table( ae > 7.1*median(ae) )

FALSE  TRUE 
  993     7 

Ví dụ: các phân phối bị chi phối một cách lỏng lẻo bởi một phân phối theo cấp số nhân, có thể được chuyển đổi bằng hàm log - tại thời điểm nào có thể chấp nhận tìm kiếm các ngoại lệ dựa trên cùng định nghĩa IQR?

Điều đó hoàn toàn phụ thuộc vào những gì bạn có nghĩa là "chấp nhận được". Lưu ý, tuy nhiên -

i) phân phối kết quả không thực sự đối xứng, nhưng rõ ràng là lệch trái.

nhập mô tả hình ảnh ở đây

Do đó, bạn thường chỉ đánh dấu các điểm ở đầu bên trái (tức là gần bằng 0, nơi bạn mong đợi các giá trị theo cấp số nhân dù sao) chứ không phải ở bên phải (nơi có thể là "ngoại lệ"), trừ khi chúng thực sự cực.

ii) sự phù hợp của quy tắc như vậy sẽ phụ thuộc rất nhiều vào những gì bạn đang làm.

Nói chung, nếu bạn lo lắng về giá trị kỳ lạ ảnh hưởng đến suy luận của mình, có lẽ bạn nên sử dụng các quy trình mạnh mẽ hơn là chính thức xác định các ngoại lệ.

Nếu bạn thực sự muốn sử dụng quy tắc dựa trên bình thường cho dữ liệu theo cấp số nhân hoặc dữ liệu được chuyển đổi, ít nhất tôi khuyên bạn nên áp dụng quy tắc này cho căn bậc hai cho Poisson (miễn là giá trị trung bình không quá nhỏ, thì nên gần như bình thường) và căn bậc ba hoặc thậm chí gốc thứ tư cho cấp số nhân (và có lẽ, bằng cách mở rộng, hình học).

hoặc có lẽ , như trongbiến đổi AnscombeX+38

nhập mô tả hình ảnh ở đây

Đối với cấp số nhân, trong các mẫu lớn, cách tiếp cận gốc khối sẽ có xu hướng chỉ đánh dấu các điểm ở đuôi trên (với tốc độ gần bằng với tốc độ mà nó đánh dấu chúng ở đuôi trên đối với bình thường) và cách tiếp cận gốc thứ tư đánh dấu các điểm ở cả hai đuôi (nhiều hơn một chút ở phần đuôi thấp hơn, tổng cộng ở mức gần 40% so với tỷ lệ bình thường). Trong số các khả năng, root cube có ý nghĩa với tôi hơn hai cái kia, nhưng tôi không nhất thiết khuyên bạn nên sử dụng điều này như một quy tắc cứng và nhanh.


1
"Một phân phối đuôi nặng nhưng đối xứng có thể có nhiều điểm nằm ngoài giới hạn của quy tắc đó.". Luôn có chính xác 50% tất cả các điểm trong IQR, phải không?
JulienD

2
(Q1-1,5×IQR,Q3+1,5×IQR)

@Glen_b Ngưỡng từ chối trên của hàm mũ trong câu trả lời của bạn giả định rằng tham số shift (hoặc theta) đã biết. Tôi nghĩ rằng điều này nên được đề cập.
dùng603

1
@ user603 Thuật ngữ " phân phối theo cấp số nhân " (cũng có thể xem tại đây ) mà không có bất kỳ tính từ sửa đổi nào (như "thay đổi" hoặc "hai tham số") thường được dùng để chỉ phiên bản một tham số. Một số người gọi phiên bản thay đổi là "phân phối theo cấp số nhân", nhưng điều đó tương đối hiếm; chỉ phổ biến hơn một chút so với việc gọi phân phối lognatural thay đổi là "phân phối lognatural".
Glen_b -Reinstate Monica

1
@ user603 Ồ, xin lỗi, một thông tin sai lệch đơn giản - trong trường hợp đó, tôi không nghĩ rằng chúng tôi có bất kỳ sự bất đồng đáng kể nào - trong đó có bất kỳ khả năng nào của các ngoại lệ lớn ở bên trái, cách tiếp cận tôi đã đề cập không có ý nghĩa gì cả . Tôi chỉ đơn giản là không cố gắng đối phó với bất kỳ tình huống tiềm năng nào (nhưng trong sự bảo vệ của tôi, tôi không coi OP như đó là một khả năng - tôi nghi ngờ việc ghi nhật ký sẽ xuất hiện trong đầu nếu như vậy).
Glen_b -Reinstate Monica

14

Tôi sẽ trả lời các câu hỏi của bạn theo thứ tự ngược lại mà bạn đã hỏi họ, để việc giải trình diễn ra từ cụ thể đến chung chung.

Trước tiên, chúng ta hãy xem xét một tình huống mà bạn có thể giả định rằng ngoại trừ một số ít các ngoại lệ, phần lớn dữ liệu của bạn có thể được mô tả tốt bởi một phân phối đã biết (trong trường hợp của bạn là số mũ).

x

pX(x)=σ1exp((xθ)σ),x>0;σ>0

xθ=0

Công cụ ước tính MLE thông thường của các tham số là [0, p 506]:

θ^=minixtôi

σ^=aveiximinixi

Đây là một ví dụ trong R:

n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)

σ2.08

xixi

m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)

σ11.12xi100xi

m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)

σ54

Một thay thế cho MLE thô là (a) tìm các ngoại lệ bằng cách sử dụng quy tắc nhận dạng ngoại lệ mạnh mẽ , (b) đặt chúng sang một bên dưới dạng dữ liệu giả và (c) tính MLE trên phần không giả của mẫu.

Cái được biết đến nhiều nhất của quy tắc nhận dạng ngoại lệ mạnh mẽ này là quy tắc med / mad được đề xuất bởi Hampel [3], người đã gán nó cho Gauss (tôi đã minh họa quy tắc này ở đây ). Trong quy tắc med / mad, ngưỡng từ chối dựa trên giả định rằng các quan sát thực sự trong mẫu của bạn được xấp xỉ bằng một phân phối bình thường.

Tất nhiên, nếu bạn có thêm thông tin (chẳng hạn như việc phân phối các quan sát thực sự gần đúng bằng phân phối poisson như trong ví dụ này ), không có gì ngăn bạn chuyển đổi dữ liệu của mình và sử dụng quy tắc từ chối cơ bản ( med / mad) nhưng điều này gây cho tôi một chút lúng túng khi chuyển đổi dữ liệu để bảo toàn những gì sau tất cả một quy tắc đặc biệt.

Nó có vẻ hợp lý hơn nhiều đối với tôi để bảo tồn dữ liệu nhưng điều chỉnh các quy tắc từ chối. Sau đó, bạn vẫn sẽ sử dụng quy trình 3 bước tôi đã mô tả trong liên kết đầu tiên ở trên, nhưng với ngưỡng từ chối phù hợp với phân phối, bạn nghi ngờ phần tốt của dữ liệu có. Dưới đây, tôi đưa ra quy tắc từ chối trong các tình huống trong đó các quan sát thực sự được trang bị tốt bởi phân phối theo cấp số nhân. Trong trường hợp này, bạn có thể xây dựng các ngưỡng từ chối tốt bằng quy tắc sau:

θ

θ^=medixi3.476Qn(x)ln2

3.476

2) từ chối vì giả mạo tất cả các quan sát bên ngoài [2, tr 188]

[θ^,9(1+2/n)medixi+θ^]

(hệ số 9 trong quy tắc trên được lấy là 7.1 trong câu trả lời của Glen_b ở trên, nhưng sử dụng mức cắt cao hơn. Hệ số (1 + 2 / n) là hệ số hiệu chỉnh mẫu nhỏ được lấy từ mô phỏng trong [2]. Đối với kích thước mẫu đủ lớn, về cơ bản nó bằng 1).

σ

σ^=aveiHximiniHxi

H={i:θ^xi9(1+2/n)medixi+θ^}

sử dụng quy tắc này trên các ví dụ trước, bạn sẽ nhận được:

library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])

σ2.05

theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])

σ2.2

Trên ví dụ thứ ba:

theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])

σ2.2

{i:iH}

Bây giờ, đối với trường hợp chung khi bạn không có phân phối ứng viên tốt để phù hợp với phần lớn các quan sát của bạn ngoài việc biết rằng phân phối đối xứng sẽ không làm được, bạn có thể sử dụng boxplot đã điều chỉnh [4]. Đây là một khái quát của boxplot có tính đến độ lệch (không tham số và mạnh mẽ) của dữ liệu của bạn (để khi phần lớn dữ liệu đối xứng được thu gọn xuống boxplot thông thường). Bạn cũng có thể kiểm tra câu trả lời này cho một minh họa.

  • [0] Johnson NL, Kotz S., Balakrish Nam N. (1994). Phân phối đơn biến liên tục, Tập 1, Phiên bản 2.
  • [1] Rousseeuw PJ và Croux C. (1993). Các lựa chọn thay thế cho độ lệch tuyệt đối trung bình. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, Tập. 88, số 424, trang 1273--1283.
  • [2] JK Patel, CH Kapadia và DB Owen, Dekker (1976). Sổ tay phân phối thống kê.
  • [3] Hampel (1974). Đường cong ảnh hưởng và vai trò của nó trong ước tính mạnh mẽ. Tạp chí của Hiệp hội Thống kê Hoa Kỳ Vol. 69, số 346 (tháng sáu, 1974), trang 383-393.
  • [4] Vandervieren, E., Hubert, M. (2004) "Một boxplot được điều chỉnh cho các bản phân phối lệch". Thống kê tính toán & Phân tích dữ liệu Tập 52, Số 12, ngày 15 tháng 8 năm 2008, Trang 5186 Từ5201.

1

Đầu tiên, tôi đặt câu hỏi về định nghĩa, cổ điển hay cách khác. Một "ngoại lệ" là một điểm đáng ngạc nhiên. Sử dụng bất kỳ quy tắc cụ thể nào (ngay cả đối với các phân phối đối xứng) là một ý tưởng thiếu sót, đặc biệt là ngày nay khi có rất nhiều bộ dữ liệu khổng lồ. Trong một tập hợp dữ liệu của một triệu quan sát (không phải là lớn, trong một số lĩnh vực), sẽ có nhiều trường hợp vượt quá giới hạn 1,5 IQR mà bạn trích dẫn, ngay cả khi phân phối là hoàn toàn bình thường.

Thứ hai, tôi khuyên bạn nên tìm kiếm các ngoại lệ trên dữ liệu gốc. Nó sẽ gần như luôn luôn trực quan hơn. Ví dụ, với dữ liệu thu nhập, việc ghi nhật ký là khá phổ biến. Nhưng ngay cả ở đây, tôi sẽ tìm kiếm các ngoại lệ ở quy mô ban đầu (đô la hoặc euro hoặc bất cứ điều gì) bởi vì chúng tôi có cảm giác tốt hơn cho những con số như vậy. (Nếu bạn thực hiện ghi nhật ký, tôi sẽ đề xuất cơ sở nhật ký 10, ít nhất là để phát hiện ngoại lệ, vì ít nhất là một chút trực quan).

Thứ ba, khi tìm kiếm các ngoại lệ, hãy cẩn thận với mặt nạ.

Cuối cùng, tôi hiện đang nghiên cứu thuật toán "tìm kiếm chuyển tiếp" do Atkinson và Riani đề xuất cho nhiều loại dữ liệu và vấn đề khác nhau. Điều này có vẻ rất hứa hẹn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.