Tôi sẽ trả lời các câu hỏi của bạn theo thứ tự ngược lại mà bạn đã hỏi họ, để việc giải trình diễn ra từ cụ thể đến chung chung.
Trước tiên, chúng ta hãy xem xét một tình huống mà bạn có thể giả định rằng ngoại trừ một số ít các ngoại lệ, phần lớn dữ liệu của bạn có thể được mô tả tốt bởi một phân phối đã biết (trong trường hợp của bạn là số mũ).
x
pX(x)=σ−1exp(−(x−θ)σ),x>0;σ>0
xθ=0
Công cụ ước tính MLE thông thường của các tham số là [0, p 506]:
θ^=minixi
và
σ^=aveixi−minixi
Đây là một ví dụ trong R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈2.08
xi−xi
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈11.12xi100xi
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈54
Một thay thế cho MLE thô là (a) tìm các ngoại lệ bằng cách sử dụng quy tắc nhận dạng ngoại lệ mạnh mẽ , (b) đặt chúng sang một bên dưới dạng dữ liệu giả và (c) tính MLE trên phần không giả của mẫu.
Cái được biết đến nhiều nhất của quy tắc nhận dạng ngoại lệ mạnh mẽ này là quy tắc med / mad được đề xuất bởi Hampel [3], người đã gán nó cho Gauss (tôi đã minh họa quy tắc này ở đây ). Trong quy tắc med / mad, ngưỡng từ chối dựa trên giả định rằng các quan sát thực sự trong mẫu của bạn được xấp xỉ bằng một phân phối bình thường.
Tất nhiên, nếu bạn có thêm thông tin (chẳng hạn như việc phân phối các quan sát thực sự gần đúng bằng phân phối poisson như trong ví dụ này ), không có gì ngăn bạn chuyển đổi dữ liệu của mình và sử dụng quy tắc từ chối cơ bản ( med / mad) nhưng điều này gây cho tôi một chút lúng túng khi chuyển đổi dữ liệu để bảo toàn những gì sau tất cả một quy tắc đặc biệt.
Nó có vẻ hợp lý hơn nhiều đối với tôi để bảo tồn dữ liệu nhưng điều chỉnh các quy tắc từ chối. Sau đó, bạn vẫn sẽ sử dụng quy trình 3 bước tôi đã mô tả trong liên kết đầu tiên ở trên, nhưng với ngưỡng từ chối phù hợp với phân phối, bạn nghi ngờ phần tốt của dữ liệu có. Dưới đây, tôi đưa ra quy tắc từ chối trong các tình huống trong đó các quan sát thực sự được trang bị tốt bởi phân phối theo cấp số nhân. Trong trường hợp này, bạn có thể xây dựng các ngưỡng từ chối tốt bằng quy tắc sau:
θ
θ^′=medixi−3.476Qn(x)ln2
≈3.476
2) từ chối vì giả mạo tất cả các quan sát bên ngoài [2, tr 188]
[θ^′,9(1+2/n)medixi+θ^′]
(hệ số 9 trong quy tắc trên được lấy là 7.1 trong câu trả lời của Glen_b ở trên, nhưng sử dụng mức cắt cao hơn. Hệ số (1 + 2 / n) là hệ số hiệu chỉnh mẫu nhỏ được lấy từ mô phỏng trong [2]. Đối với kích thước mẫu đủ lớn, về cơ bản nó bằng 1).
σ
σ^′=avei∈Hxi−mini∈Hxi
H={i:θ^′≤xi≤9(1+2/n)medixi+θ^′}
sử dụng quy tắc này trên các ví dụ trước, bạn sẽ nhận được:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈2.2
Trên ví dụ thứ ba:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈2.2
{i:i∉H}
Bây giờ, đối với trường hợp chung khi bạn không có phân phối ứng viên tốt để phù hợp với phần lớn các quan sát của bạn ngoài việc biết rằng phân phối đối xứng sẽ không làm được, bạn có thể sử dụng boxplot đã điều chỉnh [4]. Đây là một khái quát của boxplot có tính đến độ lệch (không tham số và mạnh mẽ) của dữ liệu của bạn (để khi phần lớn dữ liệu đối xứng được thu gọn xuống boxplot thông thường). Bạn cũng có thể kiểm tra câu trả lời này cho một minh họa.
- [0] Johnson NL, Kotz S., Balakrish Nam N. (1994). Phân phối đơn biến liên tục, Tập 1, Phiên bản 2.
- [1] Rousseeuw PJ và Croux C. (1993). Các lựa chọn thay thế cho độ lệch tuyệt đối trung bình. Tạp chí của Hiệp hội Thống kê Hoa Kỳ, Tập. 88, số 424, trang 1273--1283.
- [2] JK Patel, CH Kapadia và DB Owen, Dekker (1976). Sổ tay phân phối thống kê.
- [3] Hampel (1974). Đường cong ảnh hưởng và vai trò của nó trong ước tính mạnh mẽ. Tạp chí của Hiệp hội Thống kê Hoa Kỳ Vol. 69, số 346 (tháng sáu, 1974), trang 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Một boxplot được điều chỉnh cho các bản phân phối lệch". Thống kê tính toán & Phân tích dữ liệu Tập 52, Số 12, ngày 15 tháng 8 năm 2008, Trang 5186 Từ5201.
1.5*IQR
định nghĩa về một ngoại lệ không được chấp nhận phổ biến. Cố gắng dỡ câu hỏi của bạn và mở rộng về vấn đề bạn đang cố gắng giải quyết.