Tính bình thường tiệm cận của thống kê đơn hàng phân phối đuôi nặng


9

Bối cảnh: Tôi có một mẫu mà tôi muốn lập mô hình với phân phối đuôi nặng. Tôi có một số giá trị cực đoan, sao cho sự lan truyền của các quan sát là tương đối lớn. Ý tưởng của tôi là mô hình hóa điều này với phân phối Pareto tổng quát, và vì vậy tôi đã thực hiện. Bây giờ, định lượng 0,975 của dữ liệu thực nghiệm của tôi (khoảng 100 điểm dữ liệu) thấp hơn định lượng 0,975 của phân phối Pareto tổng quát mà tôi đã trang bị cho dữ liệu của mình. Bây giờ, tôi nghĩ, có cách nào để kiểm tra xem sự khác biệt này có phải là điều đáng lo ngại không?

Chúng ta biết rằng sự phân bố tiệm cận của các lượng tử được đưa ra là:

tính chuẩn tiệm cận của các lượng tử

Vì vậy, tôi nghĩ rằng sẽ là một ý tưởng tốt để giải trí cho sự tò mò của mình bằng cách thử vẽ các dải tin cậy 95% xung quanh định lượng 0,975 của phân phối Pareto tổng quát với các tham số giống như tôi nhận được từ việc khớp dữ liệu của mình.

GPD

Như bạn thấy, chúng tôi đang làm việc với một số giá trị cực đoan ở đây. Và vì mức chênh lệch rất lớn, hàm mật độ có các giá trị cực kỳ nhỏ, làm cho các dải tin cậy đi theo thứ tự bằng cách sử dụng phương sai của công thức quy tắc tiệm cận ở trên:±1012

±1.960.9750.025n(fGPD(q0.975))2

Vì vậy, điều này không có ý nghĩa gì. Tôi có một phân phối chỉ có kết quả tích cực và khoảng tin cậy bao gồm các giá trị âm. Vì vậy, một cái gì đó đang xảy ra ở đây. Nếu tôi tính toán băng xung quanh 0,5 quantile, các ban nhạc không phải rất lớn, nhưng vẫn còn rất lớn.

Tôi tiến hành để xem điều này diễn ra như thế nào với phân phối khác, cụ thể là phân phối . Mô phỏng quan sát từ phân phối và kiểm tra xem các lượng tử có nằm trong dải tin cậy hay không. Tôi làm điều này 10000 lần để xem tỷ lệ của các lượng tử 0,975 / 0,5 của các quan sát mô phỏng nằm trong các dải tin cậy.N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

EDIT : Tôi đã sửa mã và cả hai lượng tử cho khoảng 95% lần truy cập với n = 100 và với . Nếu tôi tăng độ lệch chuẩn thành , thì rất ít lượt truy cập nằm trong các dải. Vì vậy, câu hỏi vẫn còn.σ=1σ=2

EDIT2 : Tôi rút lại những gì tôi đã tuyên bố trong EDIT đầu tiên ở trên, như được chỉ ra trong các bình luận của một quý ông hữu ích. Có vẻ như những CI này tốt cho phân phối bình thường.

Đây có phải là sự bình thường tiệm cận của thống kê đơn hàng chỉ là một biện pháp rất tệ để sử dụng, nếu người ta muốn kiểm tra xem một số lượng tử quan sát được có thể được cung cấp cho một phân phối ứng cử viên nhất định không?

Theo trực giác, dường như có một mối quan hệ giữa phương sai của phân phối (mà người ta nghĩ đã tạo ra dữ liệu, hoặc trong ví dụ R của tôi, mà chúng ta biết đã tạo ra dữ liệu) và số lượng quan sát. Nếu bạn có 1000 quan sát và phương sai rất lớn, các dải này rất tệ. Nếu một người có 1000 quan sát và phương sai nhỏ, các dải này có thể có ý nghĩa.

Bất cứ ai quan tâm để làm rõ điều này cho tôi?


2
Băng tần của bạn dựa trên phương sai của phân phối chuẩn tiệm cận, nhưng nên dựa trên độ lệch chuẩn của phân phối chuẩn tiệm cận (band = 1.96 * sqrt ((0.975 * 0.025) / (100 * (f_norm) ^ 2)), và tương tự cho phân phối Pareto tổng quát.) Thay vào đó hãy thử điều đó và xem điều gì sẽ xảy ra.
jbowman

@jbowman cảm ơn bạn đã chỉ ra điều đó! Tôi sẽ sửa chữa nó !
Erosennin

@jbowman làm cho ban nhạc nhỏ hơn và trong ví dụ với mã R của tôi thực sự cho ít lượt truy cập hơn. Đó là một lỗi khác nữa, điều đó làm cho tính toán sai, nhưng tôi đã sửa nó ngay bây giờ. Bạn đã dẫn tôi đến đó, vì vậy tôi đánh giá cao điều đó rất nhiều! Các ban nhạc nhỏ hơn trong trường hợp GDP là một tin rất tốt, nhưng tôi e rằng chúng vẫn còn quá lớn nên không thể sử dụng. Tôi vẫn không thể thấy bất kỳ sự mua lại nào khác ngoài kích thước và phương sai mẫu mối quan hệ là những gì nên lớn, không phải là cỡ mẫu một mình.
Erosennin

Đừng lo lắng! Tôi lưu ý rằng bạn đã có một chính xác trước công thức đầu tiên của bạn; nếu bạn chia cả hai bên theo đó, như trong , điều đó có thể giúp ích. Xin lỗi tôi đã bỏ lỡ rằng lần đầu tiên thông qua. (Có thể bạn cũng đã sửa lỗi này nhưng chưa cập nhật các phần có liên quan của câu hỏi.)(n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
jbowman

1
Có nó, tôi đã không chú ý. OTOH, khi tôi chạy mã của bạn, thay đổi sd = 1 thành sd = 2 ở mọi nơi, tôi nhận được gần như chính xác một phần các lần truy cập cả hai lần ở định lượng 0,975: 0,9683 và 0,9662. Tôi tự hỏi nếu bạn bỏ lỡ một sd = 1 ở đâu đó trong lần chạy ? σ=2
jbowman

Câu trả lời:


3

Tôi cho rằng sự phát sinh của bạn đến từ một cái gì đó giống như trên trang này .

Tôi có một phân phối chỉ có kết quả tích cực và khoảng tin cậy bao gồm các giá trị âm.

Vâng, đưa ra các xấp xỉ bình thường có ý nghĩa. Không có gì ngăn cản một xấp xỉ bình thường từ việc cung cấp cho bạn các giá trị âm, đó là lý do tại sao đó là một xấp xỉ xấu cho một giá trị giới hạn khi kích thước mẫu nhỏ và / hoặc phương sai lớn. Nếu bạn tăng kích thước mẫu, thì các khoảng sẽ co lại vì kích thước mẫu nằm trong mẫu số của biểu thức cho chiều rộng của khoảng. Phương sai đi vào vấn đề thông qua mật độ: với cùng một giá trị, phương sai cao hơn sẽ có mật độ khác nhau, cao hơn ở lề và thấp hơn gần trung tâm. Mật độ thấp hơn có nghĩa là khoảng tin cậy rộng hơn vì mật độ nằm trong mẫu số của biểu thức.

Một chút googling đã tìm thấy trang này , trong số những trang khác, sử dụng phép tính gần đúng bình thường cho phân phối nhị thức để xây dựng các giới hạn độ tin cậy. Ý tưởng cơ bản là mỗi quan sát rơi xuống dưới lượng tử với xác suất q , do đó phân phối là nhị thức. Khi cỡ mẫu đủ lớn (điều đó quan trọng), phân phối nhị thức được xấp xỉ bằng phân phối chuẩn với trung bình và phương sai . Vì vậy, giới hạn tin cậy thấp hơn sẽ có chỉ số và giới hạn tin cậy trên sẽ có chỉ số . Có khả năng là hoặcnqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1 khi làm việc với các lượng tử gần rìa và tham chiếu tôi tìm thấy là im lặng về điều đó. Tôi đã chọn chỉ coi tối đa hoặc tối thiểu là giá trị liên quan.

Trong lần viết lại mã sau đây, tôi đã xây dựng giới hạn tin cậy đối với dữ liệu thực nghiệm và được kiểm tra xem liệu lượng tử lý thuyết có nằm trong đó không. Điều đó có ý nghĩa hơn với tôi, bởi vì lượng tử của tập dữ liệu được quan sát là biến ngẫu nhiên. Phạm vi bảo hiểm cho n> 1000 là ~ 0,95. Với n = 100, nó tệ hơn ở mức 0,85, nhưng điều đó được dự đoán cho các lượng tử gần đuôi có kích thước mẫu nhỏ.

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

Theo như xác định cỡ mẫu nào là "đủ lớn", tốt hơn, lớn hơn là tốt hơn. Cho dù bất kỳ mẫu cụ thể nào là "đủ lớn" đều phụ thuộc mạnh mẽ vào vấn đề trong tay và mức độ phức tạp của bạn đối với những thứ như phạm vi bảo hiểm giới hạn tự tin của bạn.


Cảm ơn bạn đã đóng góp! Tôi đã chỉ ra rằng tôi không thấy làm thế nào tồn tại bất kỳ mẫu "lớn" tuyệt đối nào và người ta phải tính đến phương sai. Tôi tò mò về cách thức này liên quan đến cách xây dựng của CI, nhưng nói chung. Về phần phái sinh, ví dụ bạn có thể xem tại đây: math.mcgill.ca/~dstephens/OldCifts/556-2006/ nam Các CI mà tôi đã xây dựng theo ví dụ trong liên kết đó. Bạn viết rằng "Tôi đã xây dựng giới hạn tin cậy cho dữ liệu thực nghiệm ..." và điều này có ý nghĩa hơn với bạn. Bạn có thể vui lòng giải thích thêm một chút về điều này không?
Erosennin

Ah, vâng, bạn đã có liên kết phái sinh đúng. Xin lỗi, lỗi của tôi.
Erosennin

OK, tôi đã chỉnh sửa nó một lần nữa để mô tả chính xác phương sai của phân phối ảnh hưởng đến xấp xỉ bạn đang sử dụng và thảo luận thêm một chút về ý nghĩa của mẫu "lớn". CI của bạn tập trung vào giá trị lý thuyết, trong khi của tôi tập trung vào giá trị thực nghiệm. Tôi nghĩ rằng để so sánh một lượng tử thực nghiệm với một lượng tử lý thuyết, các khoảng nên được xây dựng trên lượng tử thực nghiệm. Ngoài ra, phép tính gần đúng mà tôi đã sử dụng làm cho một phép tính xấp xỉ "bình thường" ít hơn bởi vì không có sự hấp dẫn nào đối với định lý giới hạn trung tâm để bắt đầu.
atiretoo - phục hồi monica

Tôi đánh giá cao nỗ lực, có lẽ câu hỏi của tôi có thể rõ ràng hơn. Tôi đã nhận ra mật độ và kích thước mẫu ảnh hưởng đến phương sai như thế nào, đó là điểm của tôi ở nơi đầu tiên. Nhưng, một lần nữa, xấu của tôi, tôi có thể đã rõ ràng hơn. Đó là "tiệm cận" mà tôi cảm thấy nên được tắt với một cái gì đó có sự khác biệt trong tài khoản. Vâng, bạn cũng đã tập trung CI của bạn xung quanh các giá trị lý thuyết. n * q chính xác là giá trị lý thuyết của bạn. Khi xây dựng các ban nhạc của bạn, về cơ bản bạn đã làm điều tương tự như tôi, chỉ với một phương pháp khác.
Erosennin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.