Kurtosis phân phối tạo thành


8

Hãy nhìn vào hình ảnh dưới đây. Dòng màu xanh biểu thị chuẩn pdf bình thường. Vùng màu đỏ được cho là bằng tổng diện tích của các vùng màu xám (xin lỗi vì đã vẽ khủng khiếp).

Tôi tự hỏi liệu chúng ta có thể tạo một bản phân phối mới với đỉnh cao hơn bằng cách chuyển các vùng màu xám sang đỉnh (vùng màu đỏ) của pdf thông thường không?

phân phối mới với đỉnh cao hơn

Nếu sự chuyển đổi như vậy có thể được thực hiện, bạn nghĩ gì về sự suy yếu của bản phân phối mới này? Leptokurtic? Nhưng nó có đuôi giống như phân phối bình thường nào! Chưa xác định?


1
Câu hỏi là đẹp trai nhưng bản vẽ thực sự khủng khiếp. Phân phối sắc nét hơn so với bình thường được cho là nặng hơn đuôi. Nhưng bạn đã không vẽ những vùng đuôi này (cũng nên được tô màu đỏ). Khu vực của họ mà bạn cho là để thêm vào?
ttnphns 27/12/13

1
Tại sao không thử nó? Mô phỏng (giả sử) 10.000 từ một tiêu chuẩn thông thường, sau đó di chuyển một số số để thực hiện phân phối mà bạn muốn. Sau đó, bạn có thể vẽ đường thẳng với một chương trình và tính toán mức độ tổn thương.
Peter Flom

Nếu bạn sẵn sàng hy sinh sự khác biệt của mật độ, thì bạn có thể xây dựng một phân phối như vậy (sẽ có mật độ mảnh khôn ngoan).
Alecos Papadopoulos

2
@ttnphns, xin lỗi nếu thẻ đánh lừa bạn. Tôi hy vọng rằng hình ảnh sẽ làm rõ rằng tôi không muốn có bất kỳ thay đổi nào ở đuôi. Thông thường, sách giáo khoa thảo luận về kurtosis so sánh sự thay đổi đồng thời ở đỉnh và đuôi. Tôi muốn hiểu những gì có thể nói về kurtosis khi chỉ có đỉnh trở nên cao hơn.
Yal dc 27/12/13

1
Yal dc - bạn nên lưu ý rằng độ lệch chuẩn của bạn đã thay đổi, do đó, 'đuôi' không giống nhau trừ khi bạn sử dụng một số định nghĩa cụ thể vềtail
Glen_b -Reinstate Monica

Câu trả lời:


12

Sẽ có một số lượng vô hạn các bản phân phối trông rất giống với bản vẽ của bạn, với nhiều giá trị khác nhau cho sự suy yếu.

Với các điều kiện cụ thể trong câu hỏi của bạn và được cung cấp, chúng tôi giữ điểm giao nhau ở bên trong, hoặc ít nhất là không quá xa bên ngoài ±1 , đó là trường hợp bạn bị tổn thương lớn hơn một chút so với bình thường. Tôi sẽ chỉ ra ba trường hợp điều đó xảy ra, và sau đó tôi sẽ chỉ ra một trường hợp nhỏ hơn - và giải thích nguyên nhân khiến nó xảy ra.

Cho rằng Φ ( x ) là pdf và cdf tiêu chuẩn tương ứng, hãy viết cho chúng ta một hàm nhỏϕ(x)Φ(x)

f(x)={ϕ(x);|x|>ta+b.g(x);|x|t 

đối với một số mật độ đối xứng liên tục, (với cdf G tương ứng ), với giá trị trung bình 0 , sao cho và .gG0 a=ϕ(t)-b. g(t)b=Φ(t)½t.ϕ(t)G(t)½t.g(t)a=ϕ(t)b.g(t)

Nghĩa là, và được chọn để làm cho mật độ liên tục và tích hợp thành .b 1ab1

Ví dụ 1 Xétvà,t = 1g(x)=3ϕ(3x)t=1

nhập mô tả hình ảnh ở đây

trông giống như bản vẽ của bạn, ở đây được tạo bởi mã R sau:

f <- function(x, t=1,
              dg=function(x) 2*dnorm(2*x),
              pg=function(x) pnorm(2*x),
              b=(pnorm(t) - 0.5 - t*dnorm(t))/ (pg(t) - 0.5 - t*dg(t)),
              a=dnorm(t)-b*dg(t) ) {
       ifelse(abs(x)>t,dnorm(x),a+b*dg(x))
     }

f1 <- function(x) f(x,t=1,dg=function(x) 3*dnorm(3*x),pg=function(x) pnorm(3*x))
curve(f1,-4,4,col=2)
lines(x,dnorm(x),col=3)

Bây giờ tính toán. Hãy tạo một hàm để đánh giá :xpf1(x)

fp <- function(x,p=2) x^p*f1(x)

để chúng ta có thể đánh giá những khoảnh khắc Đầu tiên là phương sai:

 integrate(fp,-Inf,Inf)  # should be just smaller than 1
0.9828341 with absolute error < 1.4e-07

Tiếp theo khoảnh khắc trung tâm thứ tư:

 integrate(fp,-Inf,Inf,p=4) # should be just smaller than 3
2.990153 with absolute error < 8.3e-06

Chúng ta cần tỷ lệ của những con số đó, cần có độ chính xác khoảng 5 con số

 integrate(fp,-Inf,Inf,p=4)$value/(integrate(fp,-Inf,Inf)$value^2)
[1] 3.095515

Vì vậy, kurtosis là khoảng 3.0955, lớn hơn một chút so với trường hợp bình thường.

Tất nhiên chúng ta có thể tính toán nó theo đại số và có được câu trả lời chính xác, nhưng không cần, điều này cho chúng ta biết những gì chúng ta muốn biết.


Ví dụ 2 Với hàmđược xác định ở trên, chúng ta có thể thử nó cho tất cả các cách của.gfg

Đây là Laplace:

library(distr)
D <- DExp(rate = 1) 
f2 <- function(x) f(x,t=1,dg=d(D),pg=p(D))
curve(f2,-4,4,col=2)
lines(x,dnorm(x),col=3)

nhập mô tả hình ảnh ở đây

fp2 <- function(x,p=2) x^p*f2(x)


 integrate(fp2,-Inf,Inf)  # should be just smaller than 1
0.9911295 with absolute error < 1.1e-07
 integrate(fp2,-Inf,Inf,p=4) # should be just smaller than 3
2.995212 with absolute error < 5.9e-06
 integrate(fp2,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.049065

Không có gì đáng ngạc nhiên, một kết quả tương tự.


Ví dụ 3 : Giả sửlà phân phối Cauchy (phân phối Student-t với 1 df), nhưng với tỷ lệ 2/3 (nghĩa là, nếulà một Cauchy tiêu chuẩn,và một lần nữa đặt ngưỡng, t (cho các điểm,, bên ngoài mà chúng tôi 'chuyển' thành bình thường), thành 1.gh(x)g(x)=1.5h(1.5x)±t

dg <- function(x) 1.5*dt(1.5*x,df=1)
pg <- function(x) pt(1.5*x,df=1)

f3 <- function(x) f(x,t=1,dg=dg,pg=pg)
curve(f3,-4,4,col=2)
lines(x,dnorm(x),col=3)

nhập mô tả hình ảnh ở đây

fp3 <- function(x,p=2) x^p*f3(x)

 integrate(fp3,-Inf,Inf)  # should be just smaller than 1
0.9915525 with absolute error < 1.1e-07

 integrate(fp3,-Inf,Inf,p=4) # should be just smaller than 3
2.995066 with absolute error < 6.2e-06

 integrate(fp3,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 3.048917

Và chỉ để chứng minh rằng chúng ta đã thực sự có một mật độ thích hợp:

 integrate(f3,-Inf,Inf)
1 with absolute error < 9.4e-05

Ví dụ 4 : Tuy nhiên , điều gì xảy ra khi chúng ta thay đổi t ?

Lấy và làm ví dụ trước, nhưng thay đổi ngưỡng thành :gGt=2

f4 <- function(x) f(x,t=2,dg=dg,pg=pg)
curve(f4,-4,4,col=2)
lines(x,dnorm(x),col=3)

nhập mô tả hình ảnh ở đây

fp4 <- function(x,p=2) x^p*f4(x)

 integrate(fp4,-Inf,Inf,p=4)$value/(integrate(fp2,-Inf,Inf)$value^2)
[1] 2.755231

Làm thế nào điều này xảy ra?

Chà, điều quan trọng cần biết là kurtosis là (nói hơi lỏng lẻo) 1+ phương sai bình phương về :μ±σ

nhập mô tả hình ảnh ở đây

Tất cả ba phân phối có cùng một ý nghĩa và phương sai.

Đường cong màu đen là mật độ chuẩn thông thường. Đường cong màu xanh lá cây cho thấy phân phối khá tập trung về (nghĩa là phương sai về là nhỏ, dẫn đến một sự suy yếu tiến đến 1, nhỏ nhất có thể). Đường cong màu đỏ hiển thị trường hợp phân phối bị "đẩy đi" khỏi ; đó là kurtosis lớn.μ±σμ±σμ±σ

Với ý nghĩ đó, nếu chúng ta đặt các điểm ngưỡng đủ xa bên ngoài chúng ta có thể đẩy mức độ tổn thương xuống dưới 3, và vẫn có đỉnh cao hơn.μ±σ


công việc tuyệt vời. Cảm ơn bạn. Một câu hỏi nữa, nếu bạn không phiền: có quy tắc nào để quyết định nơi đỉnh kết thúc và nơi đuôi bắt đầu không?
Yal dc 28/12/13

1
Không hẳn vậy. Nếu chúng ta giới hạn bản thân trong trường hợp không đối xứng liên tục với khoảnh khắc thứ 4 hữu hạn (vì chúng ta đang thảo luận về sự bứt rứt), thì trong nhiều trường hợp, tôi không nghĩ sẽ có ý nghĩa gì khi gọi bất cứ điều gì bên ngoài 'đỉnh cao' cũng không bất cứ điều gì bên trong 'cái đuôi', nhưng đôi khi thật khó để nói. ví dụ: xem xét ; khi là gần , không có nơi nào rõ ràng để bắt đầu cuộc gọi bất kỳ của nó đuôi. Mặt khác, với phân phối Laplace, bạn có thể gọi bất cứ thứ gì ở hai bên của trung tâm chính xác là đuôi. μ±σ μ±σf(x)=(3+2a)/6ax2; 1<x<1,0<a<34a0
Glen_b -Reinstate Monica

4

Kurtosis là một khái niệm khá dễ bị hiểu lầm (Tôi tìm thấy bài viết "Về ý nghĩa và việc sử dụng Kurtosis" của LT De Carlo (1997) một cuộc thảo luận và trình bày hợp lý và có giá trị về các vấn đề liên quan).

Vì vậy, tôi sẽ đưa ra quan điểm ngây thơ, và tôi sẽ xây dựng một mật độ, , với "giá trị trung bình mỏng hơn và cao hơn ở chế độ", so với mật độ thông thường tiêu chuẩn, nhưng "đuôi" giống hệt với mật độ sau. Tôi không khẳng định rằng mật độ này thể hiện "sự suy yếu quá mức". gX(x)

Mật độ này nhất thiết sẽ là bước khôn ngoan. Để có "đuôi" trái và phải giống hệt nhau, dạng chức năng của nó cho các khoảng và , trong đó , phải giống hệt với chuẩn mật độ. Trong khoảng giữa, , nó cần có một số dạng chức năng khác, gọi nó là . Đây nên đối xứng xung quanh zero, và thỏa mãn (,a)(a,)a>0ϕ(x)(a,a)h(x)h(x)

1) để giá trị của mật độ ở chế độ sẽ cao hơn giá trị của tiêu chuẩn thông thường và h(0)>ϕ(0)=1/2π

2) sao cho liên tục. ϕ(a)=h(a)=h(a)=ϕ(a)gX(x)

Hơn nữa, nên tích hợp để thống nhất trên miền, để có mật độ phù hợp. Vì vậy, mật độ này sẽ làgX(x)

gX(x)=ϕ(x)<xah(x)axaϕ(x)ax<

tuân theo các hạn chế được đề cập trước đây đối với và ngoài ra, phải tuân theo h(x)

aϕ(t)dt+aah(t)dt+aϕ(t)dt=1

tương đương với yêu cầu khối lượng xác suất dưới trong khoảng phải bằng khối lượng xác suất dưới trong cùng khoảng:h(x)(a,a)ϕ(x)

aa(h(t)ϕ(t))dt=00a(h(t)ϕ(t))dt=0
phần cuối cùng do tính chất đối xứng.

Để có được một cái gì đó cụ thể, chúng tôi sẽ "thử" mật độ của phân phối Laplace trung bình bằng 0 choh(x)

h(x)=12be|x|b,b>0

Để đáp ứng các yêu cầu khác nhau được đặt ra trước đây, chúng ta phải có:

Để có giá trị cao hơn ở chế độ,

h(0)=12b>ϕ(0)=12π0<b<π/2[1]

Để liên tục,

h(a)=ϕ(a)12beab=12πe12a2
ln(2b)ab=ln(2π)12a212a2ab+lnπ/2b

Đây là một bậc hai trong . Phân biệt đối xử của nó là a

Δa=1b2412lnπ/2b>0

(có thể dễ dàng xác minh rằng nó luôn luôn tích cực). Hơn nữa, chúng tôi tiếp tục chỉ gốc tích cực kể từ khi nêna>0

a=1b+Δa[2]

Cuối cùng, yêu cầu về mật độ để tích hợp vào sự thống nhất chuyển thành

0a12be|x|bdt=0aϕ(t)dt

mà bằng cách tích hợp đơn giản dẫn đến

1eab=2(Φ(a)12)=erf(a/2)[3]

có thể được giải bằng số cho , và do đó hoàn toàn xác định mật độ chúng ta đang theo sau. b

Tất nhiên các dạng chức năng khác đối xứng quanh 0 có thể được thử, pdf laplacian chỉ dành cho mục đích tiếp xúc.


1
Tôi tìm thấy bài viết bạn đã đề cập rất nhiều thông tin. Cảm ơn bạn.
Yal dc 28/12/13

1
Một cảnh báo về bài báo DeCarlo: Câu đầu tiên của bản tóm tắt là không chính xác về mặt toán học. Ông tuyên bố, đối với các phân phối không đối xứng đối xứng, kurtosis dương cho thấy đuôi nặng và cực đại so với phân phối bình thường, trong khi kurtosis âm cho thấy đuôi nhẹ và phẳng. Nhưng có những phân phối không đồng nhất đối xứng với kurtosis âm tính có cực đại vô hạn, và có những phân phối không đồng nhất đối xứng với kurtosis vô hạn có đỉnh phẳng hoàn toàn.
Peter Westfall

0

Sự suy yếu của phân phối này có thể sẽ cao hơn so với phân phối bình thường. Tôi nói có lẽ bởi vì tôi đang dựa trên bản vẽ thô này, và mặc dù có thể chứng minh rằng khối lượng di chuyển theo cách này luôn làm tăng sự kurtosis, tôi không tích cực về điều đó.

Mặc dù đúng là nó có cùng đuôi với phân phối bình thường, phân phối này sẽ có phương sai thấp hơn so với phân phối bình thường mà từ đó nó có nguồn gốc. Điều đó có nghĩa là đuôi của nó sẽ khớp với đuôi của một số phân phối bình thường, nhưng không phải là phân phối bình thường có cùng phương sai như nó. Vì vậy, đuôi bình thường trên thực tế sẽ dày hơn đuôi của phân phối bình thường. Và, mặc dù đuôi dày hơn không tự động có nghĩa là nhiều vết thương hơn, nhưng trong trường hợp này, khoảnh khắc thứ tư được chuẩn hóa có thể cũng sẽ lớn hơn.


Tôi đồng ý rằng phương sai sẽ thấp hơn. Thật không may, tôi không hiểu làm thế nào thay đổi trong phương sai ảnh hưởng đến đuôi? Hãy nhớ rằng tôi không làm với đuôi. Các điểm thay đổi được lấy gần đỉnh, không phải từ đuôi. Có thể giúp tôi hiểu quan điểm của bạn?
Yal dc 27/12/13

1
Kurtosis được định nghĩa theo thời điểm thứ tư chuẩn hóa, trong đó việc chuẩn hóa được thực hiện bằng cách chia cho bình phương của phương sai. Kể từ khi bình phương của phương sai đi xuống, kurtosis tăng lên. Về phần đuôi, đúng là chúng không thay đổi. Tuy nhiên, do phương sai đã giảm, nên để có được sự so sánh chính xác, bạn cần so sánh phân phối của mình với phân phối bình thường có cùng phương sai với phân phối của bạn. Phân phối bình thường khác này sẽ có đuôi mỏng hơn, bởi vì phương sai của nó thấp hơn.
mpr 27/12/13

trong trường hợp đó, tôi đồng ý Câu hỏi còn lại là làm thế nào bạn xác định được " so sánh chính xác " là gì? Đây có phải là một quy tắc mà chúng ta nên sử dụng các bản phân phối có phương sai tương tự để so sánh các thuộc tính khác của chúng không? Tôi chưa bao giờ gặp một nguyên tắc như vậy trước đây.
Yal dc 28/12/13

1
Phương sai là cách tiêu chuẩn để bình thường hóa phân phối. Bạn đặc biệt hỏi về kurtosis, và như tôi đã nói, kurtosis được xác định dựa trên khoảnh khắc thứ tư được chuẩn hóa, điều đó có nghĩa là nếu bạn quan tâm đến việc so sánh kurtosis, thì có, bạn nên so sánh các phân phối với cùng phương sai.
mpr 28/12/13

Bây giờ tôi hiểu rồi. Thật vậy, bất kỳ phân phối bình thường có kurtosis liên tục trong khi phương sai của nó có thể khác nhau. Cảm ơn bạn đã làm rõ.
Yal dc 28/12/13

0

Có vẻ như OP đang cố gắng thiết lập mối liên hệ giữa "đỉnh điểm" và kurtosis bằng cách giữ đuôi cố định và làm cho phân phối trở nên "đỉnh hơn". Có một ảnh hưởng đối với kurtosis ở đây, nhưng nó rất nhẹ đến mức hầu như không đáng để đề cập đến. Đây là một định lý để hỗ trợ khẳng định đó.

Định lý 1: Xem xét bất kỳ phân phối xác suất với thời điểm thứ tư hữu hạn. Xây dựng phân phối xác suất mới bằng cách thay thế khối lượng trong phạm vi , giữ khối lượng bên ngoài và giữ giá trị trung bình và độ lệch chuẩn tại . Sau đó, sự khác biệt giữa các giá trị kurtosis tối thiểu và tối đa Pearson so với tất cả các thay thế như vậy là .[μσ,μ+σ][μσ,μ+σ]μ,σ0.25

Nhận xét: Bằng chứng mang tính xây dựng; bạn thực sự có thể xác định các thay thế kurtosis tối thiểu và tối đa trong cài đặt này. Hơn nữa, 0,25 là một giới hạn trên của phạm vi kurtosis, tùy thuộc vào sự phân phối. Ví dụ: với phân phối bình thường, phạm vi giới hạn là 0,141, thay vì 0,25.

Mặt khác, có một tác động rất lớn của đuôi đối với bệnh kurtosis, như được đưa ra bởi định lý sau:

Định lý 2: Xem xét bất kỳ phân phối xác suất với thời điểm thứ tư hữu hạn. Xây dựng phân phối xác suất mới bằng cách thay thế khối lượng bên ngoài phạm vi , giữ khối lượng trong và giữ giá trị trung bình và độ lệch chuẩn tại . Sau đó, sự khác biệt giữa các giá trị kurtosis tối thiểu và tối đa Pearson trên tất cả các thay thế như vậy là không giới hạn; tức là, phân phối mới có thể được chọn để mức độ tổn thương lớn một cách bất thường.[μσ,μ+σ][μσ,μ+σ]μ,σ

Nhận xét: Hai định lý này cho thấy ảnh hưởng của đuôi đối với sự suy yếu thời điểm Pearson là vô hạn, trong khi hiệu ứng của "đỉnh điểm" là .0.25

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.