Tại sao có -1 trong hàm mật độ phân phối beta?


18

Phân phối Beta xuất hiện dưới hai tham số (hoặc tại đây )

f(x)xα(1x)β

f(x)xα(1x)β(1)

hoặc một cái dường như được sử dụng phổ biến hơn

f(x)xα1(1x)β1

f(x)xα1(1x)β1(2)

Nhưng tại sao chính xác là có " " trong công thức thứ hai?11

Công thức đầu tiên theo trực giác dường như tương ứng trực tiếp hơn với phân phối nhị thức

g(k)pk(1p)nk

g(k)pk(1p)nk(3)

nhưng "nhìn thấy" từ quan điểm củapp . Điều này đặc biệt rõ ràng trong mô hình beta-nhị thức nơi có thể được hiểu như một trước số thành công và là một trước số thất bại.ααββ

Vậy tại sao chính xác hình thức thứ hai lại trở nên phổ biến và lý do đằng sau nó là gì? Là gì hậu quả của việc sử dụng một trong các parametrization (ví dụ cho kết nối với phân phối nhị thức)?

Sẽ thật tuyệt nếu ai đó có thể chỉ ra nguồn gốc của sự lựa chọn đó và những lý lẽ ban đầu cho nó, nhưng nó không phải là điều cần thiết đối với tôi.


3
Một lý do sâu xa được gợi ý trong câu trả lời này : bằng so với số đo . Điều đó làm giảm câu hỏi của bạn thành " tại sao biện pháp cụ thể đó "? Nhận ra rằng biện pháp này là gợi ý cách" phải "để hiểu các phân phối này là áp dụng chuyển đổi logistic: các thuật ngữ " " sau đó sẽ biến mất.ffxα(1x)βxα(1x)βdμ=dx/((x(1x))dμ=dx/((x(1x))dμ=d(log(x1 - x ))-1
dμ=d(log(x1x))
1
whuber

1
Tôi nghĩ lý do thực sự đã xảy ra là lý do lịch sử - bởi vì nó xuất hiện theo cách đó trong hàm beta mà phân phối được đặt tên. Về lý do tại sao điều đó- 11 trong sức mạnh, tôi hy vọng rằng cuối cùng sẽ được kết nối với lý do whuber đề cập (mặc dù trong lịch sử nó không liên quan gì đến đo lường hoặc thậm chí là xác suất).
Glen_b -Reinstate Monica

2
@Glen_b Nó còn hơn cả lịch sử: có những lý do sâu sắc. Họ là do sự liên kết chặt chẽ giữa chức năng Beta và Gamma, giảm câu hỏi tại sao số mũ trong Γ ( s ) = 0 t s - 1 e - t d tΓ(s)=0ts1etdts - 1s1 và không ss . Đó là bởi vì ΓΓ là tổng Gauss . Tương tự, "đúng" khi xem ΓΓ là một tích phân của phép đồng hình nhân bội t t stts lần một ký tự cộngt e - ttet so với số đo Haar d t / tdt/t trên nhóm nhân R ×R× .
whuber

1
@wh Đó là một lý do chính đáng tại sao nên chọn chức năng gamma theo cách đó (và tôi đã đề xuất một lý do như vậy tồn tại ở trên và tôi chấp nhận một số hình thức lý do tương tự như vậy - nhưng nhất thiết phải theo chủ nghĩa hình thức khác - được đưa vào lựa chọn của Euler); lý do thuyết phục tương ứng xảy ra với mật độ; nhưng điều đó không chứng minh rằng đây thực sự là lý do cho sự lựa chọn (tại sao hình thức được chọn như vậy), chỉ có điều đó là một lý do tốt để làm điều đó. Hình thức của chức năng gamma ... ctd
Glen_b -Reinstate Monica

1
ctd ... một mình có thể dễ dàng đủ lý do để chọn hình thức đó cho mật độ và cho người khác làm theo. [Thông thường các lựa chọn được thực hiện vì những lý do đơn giản hơn mà những người chúng ta có thể xác định sau đó và sau đó thường lấy lý do thuyết phục để làm bất cứ điều gì khác. Sao chúng ta biết đó là lý do tại sao nó ban đầu được lựa chọn] -? Bạn giải thích rõ ràng rằng có một lý do tại sao chúng ta nên chọn mật độ để được như vậy, chứ không phải là lý do tại sao nó như vậy. Điều đó liên quan đến một chuỗi những người đưa ra lựa chọn (sử dụng nó theo cách đó và để làm theo) và lý do của họ tại thời điểm họ chọn.
Glen_b -Reinstate Monica

Câu trả lời:


9

Đây là một câu chuyện về mức độ tự do và các thông số thống kê và tại sao thật tuyệt khi hai người có một kết nối đơn giản trực tiếp.

Trong lịch sử, các thuật ngữ " - 1 " xuất hiện trong các nghiên cứu của Euler về chức năng Beta. Ông đã sử dụng tham số hóa đó vào năm 1763, và Adrien-Marie Legendre cũng vậy: việc sử dụng chúng đã thiết lập quy ước toán học tiếp theo. Công việc này chống lại tất cả các ứng dụng thống kê đã biết.1

Lý thuyết toán học hiện đại cung cấp các chỉ dẫn phong phú, thông qua sự phong phú của các ứng dụng trong phân tích, lý thuyết số và hình học, rằng các thuật ngữ " - 1 " thực sự có một số ý nghĩa. Tôi đã phác thảo một số trong những lý do trong các ý kiến ​​cho câu hỏi.1

Quan tâm hơn là những gì tham số thống kê "đúng" nên có. Điều đó không hoàn toàn rõ ràng và nó không phải giống như quy ước toán học. Có một mạng lưới lớn các gia đình phân phối xác suất thường được sử dụng, nổi tiếng, có liên quan. Do đó, các quy ước được sử dụng để đặt tên (nghĩa là tham số hóa) một gia đình thường ngụ ý các quy ước liên quan đến tên các gia đình liên quan. Thay đổi một tham số và bạn sẽ muốn thay đổi tất cả. Do đó, chúng tôi có thể xem xét các mối quan hệ cho các đầu mối.

Rất ít người không đồng ý rằng các gia đình phân phối quan trọng nhất xuất phát từ gia đình Bình thường. Nhớ lại rằng một biến ngẫu nhiên X được gọi là "Thông thường phân phối" khi ( X - μ ) / σ có mật độ xác suất f ( x ) tỷ lệ với exp ( - x 2 / 2 ) . Khi σ = 1μ = 0 , X được cho là có một tiêu chuẩn phân phối chuẩn.X(Xμ)/σf(x)exp(x2/2)σ=1μ=0X

Nhiều bộ dữ liệu x 1 , x 2 , ... , x n được nghiên cứu sử dụng thống kê tương đối đơn giản liên quan đến sự kết hợp hợp lý các dữ liệu và thấp quyền hạn (thường là hình vuông). Khi các dữ liệu đó được mô hình hóa dưới dạng các mẫu ngẫu nhiên từ một phân phối Bình thường - để mỗi x i được xem như là một nhận thức của biến Bình thường X i , tất cả X i đều chia sẻ một phân phối chung và độc lập - các phân phối của các thống kê đó được xác định bởi phân phối chuẩn. Những cái phát sinh thường xuyên nhất trong thực tế làx1,x2,,xnxiXiXi

  1. t ν ,phân phối t Sinh viênvới ν = n - 1 "bậc tự do." Đây là sự phân bố của các số liệu thống kê t = ˉ Xtνtν=n1se ( X ) nơi ˉ X =(X1+X2++Xn)/nmô hình giá trị trung bình của dữ liệu vàse(X)=(1/

    t=X¯se(X)
    X¯=(X1+X2++Xn)/nn )( X 2 1 + X 2 2 + + X 2 n ) / ( n - 1 ) - ˉ X 2 là sai số chuẩn của giá trị trung bình. Việc chia chon-1cho thấynphải là2hoặc lớn hơn, trong đóνlà số nguyên1hoặc lớn hơn. Công thức, mặc dù có vẻ hơi phức tạp, là căn bậc hai của hàm số hữu tỷ của dữ liệu bậc hai: nó tương đối đơn giản.se(X)=(1/n)(X21+X22++X2n)/(n1)X¯2n1n2ν1
  2. χ 2 ν ,các χ 2 phân phối (chi-squared)với ν "bậc tự do" (df). Đây là sự phân bố của các tổng bình phương của ν biến bình thường tiêu chuẩn độc lập. Sự phân bố của giá trị trung bình của các hình vuông của các biến này do đó sẽ là một χ 2 phân phối theo tỷ lệ 1 / ν : Tôi sẽ đề cập đến điều này như một "bình thường hóa" χ 2 phân phối.χ2νχ2ννχ21/νχ2

  3. F v 1 , ν 2 ,các F phân phối tỷ lệ với các thông số ( ν 1 , ν 2 ) là tỉ số của hai độc lập bình thường χ 2 phân phối với ν 1 ν 2 bậc tự do.Fν1,ν2F(ν1,ν2)χ2ν1ν2

Tính toán toán học cho thấy rằng cả ba phân phối này đều có mật độ dày đặc. Quan trọng hơn, mật độ của χ 2 ν phân phối tỷ lệ với tích phân trong định nghĩa không thể thiếu Euler của Gamma ( Γ chức năng). Hãy so sánh chúng:χ2νΓ

f χ 2 ν ( 2 x ) x ν / 2 - 1 e - x ;f Γ ( ν ) ( x ) x ν - 1 e - x .

fχ2ν(2x)xν/21ex;fΓ(ν)(x)xν1ex.

Điều này cho thấy hai lần một biến χ 2 ν có phân phối Gamma với tham số ν / 2 . Yếu tố của một nửa là đủ khó chịu, nhưng trừ đi 1 sẽ khiến mối quan hệ trở nên tồi tệ hơn nhiều. Này đã cung cấp một câu trả lời thuyết phục cho câu hỏi: nếu chúng ta muốn các tham số của một χ 2 phân phối để đếm số lượng các biến bình thường bình phương sản xuất nó (lên đến một yếu tố của 1 / 2 ), sau đó số mũ trong hàm mật độ phải của nó được ít hơn một nửa số đó. χ2νν/21χ21/2

Tại sao là yếu tố của 1 / 2 ít rắc rối hơn là một sự khác biệt của 1 ? Lý do là yếu tố sẽ vẫn nhất quán khi chúng ta thêm mọi thứ. Nếu tổng bình phương của n Tiêu chuẩn độc lập tỷ lệ thuận với phân phối Gamma với tham số n (nhân một số yếu tố), thì tổng bình phương của m Tiêu chuẩn độc lập tỷ lệ thuận với phân phối Gamma với tham số m (nhân với cùng hệ số) , từ đó tổng bình phương của tất cả các biến n + m tỷ lệ thuận với phân phối Gamma với tham số m + n (vẫn nhân với cùng một yếu tố). 1/21nnmmn+mm+nThực tế là việc thêm các tham số mô phỏng chặt chẽ thêm các số đếm là rất hữu ích.

Tuy nhiên, nếu chúng ta loại bỏ " - 1 " trông có vẻ phiền phức đó ra khỏi các công thức toán học, những mối quan hệ tốt đẹp này sẽ trở nên phức tạp hơn. Ví dụ, nếu chúng ta thay đổi tham số hóa các bản phân phối Gamma để tham khảo với sức mạnh thực sự của x trong công thức, do đó một χ 2 1 phân phối sẽ được liên quan đến một "Gamma ( 0 ) " phân phối (vì sức mạnh của x trong của nó PDF là 1 - 1 = 0 ), sau đó tổng ba phân phối χ 2 1 sẽ phải được gọi là "Gamma ( 2 )1xχ21(0)x11=0χ21(2)"phân phối. Tóm lại, mối quan hệ phụ gia chặt chẽ giữa mức độ tự do và tham số trong phân phối Gamma sẽ bị mất bằng cách loại bỏ - 1 khỏi công thức và hấp thụ nó trong tham số.1

Tương tự, hàm xác suất của phân phối tỷ lệ F có liên quan chặt chẽ với phân phối Beta. Thật vậy, khi YF phân phối tỷ lệ, sự phân bố của Z = ν 1 Y / ( ν 1 Y + ν 2 ) có một Beta ( ν 1 / 2 , ν 2 / 2 ) phân phối. Hàm mật độ của nó tỷ lệ thuận vớiFYFZ=ν1Y/(ν1Y+ν2)(ν1/2,ν2/2)

f Z ( z ) α z ν 1 / 2 - 1 ( 1 - z ) ν 2 / 2 - 1 .

fZ(z)zν1/21(1z)ν2/21.

Hơn nữa - lấy các ý tưởng này đầy đủ vòng tròn - bình phương của phân phối Student t với ν df có phân phối tỷ lệ F với các tham số ( 1 , ν ) . Một lần nữa, rõ ràng việc giữ tham số thông thường duy trì mối quan hệ rõ ràng với số lượng cơ bản góp phần vào mức độ tự do.tνF(1,ν)

Từ một quan điểm thống kê của xem, sau đó, nó sẽ là tự nhiên nhất và đơn giản nhất để sử dụng một biến thể của tham số hoá toán học thông thường của Γ và phân phối Beta: chúng ta nên thích gọi một Γ ( α ) phân phối một " Γ ( 2 α ) phân phối" và Beta ( α , β ) phân phối phải được gọi là "Beta ( 2 α , 2 β ) phân phối." Trên thực tế, chúng tôi đã thực hiện điều đó: đây chính là lý do tại sao chúng tôi tiếp tục sử dụng tên "Chi-squared" và " FΓΓ(α)Γ(2α)(α,β)(2α,2β)FTỷ lệ "phân phối thay vì" Gamma "và" Beta ". Bất kể, trong mọi trường hợp, chúng tôi sẽ không muốn xóa các thuật ngữ " - 1 "xuất hiện trong các công thức toán học cho mật độ của chúng.1 Nếu chúng tôi làm vậy, chúng tôi sẽ mất kết nối trực tiếp giữa các tham số về mật độ và số liệu dữ liệu mà chúng được liên kết: chúng tôi sẽ luôn bị tắt bởi một.


1
Cảm ơn câu trả lời của bạn (tôi đã 1d rồi). Tôi chỉ có một câu hỏi tiếp theo nhỏ: có thể tôi đang thiếu một cái gì đó, nhưng chúng ta không hy sinh mối quan hệ trực tiếp với nhị thức bằng cách sử dụng tham số -1?
Tim

Tôi không chắc chắn "mối quan hệ trực tiếp với nhị thức" mà bạn đang đề cập đến, Tim. Chẳng hạn, khi phân phối Beta ( a , b ) được sử dụng làm liên hợp trước cho mẫu Binomial, rõ ràng các tham số chính xác là các tham số chính xác để sử dụng: bạn thêm một (không phải 1 - 1 ) vào số lần thành công và b (không phải b - 1 ) cho số lần thất bại. (a,b)aa1bb1
whuber

1

The notation is misleading you. There is a "hidden 11" in your formula (1)(1), because in (1)(1), αα and ββ must be bigger than 11 (the second link you provided in your question says this explicitly). The αα's and ββ's in the two formulas are not the same parameters; they have different ranges: in (1)(1), α,β>1α,β>1, and in (2)(2), α,β>0α,β>0. These ranges for αα and ββ are necessary to guarantee that the integral of the density doesn't diverge. To see this, consider in (1)(1) the case α=1α=1 (or less) and β=0β=0, then try to integrate the (kernel of the) density between 00 and 11. Equivalently, try the same in (2)(2) for α=0α=0 (or less) and β=1β=1.


2
The issue of a range of definition for αα and ββ seems to go away when the integral is interpreted, as Pochhammer did in 1890, as a specific contour integral. In that case it can be equated to an expression that determines an analytic function for all values of αα and ββ--including all complex ones. This throws light on the concern in the question: why exactly has this specific parameterization been adopted, given there are many other possible parameterizations that seem like they might serve equally well?
whuber

1
To me, the OP's doubt seems to be much more basic. He's kind of confused about the "-1" in (2), but not in (1) (not true, of course). It seems that your comment is answering a different question (much more interesting, by the way).
Zen

2
Thanks for your effort and answer, but it still does not answer my main concern: why -1 was chosen? Following your logic, basically any value could be chosen changing the arbitrary lower bound to something else. I can't see why -1 or 0 could be better or worse lower bound for parameter values besides the fact that 0 is "aesthetically" nicer bound. On another hand, Beta(0, 0) would be nice "default" for uniform distribution when using the first form. Yes, those are very subjective comments, but that is my main point: are there any non-arbitrary reasons for such choice?
Tim

1
Zen, I agree there was a question of how to interpret the original post. Thank you, Tim, for your clarifications.
whuber

1
Hi, Tim! I don't see any definitive reason, although it makes more direct the connection with the fact that for α,β>0α,β>0, if UGamma(α,1)UGamma(α,1) and VGamma(β,1)VGamma(β,1) are independent, then X=U/(U+V)X=U/(U+V) is Beta(α,β)Beta(α,β), and the density of XX is proportional to xα1(1x)β1xα1(1x)β1. But then you can question the parameterization of the gamma distribution...
Zen

0

For me, the existence of -1 in the exponent is related with the develpment of the Gamma function. The motivation of the Gamma function is to find a smooth curve to connect the points of a factorial x!x!. Since it is not possible to compute x!x! directly if xx is not integer, the idea was to find a function for any x0x0 that satisfies the recurrence relation defined by the factorial, namely

f(1)=1f(x+1)=xf(x).f(1)=1f(x+1)=xf(x).

Solution was by means of the convergence of an integral. For the function defined as

f(x+1)=0txexdt,f(x+1)=0txexdt,

integration by parts provides the following:

f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).f(x+1)=0txexdt=[txex]0+0xtx1exdt=limx(txex)0e0+x0tx1exdt=00+x0tx1exdt=xf(x).

So, the function above satisfies this property, and the -1 in the exponent derives from the procedure of integration by parts. See the Wikipedia article https://en.wikipedia.org/wiki/Gamma_function .

Edit: I apologise if my post is not fully clear; I am just trying to point that, in my idea, the existence of -1 in the beta distribution comes from the generalisation of the factorial by means of the Gamma function. There are two conditions: f(1)=1f(1)=1 and f(x+1)=xf(x)f(x+1)=xf(x). We have Γ(x)=(x1)!Γ(x)=(x1)!, therefore it satisfies Γ(x+1)=xΓ(x)=x(x1)!=x!Γ(x+1)=xΓ(x)=x(x1)!=x!. In addition, we have Γ(1)=(11)!=0!=1Γ(1)=(11)!=0!=1. As for the beta distribution with parameters α,βα,β, generalisation of the Binomial coefficient is Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!Γ(α+β)Γ(α)Γ(β)=(α+β1)!(α1)!(β1)!. There we have the -1 in the denominator, for both parameters.


This makes no sense because the recurrence function satisfied by the factorial is not what you state: (x+1)!xx!.(x+1)!xx!.
whuber

The function f(x)f(x) satisfying the recurrence relation is the Gamma: Γ(x+1)=xΓ(x)Γ(x+1)=xΓ(x). This is how it is defined.
aatr

Yes: but your stated motivation is based on the factorial function, not the Gamma.
whuber

It is important to recall the relation between Gamma and factorial: Γ(x)=(x1)!.
aatr

Unfortunately, that's circular logic: you start off with the factorial, characterize Gamma as interpolating it, and then conclude that's why there's a -1. In fact, your post exhibits the -1 as if it fell out mistakenly by confusing Gamma with the factorial. Few will find that either illuminating or convincing.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.