Tổng các biến ngẫu nhiên Gamma

35

Tôi đã đọc rằng tổng các biến ngẫu nhiên Gamma có cùng tham số tỷ lệ là một biến ngẫu nhiên Gamma khác. Tôi cũng đã thấy bài báo của Moschopoulos mô tả một phương pháp tổng hợp một tập hợp các biến ngẫu nhiên Gamma chung. Tôi đã thử thực hiện phương pháp của Moschopoulos nhưng vẫn chưa thành công.

Tổng của một tập hợp các biến ngẫu nhiên Gamma chung trông như thế nào? Để làm cho câu hỏi này cụ thể, nó trông như thế nào:

$\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1)$

Nếu các thông số trên không đặc biệt tiết lộ, vui lòng đề xuất những người khác.

— OSE
nguồn

4

Một giải pháp rõ ràng cho tổng của hai bản phân phối Gamma bất kỳ đã được đăng tại stats.stackexchange.com/a/252192 .

— whuber

Một ví dụ đặc biệt về điều này, trong đó tất cả các bản phân phối Gamma có tham số hình dạng 1 (nghĩa là chúng theo cấp số nhân) được gọi là phân phối giảm âm (gia đình) . Đối với trường hợp chỉ có hai phân phối theo cấp số nhân, cũng có một công thức rõ ràng được đưa ra tại stats.stackexchange.com/questions/412849 .

— whuber

37

Thứ nhất, kết hợp bất kỳ một khoản có cùng hệ số quy mô : a cộng với một hình thức variate một variate. $\Gamma(n, \beta)$ $\Gamma(m,\beta)$ $\Gamma(n+m,\beta)$

Tiếp theo, quan sát rằng các chức năng đặc trưng (cf) của là , từ đâu cf của một tổng của các phân phối là sản phẩm $\Gamma(n, \beta)$ $(1-i \beta t)^{-n}$

\prod_{j} \frac{1}{(1 - i β_{j} t)^{n_{j}}} .

$\prod_{j} \frac{1}{(1-i \beta_j t)^{n_j}}.$

Khi đều là tích phân, sản phẩm này mở rộng dưới dạng một phần thành một tổ hợp tuyến tính của trong đó là các số nguyên nằm giữa và . Trong ví dụ với (từ tổng của và $n_j$ $(1-i \beta_j t)^{-\nu}$ $\nu$ $1$ $n_j$ $\beta_1 = 1, n_1=8$ $\Gamma(3,1)$ ) và chúng ta tìm thấy $\Gamma(5,1)$ $\beta_2 = 2, n_2=4$

\frac{1}{(1 - i t)^{8}} \frac{1}{(1 - 2 i t)^{4}} = \frac{1}{(x + i)^{8}} - \frac{8 i}{(x + i)^{7}} - \frac{40}{(x + i)^{6}} + \frac{160 i}{(x + i)^{5}} + \frac{560}{(x + i)^{4}} - \frac{1792 i}{(x + i)^{3}} - \frac{5376}{(x + i)^{2}} + \frac{15360 i}{x + i} + \frac{256}{(2 x + i)^{4}} + \frac{2048 i}{(2 x + i)^{3}} - \frac{9216}{(2 x + i)^{2}} - \frac{30720 i}{2 x + i} .

$\frac{1}{(1-i t)^{8}}\frac{1}{(1- 2i t)^{4}} = \\ \frac{1}{(x+i)^8}-\frac{8 i}{(x+i)^7}-\frac{40}{(x+i)^6}+\frac{160 i}{(x+i)^5}+\frac{560}{(x+i)^4}-\frac{1792 i}{(x+i)^3}\\-\frac{5376}{(x+i)^2}+\frac{15360 i}{x+i}+\frac{256}{(2 x+i)^4}+\frac{2048 i}{(2 x+i)^3}-\frac{9216}{(2 x+i)^2}-\frac{30720 i}{2 x+i}.$

Nghịch đảo của việc lấy cf là Biến đổi Fourier ngược, là tuyến tính : điều đó có nghĩa là chúng ta có thể áp dụng thuật ngữ này theo thuật ngữ. Mỗi thuật ngữ có thể được nhận dạng là bội số của phân phối Gamma và do đó dễ dàng được đảo ngược để mang lại PDF . Trong ví dụ chúng ta có được

\frac{e^{- t} t^{7}}{5040} + \frac{1}{90} e^{- t} t^{6} + \frac{1}{3} e^{- t} t^{5} + \frac{20}{3} e^{- t} t^{4} + \frac{8}{3} e^{- \frac{t}{2}} t^{3} + \frac{280}{3} e^{- t} t^{3} - 128 e^{- \frac{t}{2}} t^{2} + 896 e^{- t} t^{2} + 2304 e^{- \frac{t}{2}} t + 5376 e^{- t} t - 15360 e^{- \frac{t}{2}} + 15360 e^{- t}

$\frac{e^{-t} t^7}{5040}+\frac{1}{90} e^{-t} t^6+\frac{1}{3} e^{-t} t^5+\frac{20}{3} e^{-t} t^4+\frac{8}{3} e^{-\frac{t}{2}} t^3+\frac{280}{3} e^{-t} t^3\\ -128 e^{-\frac{t}{2}} t^2+896 e^{-t} t^2+2304 e^{-\frac{t}{2}} t+5376 e^{-t} t-15360 e^{-\frac{t}{2}}+15360 e^{-t}$

cho PDF của tổng.

Đây là một hỗn hợp hữu hạn của các phân phối Gamma có các yếu tố tỷ lệ bằng với các yếu tố trong tổng và các yếu tố hình dạng nhỏ hơn hoặc bằng các yếu tố trong tổng. Trừ trường hợp đặc biệt (trong đó một số hủy có thể xảy ra), số lượng các điều khoản được đưa ra bởi tổng tham số hình dạng (giả sử tất cả các là khác nhau). $n_1 + n_2 + \cdots$ $n_j$

Là một thử nghiệm, đây là một biểu đồ của kết quả thu được bằng cách thêm độc lập rút khỏi và phân phối. Trên đó được xếp chồng đồ thị của lần hàm trước. Sự phù hợp là rất tốt. $10^4$ $\Gamma(8,1)$ $\Gamma(4,2)$ $10^4$

Moschopoulos thực hiện ý tưởng này một bước nữa bằng cách mở rộng cf của tổng thành một chuỗi các hàm đặc trưng Gamma vô hạn bất cứ khi nào một hoặc nhiều không tách rời, và sau đó chấm dứt chuỗi vô hạn tại điểm mà nó gần đúng một cách hợp lý . $n_i$

— whuber
nguồn

2

Tiểu luận: Thông thường, một hỗn hợp hữu hạn có nghĩa là một pdf có dạng

nơi

và

, có nghĩa là,

là xác suất và pdf có thể được hiểu là tổng (trọng số của xác suất) tổng của các pdf có điều kiện với các điều kiện khác nhau xảy ra với xác suất

f (x) = \sum_{i = 1}^{n} a_{i} f_{i} (x)

$f(x) = \sum_{i=1}^n a_i f_i(x)$

a_{i} > 0

$a_i > 0$

\sum_{i} a_{i} = 1

$\sum_i a_i = 1$

a_{i}

$a_i$

a_{i}

$a_i$ . Tuy nhiên, trong tổng số trên, một số hệ số là âm và do đó, việc giải thích tiêu chuẩn của hỗn hợp không được áp dụng.

— Dilip Sarwate

@Dilip Đó là một điểm tốt. Điều làm cho trường hợp này thú vị là mặc dù một số hệ số có thể âm, tuy nhiên sự kết hợp này vẫn là một phân phối hợp lệ (bởi chính cấu trúc của nó).

— whuber

Cách tiếp cận này có thể được mở rộng để tính thêm các biến phụ thuộc không? Cụ thể, tôi muốn thêm 6 bản phân phối với mỗi bản có một số tương quan với các bản phân phối khác.

— masher

11

Tôi sẽ chỉ ra một giải pháp khả thi khác, đó là áp dụng khá rộng rãi và với phần mềm R ngày nay, khá dễ thực hiện. Đó là xấp xỉ mật độ yên ngựa, nên được biết đến rộng hơn!

Đối với thuật ngữ về phân phối gamma, tôi sẽ theo https://en.wikipedia.org/wiki/Gamma_distribution với tham số hình dạng / tỷ lệ, là tham số hình dạng và là tỷ lệ. Đối với phép tính xấp xỉ yên ngựa, tôi sẽ theo Ronald W Butler: "Xấp xỉ bằng điểm yên với các ứng dụng" (Cambridge UP). Xấp xỉ xấp xỉ yên được giải thích ở đây: Làm thế nào gần đúng yên ngựa hoạt động? Ở đây tôi sẽ chỉ ra cách nó được sử dụng trong ứng dụng này. $k$ $\theta$

$X$

M (s) = E e^{s X}

$M(s) = E e^{sX}$

s

$s$

K (s) = \log M (s)

$K(s) = \log M(s)$

E X = K^{'} (0), Var (X) = K^{″} (0)

$E X = K'(0), \text{Var} (X) = K''(0)$ . The saddlepoint equation is

K^{'} (\hat{s}) = x

$K'(\hat{s}) = x$ which implicitely defines

s

$s$ as a function of

x

$x$ (which must be in the range of

X

$X$ ). We write this implicitely defined function as

\hat{s} (x)

$\hat{s}(x)$ . Note that the saddlepoint equation always has exactly one solution, because the cumulant function is convex.

Then the saddlepoint approximation to the density $f$ of $X$ is given by

\hat{f} (x) = \frac{1}{\sqrt{2 π K^{″} (\hat{s})}} \exp (K (\hat{s}) - \hat{s} x)

$\hat{f}(x) = \frac1{\sqrt{2\pi K''(\hat{s})}} \exp(K(\hat{s}) - \hat{s} x)$ This approximate density function is not guaranteed to integrate to 1, so is the unnormalized saddlepoint approximation. We could integrate it numerically and the renormalize to get a better approximation. But this approximation is guaranteed to be non-negative.

Now let $X_1, X_2, \dots, X_n$ be independent gamma random variables, where $X_i$ has the distribution with parameters $(k_i, \theta_i)$ . Then the cumulant generating function is

K (s) = - \sum_{i = 1}^{n} k_{i} \ln (1 - θ_{i} s)

$K(s) = -\sum_{i=1}^n k_i \ln(1-\theta_i s)$ defined for

s < 1 / max (θ_{1}, θ_{2}, \dots, θ_{n})

$s<1/\max(\theta_1, \theta_2, \dots, \theta_n)$ . The first derivative is

K^{'} (s) = \sum_{i = 1}^{n} \frac{k_{i} θ_{i}}{1 - θ_{i} s}

$K'(s) = \sum_{i=1}^n \frac{k_i \theta_i}{1-\theta_i s}$ and the second derivative is

K^{″} (s) = \sum_{i = 1}^{n} \frac{k_{i} θ_{i}^{2}}{(1 - θ_{i} s)^{2}} .

$K''(s) = \sum_{i=1}^n \frac{k_i \theta_i^2}{(1-\theta_i s)^2}.$ In the following I will give some R code calculating this, and will use the parameter values

n = 3

$n=3$ ,

k = (1, 2, 3)

$k=(1,2,3)$ ,

θ = (1, 2, 3)

$\theta=(1,2,3)$ . Note that the following R code uses a new argument in the uniroot function introduced in R 3.1, so will not run in older R's.

shape <- 1:3 #ki
scale <- 1:3 # thetai
# For this case,  we get expectation=14,  variance=36
make_cumgenfun  <-  function(shape, scale) {
      # we return list(shape, scale, K, K', K'')
      n  <-  length(shape)
      m <-   length(scale)
      stopifnot( n == m, shape > 0, scale > 0 )
      return( list( shape=shape,  scale=scale, 
                    Vectorize(function(s) {-sum(shape * log(1-scale * s) ) }),
                    Vectorize(function(s) {sum((shape*scale)/(1-s*scale))}) ,
                    Vectorize(function(s) { sum(shape*scale*scale/(1-s*scale)) }))    )
}

solve_speq  <-  function(x, cumgenfun) {
          # Returns saddle point!
          shape <- cumgenfun[[1]]
          scale <- cumgenfun[[2]]
          Kd  <-   cumgenfun[[4]]
          uniroot(function(s) Kd(s)-x,lower=-100,
                  upper = 0.3333, 
                  extendInt = "upX")$root
}

make_fhat <-  function(shape,  scale) {
    cgf1  <-  make_cumgenfun(shape, scale)
    K  <-  cgf1[[3]]
    Kd <-  cgf1[[4]]
    Kdd <- cgf1[[5]]
    # Function finding fhat for one specific x:
    fhat0  <- function(x) {
        # Solve saddlepoint equation:
        s  <-  solve_speq(x, cgf1)
        # Calculating saddlepoint density value:
        (1/sqrt(2*pi*Kdd(s)))*exp(K(s)-s*x)
    }
    # Returning a vectorized version:
    return(Vectorize(fhat0))
} #end make_fhat

 fhat  <-  make_fhat(shape, scale)
plot(fhat, from=0.01,  to=40, col="red", main="unnormalized saddlepoint approximation\nto sum of three gamma variables")

resulting in the following plot: enter image description here

I will leave the normalized saddlepoint approximation as an exercise.

— kjetil b halvorsen
nguồn

1

This is interesting, but I cannot make your R code work to compare the approximation to the exact answer. Any attempt to invoke fhat generates errors, apparently in the use of uniroot.

— whuber

3

What is your R version? The codes uses a new argument to uniroot, extendInt, which was introduces in R version 3.1 If your R is older, you might try to remove that, (and extend the interval given to uniroot). But that will make the code less robust!

— kjetil b halvorsen

10

The Welch–Satterthwaite equation could be used to give an approximate answer in the form of a gamma distribution. This has the nice property of letting us treat gamma distributions as being (approximately) closed under addition. This is the approximation in the commonly used Welch's t-test.

(The gamma distribution is can be viewed as a scaled chi-square distribution, and allowing non-integer shape parameter.)

I've adapted the approximation to the $k, \theta$ parametrization of the gamma distriubtion:

k_{s u m} = \frac{(\sum_{i} θ_{i} k_{i})^{2}}{\sum_{i} θ_{i}^{2} k_{i}}

$k_{sum} = { (\sum_i \theta_i k_i)^2 \over \sum_i \theta_i^2 k_i }$

θ_{s u m} = \frac{\sum θ_{i} k_{i}}{k_{s u m}}

$\theta_{sum} = { { \sum \theta_i k_i } \over k_{sum} }$

Let $k=(3,4,5)$ , $\theta=(1,2,1)$

So we get approximately Gamma(10.666... ,1.5)

We see the shape parameter $k$ has been more or less totalled, but slightly less because the input scale parameters $\theta_i$ differ. $\theta$ is such that the sum has the correct mean value.

— Paul Harrison
nguồn

6

An exact solution to the convolution (i.e., sum) of $n$ gamma distributions is given as Eq. (1) in the linked pdf by DiSalvo. As this is a bit long, it will take some time to copy it over here. For only two gamma distributions, their exact sum in closed form is specified by Eq. (2) of DiSalvo and without weights by Eq. (5) of Wesolowski et al., which also appears on the CV site as an answer to that question. That is,

G D C (a, b, α, β; τ) = {\begin{array}{cc} \frac{b^{a} β^{α}}{Γ (a + α)} e^{- b τ} {τ^{a + α}}^{- 1}_{1} F_{1} [α, a + α, (b - β) τ], & τ > 0 \\ 0, τ \leq 0 \end{array},

$\mathrm{G}\mathrm{D}\mathrm{C}\left(\mathrm{a}\kern0.1em ,\mathrm{b}\kern0.1em ,\alpha, \beta; \tau \right)=\left\{\begin{array}{cc}\hfill \frac{{\mathrm{b}}^{\mathrm{a}}{\beta}^{\alpha }}{\Gamma \left(\mathrm{a}+\alpha \right)}{e}^{-\mathrm{b}\tau }{\tau^{\mathrm{a}+\alpha}}^{-1}{}_1F_1\left[\alpha, \mathrm{a}+\alpha, \left(\mathrm{b}-\beta \right)\tau \right],\hfill & \hfill \tau >0\hfill \\ {}\hfill \kern2em 0\kern6.6em ,\hfill \kern5.4em \tau \kern0.30em \le \kern0.30em 0\hfill \end{array}\right.,$ where the notation in the questions above;

G a m m a (a, b) \to Γ (a, 1 / b)

$Gamma(a,b) \rightarrow \Gamma(a,1/b)$ , here. That is,

b

$b$ and

β

$\beta$ are rate constants here and not time scalars.

— Carl
nguồn