Hình dung phân phối nhị thức bivariate

Câu hỏi: phân phối nhị thức bivariate trông như thế nào trong không gian 3 chiều?

Dưới đây là chức năng cụ thể mà tôi muốn hình dung cho các giá trị khác nhau của các tham số; cụ thể là , và . $n$ $p_{1}$ $p_{2}$

f (x_{1}, x_{2}) = \frac{n!}{x_{1}! x_{2}!} p_{1}^{x_{1}} p_{2}^{x_{2}}, x_{1} + x_{2} = n, p_{1} + p_{2} = 1.

$f(x_{1},x_{2}) = \frac{n!}{x_{1}!x_{2}!}p_{1}^{x_{1}}p_{2}^{x_{2}}, \qquad x_{1}+x_{2}=n, \quad p_{1}+p_{2}=1.$

Lưu ý rằng có hai ràng buộc; và . Ngoài ra, là một số nguyên dương, giả sử, . $x_{1}+x_{2}=n$ $p_{1}+p_{2}=1$ $n$ $5$

Trong đã thực hiện hai nỗ lực để vẽ đồ thị hàm bằng LaTeX (TikZ / PGFPLOTS). Khi làm như vậy, tôi nhận được các biểu đồ bên dưới cho các giá trị sau: , và và, , và , tương ứng. Tôi đã không thành công trong việc thực hiện các ràng buộc về các giá trị miền; , vì vậy tôi hơi bối rối. $n=5$ $p_{1}=0.1$ $p_{2}=0.9$ $n=5$ $p_{1}=0.4$ $p_{2}=0.6$ $x_{1}+x_{2}=n$

Một trực quan được tạo ra trong bất kỳ ngôn ngữ nào sẽ hoạt động tốt (R, MATLAB, v.v.), nhưng tôi đang làm việc trong LaTeX với TikZ / PGFPLOTS.

Lần thử đầu tiên

$n=5$ , và $p_{1}=0.1$ $p_{2}=0.9$

Lần thử thứ hai

$n=5$ , và $p_{1}=0.4$ $p_{2}=0.6$

Biên tập:

Để tham khảo, đây là một bài viết có chứa một số biểu đồ. Tiêu đề của bài báo là "Một phân phối nhị thức hai biến mới" của Atanu Biswasa và Jing-Shiang Hwang. Số liệu thống kê & xác suất 60 (2002) 231 trận240.

Chỉnh sửa 2: Để rõ ràng và phản hồi lại @GlenB trong các bình luận, bên dưới là ảnh chụp nhanh về cách phân phối đã được trình bày cho tôi trong cuốn sách của mình. Cuốn sách không đề cập đến các trường hợp thoái hóa / không thoái hóa và như vậy. Nó chỉ đơn giản là trình bày nó như thế và tôi đã tìm cách hình dung nó. Chúc mừng! Ngoài ra, như được chỉ ra bởi @JohnK, có khả năng có một lỗi đánh máy liên quan đến x1 + x1 = 1, mà anh ta gợi ý nên là x1 + x1 = n.

Hình ảnh của phương trình từ:

Spanos, A (1986) Cơ sở thống kê của mô hình kinh tế lượng. Nhà xuất bản Đại học Cambridge

— Graeme Walsh
nguồn

Nhưng nó không nên là một liên tục, phải không? Cả hai biến ngẫu nhiên là rời rạc.

— JohnK

Vậy x1 & x2 là độc lập, đúng không? Bạn cần một cốt truyện giả 3D? Một bản đồ nhiệt sẽ được chấp nhận?

— gung - Phục hồi Monica

một cái gì đó như thế này ?

— Antoni Parellada

@JohnK Nếu và bạn đang giao dịch với (và chỉ đơn giản là ). Đây là nhị thức đơn biến (hoặc, được coi là bivariate, nó suy biến ).

x_{1} + x_{2} = n

$x_1+x_2=n$

p_{1} + p_{2} = 1

$p_1+p_2=1$

X_{1} \sim Binomial (n, p_{1})

$X_1\sim \text{Binomial}(n,p_1)$

X_{2}

$X_2$

n - X_{1}

$n-X_1$

— Glen_b -Reinstate Monica

Bạn không có một đặc điểm kỹ thuật cho nhị thức bivariate trong câu hỏi của bạn. (Có nhiều hơn một cách để chỉ định phân phối hai biến có thể được gọi là "nhị thức". Bạn không có bất kỳ cách nào trong số chúng, mặc dù phân phối suy biến của bạn sẽ là trường hợp đặc biệt của một số trong số chúng.) ... tài liệu tham khảo Biswasa & Hwang của bạn không phải là màn hình phù hợp của một pmf bivariate rời rạc. Nói tóm lại, câu hỏi của bạn không có gì để vẽ, và tài liệu tham khảo của bạn hữu ích chủ yếu là một ví dụ về những điều cần tránh.

— Glen_b -Reinstate Monica

Câu trả lời:

Có hai phần cho vấn đề này: đầu tiên bạn cần tìm hiểu xác suất cá nhân là gì, sau đó bạn cần vẽ chúng bằng cách nào đó.

Một PMF nhị thức chỉ là một tập hợp các xác suất đối với một số 'thành công'. Một PMF nhị thức nhị phân sẽ là một tập hợp các xác suất trên một lưới các kết hợp có thể có của 'thành công'. Trong trường hợp của bạn, bạn có , vì vậy (hãy nhớ rằng thành công là một khả năng) có kết quả có thể xảy ra trong phân phối nhị thức lưới / bivariate. $n_i = n_j = 5$ $0$ $6\times 6 = 36$

Trước tiên chúng ta có thể tính toán các PMF nhị thức cận biên, vì điều đó rất đơn giản. Vì các biến là độc lập, mỗi xác suất chung sẽ chỉ là sản phẩm của xác suất cận biên; đây là đại số ma trận. Ở đây tôi chứng minh quá trình này bằng cách sử dụng Rmã:

b1 = dbinom(0:5, size=5, prob=0.1);  sum(b1)  # [1] 1
b9 = dbinom(0:5, size=5, prob=0.9);  sum(b9)  # [1] 1
b4 = dbinom(0:5, size=5, prob=0.4);  sum(b4)  # [1] 1
b6 = dbinom(0:5, size=5, prob=0.6);  sum(b6)  # [1] 1

b19 = b1%o%b9;  sum(b19)  # [1] 1
rownames(b19) <- colnames(b19) <- as.character(0:5)
round(b19, 6)
#       0        1        2        3        4        5
# 0 6e-06 0.000266 0.004783 0.043047 0.193710 0.348678
# 1 3e-06 0.000148 0.002657 0.023915 0.107617 0.193710
# 2 1e-06 0.000033 0.000590 0.005314 0.023915 0.043047
# 3 0e+00 0.000004 0.000066 0.000590 0.002657 0.004783
# 4 0e+00 0.000000 0.000004 0.000033 0.000148 0.000266
# 5 0e+00 0.000000 0.000000 0.000001 0.000003 0.000006
b46 = b4%o%b6;  sum(b46)  # [1] 1
rownames(b46) <- colnames(b46) <- as.character(0:5)
round(b46, 3)
#       0     1     2     3     4     5
# 0 0.001 0.006 0.018 0.027 0.020 0.006
# 1 0.003 0.020 0.060 0.090 0.067 0.020
# 2 0.004 0.027 0.080 0.119 0.090 0.027
# 3 0.002 0.018 0.053 0.080 0.060 0.018
# 4 0.001 0.006 0.018 0.027 0.020 0.006
# 5 0.000 0.001 0.002 0.004 0.003 0.001

Tại thời điểm này, chúng ta có hai ma trận cần thiết về xác suất. Chúng ta chỉ cần quyết định cách chúng ta muốn vẽ chúng. Thành thật mà nói, tôi không phải là một fan hâm mộ lớn của bảng xếp hạng thanh 3D. Vì Rdường như đồng ý với tôi, tôi đã thực hiện các lô này trong Excel:

b19:

b46:

— gung - Phục hồi Monica
nguồn

Cảm ơn bạn đã trình bày cộng với mã R. Điều này dẫn tôi đến hỏi về x1 + x2 = n. Nếu tình trạng này nắm giữ, nên chỉ có thể là một dòng duy nhất của trụ cột như đã trình bày ở đây: reference.wolfram.com/language/ref/MultinomialDistribution.html Các wolfram graph tôi giả sử là những gì @Glen_b đã gọi là trường hợp thoái hóa? Điều này có nghĩa là bạn đã trình bày trường hợp không suy biến?

— Graeme Walsh

GraemeWalsh, bài thuyết trình của tôi không hiển thị nhị thức nhị phân trong đó x1 + x2 = n. Khi @Glen_b thảo luận rộng rãi trong các bình luận và câu trả lời của anh ấy, tôi thực sự sẽ không gọi đó là "phân phối nhị thức hai biến" với điều kiện đủ điều kiện. Hơn nữa, điều đó có nghĩa là x1 & x2 không độc lập, như bạn đã nói trong nhận xét phản hồi của mình, nhưng hoàn toàn phụ thuộc. Trong thực tế, tôi đã không nhận thấy rằng đây là một biến thể kỳ quái như vậy (bạn có thể đổ lỗi cho tôi vì đã không đọc kỹ). Như Glen_b đã chỉ ra, phiên bản đó sẽ là một dòng trụ đơn. Những gì tôi trình bày là trường hợp không suy biến.

— gung - Phục hồi Monica

@gung Mình thích lô mới của bạn. Tôi nghĩ rằng cuộc thảo luận của bạn bao gồm trường hợp thoái hóa tốt ("bạn cần tìm hiểu xác suất cá nhân là gì" thực sự nói lên tất cả mọi thứ; các tính toán thực tế cho trường hợp thoái hóa là tầm thường); Tôi chỉ thực hiện những tính toán tầm thường đó.

— Glen_b -Reinstate Monica

câu trả lời của gung là một câu trả lời tốt cho một nhị thức bivariate thực tế, giải thích rõ các vấn đề (tôi khuyên bạn nên chấp nhận nó như một câu trả lời tốt cho câu hỏi tiêu đề, rất có thể hữu ích cho người khác).

Đối tượng toán học mà bạn thực sự trình bày trong bản chỉnh sửa của mình thực sự là một nhị thức tỷ lệ đơn biến. Ở đây không phải là giá trị được lấy theo số nhị thức mà theo tỷ lệ (nhị thức chia cho ). $x_1$ $n$

Vì vậy, hãy xác định mọi thứ đúng. Lưu ý rằng không có định nghĩa về biến ngẫu nhiên thực sự được cung cấp, vì vậy chúng tôi còn lại một số phỏng đoán.

Đặt Lưu ý rằng khi chúng tôi đưa ra công thức toán học cho , các giá trị có thể lấy là gì, vì vậy . Đặt và lưu ý rằng . $Y_1\sim \text{binomial}(n,p_1),\:$ $P(Y_1=y_1)$ $y_1$ $y_1=0,1,...,n$ $X_1=Y_1/n$ $x_1=0,\frac16,\frac26,...,1$

Sau đó, phương trình bạn đưa ra là pmf cho (lưu ý rằng và ). $P(X_1=x_1)$ $x_2=n-x_1$ $p_2=1-p_1$

Với , nó trông như thế này: $n=6,p_1=0.3$

Chúng ta có thể đặt các giá trị trên lô trên khá dễ dàng, chỉ bằng cách đặt một bộ nhãn thứ hai dưới các giá trị bằng (có thể có màu khác) để biểu thị giá trị được lấy bởi . $x_2$ $x_1$ $1-x_1$ $x_2$

Chúng ta có thể coi nó như là một nhị thức bivariate thoái hóa (thu nhỏ):

nhưng thật khó để gọi những gì được định nghĩa trong cuốn sách là nhị thức hai biến, (vì nó thực sự là một nhị thức đơn biến).

Giả định rằng ai đó sẽ muốn tạo ra một âm mưu tương tự như 3D, mã nhỏ (R) này sẽ khá gần với âm mưu thứ hai ở trên:

y = 0:6
x1 = y/6
x2 = 1-x1
p = dbinom(y,6,.3)
scatterplot3d(x1,x2,p,grid=TRUE, box=FALSE, cex.lab=1.2,
        color=3, cex.main=1.4,pch=21,bg=1,, type="h",angle=120,
        main="degenerate scaled binomial", ylab="x2", xlab="x1", 
        zlab="prob")

(Bạn cần scatterplot3dgói chứa chức năng cùng tên.)

Một nhị thức bivariate "đúng" (không suy biến) có biến đổi trong cả hai biến cùng một lúc. Dưới đây là một ví dụ về một loại nhị thức nhị phân cụ thể (không độc lập trong trường hợp này). Tôi đã sử dụng các màu khác nhau trong cốt truyện bởi vì nó quá dễ bị lạc trong rừng "gậy".

Có nhiều cách để có được một đối tượng mà bạn có thể gọi là nhị thức nhị phân; loại đặc biệt này là một trong đó bạn có , , ( tất cả độc lập), sau đó để và . $X\sim\text{bin}(n_0,p)$ $Y\sim\text{bin}(n_y,p)$ $Z\sim\text{bin}(n_z,p)$ $X_1=X+Y$ $X_2=X+Z$

Điều này mang lại nhị thức và tương quan với nhau (nhưng có nhược điểm là nó không tạo ra tương quan âm). $X_1$ $X_2$

Một biểu thức cho pmf của loại phân phối nhị thức bivariate đặc biệt này được đưa ra trong Hamdan, năm 1972 [1] nhưng tôi đã không sử dụng phép tính đó; người ta có thể dễ dàng thực hiện tính toán trực tiếp (tích chập số). Trong trường hợp cụ thể này, là 4 và và chỉ có 2 mỗi tính toán số trực tiếp trên toàn bộ lưới (49 giá trị trong kết quả cuối cùng) không khó hoặc khó. Bạn bắt đầu với một biến đổi bivariate (cả hai chiều ) tương tự như suy biến ở trên (nhưng nhỏ hơn và trên "đường chéo chính" - chứ không phải là antidia chéo ( ) và sau đó thêm các thành phần độc lập , trải xác suất dọc và ra từ đường chéo. $n_0$ $n_y$ $n_z$ $=X$ $x_1=x_2$ $x_1+x_2=n$

[1]: Hamdan, MA (1972),
"Mở rộng hợp quy của phân phối nhị thức Bivariate với các chỉ số cận biên không đồng đều"
Đánh giá thống kê quốc tế , 40 : 3 (tháng 12), trang 277-280

— Glen_b -Reinstate Monica
nguồn

Đẹp. Cũng đáng lưu ý rằng trong trường hợp này là đúng

c o r r (X_{1}, X_{2}) = - 1

$corr(X_1, X_2) = -1$

— JohnK

Glen_b. Cảm ơn rât nhiều. Chỉ ra rằng đối tượng toán học mà tôi đã trình bày (đã được trình bày cho tôi!) Là một nhị thức bivariate thoái hóa (thu nhỏ) đã rất hữu ích! Tôi đã không biết điều này ngay từ đầu. Cuối cùng, một yêu cầu cơ bản! Bạn có thể nói rõ (bằng cách ký hiệu toán học) về cách bạn xác định một nhị thức nhị phân thực hay thực? Điều đó sẽ hữu ích, tôi nghĩ vậy.

— Graeme Walsh

@Graeme Như tôi đã đề cập trong phần bình luận (/ answer), có nhiều cách để có được một đối tượng mà bạn có thể gọi là nhị thức bivariate (thực sự là tiêu đề của tài liệu tham khảo Biswasa và Hwang trong câu hỏi của bạn cho bạn biết nhiều). Tất nhiên, điều này không phải là duy nhất đối với nhị thức, có rất nhiều khái quát hóa bivariate có sẵn của rất nhiều phân phối đơn biến thường được sử dụng. "Loại nhị thức đặc biệt" mà tôi đã đưa ra trong câu trả lời của mình là một trong đó bạn có , , (tất cả độc lập), sau đó để và . ... ctd

X \sim bin (n_{0}, p)

$X\sim\text{bin}(n_0,p)$

Y \sim bin (n_{y}, p)

$Y\sim\text{bin}(n_y,p)$

Z \sim bin (n_{z}, p)

$Z\sim\text{bin}(n_z,p)$

X_{1} = X + Y

$X_1=X+Y$

X_{2} = X + Z

$X_2=X+Z$

— Glen_b -Reinstate Monica

ctd ... Điều này mang lại nhị thức và tương quan nhưng có nhược điểm là nó không tạo ra tương quan âm, vì vậy nó không hữu ích như một số công thức khác của nhị thức bivariate cho mô hình bivariate chung. Thông thường, khi bạn khái quát một gia đình phân phối đơn biến thành một gia đình phân chia, bạn phải chọn những thuộc tính nào bạn muốn nhất và bạn có thể đủ khả năng để từ bỏ, và những lựa chọn đó sẽ dẫn đến những lựa chọn khác nhau của các gia đình bivariate. [Phân phối bình thường là không bình thường - có một khái quát "rõ ràng" với hầu hết mọi thứ chúng ta muốn.]

X_{1}

$X_1$

X_{2}

$X_2$

— Glen_b -Reinstate Monica

@Graeme ... Tôi dự định thêm một số chi tiết.

— Glen_b -Reinstate Monica

Mathematicabây giờ khá mạnh trong những điều như vậy - nó có giải pháp cho vấn đề của bạn ngay trong tài liệu . Với một số bổ sung nhỏ, tôi đã tạo ra một mô hình để chơi xung quanh ( p = p1 = 0.4để trình bày trực quan tốt hơn). Đó là giao diện trông như thế nào và làm thế nào nó có thể được kiểm soát.

Đoạn trích

Manipulate[
 Grid[{
   {DiscretePlot3D[
     PDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}], {x, 0, 
      n}, {y, 0, n}, PlotLabel -> Row[{"n = ", n}], 
     ExtentSize -> Right],

    DiscretePlot3D[
     CDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}], {x, 0, 
      n}, {y, 0, n}, PlotLabel -> Row[{"n = ", n}], 
     ExtentSize -> Right]}
   }]
 ,
 {{n, 5}, 1, 20, 1, Appearance -> "Labeled"},
 {{p, 0.4}, 0.1, 0.9},
 TrackedSymbols -> True
 ]

Điều chính ở đây là PDF[MultinomialDistribution[n, {p, 1 - p}], {x, y}], đó là tự lập kế hoạch, tôi nghĩ. Multinomialchỉ có nghĩa là bạn có thể mất rất nhiều phân phối với mỗi pibiến tương ứng. Hình thức đơn giản là BinomialDistribution. Tất nhiên, tôi có thể làm nó bằng tay, nhưng quy tắc là nếu bạn có chức năng tích hợp - bạn nên sử dụng nó.

Nếu bạn cần một số ý kiến về cấu trúc mã, xin vui lòng, chỉ cho tôi biết.

— garej
nguồn