Trực giác đằng sau phân phối beta là gì?


438

Tuyên bố miễn trừ trách nhiệm: Tôi không phải là một nhà thống kê mà là một kỹ sư phần mềm. Hầu hết kiến ​​thức về thống kê của tôi đến từ tự học, do đó tôi vẫn còn nhiều lỗ hổng trong việc hiểu các khái niệm có vẻ tầm thường đối với những người khác ở đây. Vì vậy, tôi sẽ rất biết ơn nếu câu trả lời bao gồm các điều khoản ít cụ thể hơn và giải thích nhiều hơn. Hãy tưởng tượng rằng bạn đang nói chuyện với bà của bạn :)

Tôi đang cố gắng nắm bắt bản chất của phân phối beta - nó nên được sử dụng cho mục đích gì và làm thế nào để diễn giải nó trong từng trường hợp. Nếu chúng ta đang nói về phân phối bình thường, người ta có thể mô tả nó là thời gian đến của tàu: thường xuyên nhất là đến đúng giờ, ít thường xuyên hơn là sớm hơn 1 phút hoặc trễ 1 phút và rất hiếm khi nó đến với sự khác biệt 20 phút từ giá trị trung bình. Phân phối thống nhất mô tả, đặc biệt, cơ hội của mỗi vé trong xổ số. Phân phối nhị thức có thể được mô tả với lật đồng xu và như vậy. Nhưng có giải thích trực quan như vậy về phân phối beta ?

Giả sử, và . Phân phối Beta trong trường hợp này trông như thế này (được tạo trong R):β = 0,5 B ( α , β )α= =0,99β= =.5B(α,β)

nhập mô tả hình ảnh ở đây

Nhưng nó thực sự có nghĩa là gì? Trục Y rõ ràng là mật độ xác suất, nhưng trên trục X là gì?

Tôi sẽ đánh giá cao bất kỳ lời giải thích nào, với ví dụ này hoặc bất kỳ lời giải thích nào khác.


13
Trục y không phải là một xác suất (đó là hiển nhiên, vì theo định nghĩa một xác suất không thể nằm ngoài khoảng , nhưng âm mưu này mở rộng lên đến 50 và - trên nguyên tắc - để ). Đó là mật độ xác suất : xác suất trên một đơn vị của x (và bạn đã mô tả x là tỷ lệ). [0,1]50xx
whuber

4
@whuber: yeah, tôi hiểu PDF là gì - đó chỉ là sai lầm trong mô tả của tôi. Cảm ơn cho một lưu ý hợp lệ!

1
Tôi sẽ thử và tìm tài liệu tham khảo nhưng tôi biết một số hình dạng kỳ lạ hơn cho bản phân phối Beta tổng quát có dạng có các ứng dụng như vật lý. Ngoài ra, bạn có thể điều chỉnh nó phù hợp với dữ liệu chuyên gia (tối thiểu, chế độ, tối đa) trong môi trường nghèo dữ liệu và thường tốt hơn so với sử dụng phân phối Tam giác (không may thường được sử dụng bởi IE). a+(ba)Beta(α1,α2)
SecretAgentMan

Bạn rõ ràng chưa bao giờ đi du lịch với công ty đường sắt Deutsche Bahn. Bạn sẽ ít lạc quan hơn.
henning

Câu trả lời:


621

Phiên bản ngắn là phân phối Beta có thể được hiểu là đại diện cho phân phối xác suất - nghĩa là, nó đại diện cho tất cả các giá trị có thể có của xác suất khi chúng ta không biết xác suất đó là gì. Đây là lời giải thích trực quan yêu thích của tôi về điều này:

Bất cứ ai theo dõi bóng chày đều quen thuộc với tỷ lệ cược trung bình - đơn giản là số lần người chơi bị đánh cơ bản chia cho số lần anh ta đi lên tại gậy (vì vậy đó chỉ là tỷ lệ phần trăm giữa 01). .266nói chung được coi là một trung bình đánh bóng trung bình, trong khi .300được coi là một xuất sắc.

Hãy tưởng tượng chúng ta có một cầu thủ bóng chày, và chúng tôi muốn dự đoán mức trung bình của mùa giải của anh ấy sẽ là bao nhiêu. Bạn có thể nói rằng chúng ta chỉ có thể sử dụng mức trung bình của anh ấy cho đến nay - nhưng đây sẽ là một biện pháp rất kém vào đầu mùa giải! Nếu một người chơi đi lên dơi một lần và nhận được một lần duy nhất, trung bình đánh của anh ta là ngắn 1.000, trong khi nếu anh ta ra đòn, trung bình đánh của anh ta là 0.000. Sẽ không tốt hơn nhiều nếu bạn đi lên dơi năm hoặc sáu lần - bạn có thể nhận được một chuỗi may mắn và nhận được trung bình 1.000, hoặc một chuỗi không may mắn và nhận được trung bình 0, không phải là một dự đoán tốt từ xa về cách bạn sẽ dơi mùa đó.

Tại sao tỷ lệ cược trung bình của bạn trong một vài lần truy cập đầu tiên không phải là một yếu tố dự đoán tốt về mức trung bình của cú đánh cuối cùng của bạn? Khi dơi đầu tiên của người chơi là một cuộc tấn công, tại sao không ai dự đoán rằng anh ta sẽ không bao giờ bị đánh trong cả mùa giải? Bởi vì chúng tôi đang đi với những kỳ vọng trước. Chúng tôi biết rằng trong lịch sử, hầu hết các trung bình đánh bóng trong một mùa đã lơ lửng giữa một cái gì đó giống như .215.360, với một số trường hợp ngoại lệ cực kỳ hiếm gặp ở hai bên. Chúng tôi biết rằng nếu người chơi nhận được một vài cú đánh liên tiếp khi bắt đầu, điều đó có thể cho thấy anh ta sẽ kết thúc tồi tệ hơn một chút so với mức trung bình, nhưng chúng tôi biết rằng anh ta có thể sẽ không đi chệch khỏi phạm vi đó.

Với vấn đề trung bình của chúng tôi, có thể được biểu diễn bằng phân phối nhị thức (một loạt thành công và thất bại), cách tốt nhất để thể hiện những kỳ vọng trước đó (theo thống kê mà chúng tôi gọi là trước ) là với phân phối Beta - đó là nói, trước khi chúng ta chứng kiến ​​người chơi thực hiện cú swing đầu tiên của mình, điều mà chúng ta gần như mong đợi ở mức trung bình của anh ta. Miền của phân phối Beta (0, 1), giống như một xác suất, vì vậy chúng tôi đã biết chúng tôi đang đi đúng hướng - nhưng tính phù hợp của Beta đối với nhiệm vụ này vượt xa điều đó.

Chúng tôi hy vọng rằng mức trung bình của trận đấu kéo dài theo mùa của người chơi sẽ có nhiều khả năng xảy ra .27, nhưng nó có thể nằm trong khoảng hợp lý từ .21đến .35. Điều này có thể được biểu diễn bằng phân phối Beta với các tham số β = 219 :α= =81β= =219

curve(dbeta(x, 81, 219))

Beta (81, 219)

Tôi đã đưa ra các tham số này vì hai lý do:

  • Giá trị trung bình là αα+β= =8181+219= =.270
  • Như bạn có thể thấy trong cốt truyện, phân phối này nằm gần như hoàn toàn trong phạm vi (.2, .35)- phạm vi hợp lý cho mức trung bình.

Bạn đã hỏi trục x đại diện cho biểu đồ mật độ phân phối beta nào - ở đây nó đại diện cho mức trung bình của anh ta. Do đó, lưu ý rằng trong trường hợp này, không chỉ trục y là xác suất (hay chính xác hơn là mật độ xác suất), mà trục x cũng vậy (trung bình b gậy chỉ là xác suất của một cú đánh)! Phân phối Beta đại diện cho phân phối xác suất của xác suất .

Nhưng đây là lý do tại sao phân phối Beta rất thích hợp. Hãy tưởng tượng người chơi được một đòn duy nhất. Kỷ lục của anh ấy cho mùa giải bây giờ 1 hit; 1 at bat. Sau đó chúng tôi phải cập nhật xác suất của mình - chúng tôi muốn thay đổi toàn bộ đường cong này chỉ một chút để phản ánh thông tin mới của chúng tôi. Mặc dù toán học để chứng minh điều này có một chút liên quan ( nó được hiển thị ở đây ), kết quả rất đơn giản . Bản phân phối Beta mới sẽ là:

Beta(α0+lượt truy cập,β0+nhớ)

α0β0αβBeta(81+1,219)

curve(dbeta(x, 82, 219))

nhập mô tả hình ảnh ở đây

Lưu ý rằng nó hầu như không thay đổi chút nào - sự thay đổi thực sự vô hình với mắt thường! (Đó là bởi vì một hit không thực sự có ý nghĩa gì).

Beta(81+100,219+200)

curve(dbeta(x, 81+100, 219+200))

nhập mô tả hình ảnh ở đây

Lưu ý rằng đường cong bây giờ mỏng hơn và dịch chuyển sang phải (trung bình đập cao hơn) so với trước đây - chúng tôi hiểu rõ hơn về mức trung bình của người chơi là bao nhiêu.

αα+β81+10081+100+219+200= =0,03100100+200=.3338181+219=.270

Do đó, phân phối Beta là tốt nhất để đại diện cho phân phối xác suất xác suất - trường hợp chúng tôi không biết trước xác suất là gì, nhưng chúng tôi có một số dự đoán hợp lý.


5
@ffriend: Vui mừng vì nó đã giúp- Tôi hy vọng bạn theo dõi bóng chày (nếu không tôi tự hỏi liệu điều đó có dễ hiểu không!)
David Robinson

11
Đây là một ví dụ tương tự từ John Cook sử dụng bảng xếp hạng người bán nhị phân của Amazon với số lượng đánh giá khác nhau. Cuộc thảo luận về việc chọn ưu tiên trong các bình luận đặc biệt sáng tỏ: johndcook.com/blog/2011/09/27/bayesian-amazon/#comments
Dimitriy V. Masterov

4
α0= =β0= =1/2

4
+ Tôi thích lời giải thích của bạn về cách bạn cập nhật phân phối khi bạn có nhiều dữ liệu hơn.
Mike Dunlavey

2
@ user27997 Những người đã đưa ra giá trị trung bình mong muốn là 0,27 và độ lệch chuẩn rất gần đúng với mức trung bình của batter (khoảng 0,25). Tình cờ, tôi đưa ra lời giải thích về cách tính giá trị α và β từ giá trị trung bình và phương sai mong muốn ở đây .
David Robinson

48

Một phân phối Beta được sử dụng để mô hình hóa những điều mà có một phạm vi hạn chế, như 0-1.

Ví dụ là xác suất thành công trong một thử nghiệm chỉ có hai kết quả, như thành công và thất bại. Nếu bạn thực hiện một số thử nghiệm giới hạn và một số thử nghiệm thành công, bạn có thể đại diện cho những gì cho bạn biết bằng bản phân phối beta.

Một ví dụ khác là thống kê đơn hàng . Ví dụ: nếu bạn tạo một số (ngẫu nhiên 4) thống nhất 0,1 số ngẫu nhiên và sắp xếp chúng, phân phối của số thứ ba là gì?

viết sai rồiSS>1Betmột(S+1,(viết sai rồi-S)+1)

Nói thêm về điều đó ...


41

(0,1)

Bạn1Giáo dụcBạnviết sai rồiviết sai rồi(0,1)Bạn(1)Giáo dụcBạn(viết sai rồi)(Bạn1,Giáo dục,Bạnviết sai rồi)Bạn1Giáo dụcBạnviết sai rồiBạn(1)= =tối thiểu(BạnTôi)Bạn(viết sai rồi)= =tối đa(BạnTôi)Bạn(k)~Beta(k,viết sai rồi+1-k)k= =1,Giáo dục,viết sai rồi

Kết quả này cho thấy các bản phân phối Beta xuất hiện tự nhiên trong toán học và nó có một số ứng dụng thú vị trong toán học.


28

Có hai động lực chính:

Đầu tiên, phân phối beta được liên hợp trước khi phân phối Bernoulli. Điều đó có nghĩa là nếu bạn có một xác suất không xác định như độ lệch của đồng xu mà bạn đang ước tính bằng cách lật đồng xu lặp đi lặp lại, thì khả năng gây ra sự sai lệch không xác định bằng một chuỗi các lần lật đồng xu được phân phối beta.

đăng nhập(x)đăng nhập(1-x)x[0,1]x1,Giáo dục,xviết sai rồi

Phân phối beta không đặc biệt để mô hình hóa mọi thứ nói chung [0,1] vì nhiều phân phối có thể bị cắt cụt cho hỗ trợ đó và được áp dụng nhiều hơn trong nhiều trường hợp.


23

nhập mô tả hình ảnh ở đây

Giả sử một người bán trên một số trang web thương mại điện tử nhận được 500 xếp hạng trong đó 400 xếp hạng tốt và 100 là xấu.

p

Chất lượng ngây thơ về xếp hạng của người bán là 80% vì 0,8 = 400/500. Nhưng chất lượng "thực sự" về mặt xếp hạng mà chúng tôi không biết.

p= =77%

p

α= =400+1β= =100+1

p

library(ggplot2)

# 90% positive of 10 ratings
o1 <- 9
o0 <- 1
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim1 <- data.frame(p=rep(0:M/M,v))
df_beta1 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

# 80% positive of 500 ratings
o1 <- 400
o0 <- 100
M <- 100
N <- 100000

m <- sapply(0:M/M,function(prob)rbinom(N,o1+o0,prob))
v <- colSums(m==o1)
df_sim2 <- data.frame(p=rep(0:M/M,v))
df_beta2 <- data.frame(p=0:M/M, y=dbeta(0:M/M,o1+1,o0+1))

ggplot(data=df_sim1,aes(p)) +
    scale_x_continuous(breaks=0:10/10) +

    geom_histogram(aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta1 ,aes(p,y),colour=I("red"),size=2,alpha=.5) +

    geom_histogram(data=df_sim2, aes(y=..density..,fill=..density..),
        binwidth=0.01, origin=-.005, colour=I("gray")) +
    geom_line(data=df_beta2,aes(p,y),colour=I("orange"),size=2,alpha=.5)

http://www.joyofdata.de/blog/an-intearning-interpretation-of-the-beta-distribution/


3
Cảm ơn sự đóng góp của bạn! Mặc dù vậy, tôi rất bối rối về điều gì đó: mặc dù truyền thuyết biểu đồ cho biết họ thể hiện mật độ beta , bạn dường như tuyên bố những điều này cũng mô tả kết quả của mô phỏng nhị thức ("mức độ thường xảy ra trong một mô phỏng"). Nhưng hai là những điều khác nhau, mặc dù chúng tình cờ xuất hiện khá gần trong hình minh họa. (Đó là hệ quả của tính gần như bình thường của Beta với các tham số lớn và định lý Giới hạn trung tâm cho các phân phối nhị thức.)
whuber

Đó là một điểm tốt! Nhưng tôi không chắc làm thế nào để viết lại nó propperly. Nếu tôi chỉ vẽ biểu đồ thì dĩ nhiên, bạn sẽ không thấy phần lớn mật độ cho độ lớn của nó. Vì vậy, có, biểu đồ thực sự tôi đoán không chỉ thu nhỏ mà thực sự là mật độ (ước tính) của biểu đồ gốc. Dựa vào số lần chạy, tôi cũng có thể tìm ra một yếu tố và thu nhỏ nó một cách tuyến tính nhưng nó sẽ trông gần giống với PLUS mà tôi (thực sự) muốn so sánh là mật độ beta với mật độ kết quả của mô phỏng ( mật độ của biểu đồ gốc).
Raffael

8

Cho đến nay, sự ưu tiên của các câu trả lời đã đưa ra lý do cho các RV RV được tạo ra như trước cho tỷ lệ mẫu và một câu trả lời thông minh có liên quan đến Beta RV để đặt hàng thống kê.

Phân phối Beta cũng phát sinh từ mối quan hệ đơn giản giữa hai Gamma (k_i, 1) RV, i = 1,2 gọi chúng là X và Y. X / (X + Y) có phân phối Beta.

Gamma RV đã có lý do của họ trong việc mô hình hóa thời gian đến cho các sự kiện độc lập, vì vậy tôi sẽ không giải quyết điều đó vì đó không phải là câu hỏi của bạn. Nhưng một "phần nhỏ thời gian" dành để hoàn thành một trong hai nhiệm vụ được thực hiện theo trình tự tự nhiên cho bản phân phối Beta.


1
+1 Cảm ơn bạn đã chỉ ra rằng về việc sử dụng Gamma để tạo phân phối Beta. Tôi đã nghe nói rằng nếu bạn muốn khái quát Beta thành Dirichlet, bạn chỉ cần đặt thêm Gammas vào mẫu số. Có thể một nhà thống kê chỉ biết điều đó, nhưng với tôi điều đó thực sự hữu ích khi nhìn vào khoảng tin cậy của một quan sát phân loại.
Mike Dunlavey

4

x(1-x)đụ(x;α,β)= =không thay đổixα-1(1-x)β-11/B(α,β)αβgiống như một "trọng lượng" cho sự đóng góp của thất bại. Bạn có một không gian tham số hai chiều (một cho đóng góp thành công và một cho đóng góp thất bại) khiến cho việc suy nghĩ và hiểu về nó trở nên khó khăn.


3

Trong ví dụ được trích dẫn, các tham số là alpha = 81 và beta = 219 từ năm trước [81 lần truy cập trong 300 tại dơi hoặc (81 và 300 - 81 = 219)]

Tôi không biết những gì họ gọi là giả định trước của 81 lần truy cập và 219 lượt truy cập nhưng bằng tiếng Anh, đó là giả định tiên nghiệm.

Lưu ý khi mùa diễn tiến, đường cong dịch chuyển sang trái hoặc phải và xác suất phương thức dịch chuyển sang trái hoặc phải nhưng vẫn có một đường cong.

Tôi tự hỏi liệu cuối cùng Laa of Large Numbers có nắm giữ và đưa trung bình đập trở về .270 không.

Để dự đoán alpha và beta nói chung, người ta sẽ có đủ số lần xuất hiện trước đó (tại dơi), trung bình đánh bóng như đã biết, có được tổng số lần truy cập (alpha), beta hoặc tổng cộng trừ đi các thất bại) và voila - bạn có công thức của bạn Sau đó, làm việc dữ liệu bổ sung như được hiển thị.


2

ĐỤ(X)= =tanh((x/p)viết sai rồi)

Nhân tiện, chuyện gì sẽ xảy ra nếu bạn tạo ra phân phối kích thước từ một quan sát vi mô và bạn có phân phối hạt theo số lượng, và mục tiêu của bạn là làm việc với phân phối khối lượng? Gần như là bắt buộc để có được phân phối ban đầu với số lượng giới hạn ở bên phải. Vì vậy, việc chuyển đổi phù hợp hơn bởi vì bạn chắc chắn rằng trong phân phối âm lượng mới không xuất hiện bất kỳ chế độ nào, cũng không phải kích thước trung bình cũng như kích thước trung bình trong khoảng thời gian bạn đang làm việc. Bên cạnh đó, bạn tránh hiệu ứng Greenland Châu Phi.

Việc chuyển đổi rất dễ dàng nếu bạn có hình dạng thông thường, tức là hình cầu hoặc hình lăng trụ. Bạn nên thêm ba đơn vị vào tham số alpha của phân phối beta số và nhận phân phối âm lượng.


1
Chào mừng đến với trang web. Đây có phải là một câu trả lời cho câu hỏi của OP không? Bạn có thể làm rõ điều này liên quan đến trực giác đằng sau bản phân phối beta không?
gung

Vui lòng chỉnh sửa để làm rõ trực giác về bản phân phối beta.
Glen_b

1

Tôi nghĩ rằng KHÔNG có trực giác đằng sau phân phối beta! Bản phân phối beta chỉ là bản phân phối rất linh hoạt với phạm vi FIX! Và đối với số nguyên a và b, nó thậm chí còn dễ xử lý. Ngoài ra nhiều trường hợp đặc biệt của phiên bản beta có ý nghĩa bản địa của chúng, như phân phối đồng đều. Vì vậy, nếu dữ liệu cần được mô hình hóa như thế này, hoặc với độ linh hoạt hơn một chút, thì bản beta là một lựa chọn rất tốt.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.