Phiên bản ngắn là phân phối Beta có thể được hiểu là đại diện cho phân phối xác suất - nghĩa là, nó đại diện cho tất cả các giá trị có thể có của xác suất khi chúng ta không biết xác suất đó là gì. Đây là lời giải thích trực quan yêu thích của tôi về điều này:
Bất cứ ai theo dõi bóng chày đều quen thuộc với tỷ lệ cược trung bình - đơn giản là số lần người chơi bị đánh cơ bản chia cho số lần anh ta đi lên tại gậy (vì vậy đó chỉ là tỷ lệ phần trăm giữa 0
và 1
). .266
nói chung được coi là một trung bình đánh bóng trung bình, trong khi .300
được coi là một xuất sắc.
Hãy tưởng tượng chúng ta có một cầu thủ bóng chày, và chúng tôi muốn dự đoán mức trung bình của mùa giải của anh ấy sẽ là bao nhiêu. Bạn có thể nói rằng chúng ta chỉ có thể sử dụng mức trung bình của anh ấy cho đến nay - nhưng đây sẽ là một biện pháp rất kém vào đầu mùa giải! Nếu một người chơi đi lên dơi một lần và nhận được một lần duy nhất, trung bình đánh của anh ta là ngắn 1.000
, trong khi nếu anh ta ra đòn, trung bình đánh của anh ta là 0.000
. Sẽ không tốt hơn nhiều nếu bạn đi lên dơi năm hoặc sáu lần - bạn có thể nhận được một chuỗi may mắn và nhận được trung bình 1.000
, hoặc một chuỗi không may mắn và nhận được trung bình 0
, không phải là một dự đoán tốt từ xa về cách bạn sẽ dơi mùa đó.
Tại sao tỷ lệ cược trung bình của bạn trong một vài lần truy cập đầu tiên không phải là một yếu tố dự đoán tốt về mức trung bình của cú đánh cuối cùng của bạn? Khi dơi đầu tiên của người chơi là một cuộc tấn công, tại sao không ai dự đoán rằng anh ta sẽ không bao giờ bị đánh trong cả mùa giải? Bởi vì chúng tôi đang đi với những kỳ vọng trước. Chúng tôi biết rằng trong lịch sử, hầu hết các trung bình đánh bóng trong một mùa đã lơ lửng giữa một cái gì đó giống như .215
và .360
, với một số trường hợp ngoại lệ cực kỳ hiếm gặp ở hai bên. Chúng tôi biết rằng nếu người chơi nhận được một vài cú đánh liên tiếp khi bắt đầu, điều đó có thể cho thấy anh ta sẽ kết thúc tồi tệ hơn một chút so với mức trung bình, nhưng chúng tôi biết rằng anh ta có thể sẽ không đi chệch khỏi phạm vi đó.
Với vấn đề trung bình của chúng tôi, có thể được biểu diễn bằng phân phối nhị thức (một loạt thành công và thất bại), cách tốt nhất để thể hiện những kỳ vọng trước đó (theo thống kê mà chúng tôi gọi là trước ) là với phân phối Beta - đó là nói, trước khi chúng ta chứng kiến người chơi thực hiện cú swing đầu tiên của mình, điều mà chúng ta gần như mong đợi ở mức trung bình của anh ta. Miền của phân phối Beta (0, 1)
, giống như một xác suất, vì vậy chúng tôi đã biết chúng tôi đang đi đúng hướng - nhưng tính phù hợp của Beta đối với nhiệm vụ này vượt xa điều đó.
Chúng tôi hy vọng rằng mức trung bình của trận đấu kéo dài theo mùa của người chơi sẽ có nhiều khả năng xảy ra .27
, nhưng nó có thể nằm trong khoảng hợp lý từ .21
đến .35
. Điều này có thể được biểu diễn bằng phân phối Beta với các tham số và β = 219 :α = 81β= 219
curve(dbeta(x, 81, 219))
Tôi đã đưa ra các tham số này vì hai lý do:
- Giá trị trung bình là αα + β= 8181 + 219= .270
- Như bạn có thể thấy trong cốt truyện, phân phối này nằm gần như hoàn toàn trong phạm vi
(.2, .35)
- phạm vi hợp lý cho mức trung bình.
Bạn đã hỏi trục x đại diện cho biểu đồ mật độ phân phối beta nào - ở đây nó đại diện cho mức trung bình của anh ta. Do đó, lưu ý rằng trong trường hợp này, không chỉ trục y là xác suất (hay chính xác hơn là mật độ xác suất), mà trục x cũng vậy (trung bình b gậy chỉ là xác suất của một cú đánh)! Phân phối Beta đại diện cho phân phối xác suất của xác suất .
Nhưng đây là lý do tại sao phân phối Beta rất thích hợp. Hãy tưởng tượng người chơi được một đòn duy nhất. Kỷ lục của anh ấy cho mùa giải bây giờ 1 hit; 1 at bat
. Sau đó chúng tôi phải cập nhật xác suất của mình - chúng tôi muốn thay đổi toàn bộ đường cong này chỉ một chút để phản ánh thông tin mới của chúng tôi. Mặc dù toán học để chứng minh điều này có một chút liên quan ( nó được hiển thị ở đây ), kết quả rất đơn giản . Bản phân phối Beta mới sẽ là:
Beta ( a0+ Hits , β0+ nhớ )
α0β0αβBeta (81+1,219)
curve(dbeta(x, 82, 219))
Lưu ý rằng nó hầu như không thay đổi chút nào - sự thay đổi thực sự vô hình với mắt thường! (Đó là bởi vì một hit không thực sự có ý nghĩa gì).
Beta (81+100,219+200)
curve(dbeta(x, 81+100, 219+200))
Lưu ý rằng đường cong bây giờ mỏng hơn và dịch chuyển sang phải (trung bình đập cao hơn) so với trước đây - chúng tôi hiểu rõ hơn về mức trung bình của người chơi là bao nhiêu.
αα + β81 + 10081 + 100 + 219 + 200= .303100100 + 200=.3338181+219=.270
Do đó, phân phối Beta là tốt nhất để đại diện cho phân phối xác suất xác suất - trường hợp chúng tôi không biết trước xác suất là gì, nhưng chúng tôi có một số dự đoán hợp lý.